stringtranslate.com

Teoría de probabilidad

La teoría de la probabilidad o cálculo de probabilidades es la rama de las matemáticas que se ocupa de la probabilidad . Aunque existen varias interpretaciones diferentes de la probabilidad , la teoría de la probabilidad trata el concepto de una manera matemática rigurosa expresándolo a través de un conjunto de axiomas . Normalmente, estos axiomas formalizan la probabilidad en términos de un espacio de probabilidad , que asigna una medida que toma valores entre 0 y 1, denominada medida de probabilidad , a un conjunto de resultados llamado espacio muestral . Cualquier subconjunto especificado del espacio muestral se llama evento .

Los temas centrales en la teoría de la probabilidad incluyen variables aleatorias discretas y continuas , distribuciones de probabilidad y procesos estocásticos (que proporcionan abstracciones matemáticas de procesos no deterministas o inciertos o cantidades medidas que pueden ser ocurrencias únicas o evolucionar con el tiempo de manera aleatoria). Aunque no es posible predecir perfectamente eventos aleatorios, se puede decir mucho sobre su comportamiento. Dos resultados principales en la teoría de la probabilidad que describen tal comportamiento son la ley de los grandes números y el teorema del límite central .

Como base matemática de la estadística , la teoría de la probabilidad es esencial para muchas actividades humanas que implican análisis cuantitativo de datos. [1] Los métodos de la teoría de la probabilidad también se aplican a descripciones de sistemas complejos dado solo un conocimiento parcial de su estado, como en la mecánica estadística o la estimación secuencial . Un gran descubrimiento de la física del siglo XX fue la naturaleza probabilística de los fenómenos físicos a escalas atómicas, descrita en la mecánica cuántica . [2]

Historia de la probabilidad

La teoría matemática moderna de la probabilidad tiene sus raíces en los intentos de analizar los juegos de azar realizados por Gerolamo Cardano en el siglo XVI y por Pierre de Fermat y Blaise Pascal en el siglo XVII (por ejemplo, el " problema de los puntos "). [3] Christiaan Huygens publicó un libro sobre el tema en 1657. [4] En el siglo XIX, Pierre Laplace completó lo que se considera la definición clásica de probabilidad . [5]

Inicialmente, la teoría de la probabilidad consideraba principalmente eventos discretos y sus métodos eran principalmente combinatorios . Finalmente, consideraciones analíticas obligaron a incorporar variables continuas a la teoría.

Esto culminó en la teoría de la probabilidad moderna, sobre los fundamentos establecidos por Andrey Nikolaevich Kolmogorov . Kolmogorov combinó la noción de espacio muestral , introducida por Richard von Mises , y la teoría de la medida y presentó su sistema de axiomas para la teoría de la probabilidad en 1933. Esto se convirtió en la base axiomática mayoritariamente indiscutible de la teoría de la probabilidad moderna; pero existen alternativas, como la adopción de la aditividad finita en lugar de la contable por parte de Bruno de Finetti . [6]

Tratamiento

La mayoría de las introducciones a la teoría de la probabilidad tratan las distribuciones de probabilidad discretas y las distribuciones de probabilidad continua por separado. El tratamiento de la probabilidad basado en la teoría de medidas cubre lo discreto, lo continuo, una combinación de los dos y más.

Motivación

Considere un experimento que puede producir varios resultados. El conjunto de todos los resultados se denomina espacio muestral del experimento. El conjunto de potencias del espacio muestral (o equivalentemente, el espacio de eventos) se forma considerando todas las diferentes colecciones de resultados posibles. Por ejemplo, lanzar un dado honesto produce uno de seis resultados posibles. Una colección de posibles resultados corresponde a obtener un número impar. Por tanto, el subconjunto {1,3,5} es un elemento del conjunto potencia del espacio muestral de las tiradas de dados. Estas colecciones se llaman eventos . En este caso, {1,3,5} es el evento de que el dado caiga en algún número impar. Si los resultados que realmente ocurren caen en un evento determinado, se dice que ese evento ha ocurrido.

La probabilidad es una forma de asignar a cada "evento" un valor entre cero y uno, con el requisito de que el evento esté formado por todos los resultados posibles (en nuestro ejemplo, el evento {1,2,3,4,5,6}) se le asignará el valor uno. Para calificar como una distribución de probabilidad , la asignación de valores debe satisfacer el requisito de que si observa una colección de eventos mutuamente excluyentes (eventos que no contienen resultados comunes, por ejemplo, los eventos {1,6}, {3} y { 2,4} son todos mutuamente excluyentes), la probabilidad de que ocurra cualquiera de estos eventos está dada por la suma de las probabilidades de los eventos. [7]

La probabilidad de que ocurra cualquiera de los eventos {1,6}, {3} o {2,4} es 5/6. Esto es lo mismo que decir que la probabilidad del evento {1,2,3,4,6} es 5/6. Este evento abarca la posibilidad de que salga cualquier número excepto cinco. El evento mutuamente excluyente {5} tiene una probabilidad de 1/6 y el evento {1,2,3,4,5,6} tiene una probabilidad de 1, es decir, certeza absoluta.

Al hacer cálculos utilizando los resultados de un experimento, es necesario que todos esos eventos elementales tengan un número asignado. Esto se hace usando una variable aleatoria . Una variable aleatoria es una función que asigna a cada evento elemental en el espacio muestral un número real . Esta función suele indicarse con una letra mayúscula. [8] En el caso de un dado, la asignación de un número a ciertos eventos elementales se puede realizar utilizando la función identidad . Esto no siempre funciona. Por ejemplo, al lanzar una moneda los dos resultados posibles son "cara" y "cruz". En este ejemplo, la variable aleatoria X podría asignar al resultado "cara" el número "0" ( ) y al resultado "cruz" el número "1" ( ).

Distribuciones de probabilidad discretas

La distribución de Poisson , una distribución de probabilidad discreta.

La teoría de la probabilidad discreta se ocupa de eventos que ocurren en espacios muestrales contables .

Ejemplos: Lanzamiento de dados , experimentos con barajas de cartas , paseo aleatorio y lanzamiento de monedas .

Definición clásica : Inicialmente, la probabilidad de que ocurriera un evento se definió como el número de casos favorables para el evento, sobre el número de resultados totales posibles en un espacio muestral equiprobable: ver Definición clásica de probabilidad .

Por ejemplo, si el evento es "ocurrencia de un número par al lanzar un dado", la probabilidad está dada por , ya que 3 caras de las 6 tienen números pares y cada cara tiene la misma probabilidad de aparecer.

Definición moderna : La definición moderna comienza con un conjunto finito o contable llamado espacio muestral , que se relaciona con el conjunto de todos los resultados posibles en sentido clásico, denotado por . Luego se supone que a cada elemento se le asigna un valor de "probabilidad" intrínseco que satisface las siguientes propiedades:

Es decir, la función de probabilidad f ( x ) se encuentra entre cero y uno para cada valor de x en el espacio muestral Ω , y la suma de f ( x ) sobre todos los valores x en el espacio muestral Ω es igual a 1. Un evento se define como cualquier subconjunto del espacio muestral . La probabilidad del evento se define como

Entonces, la probabilidad de todo el espacio muestral es 1 y la probabilidad del evento nulo es 0.

La función que asigna un punto en el espacio muestral al valor de "probabilidad" se denomina función de masa de probabilidad , abreviada como pmf .

Distribuciones de probabilidad continua

La distribución normal , una distribución de probabilidad continua

La teoría de la probabilidad continua se ocupa de eventos que ocurren en un espacio muestral continuo.

Definición clásica : La definición clásica se desmorona cuando se la confronta con el caso continuo. Véase la paradoja de Bertrand .

Definición moderna : si el espacio muestral de una variable aleatoria X es el conjunto de números reales ( ) o un subconjunto de los mismos, entonces existe una función llamada función de distribución acumulativa ( CDF ) , definida por . Es decir, F ( x ) devuelve la probabilidad de que X sea menor o igual que x .

La CDF satisface necesariamente las siguientes propiedades.

  1. es una función monótonamente no decreciente y continua por la derecha ;

Se dice que la variable aleatoria tiene una distribución de probabilidad continua si la CDF correspondiente es continua. Si es absolutamente continua , es decir, su derivada existe y la integración de la derivada nos devuelve la CDF, entonces se dice que la variable aleatoria X tiene una función de densidad de probabilidad ( PDF ) o simplemente densidad .

Para un conjunto , la probabilidad de que la variable aleatoria X esté en es

En caso de que exista el PDF, esto se puede escribir como

Mientras que la PDF existe sólo para variables aleatorias continuas, la CDF existe para todas las variables aleatorias (incluidas las variables aleatorias discretas) que toman valores en

Estos conceptos se pueden generalizar para casos multidimensionales y otros espacios muestrales continuos.

Teoría de la probabilidad de la teoría de la medida

La utilidad del tratamiento de la probabilidad mediante la teoría de la medida es que unifica los casos discretos y continuos, y hace que la diferencia sea una cuestión de qué medida se utiliza. Además, cubre distribuciones que no son discretas ni continuas ni mezclas de ambas.

Un ejemplo de tales distribuciones podría ser una combinación de distribuciones discretas y continuas; por ejemplo, una variable aleatoria que es 0 con probabilidad 1/2 y toma un valor aleatorio de una distribución normal con probabilidad 1/2. Todavía se puede estudiar hasta cierto punto considerando que tiene una PDF de , donde está la función delta de Dirac .

Es posible que otras distribuciones ni siquiera sean una mezcla, por ejemplo, la distribución de Cantor no tiene probabilidad positiva para ningún punto, ni tampoco tiene densidad. El enfoque moderno de la teoría de la probabilidad resuelve estos problemas utilizando la teoría de la medida para definir el espacio de probabilidad :

Dado cualquier conjunto (también llamado espacio muestral ) y un álgebra σ en él, una medida definida en se llama medida de probabilidad si

Si el álgebra σ de Borel está en el conjunto de números reales, entonces existe una medida de probabilidad única para cualquier CDF, y viceversa. Se dice que la medida correspondiente a una CDF es inducida por la CDF. Esta medida coincide con la pmf para variables discretas y la FDP para variables continuas, lo que hace que el enfoque de la teoría de la medida esté libre de falacias.

La probabilidad de un conjunto en σ-álgebra se define como

donde la integración es respecto de la medida inducida por

Además de proporcionar una mejor comprensión y unificación de probabilidades discretas y continuas, el tratamiento de la teoría de la medida también nos permite trabajar con probabilidades externas , como en la teoría de procesos estocásticos . Por ejemplo, para estudiar el movimiento browniano , la probabilidad se define en un espacio de funciones.

Cuando es conveniente trabajar con una medida dominante, se utiliza el teorema de Radón-Nikodym para definir una densidad como la derivada de Radón-Nikodym de la distribución de probabilidad de interés con respecto a esta medida dominante. Las densidades discretas generalmente se definen como esta derivada con respecto a una medida de conteo sobre el conjunto de todos los resultados posibles. Las densidades para distribuciones absolutamente continuas suelen definirse como esta derivada con respecto a la medida de Lebesgue . Si un teorema puede demostrarse en este contexto general, será válido tanto para distribuciones discretas como continuas, así como para otras; No se requieren pruebas separadas para distribuciones discretas y continuas.

Distribuciones de probabilidad clásicas

Ciertas variables aleatorias aparecen con mucha frecuencia en la teoría de la probabilidad porque describen bien muchos procesos naturales o físicos. Por tanto, sus distribuciones han adquirido especial importancia en la teoría de la probabilidad. Algunas distribuciones discretas fundamentales son las distribuciones discreta uniforme , de Bernoulli , binomial , binomial negativa , de Poisson y geométrica . Las distribuciones continuas importantes incluyen las distribuciones continua uniforme , normal , exponencial , gamma y beta .

Convergencia de variables aleatorias

En la teoría de la probabilidad, existen varias nociones de convergencia para variables aleatorias . Se enumeran a continuación en orden de intensidad, es decir, cualquier noción posterior de convergencia en la lista implica convergencia de acuerdo con todas las nociones anteriores.

Convergencia débil
Una secuencia de variables aleatorias converge débilmente a la variable aleatoria si sus respectivas CDF convergen a la CDF de , donde sea continua . La convergencia débil también se llama convergencia en la distribución .
Notación taquigráfica más común:
Convergencia en probabilidad
Se dice que la secuencia de variables aleatorias converge hacia la variable aleatoria en probabilidad si para cada ε > 0.
Notación taquigráfica más común:
Fuerte convergencia
Se dice que la secuencia de variables aleatorias converge fuertemente hacia la variable aleatoria si . La convergencia fuerte también se conoce como convergencia casi segura .
Notación taquigráfica más común:

Como lo indican los nombres, la convergencia débil es más débil que la convergencia fuerte. De hecho, una convergencia fuerte implica una convergencia en probabilidad, y la convergencia en probabilidad implica una convergencia débil. Las afirmaciones inversas no siempre son ciertas.

ley de los grandes números

La intuición común sugiere que si se lanza una moneda justa muchas veces, aproximadamente la mitad de las veces saldrá cara y la otra mitad cruz . Además, cuanto más a menudo se lance la moneda, más probable será que la relación entre el número de caras y el número de cruces se acerque a la unidad. La teoría de probabilidad moderna proporciona una versión formal de esta idea intuitiva, conocida como ley de los grandes números . Esta ley es notable porque no se asume en los fundamentos de la teoría de la probabilidad, sino que surge de estos fundamentos como un teorema. Dado que vincula las probabilidades derivadas teóricamente con su frecuencia real de ocurrencia en el mundo real, la ley de los grandes números se considera un pilar en la historia de la teoría estadística y ha tenido una influencia amplia. [9]

La ley de los grandes números (LLN) establece que el promedio muestral

de una secuencia de variables aleatorias independientes e idénticamente distribuidas converge hacia su expectativa común (valor esperado) , siempre que la expectativa de sea finita.

Es en las diferentes formas de convergencia de variables aleatorias lo que separa la ley débil y fuerte de los grandes números [10]

Ley débil: por
Ley fuerte: para

Del LIN se deduce que si un evento de probabilidad p se observa repetidamente durante experimentos independientes, la relación entre la frecuencia observada de ese evento y el número total de repeticiones converge hacia p .

Por ejemplo, si son variables aleatorias independientes de Bernoulli que toman valores 1 con probabilidad p y 0 con probabilidad 1- p , entonces para todo i , de modo que converge a p casi con seguridad .

Teorema del límite central

El teorema del límite central (CLT) explica la omnipresente aparición de la distribución normal en la naturaleza y este teorema, según David Williams, "es uno de los grandes resultados de las matemáticas". [11]

El teorema establece que el promedio de muchas variables aleatorias independientes e idénticamente distribuidas con varianza finita tiende hacia una distribución normal independientemente de la distribución seguida por las variables aleatorias originales. Formalmente, sean variables aleatorias independientes con media y varianza. Entonces la secuencia de variables aleatorias.

converge en distribución a una variable aleatoria normal estándar .

Para algunas clases de variables aleatorias, el clásico teorema del límite central funciona bastante rápido, como se ilustra en el teorema de Berry-Esseen . Por ejemplo, las distribuciones con primer, segundo y tercer momento finitos de la familia exponencial ; por otro lado, para algunas variables aleatorias de cola pesada y cola gruesa , funciona muy lentamente o puede no funcionar en absoluto: en tales casos se puede utilizar el Teorema del límite central generalizado (GCLT).

Ver también

Liza

Referencias

Citas

  1. ^ Inferir a partir de datos
  2. ^ "Teoría de la probabilidad y lógica cuántica". La Enciclopedia de Filosofía de Stanford . 10 de agosto de 2021.
  3. ^ LIGHTNER, JAMES E. (1991). "Una breve mirada a la historia de la probabilidad y la estadística". El profesor de matemáticas . 84 (8): 623–630. doi :10.5951/MT.84.8.0623. ISSN  0025-5769. JSTOR  27967334.
  4. ^ Grinstead, Charles Miller; James Laurie Snell. "Introducción". Introducción a la probabilidad . págs. vii.
  5. ^ Daston, Lorena J. (1980). "Expectativa probabilística y racionalidad en la teoría clásica de la probabilidad". Historia Matemática . 7 (3): 234–260. doi :10.1016/0315-0860(80)90025-7.
  6. ^ ""Los orígenes y el legado del Grundbegriffe de Kolmogorov ", por Glenn Shafer y Vladimir Vovk" (PDF) . Consultado el 12 de febrero de 2012 .
  7. ^ Ross, Sheldon (2010). Un primer curso de probabilidad (8ª ed.). Pearson-Prentice Hall. págs. 26 y 27. ISBN 978-0-13-603313-4. Consultado el 28 de febrero de 2016 .
  8. ^ Bain, Lee J.; Engelhardt, Max (1992). Introducción a la probabilidad y la estadística matemática (2ª ed.). Belmont, California : Brooks/Cole. pag. 53.ISBN 978-0-534-38020-5.
  9. ^ "Leithner & Co Pty Ltd - Inversión de valor, riesgo y gestión de riesgos - Parte I". Leithner.com.au. 2000-09-15. Archivado desde el original el 26 de enero de 2014 . Consultado el 12 de febrero de 2012 .
  10. ^ Dekking, Michel (2005). "Capítulo 13: La ley de los grandes números". Una introducción moderna a la probabilidad y la estadística: comprender por qué y cómo. Biblioteca Génesis. Londres: Springer. págs. 180-194. ISBN 978-1-85233-896-1.
  11. ^ David Williams , "Probabilidad con martingalas", Cambridge 1991/2008

Fuentes

El primer tratado importante que combina el cálculo con la teoría de la probabilidad, originalmente en francés: Théorie Analytique des Probabilités .
Una traducción al inglés de Nathan Morrison apareció bajo el título Foundations of the Theory of Probability (Chelsea, Nueva York) en 1950, con una segunda edición en 1956.
Una animada introducción a la teoría de la probabilidad para principiantes.