Teoría de la probabilidad

La teoría de la probabilidad o el cálculo de probabilidad es la rama de las matemáticas que se ocupa de la probabilidad . Aunque existen varias interpretaciones diferentes de la probabilidad , la teoría de la probabilidad trata el concepto de una manera matemática rigurosa expresándolo a través de un conjunto de axiomas . Por lo general, estos axiomas formalizan la probabilidad en términos de un espacio de probabilidad , que asigna una medida que toma valores entre 0 y 1, denominada medida de probabilidad , a un conjunto de resultados llamado espacio muestral . Cualquier subconjunto específico del espacio muestral se denomina evento .

Los temas centrales de la teoría de la probabilidad incluyen las variables aleatorias discretas y continuas , las distribuciones de probabilidad y los procesos estocásticos (que proporcionan abstracciones matemáticas de procesos no deterministas o inciertos o cantidades medidas que pueden ser ocurrencias únicas o evolucionar con el tiempo de manera aleatoria). Aunque no es posible predecir perfectamente los eventos aleatorios, se puede decir mucho sobre su comportamiento. Dos resultados importantes en la teoría de la probabilidad que describen dicho comportamiento son la ley de los grandes números y el teorema del límite central .

Como fundamento matemático de la estadística , la teoría de la probabilidad es esencial para muchas actividades humanas que implican el análisis cuantitativo de datos. ^[1] Los métodos de la teoría de la probabilidad también se aplican a las descripciones de sistemas complejos dado solo un conocimiento parcial de su estado, como en la mecánica estadística o la estimación secuencial . Un gran descubrimiento de la física del siglo XX fue la naturaleza probabilística de los fenómenos físicos a escala atómica, descritos en la mecánica cuántica . ^[2]

Historia de la probabilidad

La teoría matemática moderna de la probabilidad tiene sus raíces en los intentos de analizar los juegos de azar por parte de Gerolamo Cardano en el siglo XVI, y por Pierre de Fermat y Blaise Pascal en el siglo XVII (por ejemplo el « problema de los puntos »). ^[3] Christiaan Huygens publicó un libro sobre el tema en 1657. ^[4] En el siglo XIX, lo que se considera la definición clásica de probabilidad fue completada por Pierre Laplace . ^[5]

Inicialmente, la teoría de la probabilidad consideraba principalmente eventos discretos y sus métodos eran principalmente combinatorios . Finalmente, las consideraciones analíticas obligaron a incorporar variables continuas a la teoría.

Esto culminó en la teoría de probabilidad moderna, sobre las bases establecidas por Andrey Nikolaevich Kolmogorov . Kolmogorov combinó la noción de espacio muestral , introducida por Richard von Mises , y la teoría de la medida y presentó su sistema de axiomas para la teoría de probabilidad en 1933. Esto se convirtió en la base axiomática mayoritariamente indiscutible para la teoría de probabilidad moderna; pero existen alternativas, como la adopción de la aditividad finita en lugar de la contable por Bruno de Finetti . ^[6]

Tratamiento

La mayoría de las introducciones a la teoría de la probabilidad tratan las distribuciones de probabilidad discretas y las distribuciones de probabilidad continuas por separado. El tratamiento de la probabilidad basado en la teoría de la medida abarca las distribuciones de probabilidad discretas, continuas, una combinación de ambas y más.

Motivación

Consideremos un experimento que puede producir varios resultados. El conjunto de todos los resultados se denomina espacio muestral del experimento. El conjunto potencia del espacio muestral (o, equivalentemente, el espacio de sucesos) se forma considerando todas las diferentes colecciones de resultados posibles. Por ejemplo, al lanzar un dado honesto se obtiene uno de seis resultados posibles. Una colección de resultados posibles corresponde a obtener un número impar. Por lo tanto, el subconjunto {1,3,5} es un elemento del conjunto potencia del espacio muestral de tiradas de dados. Estas colecciones se denominan sucesos . En este caso, {1,3,5} es el suceso de que el dado caiga en algún número impar. Si los resultados que realmente ocurren caen en un suceso dado, se dice que ese suceso ha ocurrido.

La probabilidad es una forma de asignar a cada "evento" un valor entre cero y uno, con el requisito de que al evento compuesto por todos los resultados posibles (en nuestro ejemplo, el evento {1,2,3,4,5,6}) se le asigne un valor de uno. Para calificar como una distribución de probabilidad , la asignación de valores debe satisfacer el requisito de que si se observa una colección de eventos mutuamente excluyentes (eventos que no contienen resultados comunes, por ejemplo, los eventos {1,6}, {3} y {2,4} son todos mutuamente excluyentes), la probabilidad de que cualquiera de estos eventos ocurra está dada por la suma de las probabilidades de los eventos. ^[7]

La probabilidad de que ocurra cualquiera de los eventos {1,6}, {3} o {2,4} es 5/6. Esto es lo mismo que decir que la probabilidad del evento {1,2,3,4,6} es 5/6. Este evento abarca la posibilidad de que salga cualquier número excepto el cinco. El evento mutuamente excluyente {5} tiene una probabilidad de 1/6, y el evento {1,2,3,4,5,6} tiene una probabilidad de 1, es decir, certeza absoluta.

Al realizar cálculos utilizando los resultados de un experimento, es necesario que todos esos eventos elementales tengan un número asignado. Esto se hace utilizando una variable aleatoria . Una variable aleatoria es una función que asigna a cada evento elemental en el espacio muestral un número real . Esta función se denota generalmente por una letra mayúscula. ^[8] En el caso de un dado, la asignación de un número a ciertos eventos elementales se puede hacer utilizando la función identidad . Esto no siempre funciona. Por ejemplo, al lanzar una moneda los dos resultados posibles son "cara" y "cruz". En este ejemplo, la variable aleatoria X podría asignar al resultado "cara" el número "0" ( ) y al resultado "cruz" el número "1" ( ). ${\textstyle X({\text{caras}})=0}$ $X({\text{colas}})=1$

Distribuciones de probabilidad discretas

La distribución de Poisson , una distribución de probabilidad discreta.

La teoría de probabilidad discreta se ocupa de eventos que ocurren en espacios muestrales contables .

Ejemplos: lanzar dados , experimentos con barajas de cartas , caminata aleatoria y lanzamiento de monedas .

Definición clásica : Inicialmente la probabilidad de que ocurra un evento se definió como el número de casos favorables para el evento, sobre el número total de resultados posibles en un espacio muestral equiprobable: ver Definición clásica de probabilidad .

Por ejemplo, si el evento es "aparición de un número par al lanzar un dado", la probabilidad está dada por , ya que 3 caras de las 6 tienen números pares y cada cara tiene la misma probabilidad de aparecer. ${\tfrac {3}{6}}={\tfrac {1}{2}}$

Definición moderna : La definición moderna comienza con un conjunto finito o numerable llamado espacio muestral , que se relaciona con el conjunto de todos los resultados posibles en el sentido clásico, denotado por . Luego se supone que para cada elemento , se le asigna un valor de "probabilidad" intrínseco , que satisface las siguientes propiedades: ${\estilo de visualización \Omega}$ $x\en \Omega \,$ ${\estilo de visualización f(x)\,}$

$f(x)\in [0,1]{\mbox{ para todos }}x\in \Omega \,;$
$\suma _{x\en \Omega }f(x)=1\,.$

Es decir, la función de probabilidad f ( x ) se encuentra entre cero y uno para cada valor de x en el espacio muestral Ω , y la suma de f ( x ) sobre todos los valores x en el espacio muestral Ω es igual a 1. Un evento se define como cualquier subconjunto del espacio muestral . La probabilidad del evento se define como ${\estilo de visualización E\,}$ ${\estilo de visualización \Omega \,}$ ${\estilo de visualización E\,}$

P(E)=\suma _{x\en E}f(x)\,.

Entonces, la probabilidad de todo el espacio muestral es 1 y la probabilidad del evento nulo es 0.

La función que asigna un punto en el espacio muestral al valor de "probabilidad" se denomina función de masa de probabilidad, abreviada como pmf . ${\estilo de visualización f(x)\,}$

Distribuciones de probabilidad continua

La teoría de probabilidad continua se ocupa de eventos que ocurren en un espacio muestral continuo.

Definición clásica : La definición clásica se desmorona cuando se la confronta con el caso continuo. Véase la paradoja de Bertrand .

Definición moderna : Si el espacio muestral de una variable aleatoria X es el conjunto de números reales ( ) o un subconjunto de ellos, entonces existe una función llamada función de distribución acumulativa ( CDF ) , definida por . Es decir, F ( x ) devuelve la probabilidad de que X sea menor o igual a x . $\mathbb {R}$ ${\estilo de visualización F\,}$ $F(x)=P(X\leq x)\,$

La CDF satisface necesariamente las siguientes propiedades.

${\estilo de visualización F\,}$ es una función continua por la derecha , monótona y no decreciente ;
$\lim_{x\rightarrow -\infty}F(x)=0\,;$
$\lim_{x\rightarrow \infty}F(x)=1\,.$

Se dice que la variable aleatoria tiene una distribución de probabilidad continua si la CDF correspondiente es continua. Si es absolutamente continua , es decir, su derivada existe e integrando la derivada obtenemos nuevamente la CDF, entonces se dice que la variable aleatoria X tiene una función de densidad de probabilidad ( PDF ) o simplemente densidad ${\estilo de visualización X}$ ${\estilo de visualización F}$ ${\estilo de visualización F\,}$ $f(x)={\frac {dF(x)}{dx}}\,.$

Para un conjunto , la probabilidad de que la variable aleatoria X esté en es $E\subseteq \mathbb {R}$ ${\estilo de visualización E\,}$

P(X\en E)=\int _{x\en E}dF(x)\,.

En caso de que exista el PDF, esto se puede escribir como

P(X\en E)=\int _{x\en E}f(x)\,dx\,.

Mientras que la PDF existe solo para variables aleatorias continuas, la CDF existe para todas las variables aleatorias (incluidas las variables aleatorias discretas) que toman valores en $\mathbb {R} \,.$

Estos conceptos pueden generalizarse para casos multidimensionales y otros espacios muestrales continuos. $\mathbb {R} ^{n}$

Teoría de la probabilidad basada en la teoría de la medida

La utilidad del tratamiento de la probabilidad basado en la teoría de la medida es que unifica los casos discretos y continuos y hace que la diferencia sea una cuestión de qué medida se utiliza. Además, abarca distribuciones que no son ni discretas ni continuas ni mezclas de ambas.

Un ejemplo de tales distribuciones podría ser una mezcla de distribuciones discretas y continuas; por ejemplo, una variable aleatoria que es 0 con probabilidad 1/2 y toma un valor aleatorio de una distribución normal con probabilidad 1/2. Aún se puede estudiar hasta cierto punto considerando que tiene una PDF de , donde es la función delta de Dirac . $(\delta[x]+\varphi(x))/2$ $\delta[x]$

Es posible que otras distribuciones ni siquiera sean una mezcla; por ejemplo, la distribución de Cantor no tiene probabilidad positiva para ningún punto individual ni tampoco tiene densidad. El enfoque moderno de la teoría de la probabilidad resuelve estos problemas utilizando la teoría de la medida para definir el espacio de probabilidad :

Dado cualquier conjunto (también llamado espacio muestral ) y un σ-álgebra sobre él, una medida definida en se denomina medida de probabilidad si ${\estilo de visualización \Omega \,}$ ${\mathcal {F}}\,$ ${\estilo de visualización P\,}$ ${\mathcal {F}}\,$ $P(\Omega )=1.\,$

Si es la σ-álgebra de Borel sobre el conjunto de números reales, entonces existe una medida de probabilidad única para cualquier función de distribución de probabilidad, y viceversa. Se dice que la medida correspondiente a una función de distribución de probabilidad es inducida por la función de distribución de probabilidad. Esta medida coincide con la función de masa de probabilidad para variables discretas y la función de densidad de probabilidad para variables continuas, lo que hace que el enfoque de la teoría de la medida esté libre de falacias. ${\mathcal {F}}\,$ ${\mathcal {F}}\,$

La probabilidad de un conjunto en el σ-álgebra se define como ${\estilo de visualización E\,}$ ${\mathcal {F}}\,$

P(E)=\int _{\omega \in E}\mu _{F}(d\omega )\,

donde la integración es con respecto a la medida inducida por $\mu_{F}\,$ ${\estilo de visualización F\,.}$

Además de proporcionar una mejor comprensión y unificación de las probabilidades discretas y continuas, el tratamiento de la teoría de la medida también nos permite trabajar con probabilidades fuera de , como en la teoría de procesos estocásticos . Por ejemplo, para estudiar el movimiento browniano , la probabilidad se define en un espacio de funciones. $\mathbb {R} ^{n}$

Cuando es conveniente trabajar con una medida dominante, se utiliza el teorema de Radon-Nikodym para definir una densidad como la derivada de Radon-Nikodym de la distribución de probabilidad de interés con respecto a esta medida dominante. Las densidades discretas se definen habitualmente como esta derivada con respecto a una medida de conteo sobre el conjunto de todos los resultados posibles. Las densidades para distribuciones absolutamente continuas se definen habitualmente como esta derivada con respecto a la medida de Lebesgue . Si un teorema se puede demostrar en este contexto general, se cumple tanto para distribuciones discretas como continuas, así como para otras; no se requieren demostraciones separadas para distribuciones discretas y continuas.

Distribuciones de probabilidad clásicas

Ciertas variables aleatorias aparecen con mucha frecuencia en la teoría de la probabilidad porque describen bien muchos procesos naturales o físicos. Por lo tanto, sus distribuciones han adquirido especial importancia en la teoría de la probabilidad. Algunas distribuciones discretas fundamentales son la distribuciones uniforme discreta , la de Bernoulli , la binomial , la binomial negativa , la de Poisson y la geométrica . Entre las distribuciones continuas importantes se encuentran la distribuciones uniforme continua , la normal , la exponencial , la gamma y la beta .

Convergencia de variables aleatorias

En teoría de la probabilidad, existen varias nociones de convergencia para variables aleatorias . Se enumeran a continuación en orden de fuerza, es decir, cualquier noción de convergencia posterior en la lista implica convergencia de acuerdo con todas las nociones anteriores.

Convergencia débil: Una secuencia de variables aleatorias converge débilmente a la variable aleatoria si su CDF respectiva converge a la CDF de , donde sea continua . La convergencia débil también se denomina convergencia en distribución . $X_{1},X_{2},\puntos ,\,$ ${\estilo de visualización X\,}$ $F_{1},F_{2},\puntos \,$ ${\estilo de visualización F\,}$ ${\estilo de visualización X\,}$ ${\estilo de visualización F\,}$

Notación abreviada más común:

\displaystyle X_{n}\,{\xrightarrow {\mathcal {D}}}\,X

Convergencia en probabilidad: Se dice que la secuencia de variables aleatorias converge hacia la variable aleatoria en probabilidad si para cada ε > 0. $X_{1},X_{2},\puntos \,$ ${\estilo de visualización X\,}$ $\lim _{n\rightarrow \infty }P\left(\left|X_{n}-X\right|\geq \varepsilon \right)=0$

Notación abreviada más común:

\displaystyle X_{n}\,{\xrightarrow {P}}\,X

Fuerte convergencia: Se dice que la secuencia de variables aleatorias converge fuertemente hacia la variable aleatoria si . La convergencia fuerte también se conoce como convergencia casi segura . $X_{1},X_{2},\dots \,$ $X\,$ $P(\lim _{n\rightarrow \infty }X_{n}=X)=1$

Notación abreviada más común:

\displaystyle X_{n}\,{\xrightarrow {\mathrm {a.s.} }}\,X

Como lo indican los nombres, la convergencia débil es más débil que la convergencia fuerte. De hecho, la convergencia fuerte implica convergencia en probabilidad, y la convergencia en probabilidad implica convergencia débil. Las afirmaciones inversas no siempre son ciertas.

Ley de los grandes números

La intuición común sugiere que si una moneda justa se lanza muchas veces, entonces aproximadamente la mitad de las veces saldrá cara y la otra mitad saldrá cruz . Además, cuanto más a menudo se lance la moneda, más probable debería ser que la relación entre el número de caras y el número de cruces se acerque a la unidad. La teoría de la probabilidad moderna proporciona una versión formal de esta idea intuitiva, conocida como la ley de los grandes números . Esta ley es notable porque no se asume en los fundamentos de la teoría de la probabilidad, sino que surge de estos fundamentos como un teorema. Dado que vincula las probabilidades derivadas teóricamente con su frecuencia real de ocurrencia en el mundo real, la ley de los grandes números se considera un pilar en la historia de la teoría estadística y ha tenido una amplia influencia. ^[9]

La ley de los grandes números (LLN) establece que el promedio de la muestra

{\overline {X}}_{n}={\frac {1}{n}}{\sum _{k=1}^{n}X_{k}}

de una secuencia de variables aleatorias independientes e idénticamente distribuidas converge hacia su expectativa común (valor esperado) , siempre que la expectativa de sea finita. $X_{k}$ $\mu$ $|X_{k}|$

Es en las diferentes formas de convergencia de las variables aleatorias que se separa la ley débil y la ley fuerte de los grandes números ^[10].

Ley débil: para

\displaystyle {\overline {X}}_{n}\,{\xrightarrow {P}}\,\mu

n\to \infty

Ley fuerte: para

\displaystyle {\overline {X}}_{n}\,{\xrightarrow {\mathrm {a.\,s.} }}\,\mu

n\to \infty .

Del LLN se desprende que si un evento de probabilidad p se observa repetidamente durante experimentos independientes, la relación entre la frecuencia observada de ese evento y el número total de repeticiones converge hacia p .

Por ejemplo, si son variables aleatorias de Bernoulli independientes que toman valores 1 con probabilidad p y 0 con probabilidad 1- p , entonces para todo i , de modo que converge a p casi con seguridad . $Y_{1},Y_{2},...\,$ ${\textrm {E}}(Y_{i})=p$ ${\bar {Y}}_{n}$

Teorema del límite central

El teorema del límite central (TLC) explica la ocurrencia ubicua de la distribución normal en la naturaleza, y este teorema, según David Williams, "es uno de los grandes resultados de las matemáticas". ^[11]

El teorema establece que el promedio de muchas variables aleatorias independientes e idénticamente distribuidas con varianza finita tiende hacia una distribución normal independientemente de la distribución seguida por las variables aleatorias originales. Formalmente, sean variables aleatorias independientes con media y varianza . Entonces, la secuencia de variables aleatorias $X_{1},X_{2},\dots \,$ $\mu$ $\sigma ^{2}>0.\,$

Z_{n}={\frac {\sum _{i=1}^{n}(X_{i}-\mu )}{\sigma {\sqrt {n}}}}\,

converge en distribución a una variable aleatoria normal estándar .

Para algunas clases de variables aleatorias, el teorema clásico del límite central funciona con bastante rapidez, como lo ilustra el teorema de Berry-Esseen . Por ejemplo, las distribuciones con primer, segundo y tercer momento finitos de la familia exponencial ; por otro lado, para algunas variables aleatorias de la variedad de cola pesada y cola gorda , funciona muy lentamente o puede no funcionar en absoluto: en tales casos se puede utilizar el Teorema del límite central generalizado (GCLT).

Véase también

Estadística matemática – Rama de la estadística
Valor esperado – Valor promedio de una variable aleatoria
Varianza : medida estadística de qué tan lejos se alejan los valores de su promedio.
Lógica difusa : sistema para razonar sobre la vaguedad
Teoría de medidas difusas : teoría de medidas generalizadas en la que la propiedad aditiva se reemplaza por la propiedad más débil de la monotonía.
Glosario de probabilidad y estadística – Lista de definiciones de términos y conceptos en estadística y probabilidad
Función de verosimilitud : función relacionada con la estadística y la teoría de la probabilidad.
Notación en probabilidad
Modelado predictivo : forma de modelado que utiliza estadísticas para predecir resultados.
Lógica probabilística : uso de la probabilidad y la lógica para abordar situaciones inciertas
Pruebas probabilísticas de teoremas no probabilísticos
Distribución de probabilidad : función matemática que representa la probabilidad de que se produzca un resultado determinado en un experimento.
Axiomas de probabilidad – Fundamentos de la teoría de la probabilidad
Interpretaciones de probabilidad – Interpretación filosófica de los axiomas de probabilidad
Espacio de probabilidad – Concepto matemático
Independencia estadística : cuando la ocurrencia de un evento no afecta la probabilidad de otro.
Física estadística – Física de muchas partículas en interacción
Lógica subjetiva
Independencia por pares§Probabilidad de la unión de eventos independientes por pares – Conjunto de variables aleatorias de las cuales dos cualesquiera son independientes

Liza

Referencias

Citas

^ Inferir a partir de datos
^ "Lógica cuántica y teoría de la probabilidad". The Stanford Encyclopedia of Philosophy . 10 de agosto de 2021.
^ LIGHTNER, JAMES E. (1991). "Una breve mirada a la historia de la probabilidad y la estadística". The Mathematics Teacher . 84 (8): 623–630. doi :10.5951/MT.84.8.0623. ISSN 0025-5769. JSTOR 27967334.
^ Grinstead, Charles Miller; James Laurie Snell. "Introducción". Introducción a la probabilidad . págs. vii.
^ Daston, Lorraine J. (1980). "Expectativa probabilística y racionalidad en la teoría clásica de la probabilidad". Historia Mathematica . 7 (3): 234–260. doi :10.1016/0315-0860(80)90025-7.
^ ""Los orígenes y el legado de los Grundbegriffe de Kolmogorov", por Glenn Shafer y Vladimir Vovk" (PDF) . Consultado el 12 de febrero de 2012 .
^ Ross, Sheldon (2010). Un primer curso de probabilidad (8.ª ed.). Pearson Prentice Hall. pp. 26-27. ISBN 978-0-13-603313-4. Recuperado el 28 de febrero de 2016 .
^ Bain, Lee J.; Engelhardt, Max (1992). Introducción a la probabilidad y la estadística matemática (2.ª ed.). Belmont, California : Brooks/Cole. pág. 53. ISBN 978-0-534-38020-5.
^ "Leithner & Co Pty Ltd - Inversión en valor, riesgo y gestión de riesgos - Parte I". Leithner.com.au. 15 de septiembre de 2000. Archivado desde el original el 26 de enero de 2014. Consultado el 12 de febrero de 2012 .
^ Dekking, Michel (2005). "Capítulo 13: La ley de los grandes números". Una introducción moderna a la probabilidad y la estadística: entender por qué y cómo. Biblioteca Genesis. Londres: Springer. pp. 180–194. ISBN 978-1-85233-896-1.
^ David Williams , "Probabilidad con martingalas", Cambridge 1991/2008

Fuentes

Pierre Simon de Laplace (1812). Teoría analítica de la probabilidad .

El primer tratado importante que combina el cálculo con la teoría de la probabilidad, originalmente en francés: Théorie Analytique des Probabilités .

A. Kolmogoroff (1933). Grundbegriffe der Wahrscheinlichkeitsrechnung . doi :10.1007/978-3-642-49888-6. ISBN 978-3-642-49888-6.

Una traducción al inglés de Nathan Morrison apareció bajo el título Foundations of the Theory of Probability (Chelsea, Nueva York) en 1950, con una segunda edición en 1956.

Patrick Billingsley (1979). Probabilidad y medida . Nueva York, Toronto, Londres: John Wiley and Sons.
Olav Kallenberg ; Fundamentos de la probabilidad moderna, 2.ª ed. Springer Series in Statistics. (2002). 650 págs. ISBN 0-387-95313-2
Henk Tijms (2004). Entendiendo la probabilidad . Cambridge Univ. Press.

Una introducción animada a la teoría de la probabilidad para principiantes.

Olav Kallenberg; Simetrías probabilísticas y principios de invariancia . Springer-Verlag, Nueva York (2005). 510 págs. ISBN 0-387-25115-4
Durrett, Rick (2019). Probabilidad: teoría y ejemplos, 5.ª edición. Reino Unido : Cambridge University Press . ISBN 9781108473682.
Gut, Allan (2005). Probabilidad: un curso de posgrado . Springer-Verlag. ISBN 0-387-22833-0.