Nociones de convergencia probabilística, aplicadas a la estimación y al análisis asintótico.
En la teoría de la probabilidad , existen varias nociones diferentes de convergencia de secuencias de variables aleatorias , incluida la convergencia en probabilidad , la convergencia en distribución y la convergencia casi segura . Las diferentes nociones de convergencia capturan diferentes propiedades acerca de la secuencia, siendo algunas nociones de convergencia más fuertes que otras. Por ejemplo, la convergencia en la distribución nos habla de la distribución límite de una secuencia de variables aleatorias. Esta es una noción más débil que la convergencia en probabilidad, que nos informa sobre el valor que tomará una variable aleatoria, en lugar de solo la distribución.
El concepto es importante en la teoría de la probabilidad y sus aplicaciones a la estadística y los procesos estocásticos . Los mismos conceptos se conocen en matemáticas más generales como convergencia estocástica y formalizan la idea de que a veces se puede esperar que ciertas propiedades de una secuencia de eventos esencialmente aleatorios o impredecibles se establezcan en un comportamiento que es esencialmente inmutable cuando los elementos están lo suficientemente lejos en la secuencia. son estudiados. Las diferentes nociones posibles de convergencia se relacionan con cómo se puede caracterizar tal comportamiento: dos comportamientos fácilmente comprensibles son que la secuencia eventualmente toma un valor constante y que los valores en la secuencia continúan cambiando pero pueden describirse mediante una distribución de probabilidad invariable.
Fondo
La "convergencia estocástica" formaliza la idea de que a veces se puede esperar que una secuencia de eventos esencialmente aleatorios o impredecibles se establezca en un patrón. El patrón puede ser, por ejemplo,
- Convergencia en el sentido clásico a un valor fijo, quizás proveniente de un evento aleatorio
- Una creciente similitud de resultados con los que produciría una función puramente determinista.
- Una preferencia cada vez mayor hacia un determinado resultado.
- Una "aversión" creciente a alejarse mucho de un determinado resultado.
- Que la distribución de probabilidad que describe el próximo resultado puede volverse cada vez más similar a una determinada distribución.
Algunos patrones menos obvios y más teóricos podrían ser
- Que la serie formada al calcular el valor esperado de la distancia del resultado desde un valor particular puede converger a 0
- Que la varianza de la variable aleatoria que describe el próximo evento se hace cada vez más pequeña.
Estos otros tipos de patrones que pueden surgir se reflejan en los diferentes tipos de convergencia estocástica que se han estudiado.
Si bien la discusión anterior se ha relacionado con la convergencia de una sola serie hacia un valor límite, la noción de convergencia de dos series entre sí también es importante, pero esto se maneja fácilmente estudiando la secuencia definida como la diferencia o la razón. de las dos series.
Por ejemplo, si el promedio de n variables aleatorias independientes Y i , i = 1, ..., n , todas con la misma media finita y varianza , está dada por
entonces, cuando n tiende al infinito, X n converge en probabilidad (ver más abajo) a la media común , μ, de las variables aleatorias Y i . Este resultado se conoce como ley débil de los grandes números . Otras formas de convergencia son importantes en otros teoremas útiles, incluido el teorema del límite central .
A lo largo de lo siguiente, asumimos que ( X n ) es una secuencia de variables aleatorias y X es una variable aleatoria, y todas ellas están definidas en el mismo espacio de probabilidad .
Convergencia en la distribución
En términos generales, con este modo de convergencia, esperamos cada vez más que el siguiente resultado de una secuencia de experimentos aleatorios se modele cada vez mejor mediante una distribución de probabilidad determinada . Más precisamente, la distribución de la variable aleatoria asociada en la secuencia se acerca arbitrariamente a una distribución fija especificada.
La convergencia en la distribución es la forma más débil de convergencia que normalmente se analiza, ya que está implícita en todos los demás tipos de convergencia mencionados en este artículo. Sin embargo, en la práctica se utiliza con mucha frecuencia la convergencia en la distribución; la mayoría de las veces surge de la aplicación del teorema del límite central .
Definición
Se dice que una secuencia de variables aleatorias de valor real , con funciones de distribución acumulativas , converge en distribución , o converge débilmente , o converge en ley a una variable aleatoria X con función de distribución acumulativa F si
para cada número en el que F es continua .
El requisito de que sólo se consideren los puntos de continuidad de F es esencial. Por ejemplo, si X n se distribuye uniformemente en intervalos (0,1/norte) , entonces esta secuencia converge en distribución a la variable aleatoria degenerada X = 0 . De hecho, F n ( x ) = 0 para todo n cuando x ≤ 0 , y F n ( x ) = 1 para todo x ≥1/nortecuando norte > 0 . Sin embargo, para esta variable aleatoria limitante F (0) = 1 , aunque F n (0) = 0 para todo n . Por tanto, la convergencia de las CDF falla en el punto x = 0 donde F es discontinua.
La convergencia en la distribución puede denotarse como
¿Dónde está la ley (distribución de probabilidad) de X ? Por ejemplo, si X es normal estándar podemos escribir .
Para vectores aleatorios { X 1 , X 2 , ...} ⊂ R k la convergencia en la distribución se define de manera similar. Decimos que esta secuencia converge en distribución a un k -vector aleatorio X si
para cada A ⊂ R k que es un conjunto de continuidad de X .
La definición de convergencia en la distribución puede extenderse desde vectores aleatorios hasta elementos aleatorios más generales en espacios métricos arbitrarios , e incluso a las "variables aleatorias" que no son mensurables, situación que ocurre, por ejemplo, en el estudio de procesos empíricos . Se trata de la “débil convergencia de leyes sin que se definan leyes”, excepto de forma asintótica. [1]
En este caso es preferible el término convergencia débil (ver convergencia débil de medidas ), y decimos que una secuencia de elementos aleatorios { X n } converge débilmente a X (denotado como X n ⇒ X ) si
para todas las funciones acotadas continuas h . [2] Aquí E* denota la expectativa externa , es decir, la expectativa de una “función medible más pequeña g que domina h ( X n ) ”.
Propiedades
- Dado que , la convergencia en la distribución significa que la probabilidad de que X n esté en un rango dado es aproximadamente igual a la probabilidad de que el valor de X esté en ese rango, siempre que n sea suficientemente grande .
- En general, la convergencia en la distribución no implica que la secuencia de funciones de densidad de probabilidad correspondientes también convergerá. Como ejemplo, se pueden considerar variables aleatorias con densidades f n ( x ) = (1 + cos(2 πnx )) 1 (0,1) . Estas variables aleatorias convergen en distribución a una U uniforme (0, 1), mientras que sus densidades no convergen en absoluto. [3]
- El lema acrónimo proporciona varias definiciones equivalentes de convergencia en la distribución. Aunque estas definiciones son menos intuitivas, se utilizan para demostrar una serie de teoremas estadísticos. El lema establece que { X n } converge en distribución a X si y sólo si alguna de las siguientes afirmaciones es verdadera: [5]
- para todos los puntos de continuidad de ;
- para todas las funciones continuas y acotadas (donde denota el operador de valor esperado );
- para todas las funciones acotadas, Lipschitz ;
- para todas las funciones continuas no negativas ;
- para cada conjunto abierto ;
- para cada conjunto cerrado ;
- para todos los conjuntos de continuidad de variables aleatorias ;
- para cada función semicontinua superior acotada arriba; [ cita necesaria ]
- para cada función semicontinua inferior acotada a continuación. [ cita necesaria ]
- El teorema de mapeo continuo establece que para una función continua g , si la secuencia { X n } converge en distribución a X , entonces { g ( X n )} converge en distribución a g ( X ) .
- Sin embargo, tenga en cuenta que la convergencia en la distribución de { X n } a X y { Y n } a Y no implica en general convergencia en la distribución de { X n + Y n } a X + Y o de { X n Y n } a XY .
- Teorema de continuidad de Lévy : La secuencia { X n } converge en distribución a X si y solo si la secuencia de funciones características correspondientes { φ n } converge puntualmente a la función característica φ de X .
- La convergencia en la distribución se puede metrizar mediante la métrica de Lévy-Prokhorov .
- Un vínculo natural con la convergencia en la distribución es el teorema de representación de Skorokhod .
Convergencia en probabilidad
La idea básica detrás de este tipo de convergencia es que la probabilidad de un resultado “inusual” se vuelve cada vez menor a medida que avanza la secuencia.
El concepto de convergencia en probabilidad se utiliza muy a menudo en estadística. Por ejemplo, un estimador se dice consistente si converge en probabilidad con la cantidad que se estima. La convergencia en probabilidad es también el tipo de convergencia establecida por la ley débil de los grandes números .
Definición
Una secuencia { X n } de variables aleatorias converge en probabilidad hacia la variable aleatoria X si para todo ε > 0
Más explícitamente, sea P n ( ε ) la probabilidad de que X n esté fuera de la bola de radio ε centrada en X . Entonces se dice que X n converge en probabilidad a X si para cualquier ε > 0 y cualquier δ > 0 existe un número N (que puede depender de ε y δ ) tal que para todo n ≥ N , P n ( ε ) < δ (la definición de límite).
Observe que para que se cumpla la condición, no es posible que para cada n las variables aleatorias X y X n sean independientes (y por lo tanto la convergencia en probabilidad es una condición de las CDF conjuntas, a diferencia de la convergencia en distribución, que es una condición). condición en las cdf individuales), a menos que X sea determinista como para la ley débil de los grandes números. Al mismo tiempo, el caso de un determinista X no puede, siempre que el valor determinista sea un punto de discontinuidad (no aislado), manejarse mediante convergencia en la distribución, donde los puntos de discontinuidad deben excluirse explícitamente.
La convergencia en probabilidad se denota agregando la letra p sobre una flecha que indica convergencia, o usando el operador de límite de probabilidad "plim":
Para elementos aleatorios { X n } en un espacio métrico separable ( S , d ) , la convergencia en probabilidad se define de manera similar por [6]
Propiedades
- La convergencia en probabilidad implica convergencia en distribución. [prueba]
- En la dirección opuesta, la convergencia en la distribución implica convergencia en la probabilidad cuando la variable aleatoria límite X es una constante. [prueba]
- La convergencia en probabilidad no implica una convergencia casi segura. [prueba]
- El teorema de aplicación continua establece que para toda función continua , si , entonces también .
- La convergencia en probabilidad define una topología en el espacio de variables aleatorias sobre un espacio de probabilidad fijo. Esta topología es metrizable por la métrica de Ky Fan : [7]
o alternativamente por esta métrica
Contraejemplos
No toda secuencia de variables aleatorias que converge con otra variable aleatoria en la distribución también converge en probabilidad con esa variable aleatoria. Como ejemplo, considere una secuencia de variables aleatorias normales estándar y una segunda secuencia . Observe que la distribución de es igual a la distribución de para todos , pero:
que no converge a . Entonces no tenemos convergencia en probabilidad.
Convergencia casi segura
Este es el tipo de convergencia estocástica que es más similar a la convergencia puntual conocida a partir del análisis real elemental .
Definición
Decir que la secuencia X n converge casi con seguridad o casi en todas partes o con probabilidad 1 o fuertemente hacia X significa que
Esto significa que los valores de X n se acercan al valor de X , en el sentido de que los eventos para los cuales X n no converge a X tienen probabilidad 0 (ver Casi con seguridad ). Usando el espacio de probabilidad y el concepto de variable aleatoria como función de Ω a R , esto es equivalente a la afirmación
Utilizando la noción de límite superior de una secuencia de conjuntos , la convergencia casi segura también se puede definir de la siguiente manera:
La convergencia casi segura a menudo se denota agregando las letras sobre una flecha que indica convergencia:
Para elementos aleatorios genéricos { X n } en un espacio métrico , la convergencia casi seguramente se define de manera similar:
Propiedades
- La convergencia casi segura implica convergencia en probabilidad (según el lema de Fatou ) y, por tanto, implica convergencia en distribución. Es la noción de convergencia utilizada en la ley fuerte de los grandes números .
- El concepto de convergencia casi segura no proviene de una topología en el espacio de variables aleatorias. Esto significa que no existe una topología en el espacio de variables aleatorias tal que las secuencias casi seguramente convergentes sean exactamente las secuencias convergentes con respecto a esa topología. En particular, no existe una métrica de convergencia casi segura.
Convergencia segura o convergencia puntual
Decir que la secuencia de variables aleatorias ( Xn ) definida sobre el mismo espacio de probabilidad ( es decir, un proceso aleatorio ) converge con seguridad o en todas partes o puntualmente hacia X significa
donde Ω es el espacio muestral del espacio de probabilidad subyacente sobre el cual se definen las variables aleatorias.
Ésta es la noción de convergencia puntual de una secuencia de funciones extendida a una secuencia de variables aleatorias . (Tenga en cuenta que las variables aleatorias en sí mismas son funciones).
La convergencia segura de una variable aleatoria implica todos los demás tipos de convergencia mencionados anteriormente, pero en la teoría de la probabilidad no hay ningún beneficio al usar una convergencia segura en comparación con usar una convergencia casi segura. La diferencia entre los dos sólo existe en conjuntos con probabilidad cero. Esta es la razón por la que el concepto de convergencia segura de variables aleatorias rara vez se utiliza.
Contraejemplos
Considere una secuencia de variables aleatorias independientes tal que y . Porque tenemos que converge a por tanto en probabilidad.
Dado que y los eventos son independientes, el segundo Lema de Borel Cantelli asegura que, por lo tanto, la secuencia no converge en casi todas partes (de hecho, el conjunto en el que esta secuencia no converge tiene probabilidad ).
Convergencia en media
Dado un número real r ≥ 1 , decimos que la secuencia X n converge en la r -ésima media (o en la L r -norma ) hacia la variable aleatoria X , si los r -ésimos momentos absolutos (| X n | r ) y (| X | r ) de X n y X existen, y
donde el operador E denota el valor esperado . La convergencia en r -ésima media nos dice que la expectativa de la r -ésima potencia de la diferencia entre y converge a cero.
Este tipo de convergencia a menudo se denota agregando la letra L r sobre una flecha que indica convergencia:
Los casos más importantes de convergencia en r -ésima media son:
- Cuando X n converge en r -ésima media a X para r = 1, decimos que X n converge en media a X .
- Cuando X n converge en r -ésima media a X para r = 2, decimos que X n converge en media cuadrática (o en media cuadrática ) a X .
La convergencia en la r -ésima media, para r ≥ 1, implica convergencia en probabilidad (por la desigualdad de Markov ). Además, si r > s ≥ 1, la convergencia en r -ésima media implica convergencia en s -ésima media. Por tanto, la convergencia en media cuadrática implica convergencia en media.
Además,
Lo contrario no es necesariamente cierto, sin embargo, sí lo es (según una versión más general del lema de Scheffé ).
Propiedades
Siempre que el espacio de probabilidad esté completo :
- Si y , entonces casi con seguridad .
- Si y , entonces casi con seguridad.
- Si y , entonces casi con seguridad.
- Si y , entonces (para cualquier número real a y b ) y .
- Si y , entonces (para cualquier número real a y b ) y .
- Si y , entonces (para cualquier número real a y b ).
- Ninguna de las afirmaciones anteriores es cierta para la convergencia en la distribución.
La cadena de implicaciones entre las diversas nociones de convergencia se señala en sus respectivas secciones. Son, usando la notación de flechas:
Estas propiedades, junto con otros casos especiales, se resumen en la siguiente lista:
- La convergencia casi segura implica convergencia en probabilidad: [8] [prueba]
- La convergencia en probabilidad implica que existe una subsecuencia que casi seguramente converge: [9]
- La convergencia en probabilidad implica convergencia en distribución: [8] [prueba]
- La convergencia en la media de r -ésimo orden implica convergencia en probabilidad:
- La convergencia en la media de orden r implica convergencia en la media de orden inferior, suponiendo que ambos órdenes son mayores o iguales a uno:
- siempre que r ≥ s ≥ 1.
- Si X n converge en distribución a una constante c , entonces X n converge en probabilidad a c : [8] [prueba]
- siempre que c sea una constante.
- Si X n converge en distribución a X y la diferencia entre X n e Y n converge en probabilidad a cero, entonces Y n también converge en distribución a X : [8] [prueba]
- Si X n converge en distribución a X e Y n converge en distribución a una constante c , entonces el vector conjunto ( X n , Y n ) converge en distribución a : [8] [prueba]
- siempre que c sea una constante.
- Tenga en cuenta que la condición de que Y n converja a una constante es importante; si convergiera a una variable aleatoria Y, entonces no podríamos concluir que ( X n , Y n ) converge a .
- Si X n converge en probabilidad a X e Y n converge en probabilidad a Y , entonces el vector conjunto ( X n , Y n ) converge en probabilidad a ( X , Y ) : [8] [prueba]
- Si X n converge en probabilidad a X , y si P (| X n | ≤ b ) = 1 para todo n y algo de b , entonces X n converge en r ésima media a X para todo r ≥ 1 . En otras palabras, si X n converge en probabilidad a X y todas las variables aleatorias X n están casi seguramente acotadas por arriba y por abajo, entonces X n converge a X también en cualquier r- ésima media. [10]
- Representación casi segura . Por lo general, la convergencia en la distribución no implica convergencia casi con seguridad. Sin embargo, para una secuencia dada { X n } que converge en distribución a X 0 siempre es posible encontrar un nuevo espacio de probabilidad (Ω, F , P) y variables aleatorias { Y n , n = 0, 1, ... } definido en él de manera que Y n tiene una distribución igual a X n para cada n ≥ 0 , y Y n converge a Y 0 casi con seguridad. [11] [12]
- Si para todo ε > 0,
- entonces decimos que X n converge casi completamente , o casi con probabilidad , hacia X. Cuando X n converge casi completamente hacia X , entonces también converge casi con seguridad a X. En otras palabras, si X n converge en probabilidad a X lo suficientemente rápido (es decir, la secuencia anterior de probabilidades de cola es sumable para todo ε > 0 ), entonces X n también converge casi con seguridad a X . Esta es una implicación directa del lema de Borel-Cantelli .
- Si S n es una suma de n variables aleatorias independientes reales:
- entonces S n converge casi con seguridad si y sólo si S n converge en probabilidad.
- El teorema de convergencia dominada proporciona condiciones suficientes para que una convergencia casi segura implique convergencia L 1 :
- Una condición necesaria y suficiente para la convergencia L 1 es que la secuencia ( X n ) sea uniformemente integrable .
- Si , los siguientes son equivalentes [13]
- ,
- ,
- es uniformemente integrable .
- Si son discretos e independientes, entonces implica que . Esta es una consecuencia del segundo lema de Borel-Cantelli .
Ver también
El Wikibook Teoría econométrica tiene una página sobre el tema: Convergencia de variables aleatorias
Notas
- ^ Bickel y col. 1998, A.8, página 475
- ^ van der Vaart y Wellner 1996, pág. 4
- ^ Romano y Siegel 1985, ejemplo 5.26
- ^ Durrett, Rick (2010). Probabilidad: teoría y ejemplos . pag. 84.
- ^ van der Vaart 1998, Lema 2.2
- ^ Dudley 2002, capítulo 9.2, página 287
- ^ Dudley 2002, pag. 289
- ^ abcdef van der Vaart 1998, Teorema 2.7
- ^ Tripa, Allan (2005). Probabilidad: Un curso de posgrado . Teorema 3.4: Springer. ISBN 978-0-387-22833-4.
{{cite book}}
: CS1 maint: location (link) - ^ Grimmett y Stirzaker 2020, pag. 354
- ^ van der Vaart 1998, Th.2.19
- ^ Fristedt y Gray 1997, teorema 14.5
- ^ "análisis real: generalización del lema de Scheffe utilizando únicamente la convergencia en probabilidad". Intercambio de pilas de matemáticas . Consultado el 12 de marzo de 2022 .
Referencias
- Bickel, Peter J.; Klaassen, Chris AJ; Ritov, Ya'acov; Wellner, Jon A. (1998). Estimación eficiente y adaptativa para modelos semiparamétricos . Nueva York: Springer-Verlag. ISBN 978-0-387-98473-5.
- Billingsley, Patricio (1986). Probabilidad y Medida . Serie Wiley en probabilidad y estadística matemática (2ª ed.). Wiley.
- Billingsley, Patricio (1999). Convergencia de medidas de probabilidad (2ª ed.). John Wiley e hijos. págs. 1–28. ISBN 978-0-471-19745-4.
- Dudley, RM (2002). Análisis real y probabilidad . Cambridge, Reino Unido: Cambridge University Press. ISBN 978-0-521-80972-6.
- Fristedt, Bert; Gris, Lawrence (1997). Un enfoque moderno de la teoría de la probabilidad . Nueva York: Springer Science+Business Media. doi :10.1007/978-1-4899-2837-5. ISBN 978-1-4899-2837-5.
- Grimmett, GR; Stirzaker, DR (1992). Probabilidad y procesos aleatorios (2ª ed.). Prensa de Clarendon, Oxford. págs. 271–285. ISBN 978-0-19-853665-9.
- Jacobsen, M. (1992). Videregående Sandsynlighedsregning (Teoría de la probabilidad avanzada) (3ª ed.). HCØ-tryk, Copenhague. págs. 18-20. ISBN 978-87-91180-71-2.
- Ledoux, Michel; Talagrand, Michel (1991). Probabilidad en espacios de Banach . Berlín: Springer-Verlag. págs. xii+480. ISBN 978-3-540-52013-9. SEÑOR 1102015.
- Romano, José P.; Siegel, Andrew F. (1985). Contraejemplos en probabilidad y estadística . Gran Bretaña: Chapman & Hall. ISBN 978-0-412-98901-8.
- Grimmett, Geoffrey R.; Stirzaker, David R. (2020). Probabilidad y procesos aleatorios (4ª ed.). Prensa de la Universidad de Oxford. ISBN 978-0-198-84760-1.
- van der Vaart, Aad W .; Wellner, Jon A. (1996). Convergencia débil y procesos empíricos . Nueva York: Springer-Verlag. ISBN 978-0-387-94640-5.
- van der Vaart, Aad W. (1998). Estadísticas asintóticas . Nueva York: Cambridge University Press. ISBN 978-0-521-49603-2.
- Williams, D. (1991). Probabilidad con Martingalas . Prensa de la Universidad de Cambridge. ISBN 978-0-521-40605-5.
- Wong, E.; Hájek, B. (1985). Procesos estocásticos en sistemas de ingeniería . Nueva York: Springer-Verlag.
- Zitkovic, Gordan (17 de noviembre de 2013). "Conferencia 7: Convergencia débil" (PDF) .
Este artículo incorpora material del artículo de Citizendium "Convergencia estocástica", que tiene la licencia Creative Commons Attribution-ShareAlike 3.0 Unported pero no la GFDL .