Nociones de convergencia probabilística aplicadas a la estimación y al análisis asintótico
En teoría de la probabilidad , existen varias nociones diferentes de convergencia de secuencias de variables aleatorias , incluidas la convergencia en probabilidad , la convergencia en distribución y la convergencia casi segura . Las diferentes nociones de convergencia capturan diferentes propiedades sobre la secuencia, y algunas nociones de convergencia son más fuertes que otras. Por ejemplo, la convergencia en distribución nos informa sobre la distribución límite de una secuencia de variables aleatorias. Esta es una noción más débil que la convergencia en probabilidad, que nos informa sobre el valor que tomará una variable aleatoria, en lugar de solo sobre la distribución.
El concepto es importante en la teoría de la probabilidad y sus aplicaciones a la estadística y los procesos estocásticos . Los mismos conceptos se conocen en matemáticas más generales como convergencia estocástica y formalizan la idea de que a veces se puede esperar que ciertas propiedades de una secuencia de eventos esencialmente aleatorios o impredecibles se estabilicen en un comportamiento que es esencialmente inmutable cuando se estudian elementos lo suficientemente avanzados en la secuencia. Las diferentes nociones posibles de convergencia se relacionan con la forma en que se puede caracterizar dicho comportamiento: dos comportamientos fácilmente comprensibles son que la secuencia finalmente toma un valor constante y que los valores en la secuencia continúan cambiando pero pueden describirse mediante una distribución de probabilidad inmutable.
Fondo
La "convergencia estocástica" formaliza la idea de que a veces se puede esperar que una secuencia de eventos esencialmente aleatorios o impredecibles se asiente en un patrón. El patrón puede ser, por ejemplo,
- Convergencia en el sentido clásico hacia un valor fijo, que quizás provenga de un evento aleatorio.
- Una similitud creciente de resultados con lo que produciría una función puramente determinista
- Una preferencia creciente hacia un determinado resultado
- Una creciente "aversión" a alejarse demasiado de un determinado resultado
- Que la distribución de probabilidad que describe el próximo resultado puede volverse cada vez más similar a una determinada distribución
Algunos patrones menos obvios y más teóricos podrían ser:
- Que la serie formada al calcular el valor esperado de la distancia del resultado a un valor particular puede converger a 0
- Que la varianza de la variable aleatoria que describe el próximo evento se hace cada vez más pequeña.
Estos otros tipos de patrones que pueden surgir se reflejan en los diferentes tipos de convergencia estocástica que se han estudiado.
Si bien la discusión anterior se ha relacionado con la convergencia de una sola serie a un valor límite, la noción de la convergencia de dos series entre sí también es importante, pero esto se maneja fácilmente estudiando la secuencia definida como la diferencia o la relación de las dos series.
Por ejemplo, si el promedio de n variables aleatorias independientes , todas con la misma media y varianza finitas , viene dado por
entonces, como tiende a infinito, converge en probabilidad (ver abajo) a la media común , , de las variables aleatorias . Este resultado se conoce como la ley débil de los grandes números . Otras formas de convergencia son importantes en otros teoremas útiles, incluido el teorema del límite central .
A lo largo de lo que sigue, suponemos que es una secuencia de variables aleatorias, y es una variable aleatoria, y todas ellas están definidas en el mismo espacio de probabilidad .
Convergencia en la distribución
En términos generales, con este modo de convergencia, cada vez esperamos más ver que el siguiente resultado de una secuencia de experimentos aleatorios se modela cada vez mejor mediante una distribución de probabilidad dada . Más precisamente, la distribución de la variable aleatoria asociada en la secuencia se acerca arbitrariamente a una distribución fija especificada.
La convergencia en distribución es la forma más débil de convergencia que se suele analizar, ya que está implícita en todos los demás tipos de convergencia mencionados en este artículo. Sin embargo, la convergencia en distribución se utiliza con mucha frecuencia en la práctica; la mayoría de las veces surge de la aplicación del teorema del límite central .
Definición
Se dice que una secuencia de variables aleatorias de valor real , con funciones de distribución acumulativa , converge en distribución , o converge débilmente , o converge en ley a una variable aleatoria X con función de distribución acumulativa F si
para cada número en el que es continua .
El requisito de que sólo se consideren los puntos de continuidad de es esencial. Por ejemplo, si se distribuyen uniformemente en intervalos , entonces esta secuencia converge en distribución a la variable aleatoria degenerada . De hecho, para todos cuando , y para todos cuando . Sin embargo, para esta variable aleatoria límite , aunque para todos . Por lo tanto, la convergencia de las funciones de distribución acumuladas falla en el punto donde es discontinua.
La convergencia en la distribución puede denotarse como
donde es la ley (distribución de probabilidad) de X . Por ejemplo, si X es normal estándar podemos escribir .
Para los vectores aleatorios, la convergencia en la distribución se define de manera similar. Decimos que esta secuencia converge en la distribución a un k -vector aleatorio X si
para cada cual que es un conjunto de continuidad de X .
La definición de convergencia en la distribución puede extenderse desde los vectores aleatorios a elementos aleatorios más generales en espacios métricos arbitrarios , e incluso a las “variables aleatorias” que no son mensurables, una situación que ocurre, por ejemplo, en el estudio de procesos empíricos . Esta es la “convergencia débil de leyes sin leyes definidas”, excepto de manera asintótica. [1]
En este caso es preferible el término convergencia débil (ver convergencia débil de medidas ), y decimos que una secuencia de elementos aleatorios { X n } converge débilmente a X (denotado como X n ⇒ X ) si
para todas las funciones acotadas continuas h . [2] Aquí E* denota la expectativa externa , es decir la expectativa de una “función medible más pequeña g que domine h ( X n ) ”.
Propiedades
- Dado que , la convergencia en la distribución significa que la probabilidad de que X n esté en un rango dado es aproximadamente igual a la probabilidad de que el valor de X esté en ese rango, siempre que n sea suficientemente grande .
- En general, la convergencia en la distribución no implica que la secuencia de funciones de densidad de probabilidad correspondientes también converja. Como ejemplo, se pueden considerar variables aleatorias con densidades f n ( x ) = (1 + cos(2 πnx )) 1 (0,1) . Estas variables aleatorias convergen en la distribución a una U uniforme (0, 1), mientras que sus densidades no convergen en absoluto. [3]
- El lema del acrónimo proporciona varias definiciones equivalentes de convergencia en la distribución. Aunque estas definiciones son menos intuitivas, se utilizan para demostrar una serie de teoremas estadísticos. El lema establece que { X n } converge en la distribución a X si y solo si alguna de las siguientes afirmaciones es verdadera: [5]
- para todos los puntos de continuidad de ;
- para todas las funciones continuas y acotadas ( donde denota el operador de valor esperado );
- para todas las funciones de Lipschitz acotadas ;
- para todas las funciones continuas no negativas ;
- para cada conjunto abierto ;
- para cada conjunto cerrado ;
- para todos los conjuntos de continuidad de variables aleatorias ;
- para cada función semicontinua superior acotada por encima; [ cita requerida ]
- para cada función semicontinua inferior acotada por debajo. [ cita requerida ]
- El teorema de aplicación continua establece que para una función continua g , si la secuencia { X n } converge en distribución a X , entonces { g ( X n )} converge en distribución a g ( X ) .
- Obsérvese, sin embargo, que la convergencia en la distribución de { X n } a X y de { Y n } a Y en general no implica convergencia en la distribución de { X n + Y n } a X + Y o de { X n Y n } a XY .
- Teorema de continuidad de Lévy : La secuencia { X n } converge en distribución a X si y sólo si la secuencia de funciones características correspondientes { φ n } converge puntualmente a la función característica φ de X.
- La convergencia en la distribución se puede medir mediante la métrica de Lévy-Prokhorov .
- Un vínculo natural con la convergencia en la distribución es el teorema de representación de Skorokhod .
Convergencia en probabilidad
La idea básica detrás de este tipo de convergencia es que la probabilidad de un resultado “inusual” se hace cada vez más pequeña a medida que avanza la secuencia.
El concepto de convergencia en probabilidad se utiliza con mucha frecuencia en estadística. Por ejemplo, un estimador se denomina consistente si converge en probabilidad a la cantidad que se está estimando. La convergencia en probabilidad es también el tipo de convergencia que establece la ley débil de los grandes números .
Definición
Una secuencia { X n } de variables aleatorias converge en probabilidad hacia la variable aleatoria X si para todo ε > 0
Más explícitamente, sea P n ( ε ) la probabilidad de que X n esté fuera de la bola de radio ε centrada en X . Entonces se dice que X n converge en probabilidad a X si para cualquier ε > 0 y cualquier δ > 0 existe un número N (que puede depender de ε y δ ) tal que para todo n ≥ N , P n ( ε ) < δ (la definición de límite).
Obsérvese que para que se cumpla la condición, no es posible que para cada n las variables aleatorias X y X n sean independientes (y por lo tanto la convergencia en probabilidad es una condición de las funciones de distribución acumuladas, a diferencia de la convergencia en distribución, que es una condición de las funciones de distribución acumuladas individuales), a menos que X sea determinista, como en el caso de la ley débil de los grandes números. Al mismo tiempo, el caso de una X determinista no puede, siempre que el valor determinista sea un punto de discontinuidad (no aislado), ser manejado por la convergencia en distribución, donde los puntos de discontinuidad deben ser excluidos explícitamente.
La convergencia en probabilidad se denota agregando la letra p sobre una flecha que indica convergencia, o utilizando el operador de límite de probabilidad "plim":
Para elementos aleatorios { X n } en un espacio métrico separable ( S , d ) , la convergencia en probabilidad se define de manera similar por [6]
Propiedades
- La convergencia en probabilidad implica convergencia en distribución. [prueba]
- En la dirección opuesta, la convergencia en la distribución implica convergencia en la probabilidad cuando la variable aleatoria límite X es una constante. [prueba]
- La convergencia en probabilidad no implica una convergencia casi segura. [prueba]
- El teorema de aplicación continua establece que para cada función continua , si , entonces también .
- La convergencia en probabilidad define una topología en el espacio de variables aleatorias sobre un espacio de probabilidad fijo. Esta topología es metrizable mediante la métrica de Ky Fan : [7] o alternativamente mediante esta métrica
Contraejemplos
No toda secuencia de variables aleatorias que converge a otra variable aleatoria en la distribución también converge en probabilidad a esa variable aleatoria. Como ejemplo, considere una secuencia de variables aleatorias normales estándar y una segunda secuencia . Observe que la distribución de es igual a la distribución de para todos , pero:
que no converge a . Por lo tanto, no tenemos convergencia en probabilidad.
Convergencia casi segura
Este es el tipo de convergencia estocástica que es más similar a la convergencia puntual conocida a partir del análisis real elemental .
Definición
Decir que la secuencia X n converge casi con seguridad o casi en todas partes o con probabilidad 1 o fuertemente hacia X significa que
Esto significa que los valores de X n se aproximan al valor de X , en el sentido de que los eventos para los cuales X n no converge a X tienen probabilidad 0 (ver Casi con seguridad ). Usando el espacio de probabilidad y el concepto de variable aleatoria como una función de Ω a R , esto es equivalente a la afirmación
Utilizando la noción de límite superior de una secuencia de conjuntos , la convergencia casi segura también puede definirse de la siguiente manera:
La convergencia casi segura se denota a menudo añadiendo las letras así sobre una flecha que indica convergencia:
Para elementos aleatorios genéricos { X n } en un espacio métrico , la convergencia casi seguramente se define de manera similar:
Propiedades
- La convergencia casi segura implica convergencia en probabilidad (según el lema de Fatou ) y, por lo tanto, implica convergencia en distribución. Es el concepto de convergencia que se utiliza en la ley fuerte de los grandes números .
- El concepto de convergencia casi segura no proviene de una topología en el espacio de variables aleatorias. Esto significa que no existe una topología en el espacio de variables aleatorias tal que las secuencias que convergen casi con seguridad sean exactamente las secuencias que convergen con respecto a esa topología. En particular, no existe una métrica de convergencia casi segura.
Contraejemplos
Consideremos una secuencia de variables aleatorias independientes tales que y . Para ello tenemos que converge a , por lo tanto, en probabilidad.
Como y los eventos son independientes, el segundo lema de Borel-Cantelli asegura que, por lo tanto, la secuencia no converge a casi todas partes (de hecho, el conjunto en el que esta secuencia no converge tiene probabilidad ).
Convergencia segura o convergencia puntual
Decir que la secuencia de variables aleatorias ( X n ) definida sobre el mismo espacio de probabilidad (es decir, un proceso aleatorio ) converge con seguridad o en todas partes o puntualmente hacia X significa
donde Ω es el espacio muestral del espacio de probabilidad subyacente sobre el que se definen las variables aleatorias.
Se trata de la noción de convergencia puntual de una secuencia de funciones extendida a una secuencia de variables aleatorias (nótese que las variables aleatorias en sí mismas son funciones).
La convergencia segura de una variable aleatoria implica todos los demás tipos de convergencia mencionados anteriormente, pero no hay ninguna ventaja en la teoría de la probabilidad al utilizar la convergencia segura en comparación con el uso de la convergencia casi segura. La diferencia entre los dos solo existe en conjuntos con probabilidad cero. Por eso, el concepto de convergencia segura de variables aleatorias se utiliza muy raramente.
Convergencia en la media
Dado un número real r ≥ 1 , decimos que la secuencia X n converge en la r -ésima media (o en la L r -norma ) hacia la variable aleatoria X , si existen los r -ésimos momentos absolutos (| X n | r ) y (| X | r ) de X n y X , y
donde el operador E denota el valor esperado . La convergencia en la media r -ésima nos dice que la esperanza de la potencia r -ésima de la diferencia entre y converge a cero.
Este tipo de convergencia a menudo se denota agregando la letra L r sobre una flecha que indica convergencia:
Los casos más importantes de convergencia en la media r -ésima son:
- Cuando X n converge en media r -ésima a X para r = 1, decimos que X n converge en media a X .
- Cuando X n converge en la media r -ésima a X para r = 2, decimos que X n converge en el cuadrado medio (o en la media cuadrática ) a X .
La convergencia en la media r -ésima, para r ≥ 1, implica convergencia en probabilidad (por la desigualdad de Markov ). Además, si r > s ≥ 1, la convergencia en la media r -ésima implica convergencia en la media s -ésima. Por lo tanto, la convergencia en el cuadrado medio implica convergencia en la media.
Además,
Lo inverso no es necesariamente cierto, pero es cierto si (según una versión más general del lema de Scheffé ).
Propiedades
Siempre que el espacio de probabilidad esté completo :
- Si y , entonces casi seguramente .
- Si y , entonces casi con seguridad.
- Si y , entonces casi con seguridad.
- Si y , entonces (para cualesquiera números reales a y b ) y .
- Si y , entonces (para cualesquiera números reales a y b ) y .
- Si y , entonces (para cualesquiera números reales a y b ).
- Ninguna de las afirmaciones anteriores es cierta en lo que respecta a la convergencia en la distribución.
La cadena de implicaciones entre las diversas nociones de convergencia se indica en sus respectivas secciones. Son, utilizando la notación de flechas:
Estas propiedades, junto con una serie de otros casos especiales, se resumen en la siguiente lista:
- La convergencia casi segura implica convergencia en probabilidad: [8] [prueba]
- La convergencia en probabilidad implica que existe una subsecuencia que casi seguramente converge: [9]
- La convergencia en probabilidad implica convergencia en distribución: [8] [prueba]
- La convergencia en la media de orden r implica convergencia en probabilidad:
- La convergencia en la media de orden r -ésimo implica convergencia en la media de orden inferior, asumiendo que ambos órdenes son mayores o iguales a uno:
- siempre que r ≥ s ≥ 1.
- Si X n converge en distribución a una constante c , entonces X n converge en probabilidad a c : [8] [prueba]
- siempre que c sea una constante.
- Si X n converge en distribución a X y la diferencia entre X n e Y n converge en probabilidad a cero, entonces Y n también converge en distribución a X : [8] [prueba]
- Si X n converge en distribución a X e Y n converge en distribución a una constante c , entonces el vector conjunto ( X n , Y n ) converge en distribución a : [8] [prueba]
- siempre que c sea una constante.
- Nótese que la condición de que Y n converge a una constante es importante, si convergiera a una variable aleatoria Y entonces no podríamos concluir que ( X n , Y n ) converge a .
- Si X n converge en probabilidad a X e Y n converge en probabilidad a Y , entonces el vector conjunto ( X n , Y n ) converge en probabilidad a ( X , Y ) : [8] [prueba]
- Si X n converge en probabilidad a X , y si P (| X n | ≤ b ) = 1 para todo n y algún b , entonces X n converge en la media r ésima a X para todo r ≥ 1 . En otras palabras, si X n converge en probabilidad a X y todas las variables aleatorias X n están casi seguramente acotadas por arriba y por abajo, entonces X n converge a X también en cualquier media r ésima. [10]
- Representación casi segura . Por lo general, la convergencia en la distribución no implica convergencia casi segura. Sin embargo, para una secuencia dada { X n } que converge en la distribución a X 0 siempre es posible encontrar un nuevo espacio de probabilidad (Ω, F , P) y variables aleatorias { Y n , n = 0, 1, ...} definidas en él de manera que Y n sea igual en distribución a X n para cada n ≥ 0 , e Y n converge a Y 0 casi seguramente. [11] [12]
- Si para todo ε > 0,
- entonces decimos que X n converge casi completamente , o casi con probabilidad hacia X . Cuando X n converge casi completamente hacia X entonces también converge casi con seguridad a X . En otras palabras, si X n converge en probabilidad a X suficientemente rápido (es decir, la secuencia anterior de probabilidades de cola es sumable para todo ε > 0 ), entonces X n también converge casi con seguridad a X . Esta es una implicación directa del lema de Borel-Cantelli .
- Si S n es una suma de n variables aleatorias independientes reales:
- Entonces S n converge casi con seguridad si y sólo si S n converge en probabilidad. La prueba se puede encontrar en la página 126 (Teorema 5.3.4) del libro de Kai Lai Chung . [13]
- Sin embargo, para una secuencia de variables aleatorias mutuamente independientes, la convergencia en probabilidad no implica una convergencia casi segura. [14]
- El teorema de convergencia dominada proporciona condiciones suficientes para que la convergencia sea casi segura, lo que implica una convergencia L 1 :
- Una condición necesaria y suficiente para la convergencia L 1 es y la secuencia ( X n ) es uniformemente integrable .
- Si , los siguientes son equivalentes [15]
- ,
- ,
- es uniformemente integrable .
Véase también
La Wikilibro Teoría econométrica tiene una página sobre el tema: Convergencia de variables aleatorias
Notas
- ^ Bickel y col. 1998, A.8, página 475
- ^ van der Vaart y Wellner 1996, pág. 4
- ^ Romano y Siegel 1985, Ejemplo 5.26
- ^ Durrett, Rick (2010). Probabilidad: teoría y ejemplos . pág. 84.
- ^ van der Vaart 1998, Lema 2.2
- ^ Dudley 2002, Capítulo 9.2, página 287
- ^ Dudley 2002, pág. 289
- ^ abcdef van der Vaart 1998, Teorema 2.7
- ^ Gut, Allan (2005). Probabilidad: un curso de posgrado . Teorema 3.4: Springer. ISBN 978-0-387-22833-4.
{{cite book}}
: CS1 maint: location (link) - ^ Grimmett y Stirzaker 2020, pág. 354
- ^ van der Vaart 1998, Tesis 2.19
- ^ Fristedt y Gray 1997, Teorema 14.5
- ^ Chung, Kai-lai (2001). Un curso de teoría de la probabilidad . pág. 126.
- ^ "Pruebas de convergencia de variables aleatorias". Wikipedia . Consultado el 23 de septiembre de 2024 .
- ^ "Análisis real: generalización del lema de Scheffe utilizando solo la convergencia en probabilidad". Mathematics Stack Exchange . Consultado el 12 de marzo de 2022 .
Referencias
- Bickel, Peter J.; Klaassen, Chris AJ; Ritov, Ya'acov; Wellner, Jon A. (1998). Estimación eficiente y adaptativa para modelos semiparamétricos . Nueva York: Springer-Verlag. ISBN 978-0-387-98473-5.
- Billingsley, Patrick (1986). Probabilidad y medida . Serie Wiley sobre probabilidad y estadística matemática (2.ª ed.). Wiley.
- Billingsley, Patrick (1999). Convergencia de medidas de probabilidad (2.ª ed.). John Wiley & Sons. pp. 1–28. ISBN 978-0-471-19745-4.
- Dudley, RM (2002). Análisis real y probabilidad . Cambridge, Reino Unido: Cambridge University Press. ISBN 978-0-521-80972-6.
- Fristedt, Bert; Gray, Lawrence (1997). Un enfoque moderno de la teoría de la probabilidad . Nueva York: Springer Science+Business Media. doi :10.1007/978-1-4899-2837-5. ISBN 978-1-4899-2837-5.
- Grimmett, GR; Stirzaker, DR (1992). Probabilidad y procesos aleatorios (2.ª ed.). Clarendon Press, Oxford. pp. 271–285. ISBN 978-0-19-853665-9.
- Jacobsen, M. (1992). Videregående Sandsynlighedsregning (Teoría de la probabilidad avanzada) (3ª ed.). HCØ-tryk, Copenhague. págs. 18-20. ISBN 978-87-91180-71-2.
- Ledoux, Michel; Talagrand, Michel (1991). Probabilidad en espacios de Banach . Berlín: Springer-Verlag. pp. xii+480. ISBN 978-3-540-52013-9. Sr. 1102015.
- Romano, Joseph P.; Siegel, Andrew F. (1985). Contraejemplos en probabilidad y estadística . Gran Bretaña: Chapman & Hall. ISBN 978-0-412-98901-8.
- Grimmett, Geoffrey R.; Stirzaker, David R. (2020). Probabilidad y procesos aleatorios (4.ª ed.). Oxford University Press. ISBN 978-0-198-84760-1.
- van der Vaart, Aad W .; Wellner, Jon A. (1996). Convergencia débil y procesos empíricos . Nueva York: Springer-Verlag. ISBN 978-0-387-94640-5.
- van der Vaart, Aad W. (1998). Estadísticas asintóticas . Nueva York: Cambridge University Press. ISBN 978-0-521-49603-2.
- Williams, D. (1991). Probabilidad con martingalas . Cambridge University Press. ISBN 978-0-521-40605-5.
- Wong, E.; Hájek, B. (1985). Procesos estocásticos en sistemas de ingeniería . Nueva York: Springer–Verlag.
- Zitkovic, Gordan (17 de noviembre de 2013). "Conferencia 7: Convergencia débil" (PDF) .
Este artículo incorpora material del artículo de Citizendium "Convergencia estocástica", que se encuentra bajo la licencia Creative Commons Attribution-ShareAlike 3.0 Unported pero no bajo la GFDL .