0 requerimos que N sea lo suficientemente grande para n ≥ N para garantizar que la 'diferencia' entre μ n y μ sea menor que ε . Varias nociones de convergencia especifican precisamente qué debería significar la palabra "diferencia" en esa descripción; Estas nociones no son equivalentes entre sí y varían en fuerza. ">
stringtranslate.com

Convergencia de medidas

En matemáticas , más específicamente en teoría de medidas , existen varias nociones de convergencia de medidas . Para tener una idea general intuitiva de lo que se entiende por convergencia de medidas , considere una secuencia de medidas μ n en un espacio, que comparten una colección común de conjuntos mensurables. Tal secuencia podría representar un intento de construir aproximaciones "cada vez mejores" a una medida deseada μ que es difícil de obtener directamente. El significado de "cada vez mejor" está sujeto a todas las advertencias habituales a la hora de establecer límites ; para cualquier tolerancia de error ε > 0 requerimos que N sea lo suficientemente grande para nN para garantizar que la 'diferencia' entre μ n y μ sea menor que ε . Varias nociones de convergencia especifican precisamente qué debería significar la palabra "diferencia" en esa descripción; Estas nociones no son equivalentes entre sí y varían en fuerza.

A continuación se describen tres de las nociones más comunes de convergencia.

Descripciones informales

Esta sección intenta proporcionar una descripción intuitiva aproximada de tres nociones de convergencia, utilizando terminología desarrollada en cursos de cálculo ; Esta sección es necesariamente imprecisa e inexacta, y el lector debe consultar las aclaraciones formales en las secciones siguientes. En particular, las descripciones aquí no abordan la posibilidad de que la medida de algunos conjuntos pueda ser infinita, o que el espacio subyacente pueda exhibir un comportamiento patológico, y se necesitan supuestos técnicos adicionales para algunas de las afirmaciones. Sin embargo, las afirmaciones de esta sección son todas correctas si μ n es una secuencia de medidas de probabilidad en un espacio polaco .

Las diversas nociones de convergencia formalizan la afirmación de que el "valor medio" de cada función "suficientemente agradable" debería converger:

Para formalizar esto se requiere una especificación cuidadosa del conjunto de funciones bajo consideración y cuán uniforme debe ser la convergencia.

La noción de convergencia débil requiere que esta convergencia tenga lugar para cada función continua acotada f . Esta noción trata la convergencia para diferentes funciones f independientemente una de otra, es decir, diferentes funciones f pueden requerir diferentes valores de Nn para aproximarse igualmente bien (por lo tanto, la convergencia no es uniforme en f ).

La noción de convergencia por conjuntos formaliza la afirmación de que la medida de cada conjunto mensurable debe converger:

Nuevamente, no se requiere uniformidad en el conjunto A. Intuitivamente, considerando integrales de funciones "bonitas", esta noción proporciona más uniformidad que una convergencia débil. De hecho, cuando se consideran secuencias de medidas con variación uniformemente acotada en un espacio polaco , la convergencia por conjuntos implica la convergencia para cualquier función mensurable acotada f [ cita necesaria ] . Como antes, esta convergencia no es uniforme en f .

La noción de convergencia de variación total formaliza la afirmación de que la medida de todos los conjuntos mensurables debe converger uniformemente , es decir , para cada ε > 0 existe N tal que para cada n > N y para cada conjunto mensurable A. Como antes, esto implica la convergencia de integrales contra funciones mensurables acotadas, pero esta vez la convergencia es uniforme sobre todas las funciones acotadas por cualquier constante fija.

Convergencia de variación total de medidas

Esta es la noción más fuerte de convergencia que se muestra en esta página y se define de la siguiente manera. Sea un espacio mensurable . La distancia de variación total entre dos medidas (positivas) μ y ν viene dada por

Aquí se toma el supremo f que abarca el conjunto de todas las funciones medibles desde X hasta [−1, 1] . Esto contrasta, por ejemplo, con la métrica de Wasserstein , donde la definición es de la misma forma, pero se toma el supremo f que abarca el conjunto de funciones medibles desde X hasta [−1, 1] que tienen la constante de Lipschitz en más 1; y también en contraste con la métrica del radón , donde el supremo se toma sobre f que abarca el conjunto de funciones continuas de X a [−1, 1] . En el caso de que X sea un espacio polaco , la métrica de variación total coincide con la métrica del radón.

Si μ y ν son medidas de probabilidad , entonces la distancia de variación total también viene dada por

La equivalencia entre estas dos definiciones puede verse como un caso particular de la dualidad Monge-Kantorovich . De las dos definiciones anteriores, queda claro que la distancia de variación total entre medidas de probabilidad está siempre entre 0 y 2.

Para ilustrar el significado de la distancia de variación total, considere el siguiente experimento mental. Supongamos que tenemos dos medidas de probabilidad μ y ν , así como una variable aleatoria X. Sabemos que X tiene ley μ o ν pero no sabemos cuál de las dos. Supongamos que estas dos medidas tienen probabilidades a priori de 0,5 cada una de ser la verdadera ley de X. Supongamos ahora que se nos da una única muestra distribuida según la ley de X y que luego se nos pide que adivinemos cuál de las dos distribuciones describe esa ley. La cantidad

luego proporciona un límite superior agudo a la probabilidad previa de que nuestra suposición sea correcta.

Dada la definición anterior de distancia de variación total, se dice que una secuencia μ n de medidas definidas en el mismo espacio de medidas converge a una medida μ en distancia de variación total si para cada ε > 0 , existe un N tal que para todo n > N , uno tiene eso [1]

Convergencia establecida de medidas

Para un espacio medible , se dice que una secuencia μ n converge en sentido fijo a un límite μ si

para cada conjunto .

Las notaciones de flechas típicas son y .

Por ejemplo, como consecuencia del lema de Riemann-Lebesgue , la secuencia μ n de medidas en el intervalo [−1, 1] dada por μ n ( dx ) = (1 + sin( nx )) dx converge en sentido establecido a la medida de Lebesgue , pero no converge en variación total.

En un contexto teórico o probabilístico de medidas, la convergencia establecida a menudo se denomina convergencia fuerte (a diferencia de convergencia débil). Esto puede generar cierta ambigüedad porque en el análisis funcional, la convergencia fuerte generalmente se refiere a la convergencia con respecto a una norma.

Débil convergencia de medidas

En matemáticas y estadística , la convergencia débil es uno de los muchos tipos de convergencia relacionados con la convergencia de medidas . Depende de una topología del espacio subyacente y, por tanto, no es una noción puramente teórica de la medida.

Existen varias definiciones equivalentes de convergencia débil de una secuencia de medidas, algunas de las cuales son (aparentemente) más generales que otras. La equivalencia de estas condiciones se conoce a veces como teorema de Portmanteau . [2]

Definición. Sea un espacio métrico con su álgebra de Borel . Se dice que una secuencia acotada de medidas de probabilidad positivas converge débilmente a una medida de probabilidad (denotada como ) si cualquiera de las siguientes condiciones equivalentes es verdadera (aquí denota la expectativa o la norma con respecto a , mientras que denota la expectativa o la norma con respecto a ) :

En el caso de su topología habitual, si y denotan las funciones de distribución acumuladas de las medidas y , respectivamente, entonces converge débilmente a si y sólo si para todos los puntos en los que es continua.

Por ejemplo, la secuencia donde está ubicada la medida de Dirac converge débilmente con la medida de Dirac ubicada en 0 (si las vemos como medidas con la topología habitual), pero no converge en sentido establecido. Esto es intuitivamente claro: sólo sabemos que está "cerca" debido a la topología de .

Esta definición de convergencia débil puede ampliarse a cualquier espacio topológico metrizable . También define una topología débil en , el conjunto de todas las medidas de probabilidad definidas en . La topología débil se genera mediante la siguiente base de conjuntos abiertos:

dónde

Si también es separable , entonces es metrizable y separable, por ejemplo mediante la métrica de Lévy-Prokhorov . Si también es compacto o polaco , también lo es .

Si es separable, naturalmente se incrusta en el conjunto (cerrado) de medidas de Dirac , y su casco convexo es denso .

Hay muchas "notaciones de flecha" para este tipo de convergencia: las más utilizadas son , y .

Débil convergencia de variables aleatorias.

Sea un espacio de probabilidad y X un espacio métrico. Si X n : Ω → X es una secuencia de variables aleatorias , entonces se dice que X n converge débilmente (o en distribución o en ley ) a la variable aleatoria X : Ω → X como n → ∞ si la secuencia de medidas pushforward ( X n ) ( P ) converge débilmente a X ( P ) en el sentido de convergencia débil de medidas en X , como se definió anteriormente.

Comparación con convergencia vaga

Sea un espacio métrico (por ejemplo o ). Los siguientes espacios de funciones de prueba se utilizan comúnmente en la convergencia de medidas de probabilidad. [3]

Tenemos . Además, es el cierre de la convergencia uniforme. [3]

Convergencia vaga

Una secuencia de medidas converge vagamente a una medida si fuera para todos .

Convergencia débil

Una secuencia de medidas converge débilmente a una medida si fuera para todos .

En general, estas dos nociones de convergencia no son equivalentes.

En un entorno de probabilidad, la convergencia vaga y la convergencia débil de las medidas de probabilidad son equivalentes suponiendo rigidez . Es decir, una secuencia estrecha de medidas de probabilidad converge vagamente a una medida de probabilidad si y sólo si converge débilmente a .

El límite débil de una secuencia de medidas de probabilidad, siempre que exista, es una medida de probabilidad. En general, si no se asume rigidez, una secuencia de medidas de probabilidad (o subprobabilidad) no necesariamente puede converger vagamente a una medida de probabilidad verdadera, sino más bien a una medida de subprobabilidad (una medida tal que ). [3] Por lo tanto, no se garantiza que una secuencia de medidas de probabilidad tal que donde no se especifica que sea una medida de probabilidad implique una convergencia débil.

La débil convergencia de medidas como ejemplo de convergencia débil-*

A pesar de tener el mismo nombre que convergencia débil en el contexto del análisis funcional, la convergencia débil de medidas es en realidad un ejemplo de convergencia débil-*. Las definiciones de convergencias débil y débil-* utilizadas en el análisis funcional son las siguientes:

Sea un espacio vectorial topológico o espacio de Banach.

  1. Una secuencia en converge débilmente a if as for all . Se escribe como .
  2. Una secuencia de converge en la topología débil-* para proporcionar eso a todos . Es decir, la convergencia se produce en el sentido puntual. En este caso, se escribe como .

Para ilustrar cómo la convergencia débil de medidas es un ejemplo de convergencia débil-*, damos un ejemplo en términos de convergencia vaga (ver arriba). Sea un espacio Hausdorff localmente compacto. Según el teorema de representación de Riesz , el espacio de medidas de radón es isomorfo a un subespacio del espacio de funcionales lineales continuos . Por lo tanto, para cada medida de Radón , existe un funcional lineal tal que para todos . Aplicando la definición de convergencia débil-* en términos de funcionales lineales, se obtiene la caracterización de convergencia vaga de medidas. Para compacto , en este caso la convergencia débil de medidas es un caso especial de convergencia débil-*.

Ver también

notas y referencias

  1. ^ Madrás, Neil; Sezer, Deniz (25 de febrero de 2011). "Límites cuantitativos para la convergencia de la cadena de Markov: Wasserstein y distancias de variación total". Bernoulli . 16 (3): 882–908. arXiv : 1102.5245 . doi :10.3150/09-BEJ238. S2CID  88518773.
  2. ^ Klenke, Achim (2006). Teoría de probabilidad . Springer-Verlag. ISBN 978-1-84800-047-6.
  3. ^ abc Chung, Kai Lai (1974). Un curso de teoría de la probabilidad. Archivo de Internet. Nueva York, Academic Press. págs. 84–99. ISBN 978-0-12-174151-8.

Otras lecturas