stringtranslate.com

El método de Stein

El método de Stein es un método general en teoría de probabilidad para obtener límites en la distancia entre dos distribuciones de probabilidad con respecto a una métrica de probabilidad . Fue introducido por Charles Stein , quien lo publicó por primera vez en 1972, [1] para obtener un límite entre la distribución de una suma de secuencias dependientes de variables aleatorias y una distribución normal estándar en la métrica de Kolmogorov (uniforme) y, por lo tanto, para demostrar no solo un teorema de límite central , sino también límites en las tasas de convergencia para la métrica dada.

Historia

A finales de la década de 1960, insatisfecho con las pruebas que ya se conocían de un teorema de límite central específico , Charles Stein desarrolló una nueva forma de demostrar el teorema para su conferencia de estadística . [2] Su artículo seminal fue presentado en 1970 en el sexto Simposio de Berkeley y publicado en las actas correspondientes. [1]

Más tarde, su estudiante de doctorado Louis Chen Hsiao Yun modificó el método para obtener resultados de aproximación para la distribución de Poisson ; [3] por lo tanto, el método de Stein aplicado al problema de la aproximación de Poisson a menudo se conoce como el método Stein-Chen .

Probablemente las contribuciones más importantes sean la monografía de Stein (1986), donde presenta su visión del método y el concepto de aleatorización auxiliar , en particular utilizando pares intercambiables , y los artículos de Barbour (1988) y Götze (1991), que introdujeron la llamada interpretación de generador , que hizo posible adaptar fácilmente el método a muchas otras distribuciones de probabilidad. Una contribución importante también fue un artículo de Bolthausen (1984) sobre el llamado teorema del límite central combinatorio . [ cita requerida ]

En la década de 1990, el método se adaptó a una variedad de distribuciones, como los procesos gaussianos de Barbour (1990), la distribución binomial de Ehm (1991), los procesos de Poisson de Barbour y Brown (1992), la distribución Gamma de Luk (1994) y muchos otros.

El método ganó mayor popularidad en la comunidad de aprendizaje automático a mediados de la década de 2010, tras el desarrollo de discrepancias de Stein computables y las diversas aplicaciones y algoritmos basados ​​en ellas.

El enfoque básico

Métricas de probabilidad

El método de Stein es una forma de limitar la distancia entre dos distribuciones de probabilidad utilizando una métrica de probabilidad específica .

Sea la métrica dada en la forma

Aquí, y son medidas de probabilidad en un espacio medible , y son variables aleatorias con distribución y respectivamente, es el operador de expectativa habitual y es un conjunto de funciones de al conjunto de números reales. El conjunto tiene que ser lo suficientemente grande, de modo que la definición anterior produzca de hecho una métrica .

Ejemplos importantes son la métrica de variación total , donde dejamos que consista en todas las funciones indicadoras de conjuntos mensurables, la métrica de Kolmogorov (uniforme) para medidas de probabilidad en los números reales, donde consideramos todas las funciones indicadoras de media línea, y la métrica de Lipschitz (Wasserstein de primer orden; Kantorovich) , donde el espacio subyacente es en sí mismo un espacio métrico y tomamos el conjunto como todas las funciones Lipschitz-continuas con constante Lipschitz 1. Sin embargo, tenga en cuenta que no todas las métricas se pueden representar en la forma (1.1).

A continuación se presenta una distribución complicada (por ejemplo, la distribución de una suma de variables aleatorias dependientes), que queremos aproximar mediante una distribución mucho más simple y manejable (por ejemplo, la distribución normal estándar).

El operador Stein

Suponemos ahora que la distribución es una distribución fija; en lo que sigue consideraremos en particular el caso donde es la distribución normal estándar, que sirve como ejemplo clásico.

En primer lugar, necesitamos un operador , que actúa sobre funciones del conjunto de números reales y 'caracteriza' la distribución en el sentido de que se cumple la siguiente equivalencia:

A este operador lo llamamos operador de Stein .

Para la distribución normal estándar, el lema de Stein produce el siguiente operador:

Así pues, podemos tomar

En general, hay una cantidad infinita de operadores de este tipo y aún queda abierta la cuestión de cuál elegir. Sin embargo, parece que para muchas distribuciones existe uno particularmente bueno , como (2.3) para la distribución normal.

Hay diferentes formas de encontrar operadores de Stein. [4]

La ecuación de Stein

está cerca de con respecto a si la diferencia de expectativas en (1.1) es cercana a 0. Esperamos ahora que el operador exhiba el mismo comportamiento: si entonces , y con suerte si tenemos .

Generalmente es posible definir una función tal que

Llamamos (3.1) ecuación de Stein . Reemplazando por y tomando la esperanza con respecto a , obtenemos

Ahora bien, todo el esfuerzo sólo vale la pena si el lado izquierdo de (3.2) es más fácil de acotar que el lado derecho. Sorprendentemente, este suele ser el caso.

Si es la distribución normal estándar y utilizamos (2.3), entonces la ecuación de Stein correspondiente es

Si la distribución de probabilidad Q tiene una densidad q absolutamente continua (con respecto a la medida de Lebesgue), entonces [4]

Resolviendo la ecuación de Stein

Métodos analíticos . La ecuación (3.3) se puede resolver fácilmente de forma explícita:

Método del generador . Si es el generador de un proceso de Markov (véase Barbour (1988), Götze (1991)), entonces la solución de (3.2) es

donde denota expectativa con respecto al proceso que se inicia en . Sin embargo, todavía hay que demostrar que la solución (4.2) existe para todas las funciones deseadas .

Propiedades de la solución de la ecuación de Stein

Por lo general, se intenta dar límites a y sus derivadas (o diferencias) en términos de y sus derivadas (o diferencias), es decir, desigualdades de la forma

para algunos específicos (normalmente o , respectivamente, dependiendo de la forma del operador de Stein), donde a menudo es la norma suprema. Aquí, denota el operador diferencial , pero en entornos discretos suele referirse a un operador de diferencia . Las constantes pueden contener los parámetros de la distribución . Si los hay, a menudo se los denomina factores de Stein .

En el caso de (4.1) se puede demostrar para la norma suprema que

donde el último límite, por supuesto, solo es aplicable si es diferenciable (o al menos Lipschitz-continua, lo que, por ejemplo, no es el caso si consideramos la métrica de variación total o la métrica de Kolmogorov). Como la distribución normal estándar no tiene parámetros adicionales, en este caso específico las constantes están libres de parámetros adicionales.

Si tenemos límites en la forma general (5.1), normalmente podemos tratar muchas métricas de probabilidad juntas. A menudo, se puede comenzar con el siguiente paso, si ya se dispone de límites en la forma (5.1) (que es el caso de muchas distribuciones).

Un teorema de aproximación abstracta

Ahora estamos en condiciones de acotar el lado izquierdo de (3.1). Como este paso depende en gran medida de la forma del operador de Stein, consideramos directamente el caso de la distribución normal estándar.

En este punto, podríamos introducir directamente la variable aleatoria , que queremos aproximar, e intentar encontrar límites superiores. Sin embargo, suele ser útil formular un teorema más general. Consideremos aquí el caso de la dependencia local.

Supongamos que es una suma de variables aleatorias tales que y varianza . Supongamos que, para cada , existe un conjunto , tal que es independiente de todas las variables aleatorias con . Llamamos a este conjunto el 'vecindario' de . Asimismo, sea un conjunto tal que todos con son independientes de todos los , . Podemos pensar en como los vecinos en el vecindario de , un vecindario de segundo orden, por así decirlo. Para un conjunto definamos ahora la suma .

Utilizando la expansión de Taylor, es posible demostrar que

Nótese que, si seguimos esta línea de argumentación, podemos acotar (1.1) solo para funciones donde está acotado debido a la tercera desigualdad de (5.2) (y de hecho, si tiene discontinuidades, también las tendrá ). Para obtener una acotación similar a (6.1) que contenga solo las expresiones y , el argumento es mucho más complejo y el resultado no es tan simple como (6.1); sin embargo, se puede hacer.

Teorema A. Si es como se describió anteriormente, tenemos para la métrica de Lipschitz que

Demostración . Recordemos que la métrica de Lipschitz tiene la forma (1.1), donde las funciones son Lipschitz-continuas con Lipschitz-constante 1, por lo tanto . Combinando esto con (6.1) y el último límite en (5.2), se demuestra el teorema.

Así, a grandes rasgos, hemos demostrado que, para calcular la distancia de Lipschitz entre una estructura con dependencia local y una distribución normal estándar, sólo necesitamos conocer los terceros momentos de y el tamaño de los vecindarios y .

Aplicación del teorema

Podemos tratar el caso de sumas de variables aleatorias independientes e idénticamente distribuidas con el Teorema A.

Supongamos que , y . Podemos tomar . Del teorema A obtenemos que

Para las sumas de variables aleatorias, otro enfoque relacionado con el método de Stein se conoce como transformada de sesgo cero .

Conexiones con otros métodos

Véase también

Notas

  1. ^ ab Stein, C. (1972). "Un límite para el error en la aproximación normal a la distribución de una suma de variables aleatorias dependientes". Actas del Sexto Simposio de Berkeley sobre Estadística Matemática y Probabilidad, Volumen 2. Vol. 6. University of California Press . págs. 583–602. MR  0402873. Zbl  0278.60026.
  2. ^ Charles Stein: Lo invariante, lo directo y lo "pretencioso" Archivado el 5 de julio de 2007 en Wayback Machine . Entrevista concedida en 2003 en Singapur
  3. ^ Chen, LHY (1975). "Aproximación de Poisson para ensayos dependientes". Anales de probabilidad . 3 (3): 534–545. doi : 10.1214/aop/1176996359 . JSTOR  2959474. MR  0428387. Zbl  0335.60016.
  4. ^ ab Novak, SY (2011). Métodos de valor extremo con aplicaciones a las finanzas . Monografías sobre estadística y probabilidad aplicada. Vol. 122. CRC Press . Cap. 12. ISBN. 978-1-43983-574-6.

Referencias

Literatura

El siguiente texto es avanzado y ofrece una descripción general completa del caso normal.

Otro libro avanzado, pero que tiene cierto carácter introductorio, es

Una referencia estándar es el libro de Stein,

que contiene mucho material interesante, pero puede resultar un poco difícil de entender en la primera lectura.

A pesar de su antigüedad, existen pocos libros introductorios sobre el método de Stein. El siguiente libro de texto reciente tiene un capítulo (Capítulo 2) dedicado a la introducción del método de Stein:

Aunque el libro

Se trata en gran parte de la aproximación de Poisson, pero contiene mucha información sobre el enfoque del generador, en particular en el contexto de la aproximación del proceso de Poisson.

El siguiente libro de texto tiene un capítulo (Capítulo 10) dedicado a introducir el método de aproximación de Poisson de Stein: