El método de Stein

El método de Stein es un método general en teoría de probabilidad para obtener límites en la distancia entre dos distribuciones de probabilidad con respecto a una métrica de probabilidad . Fue introducido por Charles Stein , quien lo publicó por primera vez en 1972, ^[1] para obtener un límite entre la distribución de una suma de secuencias dependientes de variables aleatorias y una distribución normal estándar en la métrica de Kolmogorov (uniforme) y, por lo tanto, para demostrar no solo un teorema de límite central , sino también límites en las tasas de convergencia para la métrica dada. ${\estilo de visualización m}$

Historia

A finales de la década de 1960, insatisfecho con las pruebas que ya se conocían de un teorema de límite central específico , Charles Stein desarrolló una nueva forma de demostrar el teorema para su conferencia de estadística . ^[2] Su artículo seminal fue presentado en 1970 en el sexto Simposio de Berkeley y publicado en las actas correspondientes. ^[1]

Más tarde, su estudiante de doctorado Louis Chen Hsiao Yun modificó el método para obtener resultados de aproximación para la distribución de Poisson ; ^[3] por lo tanto, el método de Stein aplicado al problema de la aproximación de Poisson a menudo se conoce como el método Stein-Chen .

Probablemente las contribuciones más importantes sean la monografía de Stein (1986), donde presenta su visión del método y el concepto de aleatorización auxiliar , en particular utilizando pares intercambiables , y los artículos de Barbour (1988) y Götze (1991), que introdujeron la llamada interpretación de generador , que hizo posible adaptar fácilmente el método a muchas otras distribuciones de probabilidad. Una contribución importante también fue un artículo de Bolthausen (1984) sobre el llamado teorema del límite central combinatorio . ^{[ cita requerida ]}

En la década de 1990, el método se adaptó a una variedad de distribuciones, como los procesos gaussianos de Barbour (1990), la distribución binomial de Ehm (1991), los procesos de Poisson de Barbour y Brown (1992), la distribución Gamma de Luk (1994) y muchos otros.

El método ganó mayor popularidad en la comunidad de aprendizaje automático a mediados de la década de 2010, tras el desarrollo de discrepancias de Stein computables y las diversas aplicaciones y algoritmos basados en ellas.

El enfoque básico

Métricas de probabilidad

El método de Stein es una forma de limitar la distancia entre dos distribuciones de probabilidad utilizando una métrica de probabilidad específica .

Sea la métrica dada en la forma

(1.1)\quad d(P,Q)=\sup _{h\in {\mathcal {H}}}\left|\int h\,dP-\int h\,dQ\right|=\sup _{h\in {\mathcal {H}}}\left|Eh(W)-Eh(Y)\right|

Aquí, y son medidas de probabilidad en un espacio medible , y son variables aleatorias con distribución y respectivamente, es el operador de expectativa habitual y es un conjunto de funciones de al conjunto de números reales. El conjunto tiene que ser lo suficientemente grande, de modo que la definición anterior produzca de hecho una métrica . ${\estilo de visualización P}$ ${\estilo de visualización Q}$ ${\mathcal {X}}$ ${\estilo de visualización W}$ ${\estilo de visualización Y}$ ${\estilo de visualización P}$ ${\estilo de visualización Q}$ ${\estilo de visualización E}$ ${\mathcal {H}}$ ${\mathcal {X}}$ ${\mathcal {H}}$

Ejemplos importantes son la métrica de variación total , donde dejamos que consista en todas las funciones indicadoras de conjuntos mensurables, la métrica de Kolmogorov (uniforme) para medidas de probabilidad en los números reales, donde consideramos todas las funciones indicadoras de media línea, y la métrica de Lipschitz (Wasserstein de primer orden; Kantorovich) , donde el espacio subyacente es en sí mismo un espacio métrico y tomamos el conjunto como todas las funciones Lipschitz-continuas con constante Lipschitz 1. Sin embargo, tenga en cuenta que no todas las métricas se pueden representar en la forma (1.1). ${\mathcal {H}}$ ${\mathcal {H}}$

A continuación se presenta una distribución complicada (por ejemplo, la distribución de una suma de variables aleatorias dependientes), que queremos aproximar mediante una distribución mucho más simple y manejable (por ejemplo, la distribución normal estándar). ${\estilo de visualización P}$ ${\estilo de visualización Q}$

El operador Stein

Suponemos ahora que la distribución es una distribución fija; en lo que sigue consideraremos en particular el caso donde es la distribución normal estándar, que sirve como ejemplo clásico. ${\estilo de visualización Q}$ ${\estilo de visualización Q}$

En primer lugar, necesitamos un operador , que actúa sobre funciones del conjunto de números reales y 'caracteriza' la distribución en el sentido de que se cumple la siguiente equivalencia: ${\mathcal {A}}$ ${\estilo de visualización f}$ ${\mathcal {X}}$ ${\estilo de visualización Q}$

(2.1)\quad E[({\mathcal {A}}f)](Y):=E(({\mathcal {A}}f)(Y))=0{\text{ para todo }}f\quad \iff \quad Y{\text{ tiene distribución }}Q.

A este operador lo llamamos operador de Stein .

Para la distribución normal estándar, el lema de Stein produce el siguiente operador:

(2.2)\quad E\left(f'(Y)-Yf(Y)\right)=0{\text{ for all }}f\in C_{b}^{1}\quad \iff \quad Y{\text{ has standard normal distribution.}}

Así pues, podemos tomar

(2.3)\quad ({\mathcal {A}}f)(x)=f'(x)-xf(x).

En general, hay una cantidad infinita de operadores de este tipo y aún queda abierta la cuestión de cuál elegir. Sin embargo, parece que para muchas distribuciones existe uno particularmente bueno , como (2.3) para la distribución normal.

Hay diferentes formas de encontrar operadores de Stein. ^[4]

La ecuación de Stein

$P$ está cerca de con respecto a si la diferencia de expectativas en (1.1) es cercana a 0. Esperamos ahora que el operador exhiba el mismo comportamiento: si entonces , y con suerte si tenemos . $Q$ $d$ ${\mathcal {A}}$ $P=Q$ $E({\mathcal {A}}f)(W)=0$ $P\approx Q$ $E({\mathcal {A}}f)(W)\approx 0$

Generalmente es posible definir una función tal que $f=f_{h}$

(3.1)\quad ({\mathcal {A}}f)(x)=h(x)-E[h(Y)]\qquad {\text{ for all }}x.

Llamamos (3.1) ecuación de Stein . Reemplazando por y tomando la esperanza con respecto a , obtenemos $x$ $W$ $W$

(3.2)\quad E({\mathcal {A}}f)(W)=E[h(W)]-E[h(Y)].

Ahora bien, todo el esfuerzo sólo vale la pena si el lado izquierdo de (3.2) es más fácil de acotar que el lado derecho. Sorprendentemente, este suele ser el caso.

Si es la distribución normal estándar y utilizamos (2.3), entonces la ecuación de Stein correspondiente es $Q$

(3.3)\quad f'(x)-xf(x)=h(x)-E[h(Y)]\qquad {\text{for all }}x.

Si la distribución de probabilidad Q tiene una densidad q absolutamente continua (con respecto a la medida de Lebesgue), entonces ^[4]

(3.4)\quad ({\mathcal {A}}f)(x)=f'(x)+f(x)q'(x)/q(x).

Resolviendo la ecuación de Stein

Métodos analíticos . La ecuación (3.3) se puede resolver fácilmente de forma explícita:

(4.1)\quad f(x)=e^{x^{2}/2}\int _{-\infty }^{x}[h(s)-Eh(Y)]e^{-s^{2}/2}\,ds.

Método del generador . Si es el generador de un proceso de Markov (véase Barbour (1988), Götze (1991)), entonces la solución de (3.2) es ${\mathcal {A}}$ $(Z_{t})_{t\geq 0}$

(4.2)\quad f(x)=-\int _{0}^{\infty }[E^{x}h(Z_{t})-Eh(Y)]\,dt,

donde denota expectativa con respecto al proceso que se inicia en . Sin embargo, todavía hay que demostrar que la solución (4.2) existe para todas las funciones deseadas . $E^{x}$ $Z$ $x$ $h\in {\mathcal {H}}$

Propiedades de la solución de la ecuación de Stein

Por lo general, se intenta dar límites a y sus derivadas (o diferencias) en términos de y sus derivadas (o diferencias), es decir, desigualdades de la forma $f$ $h$

(5.1)\quad \|D^{k}f\|\leq C_{k,l}\|D^{l}h\|,

para algunos específicos (normalmente o , respectivamente, dependiendo de la forma del operador de Stein), donde a menudo es la norma suprema. Aquí, denota el operador diferencial , pero en entornos discretos suele referirse a un operador de diferencia . Las constantes pueden contener los parámetros de la distribución . Si los hay, a menudo se los denomina factores de Stein . $k,l=0,1,2,\dots$ $k\geq l$ $k\geq l-1$ $\|\cdot \|$ $D^{k}$ $C_{k,l}$ $Q$

En el caso de (4.1) se puede demostrar para la norma suprema que

(5.2)\quad \|f\|_{\infty }\leq \min \left\{{\sqrt {\pi /2}}\|h\|_{\infty },2\|h'\|_{\infty }\right\},\quad \|f'\|_{\infty }\leq \min\{2\|h\|_{\infty },4\|h'\|_{\infty }\},\quad \|f''\|_{\infty }\leq 2\|h'\|_{\infty },

donde el último límite, por supuesto, solo es aplicable si es diferenciable (o al menos Lipschitz-continua, lo que, por ejemplo, no es el caso si consideramos la métrica de variación total o la métrica de Kolmogorov). Como la distribución normal estándar no tiene parámetros adicionales, en este caso específico las constantes están libres de parámetros adicionales. $h$

Si tenemos límites en la forma general (5.1), normalmente podemos tratar muchas métricas de probabilidad juntas. A menudo, se puede comenzar con el siguiente paso, si ya se dispone de límites en la forma (5.1) (que es el caso de muchas distribuciones).

Un teorema de aproximación abstracta

Ahora estamos en condiciones de acotar el lado izquierdo de (3.1). Como este paso depende en gran medida de la forma del operador de Stein, consideramos directamente el caso de la distribución normal estándar.

En este punto, podríamos introducir directamente la variable aleatoria , que queremos aproximar, e intentar encontrar límites superiores. Sin embargo, suele ser útil formular un teorema más general. Consideremos aquí el caso de la dependencia local. $W$

Supongamos que es una suma de variables aleatorias tales que y varianza . Supongamos que, para cada , existe un conjunto , tal que es independiente de todas las variables aleatorias con . Llamamos a este conjunto el 'vecindario' de . Asimismo, sea un conjunto tal que todos con son independientes de todos los , . Podemos pensar en como los vecinos en el vecindario de , un vecindario de segundo orden, por así decirlo. Para un conjunto definamos ahora la suma . $W=\sum _{i=1}^{n}X_{i}$ $E[W]=0$ $\operatorname {var} [W]=1$ $i=1,\dots ,n$ $A_{i}\subset \{1,2,\dots ,n\}$ $X_{i}$ $X_{j}$ $j\not \in A_{i}$ $X_{i}$ $B_{i}\subset \{1,2,\dots ,n\}$ $X_{j}$ $j\in A_{i}$ $X_{k}$ $k\not \in B_{i}$ $B_{i}$ $X_{i}$ $A\subset \{1,2,\dots ,n\}$ $X_{A}:=\sum _{j\in A}X_{j}$

Utilizando la expansión de Taylor, es posible demostrar que

(6.1)\quad \left|E(f'(W)-Wf(W))\right|\leq \|f''\|_{\infty }\sum _{i=1}^{n}\left({\frac {1}{2}}E|X_{i}X_{A_{i}}^{2}|+E|X_{i}X_{A_{i}}X_{B_{i}\setminus A_{i}}|+E|X_{i}X_{A_{i}}|E|X_{B_{i}}|\right)

Nótese que, si seguimos esta línea de argumentación, podemos acotar (1.1) solo para funciones donde está acotado debido a la tercera desigualdad de (5.2) (y de hecho, si tiene discontinuidades, también las tendrá ). Para obtener una acotación similar a (6.1) que contenga solo las expresiones y , el argumento es mucho más complejo y el resultado no es tan simple como (6.1); sin embargo, se puede hacer. $\|h'\|_{\infty }$ $h$ $f''$ $\|f\|_{\infty }$ $\|f'\|_{\infty }$

Teorema A. Si es como se describió anteriormente, tenemos para la métrica de Lipschitz que $W$ $d_{W}$

(6.2)\quad d_{W}({\mathcal {L}}(W),N(0,1))\leq 2\sum _{i=1}^{n}\left({\frac {1}{2}}E|X_{i}X_{A_{i}}^{2}|+E|X_{i}X_{A_{i}}X_{B_{i}\setminus A_{i}}|+E|X_{i}X_{A_{i}}|E|X_{B_{i}}|\right).

Demostración . Recordemos que la métrica de Lipschitz tiene la forma (1.1), donde las funciones son Lipschitz-continuas con Lipschitz-constante 1, por lo tanto . Combinando esto con (6.1) y el último límite en (5.2), se demuestra el teorema. $h$ $\|h'\|\leq 1$

Así, a grandes rasgos, hemos demostrado que, para calcular la distancia de Lipschitz entre una estructura con dependencia local y una distribución normal estándar, sólo necesitamos conocer los terceros momentos de y el tamaño de los vecindarios y . $W$ $X_{i}$ $A_{i}$ $B_{i}$

Aplicación del teorema

Podemos tratar el caso de sumas de variables aleatorias independientes e idénticamente distribuidas con el Teorema A.

Supongamos que , y . Podemos tomar . Del teorema A obtenemos que $EX_{i}=0$ $\operatorname {var} X_{i}=1$ $W=n^{-1/2}\sum X_{i}$ $A_{i}=B_{i}=\{i\}$

(7.1)\quad d_{W}({\mathcal {L}}(W),N(0,1))\leq {\frac {5E|X_{1}|^{3}}{n^{1/2}}}.

Para las sumas de variables aleatorias, otro enfoque relacionado con el método de Stein se conoce como transformada de sesgo cero .

Conexiones con otros métodos

Dispositivo de Lindeberg . Lindeberg (1922) introdujo un dispositivo en el que la diferencia se representa como una suma de diferencias paso a paso. $Eh(X_{1}+\cdots +X_{n})-Eh(Y_{1}+\cdots +Y_{n})$

Método de Tikhomirov . Claramente, el enfoque a través de (1.1) y (3.1) no involucra funciones características . Sin embargo, Tikhomirov (1980) presentó una prueba de un teorema de límite central basado en funciones características y un operador diferencial similar a (2.3). La observación básica es que la función característica de la distribución normal estándar satisface la ecuación diferencial para todo . Por lo tanto, si la función característica de es tal que esperamos que y, por lo tanto, que está cerca de la distribución normal. Tikhomirov afirma en su artículo que se inspiró en el artículo seminal de Stein. $\psi (t)$ $\psi '(t)+t\psi (t)=0$ $t$ $\psi _{W}(t)$ $W$ $\psi '_{W}(t)+t\psi _{W}(t)\approx 0$ $\psi _{W}(t)\approx \psi (t)$ $W$

Véase también

Notas

^ ab Stein, C. (1972). "Un límite para el error en la aproximación normal a la distribución de una suma de variables aleatorias dependientes". Actas del Sexto Simposio de Berkeley sobre Estadística Matemática y Probabilidad, Volumen 2. Vol. 6. University of California Press . págs. 583–602. MR 0402873. Zbl 0278.60026.
^ Charles Stein: Lo invariante, lo directo y lo "pretencioso" Archivado el 5 de julio de 2007 en Wayback Machine . Entrevista concedida en 2003 en Singapur
^ Chen, LHY (1975). "Aproximación de Poisson para ensayos dependientes". Anales de probabilidad . 3 (3): 534–545. doi : 10.1214/aop/1176996359 . JSTOR 2959474. MR 0428387. Zbl 0335.60016.
^ ab Novak, SY (2011). Métodos de valor extremo con aplicaciones a las finanzas . Monografías sobre estadística y probabilidad aplicada. Vol. 122. CRC Press . Cap. 12. ISBN. 978-1-43983-574-6.

Referencias

Barbour, AD (1988). "Método de Stein y convergencia del proceso de Poisson". Journal of Applied Probability . 25 : 175–184. doi :10.2307/3214155. JSTOR 3214155. S2CID 121759039.
Barbour, AD (1990). "El método de Stein para aproximaciones de difusión". Teoría de la probabilidad y campos relacionados . 84 (3): 297–322. doi : 10.1007/BF01197887 . S2CID 123057547.
Barbour, AD y Brown, TC (1992). "Método de Stein y aproximación de proceso puntual". Procesos estocásticos y sus aplicaciones . 43 (1): 9–31. doi : 10.1016/0304-4149(92)90073-Y .
Bolthausen, E. (1984). "Una estimación del resto en un teorema combinatorio del límite central". Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete . 66 (3): 379–386. doi : 10.1007/BF00533704 . S2CID 121725342.
Ehm, W. (1991). "Aproximación binomial a la distribución binomial de Poisson". Statistics & Probability Letters . 11 (1): 7–16. doi :10.1016/0167-7152(91)90170-V.
Götze, F. (1991). "Sobre la tasa de convergencia en el CLT multivariante". Anales de probabilidad . 19 (2): 724–739. doi : 10.1214/aop/1176990448 .
Lindeberg, JW (1922). "Eine neue Herleitung des Exponentialgesetzes in der Wahrscheinlichkeitsrechung". Mathematische Zeitschrift . 15 (1): 211–225. doi :10.1007/BF01494395. S2CID 119730242.
Luk, HM (1994). Método de Stein para la distribución gamma y aplicaciones estadísticas relacionadas . Tesis doctoral.
Novak, SY (2011). Métodos de valor extremo con aplicaciones a las finanzas . Monografías sobre estadística y probabilidad aplicada. Vol. 122. CRC Press . ISBN. 978-1-43983-574-6.
Stein, C. (1986). Cálculo aproximado de expectativas . Serie de monografías y notas de clase. Vol. 7. Instituto de Estadística Matemática . ISBN. 0-940600-08-0.
Tikhomirov, AN (1980). "Tasa de convergencia en el teorema del límite central para variables aleatorias débilmente dependientes". Teoriya Veroyatnostei i ee Primeneniya . 25 : 800–818. Traducción al inglés en Tikhomirov, AN (1981). "Sobre la tasa de convergencia en el teorema del límite central para variables aleatorias débilmente dependientes". Teoría de la probabilidad y sus aplicaciones . 25 (4): 790–809. doi :10.1137/1125092.

Literatura

El siguiente texto es avanzado y ofrece una descripción general completa del caso normal.

Chen, LHY, Goldstein, L. y Shao, QM (2011). Aproximación normal por el método de Stein . www.springer.com. ISBN 978-3-642-15006-7.{{cite book}}: CS1 maint: multiple names: authors list (link)

Otro libro avanzado, pero que tiene cierto carácter introductorio, es

Barbour, AD; Chen, LHY, eds. (2005). Introducción al método de Stein . Serie de notas de clase, Instituto de Ciencias Matemáticas, Universidad Nacional de Singapur. Vol. 4. Prensa de la Universidad de Singapur. ISBN 981-256-280-X.

Una referencia estándar es el libro de Stein,

Stein, C. (1986). Cálculo aproximado de expectativas . Apuntes de clase del Instituto de Estadística Matemática, Serie de monografías, 7. Hayward, California: Instituto de Estadística Matemática. ISBN 0-940600-08-0.

que contiene mucho material interesante, pero puede resultar un poco difícil de entender en la primera lectura.

A pesar de su antigüedad, existen pocos libros introductorios sobre el método de Stein. El siguiente libro de texto reciente tiene un capítulo (Capítulo 2) dedicado a la introducción del método de Stein:

Ross, Sheldon y Peköz, Erol (2007). Un segundo curso de probabilidad . ISBN 978-0-9795704-0-7.

Aunque el libro

Barbour, AD y Holst, L. y Janson, S. (1992). Aproximación de Poisson . Oxford Studies in Probability. Vol. 2. The Clarendon Press Oxford University Press. ISBN 0-19-852235-5.{{cite book}}: CS1 maint: multiple names: authors list (link)

Se trata en gran parte de la aproximación de Poisson, pero contiene mucha información sobre el enfoque del generador, en particular en el contexto de la aproximación del proceso de Poisson.

El siguiente libro de texto tiene un capítulo (Capítulo 10) dedicado a introducir el método de aproximación de Poisson de Stein:

Sheldon M. Ross (1995). Procesos estocásticos . Wiley. ISBN 978-0471120629.