El método de Stein.

El método de Stein es un método general en teoría de la probabilidad para obtener límites en la distancia entre dos distribuciones de probabilidad con respecto a una métrica de probabilidad . Fue introducido por Charles Stein , quien lo publicó por primera vez en 1972, ^[1] para obtener un límite entre la distribución de una suma de secuencia dependiente de variables aleatorias y una distribución normal estándar en la métrica de Kolmogorov (uniforme) y, por lo tanto, para demostrar no sólo un teorema del límite central , sino también límites de las tasas de convergencia para la métrica dada. $m$

Historia

A finales de la década de 1960, insatisfecho con las demostraciones entonces conocidas de un teorema del límite central específico , Charles Stein desarrolló una nueva forma de demostrar el teorema para su conferencia de estadística . ^[2] Su artículo fundamental fue presentado en 1970 en el sexto Simposio de Berkeley y publicado en las actas correspondientes. ^[1]

Posteriormente, su Ph.D. el estudiante Louis Chen Hsiao Yun modificó el método para obtener resultados de aproximación para la distribución de Poisson ; ^[3] por lo tanto, el método de Stein aplicado al problema de la aproximación de Poisson a menudo se denomina método de Stein-Chen .

Probablemente las contribuciones más importantes sean la monografía de Stein (1986), donde presenta su visión del método y el concepto de aleatorización auxiliar , en particular utilizando pares intercambiables , y los artículos de Barbour (1988) y Götze (1991), quienes introdujo la llamada interpretación del generador , que hizo posible adaptar fácilmente el método a muchas otras distribuciones de probabilidad. Una contribución importante fue también un artículo de Bolthausen (1984) sobre el llamado teorema del límite central combinatorio . ^{[ cita necesaria ]}

En la década de 1990, el método se adaptó a una variedad de distribuciones, como los procesos gaussianos de Barbour (1990), la distribución binomial de Ehm (1991), los procesos de Poisson de Barbour y Brown (1992), la distribución gamma de Luk (1994). , y muchos otros.

El método ganó mayor popularidad en la comunidad de aprendizaje automático a mediados de la década de 2010, tras el desarrollo de discrepancias de Stein computables y las diversas aplicaciones y algoritmos basados en ellas.

El enfoque básico

Métricas de probabilidad

El método de Stein es una forma de limitar la distancia entre dos distribuciones de probabilidad utilizando una métrica de probabilidad específica .

Sea la métrica dada en la forma

(1.1)\quad d(P,Q)=\sup _ {h\in {\mathcal {H}}}\left|\int h\,dP-\int h\,dQ\right|= \sup _ {h\in {\mathcal {H}}}\left|Eh(W)-Eh(Y)\right|

Aquí, y son medidas de probabilidad en un espacio mensurable , y son variables aleatorias con distribución y, respectivamente, es el operador de expectativa habitual y es un conjunto de funciones del conjunto de números reales. El conjunto debe ser lo suficientemente grande para que la definición anterior produzca una métrica . $P$ $Q$ ${\mathcal {X}}$ $W$ $Y$ $P$ $Q$ $E$ ${\mathcal {H}}$ ${\mathcal {X}}$ ${\mathcal {H}}$

Ejemplos importantes son la métrica de variación total , donde consideramos todas las funciones indicadoras de conjuntos medibles, la métrica Kolmogorov (uniforme) para medidas de probabilidad de números reales, donde consideramos todas las funciones indicadoras de media línea, y la métrica de Lipschitz ( primer orden Wasserstein; Kantorovich) , donde el espacio subyacente es en sí mismo un espacio métrico y tomamos el conjunto como todas las funciones continuas de Lipschitz con constante de Lipschitz 1. Sin embargo, tenga en cuenta que no todas las métricas se pueden representar en la forma (1.1). ). ${\mathcal {H}}$ ${\mathcal {H}}$

Lo que sigue es una distribución complicada (por ejemplo, la distribución de una suma de variables aleatorias dependientes), que queremos aproximar mediante una distribución mucho más simple y manejable (por ejemplo, la distribución normal estándar). $P$ $Q$

El operador Stein

Suponemos ahora que la distribución es fija; a continuación consideraremos en particular el caso de la distribución normal estándar, que sirve como ejemplo clásico. $Q$ $Q$

En primer lugar, necesitamos un operador , que actúa sobre funciones desde hasta el conjunto de números reales y 'caracteriza' la distribución en el sentido de que se cumple la siguiente equivalencia: ${\mathcal {A}}$ $f$ ${\mathcal {X}}$ $Q$

(2.1)\quad E[({\mathcal {A}}f)](Y):=E(({\mathcal {A}}f)(Y))=0{\text{ para todos }}f\quad \iff \quad Y{\text{ tiene distribución }}Q.

A este operador lo llamamos operador Stein .

Para la distribución normal estándar, el lema de Stein produce el siguiente operador:

(2.2)\quad E\left(f'(Y)-Yf(Y)\right)=0{\text{ for all }}f\in C_{b}^{1}\quad \iff \quad Y{\text{ has standard normal distribution.}}

Así, podemos tomar

(2.3)\quad ({\mathcal {A}}f)(x)=f'(x)-xf(x).

En general, existen infinitos operadores de este tipo y todavía queda abierta la cuestión de cuál elegir. Sin embargo, parece que para muchas distribuciones hay una particularmente buena , como (2.3) para la distribución normal.

Hay diferentes formas de encontrar operadores Stein. ^[4]

La ecuación de Stein

$P$ es cercano a con respecto a si la diferencia de expectativas en (1.1) es cercana a 0. Esperamos ahora que el operador muestre el mismo comportamiento: si entonces , y con suerte si tenemos . $Q$ $d$ ${\mathcal {A}}$ $P=Q$ $E({\mathcal {A}}f)(W)=0$ $P\approx Q$ $E({\mathcal {A}}f)(W)\approx 0$

Generalmente es posible definir una función tal que $f=f_{h}$

(3.1)\quad ({\mathcal {A}}f)(x)=h(x)-E[h(Y)]\qquad {\text{ for all }}x.

A (3.1) la llamamos ecuación de Stein . Reemplazando por y tomando expectativa con respecto a , obtenemos $x$ $W$ $W$

(3.2)\quad E({\mathcal {A}}f)(W)=E[h(W)]-E[h(Y)].

Ahora bien, todo el esfuerzo vale la pena sólo si el lado izquierdo de (3.2) es más fácil de encuadernar que el lado derecho. Sorprendentemente, este suele ser el caso.

Si es la distribución normal estándar y usamos (2.3), entonces la ecuación de Stein correspondiente es $Q$

(3.3)\quad f'(x)-xf(x)=h(x)-E[h(Y)]\qquad {\text{for all }}x.

Si la distribución de probabilidad Q tiene una densidad q absolutamente continua (con respecto a la medida de Lebesgue), entonces ^[4]

(3.4)\quad ({\mathcal {A}}f)(x)=f'(x)+f(x)q'(x)/q(x).

Resolviendo la ecuación de Stein

Métodos analíticos . La ecuación (3.3) se puede resolver fácilmente de forma explícita:

(4.1)\quad f(x)=e^{x^{2}/2}\int _{-\infty }^{x}[h(s)-Eh(Y)]e^{-s^{2}/2}\,ds.

Método generador . Si es el generador de un proceso de Markov (ver Barbour (1988), Götze (1991)), entonces la solución a (3.2) es ${\mathcal {A}}$ $(Z_{t})_{t\geq 0}$

(4.2)\quad f(x)=-\int _{0}^{\infty }[E^{x}h(Z_{t})-Eh(Y)]\,dt,

donde denota expectativa con respecto al proceso que se inicia en . Sin embargo, todavía hay que demostrar que la solución (4.2) existe para todas las funciones deseadas . $E^{x}$ $Z$ $x$ $h\in {\mathcal {H}}$

Propiedades de la solución de la ecuación de Stein.

Por lo general, se intenta dar límites a y sus derivadas (o diferencias) en términos de y sus derivadas (o diferencias), es decir, desigualdades de la forma $f$ $h$

(5.1)\quad \|D^{k}f\|\leq C_{k,l}\|D^{l}h\|,

para algunos específicos (típicamente o , respectivamente, dependiendo de la forma del operador Stein), donde a menudo es la norma suprema. Aquí, denota el operador diferencial , pero en configuraciones discretas generalmente se refiere a un operador de diferencia . Las constantes pueden contener los parámetros de la distribución . Si los hay, a menudo se les denomina factores Stein . $k,l=0,1,2,\dots$ $k\geq l$ $k\geq l-1$ $\|\cdot \|$ $D^{k}$ $C_{k,l}$ $Q$

En el caso de (4.1) se puede probar para la norma suprema que

(5.2)\quad \|f\|_{\infty }\leq \min \left\{{\sqrt {\pi /2}}\|h\|_{\infty },2\|h'\|_{\infty }\right\},\quad \|f'\|_{\infty }\leq \min\{2\|h\|_{\infty },4\|h'\|_{\infty }\},\quad \|f''\|_{\infty }\leq 2\|h'\|_{\infty },

donde el último límite, por supuesto, solo es aplicable si es diferenciable (o al menos Lipschitz-continuo, lo cual, por ejemplo, no es el caso si consideramos la métrica de variación total o la métrica de Kolmogorov). Como la distribución normal estándar no tiene parámetros adicionales, en este caso específico las constantes están libres de parámetros adicionales. $h$

Si tenemos límites en la forma general (5.1), generalmente podemos tratar muchas métricas de probabilidad juntas. A menudo se puede comenzar con el siguiente paso, si los límites de la forma (5.1) ya están disponibles (como es el caso de muchas distribuciones).

Un teorema de aproximación abstracta

Ahora estamos en condiciones de limitar el lado izquierdo de (3.1). Como este paso depende en gran medida de la forma del operador Stein, consideramos directamente el caso de la distribución normal estándar.

En este punto, podríamos ingresar directamente la variable aleatoria , que queremos aproximar, e intentar encontrar los límites superiores. Sin embargo, suele resultar fructífero formular un teorema más general. Consideremos aquí el caso de la dependencia local. $W$

Supongamos que es una suma de variables aleatorias tal que y la varianza . Supongamos que, para cada , hay un conjunto tal que es independiente de todas las variables aleatorias con . A este conjunto lo llamamos el "vecindario" de . Asimismo, sea un conjunto tal que todos con sean independientes de todos , . Podemos pensar en los vecinos del barrio de , un barrio de segundo orden, por así decirlo. Para un conjunto define ahora la suma . $W=\sum _{i=1}^{n}X_{i}$ $E[W]=0$ $\operatorname {var} [W]=1$ $i=1,\dots ,n$ $A_{i}\subset \{1,2,\dots ,n\}$ $X_{i}$ $X_{j}$ $j\not \in A_{i}$ $X_{i}$ $B_{i}\subset \{1,2,\dots ,n\}$ $X_{j}$ $j\in A_{i}$ $X_{k}$ $k\not \in B_{i}$ $B_{i}$ $X_{i}$ $A\subset \{1,2,\dots ,n\}$ $X_{A}:=\sum _{j\in A}X_{j}$

Usando el desarrollo de Taylor, es posible demostrar que

(6.1)\quad \left|E(f'(W)-Wf(W))\right|\leq \|f''\|_{\infty }\sum _{i=1}^{n}\left({\frac {1}{2}}E|X_{i}X_{A_{i}}^{2}|+E|X_{i}X_{A_{i}}X_{B_{i}\setminus A_{i}}|+E|X_{i}X_{A_{i}}|E|X_{B_{i}}|\right)

Tenga en cuenta que, si seguimos esta línea de argumento, podemos acotar (1.1) solo para funciones donde está acotado debido a la tercera desigualdad de (5.2) (y de hecho, si tiene discontinuidades, también lo hará ). Para obtener un límite similar a (6.1) que contenga sólo las expresiones y , el argumento es mucho más complicado y el resultado no es tan simple como (6.1); sin embargo, se puede hacer. $\|h'\|_{\infty }$ $h$ $f''$ $\|f\|_{\infty }$ $\|f'\|_{\infty }$

Teorema A. Si es como se describe arriba, tenemos para la métrica de Lipschitz que $W$ $d_{W}$

(6.2)\quad d_{W}({\mathcal {L}}(W),N(0,1))\leq 2\sum _{i=1}^{n}\left({\frac {1}{2}}E|X_{i}X_{A_{i}}^{2}|+E|X_{i}X_{A_{i}}X_{B_{i}\setminus A_{i}}|+E|X_{i}X_{A_{i}}|E|X_{B_{i}}|\right).

Prueba . Recuerde que la métrica de Lipschitz es de la forma (1.1) donde las funciones son continuas de Lipschitz con constante de Lipschitz 1, por lo tanto . Combinando esto con (6.1) y el último límite en (5.2) se demuestra el teorema. $h$ $\|h'\|\leq 1$

Así, hablando a grandes rasgos, hemos demostrado que, para calcular la distancia de Lipschitz entre una estructura de dependencia local y una distribución normal estándar, sólo necesitamos conocer los terceros momentos y el tamaño de las vecindades y . $W$ $X_{i}$ $A_{i}$ $B_{i}$

Aplicación del teorema

Podemos tratar el caso de sumas de variables aleatorias independientes e idénticamente distribuidas con el Teorema A.

Supongamos que , y . Podemos tomar . Del teorema A obtenemos que $EX_{i}=0$ $\operatorname {var} X_{i}=1$ $W=n^{-1/2}\sum X_{i}$ $A_{i}=B_{i}=\{i\}$

(7.1)\quad d_{W}({\mathcal {L}}(W),N(0,1))\leq {\frac {5E|X_{1}|^{3}}{n^{1/2}}}.

Para sumas de variables aleatorias, otro enfoque relacionado con el método Steins se conoce como transformada de sesgo cero .

Conexiones a otros métodos

El dispositivo de Lindeberg . Lindeberg (1922) introdujo un dispositivo en el que la diferencia se representa como una suma de diferencias paso a paso. $Eh(X_{1}+\cdots +X_{n})-Eh(Y_{1}+\cdots +Y_{n})$

El método de Tikhomirov . Claramente, el enfoque a través de (1.1) y (3.1) no involucra funciones características . Sin embargo, Tikhomirov (1980) presentó una demostración de un teorema del límite central basado en funciones características y un operador diferencial similar a (2.3). La observación básica es que la función característica de la distribución normal estándar satisface la ecuación diferencial para todos . Por lo tanto, si la función característica de es tal que esperamos que y por lo tanto esté cerca de la distribución normal. Tikhomirov afirma en su artículo que se inspiró en el artículo fundamental de Stein. $\psi (t)$ $\psi '(t)+t\psi (t)=0$ $t$ $\psi _{W}(t)$ $W$ $\psi '_{W}(t)+t\psi _{W}(t)\approx 0$ $\psi _{W}(t)\approx \psi (t)$ $W$

Ver también

Notas

^ ab Stein, C. (1972). "Un límite para el error en la aproximación normal a la distribución de una suma de variables aleatorias dependientes". Actas del Sexto Simposio de Berkeley sobre probabilidad y estadística matemática, volumen 2 . vol. 6. Prensa de la Universidad de California . págs. 583–602. SEÑOR 0402873. Zbl 0278.60026.
↑ Charles Stein: El invariante, el directo y el "pretencioso" Archivado el 5 de julio de 2007 en Wayback Machine . Entrevista realizada en 2003 en Singapur.
^ Chen, LHY (1975). "Aproximación de Poisson para ensayos dependientes". Anales de probabilidad . 3 (3): 534–545. doi : 10.1214/aop/1176996359 . JSTOR 2959474. SEÑOR 0428387. Zbl 0335.60016.
^ ab Novak, SY (2011). Métodos de valor extremo con aplicaciones a las finanzas . Monografías sobre Estadística y Probabilidad Aplicada. vol. 122. Prensa CRC . Cap. 12.ISBN 978-1-43983-574-6.

Referencias

Barbour, AD (1988). "Convergencia del método de Stein y del proceso de Poisson". Revista de probabilidad aplicada . 25 : 175–184. doi :10.2307/3214155. JSTOR 3214155. S2CID 121759039.
Barbour, AD (1990). "Método de Stein para aproximaciones de difusión". Teoría de la probabilidad y campos relacionados . 84 (3): 297–322. doi : 10.1007/BF01197887 . S2CID 123057547.
Barbour, AD y Brown, TC (1992). "Método de Stein y aproximación del proceso puntual". Procesos estocásticos y sus aplicaciones . 43 (1): 9–31. doi : 10.1016/0304-4149(92)90073-Y .
Bolthausen, E. (1984). "Una estimación del resto en un teorema combinatorio del límite central". Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete . 66 (3): 379–386. doi : 10.1007/BF00533704 . S2CID 121725342.
Ehm, W. (1991). "Aproximación binomial a la distribución binomial de Poisson". Cartas de estadística y probabilidad . 11 (1): 7–16. doi :10.1016/0167-7152(91)90170-V.
Götze, F. (1991). "Sobre la tasa de convergencia en el CLT multivariado". Los anales de la probabilidad . 19 (2): 724–739. doi : 10.1214/aop/1176990448 .
Lindeberg, JW (1922). "Eine neue Herleitung des Exponentialgesetzes in der Wahrscheinlichkeitsrechung". Mathematische Zeitschrift . 15 (1): 211–225. doi :10.1007/BF01494395. S2CID 119730242.
Luk, HM (1994). "Método de Stein para la distribución gamma y aplicaciones estadísticas relacionadas" . Disertación.
Novak, SY (2011). Métodos de valor extremo con aplicaciones a las finanzas . Monografías sobre Estadística y Probabilidad Aplicada. vol. 122. Prensa CRC . ISBN 978-1-43983-574-6.
Stein, C. (1986). Cálculo aproximado de expectativas . Serie de monografías y notas de conferencias. vol. 7. Instituto de Estadística Matemática . ISBN 0-940600-08-0.
Tikhomirov, AN (1980). "Tasa de convergencia en el teorema del límite central para variables aleatorias débilmente dependientes". Teoriya Veroyatnostei i ee Primeneniya . 25 : 800–818. Traducción al inglés en Tikhomirov, AN (1981). "Sobre la tasa de convergencia en el teorema del límite central para variables aleatorias débilmente dependientes". Teoría de la probabilidad y sus aplicaciones . 25 (4): 790–809. doi :10.1137/1125092.

Literatura

El siguiente texto es avanzado y ofrece una descripción general completa del caso normal.

Chen, LHY, Goldstein, L. y Shao, QM (2011). Aproximación normal por el método de Stein . www.springer.com. ISBN 978-3-642-15006-7.{{cite book}}: CS1 maint: multiple names: authors list (link)

Otro libro avanzado, pero que tiene cierto carácter introductorio, es

Barbour, AD; Chen, LHY, eds. (2005). Una introducción al método de Stein . Serie de notas de conferencias, Instituto de Ciencias Matemáticas, Universidad Nacional de Singapur. vol. 4. Prensa de la Universidad de Singapur. ISBN 981-256-280-X.

Una referencia estándar es el libro de Stein,

Stein, C. (1986). Cálculo aproximado de expectativas . Notas de conferencias del Instituto de Estadística Matemática, Serie de monografías, 7. Hayward, California: Instituto de Estadística Matemática. ISBN 0-940600-08-0.

que contiene mucho material interesante, pero puede resultar un poco difícil de entender en la primera lectura.

A pesar de su antigüedad, hay pocos libros introductorios estándar disponibles sobre el método de Stein. El siguiente libro de texto reciente tiene un capítulo (Capítulo 2) dedicado a la introducción del método de Stein:

Ross, Sheldon y Peköz, Erol (2007). Un segundo curso de probabilidad . ISBN 978-0-9795704-0-7.

Aunque el libro

Barbour, AD y Holst, L. y Janson, S. (1992). Aproximación de Poisson . Estudios de Oxford sobre probabilidad. vol. 2. Prensa de la Universidad de Oxford de Clarendon Press. ISBN 0-19-852235-5.{{cite book}}: CS1 maint: multiple names: authors list (link)

trata en gran parte de la aproximación de Poisson, pero contiene mucha información sobre el enfoque del generador, en particular en el contexto de la aproximación del proceso de Poisson.

El siguiente libro de texto tiene un capítulo (Capítulo 10) dedicado a presentar el método de aproximación de Poisson de Stein:

Sheldon M. Ross (1995). Procesos estocásticos . Wiley. ISBN 978-0471120629.