El ejemplo de Stein

En teoría de la decisión y teoría de la estimación , el ejemplo de Stein (también conocido como fenómeno de Stein o paradoja de Stein ) es la observación de que cuando se estiman tres o más parámetros simultáneamente, existen estimadores combinados más precisos en promedio (es decir, con menor error cuadrático medio esperado). ) que cualquier método que maneje los parámetros por separado. Lleva el nombre de Charles Stein de la Universidad de Stanford , quien descubrió el fenómeno en 1955. ^[1]

Una explicación intuitiva es que optimizar para el error cuadrático medio de un estimador combinado no es lo mismo que optimizar para los errores de estimadores separados de los parámetros individuales. En términos prácticos, si el error combinado es realmente interesante, entonces se debe utilizar un estimador combinado, incluso si los parámetros subyacentes son independientes. Si, por el contrario, estamos interesados en estimar un parámetro individual, entonces utilizar un estimador combinado no ayuda y, de hecho, es peor.

Declaración formal

La siguiente es la forma más simple de la paradoja, el caso especial en el que el número de observaciones es igual al número de parámetros a estimar. Sea un vector formado por parámetros desconocidos. Para estimar estos parámetros, se realiza una única medición para cada parámetro , dando como resultado un vector de longitud . Supongamos que se sabe que las mediciones son variables aleatorias gaussianas independientes , con media y varianza 1, es decir, . Por tanto, cada parámetro se estima utilizando una única medición de ruido y cada medición es igualmente inexacta. ${\boldsymbol {\theta }}$ $n\geq 3$ $X_{i}$ $\theta _ {i}$ $\mathbf {X}$ $n$ ${\boldsymbol {\theta }}$ $\mathbf {X} \sim {\mathcal {N}}({\boldsymbol {\theta }},\mathbf {I} _{n})$

En estas condiciones, es intuitivo y común utilizar cada medición como una estimación de su parámetro correspondiente. Esta regla de decisión denominada "ordinaria" se puede escribir como , que es el estimador de máxima verosimilitud (MLE). La calidad de dicho estimador se mide por su función de riesgo . Una función de riesgo comúnmente utilizada es el error cuadrático medio , definido como . Sorprendentemente, resulta que la regla de decisión "ordinaria" es subóptima ( inadmisible ) en términos de error cuadrático medio cuando . En otras palabras, en el contexto analizado aquí, existen estimadores alternativos que siempre logran un error cuadrático medio más bajo , sin importar cuál sea el valor de. Para un dado, obviamente se podría definir un "estimador" perfecto que siempre sea justo , pero este estimador sería malo para otros valores de . ${\hat {\boldsymbol {\theta }}}=\mathbf {X}$ $\mathbb {E} [\|{\boldsymbol {\theta }}-{\hat {\boldsymbol {\theta }}}\|^{2}]$ $n\geq 3$ ${\boldsymbol {\theta }}$ ${\boldsymbol {\theta }}$ ${\boldsymbol {\theta }}$ ${\boldsymbol {\theta }}$

Los estimadores de la paradoja de Stein son, para un determinado caso , mejores que la regla de decisión "ordinaria" para algunos , pero necesariamente peores para otros. Sólo en promedio son mejores. Más exactamente, se dice que un estimador domina a otro estimador si, para todos los valores de , el riesgo de es menor o igual que el riesgo de , y si la desigualdad es estricta para algunos . Un estimador se dice admisible si ningún otro estimador lo domina, en caso contrario es inadmisible . Por lo tanto, el ejemplo de Stein puede expresarse simplemente como sigue: La regla de decisión "ordinaria" de la media de una distribución gaussiana multivariada es inadmisible bajo riesgo de error cuadrático medio. ${\boldsymbol {\theta }}$ $\mathbf {X}$ $\mathbf {X}$ ${\hat {\boldsymbol {\theta }}}_{1}$ ${\hat {\boldsymbol {\theta }}}_{2}$ ${\boldsymbol {\theta }}$ ${\hat {\boldsymbol {\theta }}}_{1}$ ${\hat {\boldsymbol {\theta }}}_{2}$ ${\boldsymbol {\theta }}$

Muchos estimadores simples y prácticos logran un mejor desempeño que la regla de decisión "ordinaria". El ejemplo más conocido es el estimador de James-Stein , que se contrae hacia un punto particular (como el origen) en una cantidad inversamente proporcional a la distancia desde ese punto. Para obtener un esbozo de la prueba de este resultado, consulte Prueba del ejemplo de Stein . Una prueba alternativa se debe a Larry Brown: demostró que el estimador ordinario para un vector medio normal multivariado de dimensiones es admisible si y sólo si el movimiento browniano de dimensiones es recurrente. ^[2] Dado que la moción browniana no es recurrente para , la MLE no es admisible para . $\mathbf {X}$ $\mathbf {X}$ $n$ $n$ $n\geq 3$ $n\geq 3$

Una explicación intuitiva

Para cualquier valor particular del nuevo estimador mejorará al menos uno de los errores cuadráticos medios individuales. Esto no es difícil; por ejemplo, si está entre −1 y 1, y , entonces un estimador que se reduce linealmente hacia 0 en 0,5 (es decir, , umbral suave con umbral ) tendrá un error cuadrático medio menor que él mismo. Pero hay otros valores de para los cuales este estimador es peor que él mismo. El truco del estimador de Stein, y otros que producen la paradoja de Stein, es que ajustan el desplazamiento de tal manera que siempre hay (para cualquier vector) al menos uno cuyo error cuadrático medio mejora, y su mejora compensa con creces. por cualquier degradación en el error cuadrático medio que pueda ocurrirle a otro . El problema es que, sin saberlo , no se sabe cuáles de los errores cuadráticos medios mejoran, por lo que no se puede utilizar el estimador de Stein sólo para esos parámetros. ${\boldsymbol {\theta }}$ $\mathbb {E} [(\theta _{i}-{\hat {\theta }}_{i})^{2}].$ ${\boldsymbol {\theta }}$ $\sigma =1$ $\mathbf {X}$ $\operatorname {sign} (X_{i})\max(|X_{i}|-0.5,0)$ $0.5$ $\mathbf {X}$ ${\boldsymbol {\theta }}$ $\mathbf {X}$ ${\boldsymbol {\theta }}$ $X_{i}$ ${\hat {\theta }}_{i}$ ${\boldsymbol {\theta }}$ $n$

Un ejemplo de la configuración anterior ocurre en la estimación de canales en telecomunicaciones, por ejemplo, porque diferentes factores afectan el rendimiento general del canal.

Trascendencia

El ejemplo de Stein es sorprendente, ya que la regla de decisión "ordinaria" es intuitiva y de uso común. De hecho, numerosos métodos para la construcción de estimadores, incluida la estimación de máxima verosimilitud , la mejor estimación lineal insesgada , la estimación de mínimos cuadrados y la estimación equivariante óptima , dan como resultado el estimador "ordinario". Sin embargo, como se analizó anteriormente, este estimador es subóptimo.

Ejemplo

Para demostrar la naturaleza poco intuitiva del ejemplo de Stein, considere el siguiente ejemplo del mundo real. Supongamos que vamos a estimar tres parámetros no relacionados, como el rendimiento del trigo en Estados Unidos en 1993, el número de espectadores en el torneo de tenis de Wimbledon en 2001 y el peso de una barra de chocolate elegida al azar en el supermercado. Supongamos que tenemos medidas gaussianas independientes de cada una de estas cantidades. El ejemplo de Stein ahora nos dice que podemos obtener una mejor estimación (en promedio) para el vector de tres parámetros utilizando simultáneamente las tres mediciones no relacionadas.

A primera vista parece que de alguna manera obtenemos un mejor estimador del rendimiento del trigo en Estados Unidos midiendo algunas otras estadísticas no relacionadas, como el número de espectadores en Wimbledon y el peso de una barra de chocolate. Sin embargo, no hemos obtenido un mejor estimador para el rendimiento del trigo estadounidense por sí solo, pero sí hemos producido un estimador para el vector de las medias de las tres variables aleatorias, que tiene un riesgo total reducido. Esto ocurre porque el costo de una mala estimación en un componente del vector se compensa con una mejor estimación en otro componente. Además, un conjunto específico de los tres valores medios estimados obtenidos con el nuevo estimador no será necesariamente mejor que el conjunto ordinario (los valores medidos). Sólo en promedio el nuevo estimador es mejor.

Prueba esbozada

La función de riesgo de la regla de decisión es $d(\mathbf {x} )=\mathbf {x}$

R(\theta ,d)=\operatorname {E} _{\theta }[|{\boldsymbol {\theta }}-\mathbf {X} |^{2}]

=\int ({\boldsymbol {\theta }}-\mathbf {x} )^{T}({\boldsymbol {\theta }}-\mathbf {x} )\left({\frac {1}{2\pi }}\right)^{n/2}e^{(-1/2)({\boldsymbol {\theta }}-\mathbf {x} )^{T}({\boldsymbol {\theta }}-\mathbf {x} )}dx

=n.

Consideremos ahora la regla de decisión.

d'(\mathbf {x} )=\mathbf {x} -{\frac {\alpha }{|\mathbf {x} |^{2}}}\mathbf {x} ,

dónde . Demostraremos que es una regla de decisión mejor que . La función de riesgo es $\alpha =n-2$ $d'$ $d$

R(\theta ,d')=\operatorname {E} _{\theta }\left[\left|\mathbf {\theta -X} +{\frac {\alpha }{|\mathbf {X} |^{2}}}\mathbf {X} \right|^{2}\right]

=\operatorname {E} _{\theta }\left[|\mathbf {\theta -X} |^{2}+2(\mathbf {\theta -X} )^{T}{\frac {\alpha }{|\mathbf {X} |^{2}}}\mathbf {X} +{\frac {\alpha ^{2}}{|\mathbf {X} |^{4}}}|\mathbf {X} |^{2}\right]

=\operatorname {E} _{\theta }\left[|\mathbf {\theta -X} |^{2}\right]+2\alpha \operatorname {E} _{\theta }\left[{\frac {\mathbf {(\theta -X)} ^{T}\mathbf {X} }{|\mathbf {X} |^{2}}}\right]+\alpha ^{2}\operatorname {E} _{\theta }\left[{\frac {1}{|\mathbf {X} |^{2}}}\right]

- una cuadrática en . Podemos simplificar el término medio considerando una función general "de buen comportamiento" y utilizando la integración por partes . Para , para cualquier diferenciación continua que crece lo suficientemente lentamente para ser grande tenemos: $\alpha$ $h:\mathbf {x} \mapsto h(\mathbf {x} )\in \mathbb {R}$ $1\leq i\leq n$ $h$ $x_{i}$

\operatorname {E} _{\theta }[(\theta _{i}-X_{i})h(\mathbf {X} )\mid X_{j}=x_{j}(j\neq i)]=\int (\theta _{i}-x_{i})h(\mathbf {x} )\left({\frac {1}{2\pi }}\right)^{n/2}e^{-(1/2)({\boldsymbol {\theta }}-\mathbf {x} )^{T}({\boldsymbol {\theta }}-\mathbf {x} )}dx_{i}

=\left[h(\mathbf {x} )\left({\frac {1}{2\pi }}\right)^{n/2}e^{-(1/2)({\boldsymbol {\theta }}-\mathbf {x} )^{T}({\boldsymbol {\theta }}-\mathbf {x} )}\right]_{x_{i}=-\infty }^{\infty }-\int {\frac {\partial h}{\partial x_{i}}}(\mathbf {x} )\left({\frac {1}{2\pi }}\right)^{n/2}e^{-(1/2)({\boldsymbol {\theta }}-\mathbf {x} )^{T}({\boldsymbol {\theta }}-\mathbf {x} )}dx_{i}

=-\operatorname {E} _{\theta }\left[{\frac {\partial h}{\partial x_{i}}}(\mathbf {X} )\mid X_{j}=x_{j}(j\neq i)\right].

Por lo tanto,

\operatorname {E} _{\theta }[(\theta _{i}-X_{i})h(\mathbf {X} )]=-\operatorname {E} _{\theta }\left[{\frac {\partial h}{\partial x_{i}}}(\mathbf {X} )\right].

(Este resultado se conoce como lema de Stein ). Ahora, elegimos

h(\mathbf {x} )={\frac {x_{i}}{|\mathbf {x} |^{2}}}.

Si se cumpliera la condición de "buen comportamiento" (no es así, pero esto se puede remediar; ver más abajo), tendríamos $h$

{\frac {\partial h}{\partial x_{i}}}={\frac {1}{|\mathbf {x} |^{2}}}-{\frac {2x_{i}^{2}}{|\mathbf {x} |^{4}}}

y entonces

\operatorname {E} _{\theta }\left[{\frac {({\boldsymbol {\theta }}-\mathbf {X} )^{T}\mathbf {X} }{|\mathbf {X} |^{2}}}\right]=\sum _{i=1}^{n}\operatorname {E} _{\theta }\left[(\theta _{i}-X_{i}){\frac {X_{i}}{|\mathbf {X} |^{2}}}\right]

=-\sum _{i=1}^{n}\operatorname {E} _{\theta }\left[{\frac {1}{|\mathbf {X} |^{2}}}-{\frac {2X_{i}^{2}}{|\mathbf {X} |^{4}}}\right]

=-(n-2)\operatorname {E} _{\theta }\left[{\frac {1}{|\mathbf {X} |^{2}}}\right].

Luego volviendo a la función de riesgo de : $d'$

R(\theta ,d')=n-2\alpha (n-2)\operatorname {E} _{\theta }\left[{\frac {1}{|\mathbf {X} |^{2}}}\right]+\alpha ^{2}\operatorname {E} _{\theta }\left[{\frac {1}{|\mathbf {X} |^{2}}}\right].

Esta cuadrática se minimiza en , dando $\alpha$ $\alpha =n-2$

R(\theta ,d')=R(\theta ,d)-(n-2)^{2}\operatorname {E} _{\theta }\left[{\frac {1}{|\mathbf {X} |^{2}}}\right]

lo que por supuesto satisface hacer una regla de decisión inadmisible. $R(\theta ,d')<R(\theta ,d).$ $d$

Queda por justificar el uso de

h(\mathbf {X} )={\frac {\mathbf {X} }{|\mathbf {X} |^{2}}}.

Esta función no es continuamente diferenciable, ya que es singular en . Sin embargo, la función $\mathbf {x} =0$

h(\mathbf {X} )={\frac {\mathbf {X} }{\varepsilon +|\mathbf {X} |^{2}}}

es continuamente diferenciable, y después de seguir el álgebra y dejar , se obtiene el mismo resultado. $\varepsilon \to 0$

Ver también

Estimador de James-Stein

Notas

^ Efrón, B .; Morris, C. (1977), "La paradoja de Stein en la estadística" (PDF) , Scientific American , 236 (5): 119–127, Bibcode :1977SciAm.236e.119E, doi :10.1038/scientificamerican0577-119
^ Marrón, LD (1971). "Estimadores admisibles, difusiones recurrentes y problemas de valores en la frontera insolubles". Los anales de la estadística matemática . 42 (3): 855–903. doi : 10.1214/aoms/1177693318 . ISSN 0003-4851.

Referencias

Lehmann, EL ; Casella, G. (1998), "cap.5", Teoría de la estimación puntual (2ª ed.), ISBN 0-471-05849-1
Stein, C. (1956). "Inadmisibilidad del estimador habitual de la media de una distribución multivariada". Actas del Tercer Simposio de Berkeley sobre probabilidad y estadística matemática . vol. 1. págs. 197–206. SEÑOR 0084922.
Samworth, RJ (2012), "La paradoja de Stein" (PDF) , Eureka , 62 : 38–41