James–Stein estimator

The James–Stein estimator is a biased estimator of the mean, ${\boldsymbol {\theta }}$ , of (possibly) correlated Gaussian distributed random variables $Y=\{Y_{1},Y_{2},...,Y_{m}\}$ with unknown means $\{{\boldsymbol {\theta }}_{1},{\boldsymbol {\theta }}_{2},...,{\boldsymbol {\theta }}_{m}\}$ .

It arose sequentially in two main published papers. The earlier version of the estimator was developed in 1956,^[1] when Charles Stein reached a relatively shocking conclusion that while the then-usual estimate of the mean, the sample mean, is admissible when $m\leq 2$ , it is inadmissible when $m\geq 3$ . Stein proposed a possible improvement to the estimator that shrinks the sample means ${{\boldsymbol {\theta }}_{i}}$ towards a more central mean vector ${\boldsymbol {\nu }}$ (which can be chosen a priori or commonly as the "average of averages" of the sample means, given all samples share the same size). This observation is commonly referred to as Stein's example or paradox. In 1961, Willard James and Charles Stein simplified the original process.^[2]

It can be shown that the James–Stein estimator dominates the "ordinary" least squares approach, meaning the James–Stein estimator has a lower or equal mean squared error than the "ordinary" least square estimator.

Similar to the Hodges' estimator, the James-Stein estimator is superefficient and non-regular at $\theta =0$ .^[3]

Setting

Let ${\mathbf {Y} }\sim N_{m}({\boldsymbol {\theta }},\sigma ^{2}I),\,$ where the vector ${\boldsymbol {\theta }}$ is the unknown mean of ${\mathbf {Y} }$ , which is $m$ -variate normally distributed and with known covariance matrix $\sigma ^{2}I$ .

We are interested in obtaining an estimate, ${\widehat {\boldsymbol {\theta }}}$ , of ${\boldsymbol {\theta }}$ , based on a single observation, ${\mathbf {y} }$ , of ${\mathbf {Y} }$ .

In real-world application, this is a common situation in which a set of parameters is sampled, and the samples are corrupted by independent Gaussian noise. Since this noise has mean of zero, it may be reasonable to use the samples themselves as an estimate of the parameters. This approach is the least squares estimator, which is ${\widehat {\boldsymbol {\theta }}}_{LS}={\mathbf {y} }$ .

Stein demostró que en términos de error cuadrático medio , el estimador de mínimos cuadrados, es subóptimo para estimadores basados en contracción, como el estimador de James-Stein ,. ^[1] El resultado paradójico, de que existe una estimación (posiblemente) mejor y nunca peor del error cuadrático medio en comparación con la media muestral, se conoció como el ejemplo de Stein . $\operatorname {E} \left[\left\|{\boldsymbol {\theta }}-{\widehat {\boldsymbol {\theta }}}\right\|^{2}\right]$ ${\widehat {\boldsymbol {\theta }}}_{LS}$ ${\widehat {\boldsymbol {\theta }}}_{JS}$ ${\boldsymbol {\theta }}$

El estimador de James-Stein

Si se conoce, el estimador de James-Stein viene dado por $\sigma ^{2}$

{\widehat {\boldsymbol {\theta }}}_{JS}=\left(1-{\frac {(m-2)\sigma ^{2}}{\|{\mathbf {y} }\|^{2}}}\right){\mathbf {y} }.

James y Stein demostraron que el estimador anterior domina para cualquier , lo que significa que el estimador de James-Stein siempre logra un error cuadrático medio (MSE) más bajo que el estimador de máxima verosimilitud . ^[2]^[4] Por definición, esto hace que el estimador de mínimos cuadrados sea inadmisible cuando . ${\widehat {\boldsymbol {\theta }}}_{LS}$ $m\geq 3$ $m\geq 3$

Observe que si entonces este estimador simplemente toma el estimador natural y lo reduce hacia el origen 0 . De hecho, ésta no es la única dirección de contracción que funciona. Sea ν un vector fijo arbitrario de dimensión . Entonces existe un estimador del tipo James-Stein que se contrae hacia ν , a saber $(m-2)\sigma ^{2}<\|{\mathbf {y} }\|^{2}$ $\mathbf {y}$ $m$

{\widehat {\boldsymbol {\theta }}}_{JS}=\left(1-{\frac {(m-2)\sigma ^{2}}{\|{\mathbf {y} }-{\boldsymbol {\nu }}\|^{2}}}\right)({\mathbf {y} }-{\boldsymbol {\nu }})+{\boldsymbol {\nu }},\qquad m\geq 3.

El estimador de James-Stein domina al estimador habitual para cualquier ν . Una pregunta natural es si la mejora con respecto al estimador habitual es independiente de la elección de ν . La respuesta es no. La mejora es pequeña si es grande. Por lo tanto, para obtener una gran mejora es necesario algún conocimiento de la ubicación de θ . Por supuesto, esta es la cantidad que estamos tratando de estimar, por lo que no tenemos este conocimiento a priori . Pero podemos adivinar cuál es el vector medio. Esto puede considerarse una desventaja del estimador: la elección no es objetiva ya que puede depender de las creencias del investigador. No obstante, el resultado de James y Stein es que cualquier estimación finita ν mejora el MSE esperado sobre el estimador de máxima verosimilitud, lo que equivale a utilizar una ν infinita , seguramente una estimación deficiente. $\|{{\boldsymbol {\theta }}-{\boldsymbol {\nu }}}\|$

Interpretación

Ver el estimador de James-Stein como un método empírico de Bayes da cierta intuición a este resultado: se supone que θ en sí es una variable aleatoria con distribución previa , donde A se estima a partir de los datos mismos. Estimar A sólo da una ventaja en comparación con el estimador de máxima verosimilitud cuando la dimensión es lo suficientemente grande; por lo tanto no funciona para . El estimador de James-Stein es miembro de una clase de estimadores bayesianos que dominan al estimador de máxima verosimilitud. ^[5] $\sim N(0,A)$ $m$ $m\leq 2$

Una consecuencia de la discusión anterior es el siguiente resultado contrario a la intuición: cuando se miden tres o más parámetros no relacionados, su MSE total se puede reducir utilizando un estimador combinado como el estimador de James-Stein; mientras que cuando cada parámetro se estima por separado, es admisible el estimador de mínimos cuadrados (LS) . Un ejemplo peculiar sería estimar la velocidad de la luz, el consumo de té en Taiwán y el peso de los cerdos en Montana, todos juntos. El estimador de James-Stein siempre mejora el MSE total , es decir, la suma de los errores cuadráticos esperados de cada componente. Por lo tanto, el MSE total al medir la velocidad de la luz, el consumo de té y el peso de los cerdos mejoraría si se utilizara el estimador de James-Stein. Sin embargo, cualquier componente particular (como la velocidad de la luz) mejoraría para algunos valores de parámetros y se deterioraría para otros. Por lo tanto, aunque el estimador de James-Stein domina al estimador LS cuando se estiman tres o más parámetros, ningún componente individual domina el componente respectivo del estimador LS.

La conclusión de este ejemplo hipotético es que las mediciones deben combinarse si uno está interesado en minimizar su MSE total. Por ejemplo, en un entorno de telecomunicaciones , es razonable combinar mediciones de derivaciones de canal en un escenario de estimación de canal , ya que el objetivo es minimizar el error total de estimación de canal.

El estimador de James-Stein también ha encontrado uso en la teoría cuántica fundamental, donde el estimador se ha utilizado para mejorar los límites teóricos del principio de incertidumbre entrópica durante más de tres mediciones. ^[6]

La perspectiva galtoniana da una derivación e interpretación intuitivas . ^[7] Según esta interpretación, nuestro objetivo es predecir las medias poblacionales utilizando las medias muestrales medidas imperfectamente . La ecuación del estimador MCO en una regresión hipotética de las medias poblacionales sobre las medias muestrales da un estimador de la forma del estimador de James-Stein (cuando forzamos el intercepto de MCO a igual a 0) o del estimador de Efron-Morris ( cuando permitimos que varíe la intersección).

Mejoras

A pesar de la intuición de que el estimador de James-Stein reduce la estimación de máxima verosimilitud hacia , la estimación en realidad se aleja de para valores pequeños de ya que el multiplicador de es entonces negativo. Esto se puede solucionar fácilmente sustituyendo este multiplicador por cero cuando sea negativo. El estimador resultante se llama estimador de James-Stein de parte positiva y viene dado por ${\mathbf {y} }$ ${\boldsymbol {\nu }}$ ${\boldsymbol {\nu }}$ $\|{\mathbf {y} }-{\boldsymbol {\nu }}\|,$ ${\mathbf {y} }-{\boldsymbol {\nu }}$

{\widehat {\boldsymbol {\theta }}}_{JS+}=\left(1-{\frac {(m-3)\sigma ^{2}}{\|{\mathbf {y} }-{\boldsymbol {\nu }}\|^{2}}}\right)^{+}({\mathbf {y} }-{\boldsymbol {\nu }})+{\boldsymbol {\nu }},m\geq 4.

Este estimador tiene un riesgo menor que el estimador básico de James-Stein. De ello se deduce que el estimador básico de James-Stein es en sí mismo inadmisible . ^[8]

Sin embargo, resulta que el estimador de parte positiva también es inadmisible. ^[4] Esto se deriva de un resultado general que requiere que los estimadores admisibles sean suaves.

Extensiones

A primera vista, el estimador de James-Stein puede parecer el resultado de alguna peculiaridad del planteamiento del problema. De hecho, el estimador ejemplifica un efecto de muy amplio alcance; es decir, el hecho de que el estimador "ordinario" o de mínimos cuadrados suele ser inadmisible para la estimación simultánea de varios parámetros. ^{[ cita necesaria ]} Este efecto se ha denominado fenómeno de Stein y se ha demostrado para varios entornos de problemas diferentes, algunos de los cuales se describen brevemente a continuación.

James y Stein demostraron que el estimador presentado anteriormente aún se puede utilizar cuando se desconoce la varianza, reemplazándolo con el estimador estándar de la varianza . El resultado de dominancia sigue siendo válido bajo la misma condición, es decir, . ^[2] $\sigma ^{2}$ ${\widehat {\sigma }}^{2}={\frac {1}{m}}\sum (y_{i}-{\overline {y}})^{2}$ $m>2$
Los resultados de este artículo son para el caso en el que solo está disponible un único vector de observación y . Para el caso más general en el que hay vectores disponibles, los resultados son similares: ^[^{cita necesaria}^] $n$

{\widehat {\boldsymbol {\theta }}}_{JS}=\left(1-{\frac {(m-2){\frac {\sigma ^{2}}{n}}}{\|{\overline {\mathbf {y} }}\|^{2}}}\right){\overline {\mathbf {y} }},

donde es el promedio de longitud de las observaciones.

{\overline {\mathbf {y} }}

m

n

El trabajo de James y Stein se ha ampliado al caso de una matriz de covarianza de medición general, es decir, donde las mediciones pueden ser estadísticamente dependientes y pueden tener diferentes varianzas. ^[9] Se puede construir un estimador dominante similar, con una condición de dominancia adecuadamente generalizada. Esto se puede utilizar para construir una técnica de regresión lineal que supere la aplicación estándar del estimador LS. ^[9]
El resultado de Stein se ha ampliado a una amplia clase de distribuciones y funciones de pérdida. Sin embargo, esta teoría proporciona sólo un resultado de existencia, en el sentido de que en realidad no se exhibieron estimadores dominantes explícitos. ^[10] Es bastante difícil obtener estimadores explícitos que mejoren el estimador habitual sin restricciones específicas sobre las distribuciones subyacentes. ^[4]

Ver también

Referencias

^ ab Stein, C. (1956), "Inadmisibilidad del estimador habitual de la media de una distribución multivariada", Proc. Tercer Simposio de Berkeley. Matemáticas. Estadístico. Prob., vol. 1, págs. 197–206, SEÑOR 0084922, Zbl 0073.35602
^ abc James, W.; Stein, C. (1961), "Estimación con pérdida cuadrática", Proc. Cuarto Simposio de Berkeley. Matemáticas. Estadístico. Prob., vol. 1, págs. 361–379, SEÑOR 0133191
^ Berán, R. (1995). EL PAPEL DEL TEOREMA DE CONVOLUCIÓN DE HAJEK EN LA TEORÍA ESTADÍSTICA
^ abc Lehmann, EL; Casella, G. (1998), Teoría de la estimación puntual (2ª ed.), Nueva York: Springer
^ Efrón, B.; Morris, C. (1973). "La regla de estimación de Stein y sus competidores: un enfoque empírico de Bayes". Revista de la Asociación Estadounidense de Estadística . Asociación Estadounidense de Estadística. 68 (341): 117-130. doi :10.2307/2284155. JSTOR 2284155.
^ Stander, M. (2017), Uso del estimador de Stein para corregir el límite del principio de incertidumbre entrópica para más de dos mediciones , arXiv : 1702.02440 , Bibcode :2017arXiv170202440S
^ Stigler, Stephen M. (1 de febrero de 1990). "La conferencia en memoria de Neyman de 1988: una perspectiva galtoniana sobre los estimadores de contracción". Ciencia estadística . 5 (1). doi : 10.1214/ss/1177012274 . ISSN 0883-4237.
^ Anderson, TW (1984), Introducción al análisis estadístico multivariado (2ª ed.), Nueva York: John Wiley & Sons
^ ab Bock, ME (1975), "Estimadores minimax de la media de una distribución normal multivariada", Annals of Statistics , 3 (1): 209–218, doi : 10.1214/aos/1176343009 , MR 0381064, Zbl 0314.62005
^ Brown, LD (1966), "Sobre la admisibilidad de estimadores invariantes de uno o más parámetros de ubicación", Annals of Mathematical Statistics , 37 (5): 1087–1136, doi : 10.1214/aoms/1177699259 , MR 0216647, Zbl 0156.39401

Otras lecturas

Juez, George G.; Bock, ME (1978). Las implicaciones estadísticas de los estimadores previos a la prueba y de la regla de Stein en econometría . Nueva York: Holanda del Norte. págs. 229-257. ISBN 0-7204-0729-X.