stringtranslate.com

James–Stein estimator

The James–Stein estimator is a biased estimator of the mean, , of (possibly) correlated Gaussian distributed random variables with unknown means .

It arose sequentially in two main published papers. The earlier version of the estimator was developed in 1956,[1] when Charles Stein reached a relatively shocking conclusion that while the then-usual estimate of the mean, the sample mean, is admissible when , it is inadmissible when . Stein proposed a possible improvement to the estimator that shrinks the sample means towards a more central mean vector (which can be chosen a priori or commonly as the "average of averages" of the sample means, given all samples share the same size). This observation is commonly referred to as Stein's example or paradox. In 1961, Willard James and Charles Stein simplified the original process.[2]

It can be shown that the James–Stein estimator dominates the "ordinary" least squares approach, meaning the James–Stein estimator has a lower or equal mean squared error than the "ordinary" least square estimator.

Similar to the Hodges' estimator, the James-Stein estimator is superefficient and non-regular at .[3]

Setting

Let where the vector is the unknown mean of , which is -variate normally distributed and with known covariance matrix .

We are interested in obtaining an estimate, , of , based on a single observation, , of .

In real-world application, this is a common situation in which a set of parameters is sampled, and the samples are corrupted by independent Gaussian noise. Since this noise has mean of zero, it may be reasonable to use the samples themselves as an estimate of the parameters. This approach is the least squares estimator, which is .

Stein demostró que en términos de error cuadrático medio , el estimador de mínimos cuadrados, es subóptimo para estimadores basados ​​en contracción, como el estimador de James-Stein ,. [1] El resultado paradójico, de que existe una estimación (posiblemente) mejor y nunca peor del error cuadrático medio en comparación con la media muestral, se conoció como el ejemplo de Stein .

El estimador de James-Stein

MSE (R) del estimador de mínimos cuadrados (ML) frente al estimador de James-Stein (JS). El estimador de James-Stein da su mejor estimación cuando la norma del vector de parámetros real θ está cerca de cero.

Si se conoce, el estimador de James-Stein viene dado por

James y Stein demostraron que el estimador anterior domina para cualquier , lo que significa que el estimador de James-Stein siempre logra un error cuadrático medio (MSE) más bajo que el estimador de máxima verosimilitud . [2] [4] Por definición, esto hace que el estimador de mínimos cuadrados sea inadmisible cuando .

Observe que si entonces este estimador simplemente toma el estimador natural y lo reduce hacia el origen 0 . De hecho, ésta no es la única dirección de contracción que funciona. Sea ν un vector fijo arbitrario de dimensión . Entonces existe un estimador del tipo James-Stein que se contrae hacia ν , a saber

El estimador de James-Stein domina al estimador habitual para cualquier ν . Una pregunta natural es si la mejora con respecto al estimador habitual es independiente de la elección de ν . La respuesta es no. La mejora es pequeña si es grande. Por lo tanto, para obtener una gran mejora es necesario algún conocimiento de la ubicación de θ . Por supuesto, esta es la cantidad que estamos tratando de estimar, por lo que no tenemos este conocimiento a priori . Pero podemos adivinar cuál es el vector medio. Esto puede considerarse una desventaja del estimador: la elección no es objetiva ya que puede depender de las creencias del investigador. No obstante, el resultado de James y Stein es que cualquier estimación finita ν mejora el MSE esperado sobre el estimador de máxima verosimilitud, lo que equivale a utilizar una ν infinita , seguramente una estimación deficiente.

Interpretación

Ver el estimador de James-Stein como un método empírico de Bayes da cierta intuición a este resultado: se supone que θ en sí es una variable aleatoria con distribución previa , donde A se estima a partir de los datos mismos. Estimar A sólo da una ventaja en comparación con el estimador de máxima verosimilitud cuando la dimensión es lo suficientemente grande; por lo tanto no funciona para . El estimador de James-Stein es miembro de una clase de estimadores bayesianos que dominan al estimador de máxima verosimilitud. [5]

Una consecuencia de la discusión anterior es el siguiente resultado contrario a la intuición: cuando se miden tres o más parámetros no relacionados, su MSE total se puede reducir utilizando un estimador combinado como el estimador de James-Stein; mientras que cuando cada parámetro se estima por separado, es admisible el estimador de mínimos cuadrados (LS) . Un ejemplo peculiar sería estimar la velocidad de la luz, el consumo de té en Taiwán y el peso de los cerdos en Montana, todos juntos. El estimador de James-Stein siempre mejora el MSE total , es decir, la suma de los errores cuadráticos esperados de cada componente. Por lo tanto, el MSE total al medir la velocidad de la luz, el consumo de té y el peso de los cerdos mejoraría si se utilizara el estimador de James-Stein. Sin embargo, cualquier componente particular (como la velocidad de la luz) mejoraría para algunos valores de parámetros y se deterioraría para otros. Por lo tanto, aunque el estimador de James-Stein domina al estimador LS cuando se estiman tres o más parámetros, ningún componente individual domina el componente respectivo del estimador LS.

La conclusión de este ejemplo hipotético es que las mediciones deben combinarse si uno está interesado en minimizar su MSE total. Por ejemplo, en un entorno de telecomunicaciones , es razonable combinar mediciones de derivaciones de canal en un escenario de estimación de canal , ya que el objetivo es minimizar el error total de estimación de canal.

El estimador de James-Stein también ha encontrado uso en la teoría cuántica fundamental, donde el estimador se ha utilizado para mejorar los límites teóricos del principio de incertidumbre entrópica durante más de tres mediciones. [6]

La perspectiva galtoniana da una derivación e interpretación intuitivas . [7] Según esta interpretación, nuestro objetivo es predecir las medias poblacionales utilizando las medias muestrales medidas imperfectamente . La ecuación del estimador MCO en una regresión hipotética de las medias poblacionales sobre las medias muestrales da un estimador de la forma del estimador de James-Stein (cuando forzamos el intercepto de MCO a igual a 0) o del estimador de Efron-Morris ( cuando permitimos que varíe la intersección).

Mejoras

A pesar de la intuición de que el estimador de James-Stein reduce la estimación de máxima verosimilitud hacia , la estimación en realidad se aleja de para valores pequeños de ya que el multiplicador de es entonces negativo. Esto se puede solucionar fácilmente sustituyendo este multiplicador por cero cuando sea negativo. El estimador resultante se llama estimador de James-Stein de parte positiva y viene dado por

Este estimador tiene un riesgo menor que el estimador básico de James-Stein. De ello se deduce que el estimador básico de James-Stein es en sí mismo inadmisible . [8]

Sin embargo, resulta que el estimador de parte positiva también es inadmisible. [4] Esto se deriva de un resultado general que requiere que los estimadores admisibles sean suaves.

Extensiones

A primera vista, el estimador de James-Stein puede parecer el resultado de alguna peculiaridad del planteamiento del problema. De hecho, el estimador ejemplifica un efecto de muy amplio alcance; es decir, el hecho de que el estimador "ordinario" o de mínimos cuadrados suele ser inadmisible para la estimación simultánea de varios parámetros. [ cita necesaria ] Este efecto se ha denominado fenómeno de Stein y se ha demostrado para varios entornos de problemas diferentes, algunos de los cuales se describen brevemente a continuación.

donde es el promedio de longitud de las observaciones.

Ver también

Referencias

  1. ^ ab Stein, C. (1956), "Inadmisibilidad del estimador habitual de la media de una distribución multivariada", Proc. Tercer Simposio de Berkeley. Matemáticas. Estadístico. Prob., vol. 1, págs. 197–206, SEÑOR  0084922, Zbl  0073.35602
  2. ^ abc James, W.; Stein, C. (1961), "Estimación con pérdida cuadrática", Proc. Cuarto Simposio de Berkeley. Matemáticas. Estadístico. Prob., vol. 1, págs. 361–379, SEÑOR  0133191
  3. ^ Berán, R. (1995). EL PAPEL DEL TEOREMA DE CONVOLUCIÓN DE HAJEK EN LA TEORÍA ESTADÍSTICA
  4. ^ abc Lehmann, EL; Casella, G. (1998), Teoría de la estimación puntual (2ª ed.), Nueva York: Springer
  5. ^ Efrón, B.; Morris, C. (1973). "La regla de estimación de Stein y sus competidores: un enfoque empírico de Bayes". Revista de la Asociación Estadounidense de Estadística . Asociación Estadounidense de Estadística. 68 (341): 117-130. doi :10.2307/2284155. JSTOR  2284155.
  6. ^ Stander, M. (2017), Uso del estimador de Stein para corregir el límite del principio de incertidumbre entrópica para más de dos mediciones , arXiv : 1702.02440 , Bibcode :2017arXiv170202440S
  7. ^ Stigler, Stephen M. (1 de febrero de 1990). "La conferencia en memoria de Neyman de 1988: una perspectiva galtoniana sobre los estimadores de contracción". Ciencia estadística . 5 (1). doi : 10.1214/ss/1177012274 . ISSN  0883-4237.
  8. ^ Anderson, TW (1984), Introducción al análisis estadístico multivariado (2ª ed.), Nueva York: John Wiley & Sons
  9. ^ ab Bock, ME (1975), "Estimadores minimax de la media de una distribución normal multivariada", Annals of Statistics , 3 (1): 209–218, doi : 10.1214/aos/1176343009 , MR  0381064, Zbl  0314.62005
  10. ^ Brown, LD (1966), "Sobre la admisibilidad de estimadores invariantes de uno o más parámetros de ubicación", Annals of Mathematical Statistics , 37 (5): 1087–1136, doi : 10.1214/aoms/1177699259 , MR  0216647, Zbl  0156.39401

Otras lecturas