stringtranslate.com

Estimador de James-Stein

El estimador de James-Stein es un estimador sesgado de la media , , de variables aleatorias distribuidas gaussianas (posiblemente) correlacionadas con medias desconocidas .

Surgió secuencialmente en dos artículos principales publicados. La versión anterior del estimador se desarrolló en 1956, [1] cuando Charles Stein llegó a una conclusión relativamente sorprendente de que, si bien la estimación entonces habitual de la media, la media de la muestra , es admisible cuando , es inadmisible cuando . Stein propuso una posible mejora del estimador que reduce las medias de la muestra hacia un vector de medias más central (que puede elegirse a priori o comúnmente como el "promedio de promedios" de las medias de la muestra, dado que todas las muestras comparten el mismo tamaño). Esta observación se conoce comúnmente como el ejemplo o paradoja de Stein . En 1961, Willard James y Charles Stein simplificaron el proceso original. [2]

Se puede demostrar que el estimador de James-Stein domina el enfoque de mínimos cuadrados "ordinario" , lo que significa que el estimador de James-Stein tiene un error cuadrático medio menor o igual que el estimador de mínimos cuadrados "ordinario".

Similar al estimador de Hodges , el estimador de James-Stein es supereficiente y no regular en . [3]

Configuración

Sea donde el vector es la media desconocida de , que tiene una distribución normal de -variables y una matriz de covarianza conocida .

Nos interesa obtener una estimación, , de , basada en una única observación, , de .

En la práctica, esta es una situación habitual en la que se muestrea un conjunto de parámetros y las muestras se corrompen por el ruido gaussiano independiente . Dado que este ruido tiene una media de cero, puede ser razonable utilizar las propias muestras como estimación de los parámetros. Este enfoque es el estimador de mínimos cuadrados , que es .

Stein demostró que en términos de error cuadrático medio , el estimador de mínimos cuadrados, , es subóptimo para los estimadores basados ​​en la contracción, como el estimador de James-Stein , . [1] El resultado paradójico, de que existe una estimación (posiblemente) mejor y nunca peor de en el error cuadrático medio en comparación con la media de la muestra, se conoció como el ejemplo de Stein .

El estimador de James-Stein

Estimador de mínimos cuadrados (ML) vs. estimador de James–Stein (JS) MSE (R). El estimador de James–Stein ofrece su mejor estimación cuando la norma del vector de parámetros real θ es cercana a cero.

Si se conoce, el estimador de James-Stein viene dado por

James y Stein demostraron que el estimador anterior domina para cualquier , lo que significa que el estimador de James-Stein siempre logra un error cuadrático medio (MSE) menor que el estimador de máxima verosimilitud . [2] [4] Por definición, esto hace que el estimador de mínimos cuadrados sea inadmisible cuando .

Nótese que si entonces este estimador simplemente toma el estimador natural y lo encoge hacia el origen 0 . De hecho, esta no es la única dirección de encogimiento que funciona. Sea ν un vector fijo arbitrario de dimensión . Entonces existe un estimador del tipo James–Stein que se encoge hacia ν , a saber

El estimador de James-Stein domina al estimador usual para cualquier ν . Una pregunta natural que se hace es si la mejora sobre el estimador usual es independiente de la elección de ν . La respuesta es no. La mejora es pequeña si es grande. Por lo tanto, para obtener una mejora muy grande es necesario algún conocimiento de la ubicación de θ . Por supuesto, esta es la cantidad que estamos tratando de estimar, por lo que no tenemos este conocimiento a priori . Pero podemos tener alguna conjetura sobre cuál es el vector medio. Esto puede considerarse una desventaja del estimador: la elección no es objetiva ya que puede depender de las creencias del investigador. No obstante, el resultado de James y Stein es que cualquier conjetura finita ν mejora el MSE esperado sobre el estimador de máxima verosimilitud, lo que equivale a utilizar un ν infinito , seguramente una conjetura pobre.

Interpretación

Considerar el estimador de James-Stein como un método bayesiano empírico da cierta intuición a este resultado: se supone que θ en sí es una variable aleatoria con distribución previa , donde A se estima a partir de los datos mismos. La estimación de A solo da una ventaja en comparación con el estimador de máxima verosimilitud cuando la dimensión es lo suficientemente grande; por lo tanto, no funciona para . El estimador de James-Stein es miembro de una clase de estimadores bayesianos que dominan al estimador de máxima verosimilitud. [5]

Una consecuencia de la discusión anterior es el siguiente resultado contra-intuitivo: cuando se miden tres o más parámetros no relacionados, su MSE total se puede reducir utilizando un estimador combinado como el estimador de James-Stein; mientras que cuando cada parámetro se estima por separado, el estimador de mínimos cuadrados (LS) es admisible . Un ejemplo peculiar sería estimar la velocidad de la luz, el consumo de té en Taiwán y el peso de los cerdos en Montana, todos juntos. El estimador de James-Stein siempre mejora el MSE total , es decir, la suma de los errores cuadrados esperados de cada componente. Por lo tanto, el MSE total en la medición de la velocidad de la luz, el consumo de té y el peso de los cerdos mejoraría utilizando el estimador de James-Stein. Sin embargo, cualquier componente particular (como la velocidad de la luz) mejoraría para algunos valores de parámetros y se deterioraría para otros. Por lo tanto, aunque el estimador de James-Stein domina al estimador de LS cuando se estiman tres o más parámetros, cualquier componente individual no domina el componente respectivo del estimador de LS.

La conclusión de este ejemplo hipotético es que las mediciones se deben combinar si se desea minimizar el error de estimación total del canal. Por ejemplo, en un entorno de telecomunicaciones , es razonable combinar las mediciones de derivación de canal en un escenario de estimación de canal , ya que el objetivo es minimizar el error de estimación total del canal.

El estimador de James-Stein también se ha utilizado en la teoría cuántica fundamental, donde se ha utilizado para mejorar los límites teóricos del principio de incertidumbre entrópica para más de tres mediciones. [6]

La perspectiva galtoniana proporciona una derivación e interpretación intuitivas . [7] Según esta interpretación, pretendemos predecir las medias poblacionales utilizando las medias muestrales medidas de manera imperfecta . La ecuación del estimador MCO en una regresión hipotética de las medias poblacionales sobre las medias muestrales da un estimador de la forma del estimador de James-Stein (cuando forzamos la intersección de MCO a ser igual a 0) o del estimador de Efron-Morris (cuando permitimos que la intersección varíe).

Mejoras

A pesar de la intuición de que el estimador de James-Stein reduce la estimación de máxima verosimilitud hacia , la estimación en realidad se aleja de para valores pequeños de ya que el multiplicador de es negativo. Esto se puede remediar fácilmente reemplazando este multiplicador por cero cuando es negativo. El estimador resultante se llama estimador de James-Stein de parte positiva y se da por

Este estimador tiene un riesgo menor que el estimador básico de James-Stein. De ello se deduce que el estimador básico de James-Stein es en sí mismo inadmisible . [8]

Sin embargo, resulta que el estimador de parte positiva también es inadmisible. [4] Esto se desprende de un resultado general que requiere que los estimadores admisibles sean suaves.

Extensiones

A primera vista, el estimador de James-Stein puede parecer el resultado de alguna peculiaridad del entorno del problema. De hecho, el estimador ejemplifica un efecto de amplio alcance; a saber, el hecho de que el estimador "ordinario" o de mínimos cuadrados a menudo es inadmisible para la estimación simultánea de varios parámetros. [ cita requerida ] Este efecto se ha denominado fenómeno de Stein y se ha demostrado para varios entornos de problemas diferentes, algunos de los cuales se describen brevemente a continuación.

donde es el promedio de la longitud de las observaciones.

Véase también

Referencias

  1. ^ ab Stein, C. (1956), "Inadmisibilidad del estimador usual para la media de una distribución multivariada", Proc. Third Berkeley Symp. Math. Statist. Prob., vol. 1, págs. 197–206, MR  0084922, Zbl  0073.35602
  2. ^ abc James, W.; Stein, C. (1961), "Estimación con pérdida cuadrática", Proc. Fourth Berkeley Symp. Math. Statist. Prob., vol. 1, págs. 361–379, MR  0133191
  3. ^ Beran, R. (1995). EL PAPEL DEL TEOREMA DE CONVOLUCIÓN DE HAJEK EN LA TEORÍA ESTADÍSTICA
  4. ^ abc Lehmann, EL; Casella, G. (1998), Teoría de la estimación puntual (2.ª ed.), Nueva York: Springer
  5. ^ Efron, B.; Morris, C. (1973). "La regla de estimación de Stein y sus competidores: un enfoque bayesiano empírico". Revista de la Asociación Estadounidense de Estadística . 68 (341). Asociación Estadounidense de Estadística: 117–130. doi :10.2307/2284155. JSTOR  2284155.
  6. ^ Stander, M. (2017), Uso del estimador de Stein para corregir el límite del principio de incertidumbre entrópica para más de dos mediciones , arXiv : 1702.02440 , Bibcode :2017arXiv170202440S
  7. ^ Stigler, Stephen M. (1990-02-01). "La conferencia Neyman Memorial de 1988: una perspectiva galtoniana sobre los estimadores de contracción". Ciencia estadística . 5 (1). doi : 10.1214/ss/1177012274 . ISSN  0883-4237.
  8. ^ Anderson, TW (1984), Introducción al análisis estadístico multivariante (2.ª ed.), Nueva York: John Wiley & Sons
  9. ^ ab Bock, ME (1975), "Estimadores minimax de la media de una distribución normal multivariada", Annals of Statistics , 3 (1): 209–218, doi : 10.1214/aos/1176343009 , MR  0381064, Zbl  0314.62005
  10. ^ Brown, LD (1966), "Sobre la admisibilidad de estimadores invariantes de uno o más parámetros de ubicación", Annals of Mathematical Statistics , 37 (5): 1087–1136, doi : 10.1214/aoms/1177699259 , MR  0216647, Zbl  0156.39401

Lectura adicional