El estimador de James-Stein es un estimador sesgado de la media , , de variables aleatorias distribuidas gaussianas (posiblemente) correlacionadas con medias desconocidas .
Surgió secuencialmente en dos artículos principales publicados. La versión anterior del estimador se desarrolló en 1956, [1] cuando Charles Stein llegó a una conclusión relativamente sorprendente de que, si bien la estimación entonces habitual de la media, la media de la muestra , es admisible cuando , es inadmisible cuando . Stein propuso una posible mejora del estimador que reduce las medias de la muestra hacia un vector de medias más central (que puede elegirse a priori o comúnmente como el "promedio de promedios" de las medias de la muestra, dado que todas las muestras comparten el mismo tamaño). Esta observación se conoce comúnmente como el ejemplo o paradoja de Stein . En 1961, Willard James y Charles Stein simplificaron el proceso original. [2]
Se puede demostrar que el estimador de James-Stein domina el enfoque de mínimos cuadrados "ordinario" , lo que significa que el estimador de James-Stein tiene un error cuadrático medio menor o igual que el estimador de mínimos cuadrados "ordinario".
Similar al estimador de Hodges , el estimador de James-Stein es supereficiente y no regular en . [3]
Sea donde el vector es la media desconocida de , que tiene una distribución normal de -variables y una matriz de covarianza conocida .
Nos interesa obtener una estimación, , de , basada en una única observación, , de .
En la práctica, esta es una situación habitual en la que se muestrea un conjunto de parámetros y las muestras se corrompen por el ruido gaussiano independiente . Dado que este ruido tiene una media de cero, puede ser razonable utilizar las propias muestras como estimación de los parámetros. Este enfoque es el estimador de mínimos cuadrados , que es .
Stein demostró que en términos de error cuadrático medio , el estimador de mínimos cuadrados, , es subóptimo para los estimadores basados en la contracción, como el estimador de James-Stein , . [1] El resultado paradójico, de que existe una estimación (posiblemente) mejor y nunca peor de en el error cuadrático medio en comparación con la media de la muestra, se conoció como el ejemplo de Stein .
Si se conoce, el estimador de James-Stein viene dado por
James y Stein demostraron que el estimador anterior domina para cualquier , lo que significa que el estimador de James-Stein siempre logra un error cuadrático medio (MSE) menor que el estimador de máxima verosimilitud . [2] [4] Por definición, esto hace que el estimador de mínimos cuadrados sea inadmisible cuando .
Nótese que si entonces este estimador simplemente toma el estimador natural y lo encoge hacia el origen 0 . De hecho, esta no es la única dirección de encogimiento que funciona. Sea ν un vector fijo arbitrario de dimensión . Entonces existe un estimador del tipo James–Stein que se encoge hacia ν , a saber
El estimador de James-Stein domina al estimador usual para cualquier ν . Una pregunta natural que se hace es si la mejora sobre el estimador usual es independiente de la elección de ν . La respuesta es no. La mejora es pequeña si es grande. Por lo tanto, para obtener una mejora muy grande es necesario algún conocimiento de la ubicación de θ . Por supuesto, esta es la cantidad que estamos tratando de estimar, por lo que no tenemos este conocimiento a priori . Pero podemos tener alguna conjetura sobre cuál es el vector medio. Esto puede considerarse una desventaja del estimador: la elección no es objetiva ya que puede depender de las creencias del investigador. No obstante, el resultado de James y Stein es que cualquier conjetura finita ν mejora el MSE esperado sobre el estimador de máxima verosimilitud, lo que equivale a utilizar un ν infinito , seguramente una conjetura pobre.
Considerar el estimador de James-Stein como un método bayesiano empírico da cierta intuición a este resultado: se supone que θ en sí es una variable aleatoria con distribución previa , donde A se estima a partir de los datos mismos. La estimación de A solo da una ventaja en comparación con el estimador de máxima verosimilitud cuando la dimensión es lo suficientemente grande; por lo tanto, no funciona para . El estimador de James-Stein es miembro de una clase de estimadores bayesianos que dominan al estimador de máxima verosimilitud. [5]
Una consecuencia de la discusión anterior es el siguiente resultado contra-intuitivo: cuando se miden tres o más parámetros no relacionados, su MSE total se puede reducir utilizando un estimador combinado como el estimador de James-Stein; mientras que cuando cada parámetro se estima por separado, el estimador de mínimos cuadrados (LS) es admisible . Un ejemplo peculiar sería estimar la velocidad de la luz, el consumo de té en Taiwán y el peso de los cerdos en Montana, todos juntos. El estimador de James-Stein siempre mejora el MSE total , es decir, la suma de los errores cuadrados esperados de cada componente. Por lo tanto, el MSE total en la medición de la velocidad de la luz, el consumo de té y el peso de los cerdos mejoraría utilizando el estimador de James-Stein. Sin embargo, cualquier componente particular (como la velocidad de la luz) mejoraría para algunos valores de parámetros y se deterioraría para otros. Por lo tanto, aunque el estimador de James-Stein domina al estimador de LS cuando se estiman tres o más parámetros, cualquier componente individual no domina el componente respectivo del estimador de LS.
La conclusión de este ejemplo hipotético es que las mediciones se deben combinar si se desea minimizar el error de estimación total del canal. Por ejemplo, en un entorno de telecomunicaciones , es razonable combinar las mediciones de derivación de canal en un escenario de estimación de canal , ya que el objetivo es minimizar el error de estimación total del canal.
El estimador de James-Stein también se ha utilizado en la teoría cuántica fundamental, donde se ha utilizado para mejorar los límites teóricos del principio de incertidumbre entrópica para más de tres mediciones. [6]
La perspectiva galtoniana proporciona una derivación e interpretación intuitivas . [7] Según esta interpretación, pretendemos predecir las medias poblacionales utilizando las medias muestrales medidas de manera imperfecta . La ecuación del estimador MCO en una regresión hipotética de las medias poblacionales sobre las medias muestrales da un estimador de la forma del estimador de James-Stein (cuando forzamos la intersección de MCO a ser igual a 0) o del estimador de Efron-Morris (cuando permitimos que la intersección varíe).
A pesar de la intuición de que el estimador de James-Stein reduce la estimación de máxima verosimilitud hacia , la estimación en realidad se aleja de para valores pequeños de ya que el multiplicador de es negativo. Esto se puede remediar fácilmente reemplazando este multiplicador por cero cuando es negativo. El estimador resultante se llama estimador de James-Stein de parte positiva y se da por
Este estimador tiene un riesgo menor que el estimador básico de James-Stein. De ello se deduce que el estimador básico de James-Stein es en sí mismo inadmisible . [8]
Sin embargo, resulta que el estimador de parte positiva también es inadmisible. [4] Esto se desprende de un resultado general que requiere que los estimadores admisibles sean suaves.
A primera vista, el estimador de James-Stein puede parecer el resultado de alguna peculiaridad del entorno del problema. De hecho, el estimador ejemplifica un efecto de amplio alcance; a saber, el hecho de que el estimador "ordinario" o de mínimos cuadrados a menudo es inadmisible para la estimación simultánea de varios parámetros. [ cita requerida ] Este efecto se ha denominado fenómeno de Stein y se ha demostrado para varios entornos de problemas diferentes, algunos de los cuales se describen brevemente a continuación.