stringtranslate.com

El ejemplo de Stein

En teoría de la decisión y teoría de la estimación , el ejemplo de Stein (también conocido como fenómeno de Stein o paradoja de Stein ) es la observación de que cuando se estiman tres o más parámetros simultáneamente, existen estimadores combinados más precisos en promedio (es decir, que tienen un error cuadrático medio esperado menor ) que cualquier método que maneje los parámetros por separado. Recibe su nombre en honor a Charles Stein de la Universidad de Stanford , quien descubrió el fenómeno en 1955. [1]

Una explicación intuitiva es que optimizar el error cuadrático medio de un estimador combinado no es lo mismo que optimizar los errores de estimadores separados de los parámetros individuales. En términos prácticos, si el error combinado es de hecho de interés, entonces se debe utilizar un estimador combinado, incluso si los parámetros subyacentes son independientes. Si en cambio uno está interesado en estimar un parámetro individual, entonces utilizar un estimador combinado no ayuda y, de hecho, es peor.

Declaración formal

La siguiente es la forma más simple de la paradoja, el caso especial en el que el número de observaciones es igual al número de parámetros a estimar. Sea un vector que consta de parámetros desconocidos. Para estimar estos parámetros, se realiza una única medición para cada parámetro , lo que da como resultado un vector de longitud . Supongamos que se sabe que las mediciones son variables aleatorias gaussianas independientes , con media y varianza 1, es decir, . Por lo tanto, cada parámetro se estima utilizando una única medición ruidosa, y cada medición es igualmente inexacta.

En estas condiciones, es intuitivo y común utilizar cada medición como una estimación de su parámetro correspondiente. Esta regla de decisión denominada "ordinaria" se puede escribir como , que es el estimador de máxima verosimilitud (EMV). La calidad de un estimador de este tipo se mide por su función de riesgo . Una función de riesgo de uso común es el error cuadrático medio , definido como . Sorprendentemente, resulta que la regla de decisión "ordinaria" es subóptima ( inadmisible ) en términos de error cuadrático medio cuando . En otras palabras, en el contexto analizado aquí, existen estimadores alternativos que siempre logran un error cuadrático medio menor , sin importar cuál sea el valor de . Para un determinado , obviamente se podría definir un "estimador" perfecto que siempre sea solo , pero este estimador sería malo para otros valores de .

Los estimadores de la paradoja de Stein son, para un determinado , mejores que la regla de decisión "ordinaria" para algunos , pero necesariamente peores para otros. Solo en promedio son mejores. Más exactamente, se dice que un estimador domina a otro estimador si, para todos los valores de , el riesgo de es menor o igual que el riesgo de , y si la desigualdad es estricta para algún . Se dice que un estimador es admisible si ningún otro estimador lo domina, de lo contrario es inadmisible . Por lo tanto, el ejemplo de Stein puede enunciarse simplemente de la siguiente manera: La regla de decisión "ordinaria" de la media de una distribución gaussiana multivariante es inadmisible bajo el riesgo de error cuadrático medio.

Muchos estimadores simples y prácticos logran un mejor desempeño que la regla de decisión "ordinaria". El ejemplo más conocido es el estimador de James-Stein , que se contrae hacia un punto particular (como el origen) en una cantidad inversamente proporcional a la distancia de desde ese punto. Para un bosquejo de la prueba de este resultado, véase Prueba del ejemplo de Stein . Una prueba alternativa se debe a Larry Brown: demostró que el estimador ordinario para un vector de media normal multivariante -dimensional es admisible si y solo si el movimiento browniano -dimensional es recurrente. [2] Dado que el movimiento browniano no es recurrente para , el MLE no es admisible para .

Una explicación intuitiva

Para cualquier valor particular del nuevo estimador mejorará al menos uno de los errores cuadráticos medios individuales Esto no es difícil − por ejemplo, si está entre −1 y 1, y , entonces un estimador que se encoge linealmente hacia 0 en 0,5 (es decir, , umbral suave con umbral ) tendrá un error cuadrático medio menor que él mismo. Pero hay otros valores de para los cuales este estimador es peor que él mismo. El truco del estimador de Stein, y otros que producen la paradoja de Stein, es que ajustan el desplazamiento de tal manera que siempre hay (para cualquier vector) al menos uno cuyo error cuadrático medio se mejora, y su mejora compensa con creces cualquier degradación en el error cuadrático medio que pueda ocurrir para otro . El problema es que, sin saber , no sabes cuáles de los errores cuadráticos medios se mejoran, por lo que no puedes usar el estimador de Stein solo para esos parámetros.

Un ejemplo de la configuración anterior ocurre en la estimación de canales en telecomunicaciones, por ejemplo, porque diferentes factores afectan el rendimiento general del canal.

Trascendencia

El ejemplo de Stein es sorprendente, ya que la regla de decisión "ordinaria" es intuitiva y de uso común. De hecho, numerosos métodos para la construcción de estimadores, incluida la estimación de máxima verosimilitud , la mejor estimación lineal insesgada , la estimación de mínimos cuadrados y la estimación equivariante óptima , dan como resultado el estimador "ordinario". Sin embargo, como se ha comentado anteriormente, este estimador es subóptimo.

Ejemplo

Para demostrar la naturaleza poco intuitiva del ejemplo de Stein, consideremos el siguiente ejemplo del mundo real. Supongamos que tenemos que estimar tres parámetros no relacionados, como el rendimiento del trigo en Estados Unidos en 1993, el número de espectadores en el torneo de tenis de Wimbledon en 2001 y el peso de una barra de chocolate elegida al azar en el supermercado. Supongamos que tenemos mediciones gaussianas independientes de cada una de estas cantidades. El ejemplo de Stein nos dice ahora que podemos obtener una mejor estimación (en promedio) para el vector de tres parámetros utilizando simultáneamente las tres mediciones no relacionadas.

A primera vista, parece que de alguna manera obtenemos un mejor estimador para el rendimiento del trigo estadounidense midiendo otras estadísticas no relacionadas, como el número de espectadores en Wimbledon y el peso de una barra de chocolate. Sin embargo, no hemos obtenido un mejor estimador para el rendimiento del trigo estadounidense por sí solo, sino que hemos producido un estimador para el vector de las medias de las tres variables aleatorias, que tiene un riesgo total reducido . Esto ocurre porque el costo de una mala estimación en un componente del vector se compensa con una mejor estimación en otro componente. Además, un conjunto específico de los tres valores medios estimados obtenidos con el nuevo estimador no necesariamente será mejor que el conjunto ordinario (los valores medidos). Es solo en promedio que el nuevo estimador es mejor.

Prueba esbozada

La función de riesgo de la regla de decisión es

Consideremos ahora la regla de decisión

donde . Demostraremos que es una regla de decisión mejor que . La función de riesgo es

— una función cuadrática en . Podemos simplificar el término medio considerando una función general "de buen comportamiento" y utilizando la integración por partes . Para , para cualquier diferenciable continuo que crezca lo suficientemente lento para valores grandes tenemos:

Por lo tanto,

(Este resultado se conoce como el lema de Stein ). Ahora, elegimos

Si se cumple la condición de "buen comportamiento" (no es así, pero esto se puede remediar, ver más abajo), tendríamos

y entonces

Volviendo entonces a la función de riesgo de :

Esta in cuadrática se minimiza en , dando

lo que por supuesto satisface la regla de tomar una decisión inadmisible.

Queda por justificar el uso de

Esta función no es continuamente diferenciable, ya que es singular en . Sin embargo, la función

es continuamente diferenciable, y después de seguir el álgebra hasta y dejando , se obtiene el mismo resultado.

Véase también

Notas

  1. ^ Efron, B. ; Morris, C. (1977), "La paradoja de Stein en estadística" (PDF) , Scientific American , 236 (5): 119–127, Bibcode :1977SciAm.236e.119E, doi :10.1038/scientificamerican0577-119
  2. ^ Brown, LD (1971). "Estimadores admisibles, difusiones recurrentes y problemas de valores en la frontera insolubles". Anales de estadística matemática . 42 (3): 855–903. doi : 10.1214/aoms/1177693318 . ISSN  0003-4851.

Referencias