Regla de decisión admisible

En la teoría de la decisión estadística , una regla de decisión admisible es una regla para tomar una decisión tal que no existe otra regla que sea siempre "mejor" que ella ^[1] (o al menos a veces mejor y nunca peor), en el sentido preciso de "mejor" definido más adelante. Este concepto es análogo a la eficiencia de Pareto .

Definición

Defina los conjuntos , y , donde son los estados de la naturaleza, las posibles observaciones y las acciones que se pueden realizar. Una observación de se distribuye como y, por lo tanto, proporciona evidencia sobre el estado de la naturaleza . Una regla de decisión es una función , donde al observar , elegimos realizar la acción . $\Theta \,$ ${\mathcal {X}}$ ${\mathcal {A}}$ $\Theta \,$ ${\mathcal {X}}$ ${\mathcal {A}}$ $x\in {\mathcal {X}}\,\!$ $F(x\mid \theta )\,\!$ $\theta \en \Theta \,\!$ $\delta :{\mathcal {X}}\rightarrow {\mathcal {A}}$ $x\in {\mathcal {X}}$ $\delta(x)\en {\mathcal {A}}\,\!$

También defina una función de pérdida , que especifica la pérdida que sufriríamos si tomáramos una acción cuando el verdadero estado de la naturaleza es . Por lo general, tomaremos esta acción después de observar los datos , de modo que la pérdida será . (Es posible, aunque no convencional, reformular las siguientes definiciones en términos de una función de utilidad , que es el negativo de la pérdida). $L:\Theta \times {\mathcal {A}}\rightarrow \mathbb {R}$ $a\in {\mathcal {A}}$ $\theta \in \Theta$ $x\in {\mathcal {X}}$ $L(\theta ,\delta (x))\,\!$

Defina la función de riesgo como la expectativa

R(\theta ,\delta )=\operatorname {E} _{F(x\mid \theta )}[{L(\theta ,\delta (x))]}.\,\!

El que una regla de decisión tenga un riesgo bajo depende del verdadero estado de la naturaleza . Una regla de decisión domina a otra regla de decisión si y solo si para todos y la desigualdad es estricta para algunos . $\delta \,\!$ $\theta \,\!$ $\delta ^{*}\,\!$ $\delta \,\!$ $R(\theta ,\delta ^{*})\leq R(\theta ,\delta )$ $\theta \,\!$ $\theta \,\!$

Una regla de decisión es admisible (con respecto a la función de pérdida) si y solo si ninguna otra regla la domina; de lo contrario, es inadmisible . Por lo tanto, una regla de decisión admisible es un elemento máximo con respecto al orden parcial anterior. No se prefiere una regla inadmisible (excepto por razones de simplicidad o eficiencia computacional), ya que, por definición, existe alguna otra regla que logrará un riesgo igual o menor para todos . Pero el hecho de que una regla sea admisible no significa que sea una buena regla para usar. Ser admisible significa que no existe otra regla única que sea siempre tan buena o mejor, pero otras reglas admisibles podrían lograr un riesgo menor para la mayoría de las que ocurren en la práctica. (El riesgo de Bayes que se analiza a continuación es una forma de considerar explícitamente cuáles ocurren en la práctica). $\theta \,\!$ $\delta \,\!$ $\theta \,\!$ $\theta \,\!$

Reglas de Bayes y reglas de Bayes generalizadas

Reglas de Bayes

Sea una distribución de probabilidad sobre los estados de la naturaleza. Desde un punto de vista bayesiano , la consideraríamos como una distribución a priori . Es decir, es nuestra distribución de probabilidad considerada sobre los estados de la naturaleza, antes de observar los datos. Para un frecuentista , es simplemente una función sobre sin una interpretación especial de ese tipo. El riesgo bayesiano de la regla de decisión con respecto a es la expectativa $\pi (\theta )\,\!$ $\Theta \,\!$ $\delta \,\!$ $\pi (\theta )\,\!$

r(\pi ,\delta )=\operatorname {E} _{\pi (\theta )}[R(\theta ,\delta )].\,\!

Una regla de decisión que minimiza se denomina regla de Bayes con respecto a . Puede haber más de una regla de Bayes de este tipo. Si el riesgo de Bayes es infinito para todos los , entonces no se define ninguna regla de Bayes. $\delta \,\!$ $r(\pi ,\delta )\,\!$ $\pi (\theta )\,\!$ $\delta \,\!$

Reglas de Bayes generalizadas

En el enfoque bayesiano de la teoría de decisiones, lo observado se considera fijo . Mientras que el enfoque frecuentista (es decir, el riesgo) promedia sobre muestras posibles , el bayesiano fijaría la muestra observada y promediaría sobre hipótesis . Por lo tanto, el enfoque bayesiano consiste en considerar para nuestro observado la pérdida esperada . $x\,\!$ $x\in {\mathcal {X}}\,\!$ $x\,\!$ $\theta \in \Theta \,\!$ $x\,\!$

\rho (\pi ,\delta \mid x)=\operatorname {E} _{\pi (\theta \mid x)}[L(\theta ,\delta (x))].\,\!

donde la expectativa es sobre el posterior de lo dado (obtenido a partir y utilizando el teorema de Bayes ). $\theta \,\!$ $x\,\!$ $\pi (\theta )\,\!$ $F(x\mid \theta )\,\!$

Habiendo hecho explícita la pérdida esperada para cada dato por separado, podemos definir una regla de decisión especificando para cada uno una acción que minimice la pérdida esperada. Esto se conoce como una regla de Bayes generalizada con respecto a . Puede haber más de una regla de Bayes generalizada, ya que puede haber múltiples opciones de que logren la misma pérdida esperada. $x\,\!$ $\delta \,\!$ $x\,\!$ $\delta (x)\,\!$ $\pi (\theta )\,\!$ $\delta (x)\,\!$

En un principio, esto puede parecer bastante diferente del enfoque de la regla de Bayes de la sección anterior, no una generalización. Sin embargo, observe que el riesgo de Bayes ya se promedia en la forma bayesiana, y el riesgo de Bayes puede recuperarse como la expectativa sobre la pérdida esperada (donde y ). En términos generales, minimiza esta expectativa de pérdida esperada (es decir, es una regla de Bayes) si y solo si minimiza la pérdida esperada para cada uno por separado (es decir, es una regla de Bayes generalizada). $\Theta \,\!$ ${\mathcal {X}}$ $x\sim \theta \,\!$ $\theta \sim \pi \,\!$ $\delta \,\!$ $x\in {\mathcal {X}}$

Entonces, ¿por qué la noción de regla de Bayes generalizada es una mejora? De hecho, es equivalente a la noción de regla de Bayes cuando existe una regla de Bayes y todos tienen probabilidad positiva. Sin embargo, no existe ninguna regla de Bayes si el riesgo de Bayes es infinito (para todos los ). En este caso, sigue siendo útil definir una regla de Bayes generalizada , que al menos elija una acción de pérdida esperada mínima para aquellos para los que existe una acción de pérdida esperada finita. Además, una regla de Bayes generalizada puede ser deseable porque debe elegir una acción de pérdida esperada mínima para cada , mientras que una regla de Bayes podría desviarse de esta política en un conjunto de medida 0 sin afectar el riesgo de Bayes. $x\,\!$ $\delta \,\!$ $\delta \,\!$ $\delta (x)\!\,$ $x\,\!$ $\delta (x)\,\!$ $x\,\!$ $X\subseteq {\mathcal {X}}$

Más importante aún, a veces es conveniente utilizar una regla previa impropia . En este caso, el riesgo de Bayes ni siquiera está bien definido, ni hay una distribución bien definida sobre . Sin embargo, la posterior —y, por lo tanto, la pérdida esperada— puede estar bien definida para cada , de modo que aún es posible definir una regla de Bayes generalizada. $\pi (\theta )\,\!$ $x\,\!$ $\pi (\theta \mid x)\,\!$ $x\,\!$

Admisibilidad de las reglas de Bayes (generalizadas)

Según los teoremas de clase completos, en condiciones moderadas toda regla admisible es una regla de Bayes (generalizada) (con respecto a alguna regla previa —posiblemente impropia— que favorece las distribuciones en las que esa regla logra un riesgo bajo). Por lo tanto, en la teoría de decisiones frecuentista es suficiente considerar solo reglas de Bayes (generalizadas). $\pi (\theta )\,\!$ $\theta \,\!$

Por el contrario, mientras que las reglas de Bayes con respecto a los supuestos previos apropiados son prácticamente siempre admisibles, las reglas de Bayes generalizadas correspondientes a supuestos previos impropios no necesariamente dan lugar a procedimientos admisibles. El ejemplo de Stein es una de esas situaciones famosas.

Ejemplos

El estimador de James-Stein es un estimador no lineal de la media de vectores aleatorios gaussianos y se puede demostrar que domina la técnica de mínimos cuadrados ordinarios con respecto a una función de pérdida de error cuadrático medio. ^[2] Por lo tanto, la estimación de mínimos cuadrados no es un procedimiento de estimación admisible en este contexto. Algunas otras de las estimaciones estándar asociadas con la distribución normal también son inadmisibles: por ejemplo, la estimación de la varianza a partir de una muestra cuando se desconocen la media y la varianza de la población. ^[3]

Notas

^ Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms . OUP. ISBN 0-19-920613-9 (entrada para función de decisión admisible)
^ Cox y Hinkley 1974, Sección 11.8
^ Cox y Hinkley 1974, Ejercicio 11.7

Referencias

Cox, DR; Hinkley, DV (1974). Estadística teórica . Wiley. ISBN 0-412-12420-3.
Berger, James O. (1980). Teoría de la decisión estadística y análisis bayesiano (2.ª ed.). Springer-Verlag. ISBN 0-387-96098-8.
DeGroot, Morris (2004) [1.ª publicación, 1970]. Decisiones estadísticas óptimas . Biblioteca clásica de Wiley. ISBN 0-471-68029-X.
Robert, Christian P. (1994). La elección bayesiana . Springer-Verlag. ISBN 3-540-94296-3.