Estimador de Bayes

En teoría de estimación y teoría de decisiones , un estimador de Bayes o una acción de Bayes es un estimador o regla de decisión que minimiza el valor esperado posterior de una función de pérdida (es decir, la pérdida esperada posterior ). De manera equivalente, maximiza la expectativa posterior de una función de utilidad . Una forma alternativa de formular un estimador dentro de las estadísticas bayesianas es la estimación máxima a posteriori .

Definición

Supongamos que se sabe que un parámetro desconocido tiene una distribución previa . Sea un estimador de (basado en algunas mediciones x ), y sea una función de pérdida , como el error al cuadrado. El riesgo de Bayes de se define como , donde la expectativa se toma sobre la distribución de probabilidad de : esto define la función de riesgo como una función de . Se dice que un estimador es un estimador de Bayes si minimiza el riesgo de Bayes entre todos los estimadores. De manera equivalente, el estimador que minimiza la pérdida esperada posterior para cada uno también minimiza el riesgo de Bayes y, por lo tanto, es un estimador de Bayes. ^[1] $\theta$ $\pi$ ${\widehat {\theta }}={\widehat {\theta }}(x)$ $\theta$ $L(\theta ,{\widehat {\theta }})$ ${\widehat {\theta }}$ $E_{\pi }(L(\theta ,{\widehat {\theta }}))$ $\theta$ ${\widehat {\theta }}$ ${\widehat {\theta }}$ $E(L(\theta ,{\widehat {\theta }})|x)$ $x$

Si la probabilidad anterior es impropia, entonces un estimador que minimiza la pérdida esperada posterior para cada uno $x$ se denomina estimador de Bayes generalizado . ^[2]

Ejemplos

Estimación del error cuadrático medio mínimo

La función de riesgo más común utilizada para la estimación bayesiana es el error cuadrático medio (MSE), también llamado riesgo de error cuadrático . El MSE se define por

\mathrm {MSE} =E\left[({\widehat {\theta }}(x)-\theta )^{2}\right],

donde la expectativa se toma sobre la distribución conjunta de y . $\theta$ $x$

Media posterior

Utilizando el MSE como riesgo, la estimación de Bayes del parámetro desconocido es simplemente la media de la distribución posterior , ^[3]

{\widehat {\theta }}(x)=E[\theta |x]=\int \theta \,p(\theta |x)\,d\theta .

Esto se conoce como estimador de error cuadrático medio mínimo (MMSE).

Estimadores de Bayes para priores conjugados

Si no hay una razón inherente para preferir una distribución de probabilidad previa sobre otra, a veces se elige una distribución previa conjugada por simplicidad. Una distribución previa conjugada se define como una distribución previa que pertenece a alguna familia paramétrica , para la cual la distribución posterior resultante también pertenece a la misma familia. Esta es una propiedad importante, ya que el estimador de Bayes, así como sus propiedades estadísticas (varianza, intervalo de confianza, etc.), pueden derivarse de la distribución posterior.

Los valores a priori conjugados son especialmente útiles para la estimación secuencial, donde la distribución posterior de la medición actual se utiliza como la distribución anterior en la siguiente medición. En la estimación secuencial, a menos que se utilice un valor a priori conjugado, la distribución posterior normalmente se vuelve más compleja con cada medición añadida, y el estimador de Bayes no suele poder calcularse sin recurrir a métodos numéricos.

A continuación se presentan algunos ejemplos de priores conjugados.

Si es Normal , , y la anterior es normal, , entonces la posterior también es Normal y el estimador de Bayes bajo MSE está dado por $x|\theta$ $x|\theta \sim N(\theta ,\sigma ^{2})$ $\theta \sim N(\mu ,\tau ^{2})$

{\widehat {\theta }}(x)={\frac {\sigma ^{2}}{\sigma ^{2}+\tau ^{2}}}\mu +{\frac {\tau ^{2}}{\sigma ^{2}+\tau ^{2}}}x.

Si son variables aleatorias de Poisson iid , y si la anterior tiene distribución gamma , entonces la posterior también tiene distribución gamma, y el estimador de Bayes bajo MSE viene dado por $x_{1},...,x_{n}$ $x_{i}|\theta \sim P(\theta )$ $\theta \sim G(a,b)$

{\widehat {\theta }}(X)={\frac {n{\overline {X}}+a}{n+b}}.

Si los iid están distribuidos uniformemente , y si el anterior está distribuido en Pareto , entonces el posterior también está distribuido en Pareto, y el estimador de Bayes bajo MSE está dado por $x_{1},...,x_{n}$ $x_{i}|\theta \sim U(0,\theta )$ $\theta \sim Pa(\theta _{0},a)$

{\widehat {\theta }}(X)={\frac {(a+n)\max {(\theta _{0},x_{1},...,x_{n})}}{a+n-1}}.

Funciones de riesgo alternativas

Las funciones de riesgo se eligen en función de cómo se mide la distancia entre la estimación y el parámetro desconocido. La función de riesgo más utilizada es la función de riesgo de uso más común, principalmente debido a su simplicidad. Sin embargo, ocasionalmente también se utilizan funciones de riesgo alternativas. A continuación se presentan varios ejemplos de dichas alternativas. Denotamos la función de distribución generalizada posterior por . $F$

Mediana posterior y otros cuantiles

Una función de pérdida "lineal", con , que produce la mediana posterior como estimación de Bayes: $a>0$

L(\theta ,{\widehat {\theta }})=a|\theta -{\widehat {\theta }}|

F({\widehat {\theta }}(x)|X)={\tfrac {1}{2}}.

Otra función de pérdida "lineal", que asigna diferentes "pesos" a la sobreestimación o subestimación. Produce un cuartil a partir de la distribución posterior y es una generalización de la función de pérdida anterior: $a,b>0$

L(\theta ,{\widehat {\theta }})={\begin{cases}a|\theta -{\widehat {\theta }}|,&{\mbox{for }}\theta -{\widehat {\theta }}\geq 0\\b|\theta -{\widehat {\theta }}|,&{\mbox{for }}\theta -{\widehat {\theta }}<0\end{cases}}

F({\widehat {\theta }}(x)|X)={\frac {a}{a+b}}.

Modo posterior

La siguiente función de pérdida es más complicada: produce el modo posterior o un punto cercano a él, dependiendo de la curvatura y las propiedades de la distribución posterior. Se recomiendan valores pequeños del parámetro para utilizar el modo como aproximación ( ): $K>0$ $L>0$

L(\theta ,{\widehat {\theta }})={\begin{cases}0,&{\mbox{for }}|\theta -{\widehat {\theta }}|<K\\L,&{\mbox{for }}|\theta -{\widehat {\theta }}|\geq K.\end{cases}}

Se pueden concebir otras funciones de pérdida, aunque el error cuadrático medio es el más utilizado y validado. Otras funciones de pérdida se utilizan en estadística, en particular en estadística robusta .

Estimadores de Bayes generalizados

Hasta ahora se ha asumido que la distribución anterior es una distribución de probabilidad verdadera, en el sentido de que $p$

\int p(\theta )d\theta =1.

Sin embargo, ocasionalmente esto puede ser un requisito restrictivo. Por ejemplo, no existe una distribución (que cubra el conjunto, R , de todos los números reales) para la cual cada número real sea igualmente probable. Sin embargo, en cierto sentido, tal "distribución" parece una elección natural para una distribución previa no informativa , es decir, una distribución previa que no implica una preferencia por ningún valor particular del parámetro desconocido. Aún se puede definir una función , pero esta no sería una distribución de probabilidad adecuada ya que tiene masa infinita, $p(\theta )=1$

\int {p(\theta )d\theta }=\infty .

Estas medidas , que no son distribuciones de probabilidad, se denominan valores anteriores impropios . $p(\theta )$

El uso de una distribución previa impropia significa que el riesgo de Bayes no está definido (ya que la distribución previa no es una distribución de probabilidad y no podemos tomar una expectativa bajo ella). En consecuencia, ya no tiene sentido hablar de un estimador de Bayes que minimice el riesgo de Bayes. Sin embargo, en muchos casos, se puede definir la distribución posterior

p(\theta |x)={\frac {p(x|\theta )p(\theta )}{\int p(x|\theta )p(\theta )d\theta }}.

Esta es una definición y no una aplicación del teorema de Bayes , ya que el teorema de Bayes solo se puede aplicar cuando todas las distribuciones son adecuadas. Sin embargo, no es raro que el "posterior" resultante sea una distribución de probabilidad válida. En este caso, la pérdida esperada posterior

\int {L(\theta ,a)p(\theta |x)d\theta }

Por lo general, está bien definido y es finito. Recordemos que, para una distribución previa adecuada, el estimador de Bayes minimiza la pérdida esperada posterior. Cuando la distribución previa es inadecuada, un estimador que minimiza la pérdida esperada posterior se denomina estimador de Bayes generalizado . ^[2]

Ejemplo

Un ejemplo típico es la estimación de un parámetro de ubicación con una función de pérdida del tipo . Aquí tenemos un parámetro de ubicación, es decir, . $L(a-\theta )$ $\theta$ $p(x|\theta )=f(x-\theta )$

Es común utilizar el anterior impropio en este caso, especialmente cuando no hay otra información más subjetiva disponible. Esto produce $p(\theta )=1$

p(\theta |x)={\frac {p(x|\theta )p(\theta )}{p(x)}}={\frac {f(x-\theta )}{p(x)}}

Por lo tanto, la pérdida esperada posterior

E[L(a-\theta )|x]=\int {L(a-\theta )p(\theta |x)d\theta }={\frac {1}{p(x)}}\int L(a-\theta )f(x-\theta )d\theta .

El estimador generalizado de Bayes es el valor que minimiza esta expresión para un determinado . Esto es equivalente a minimizar $a(x)$ $x$

\int L(a-\theta )f(x-\theta )d\theta

para un determinado (1)

x.

En este caso se puede demostrar que el estimador generalizado de Bayes tiene la forma , para alguna constante . Para ver esto, sea el valor que minimiza (1) cuando . Entonces, dado un valor diferente , debemos minimizar $x+a_{0}$ $a_{0}$ $a_{0}$ $x=0$ $x_{1}$

\int L(a-\theta )f(x_{1}-\theta )d\theta =\int L(a-x_{1}-\theta ')f(-\theta ')d\theta '.

(2)

Esto es idéntico a (1), excepto que se ha reemplazado por . Por lo tanto, la expresión que minimiza está dada por , de modo que el estimador óptimo tiene la forma $a$ $a-x_{1}$ $a-x_{1}=a_{0}$

a(x)=a_{0}+x.\,\!

Estimadores bayesianos empíricos

Un estimador de Bayes derivado a través del método Bayes empírico se denomina estimador de Bayes empírico . Los métodos Bayes empíricos permiten el uso de datos empíricos auxiliares, a partir de observaciones de parámetros relacionados, en el desarrollo de un estimador Bayes. Esto se hace bajo el supuesto de que los parámetros estimados se obtienen a partir de un previo común. Por ejemplo, si se realizan observaciones independientes de diferentes parámetros, entonces el rendimiento de la estimación de un parámetro en particular a veces se puede mejorar utilizando datos de otras observaciones.

Existen enfoques tanto paramétricos como no paramétricos para la estimación empírica de Bayes. ^[4]

Ejemplo

El siguiente es un ejemplo simple de estimación bayesiana empírica paramétrica. Dadas las observaciones pasadas que tienen una distribución condicional , uno está interesado en estimar en base a . Suponga que los de tienen un previo común que depende de parámetros desconocidos. Por ejemplo, suponga que es normal con media y varianza desconocidas. Luego podemos usar las observaciones pasadas para determinar la media y la varianza de de la siguiente manera. $x_{1},\ldots ,x_{n}$ $f(x_{i}|\theta _{i})$ $\theta _{n+1}$ $x_{n+1}$ $\theta _{i}$ $\pi$ $\pi$ $\mu _{\pi }\,\!$ $\sigma _{\pi }\,\!.$ $\pi$

En primer lugar, estimamos la media y la varianza de la distribución marginal utilizando el enfoque de máxima verosimilitud : $\mu _{m}\,\!$ $\sigma _{m}\,\!$ $x_{1},\ldots ,x_{n}$

{\widehat {\mu }}_{m}={\frac {1}{n}}\sum {x_{i}},

{\widehat {\sigma }}_{m}^{2}={\frac {1}{n}}\sum {(x_{i}-{\widehat {\mu }}_{m})^{2}}.

A continuación, utilizamos la ley de la expectativa total para calcular y la ley de la varianza total para calcular de manera que $\mu _{m}$ $\sigma _{m}^{2}$

\mu _{m}=E_{\pi }[\mu _{f}(\theta )]\,\!,

\sigma _{m}^{2}=E_{\pi }[\sigma _{f}^{2}(\theta )]+E_{\pi }[(\mu _{f}(\theta )-\mu _{m})^{2}],

donde y son los momentos de la distribución condicional , que se supone que son conocidos. En particular, supongamos que y que ; entonces tenemos $\mu _{f}(\theta )$ $\sigma _{f}(\theta )$ $f(x_{i}|\theta _{i})$ $\mu _{f}(\theta )=\theta$ $\sigma _{f}^{2}(\theta )=K$

\mu _{\pi }=\mu _{m}\,\!,

\sigma _{\pi }^{2}=\sigma _{m}^{2}-\sigma _{f}^{2}=\sigma _{m}^{2}-K.

Finalmente, obtenemos los momentos estimados del anterior,

{\widehat {\mu }}_{\pi }={\widehat {\mu }}_{m},

{\widehat {\sigma }}_{\pi }^{2}={\widehat {\sigma }}_{m}^{2}-K.

Por ejemplo, si , y si asumimos una anterior normal (que es una anterior conjugada en este caso), concluimos que , a partir de la cual se puede calcular el estimador de Bayes de basado en . $x_{i}|\theta _{i}\sim N(\theta _{i},1)$ $\theta _{n+1}\sim N({\widehat {\mu }}_{\pi },{\widehat {\sigma }}_{\pi }^{2})$ $\theta _{n+1}$ $x_{n+1}$

Propiedades

Admisibilidad

Las reglas de Bayes que tienen un riesgo bayesiano finito suelen ser admisibles . A continuación se presentan algunos ejemplos específicos de teoremas de admisibilidad.

Si una regla de Bayes es única, entonces es admisible. ^[5] Por ejemplo, como se indicó anteriormente, bajo el error cuadrático medio (EMM), la regla de Bayes es única y, por lo tanto, admisible.
Si θ pertenece a un conjunto discreto , entonces todas las reglas de Bayes son admisibles.
Si θ pertenece a un conjunto continuo (no discreto), y si la función de riesgo R(θ,δ) es continua en θ para cada δ, entonces todas las reglas de Bayes son admisibles.

Por el contrario, las reglas de Bayes generalizadas suelen tener un riesgo de Bayes indefinido en el caso de valores previos incorrectos. Estas reglas suelen ser inadmisibles y la verificación de su admisibilidad puede ser difícil. Por ejemplo, el estimador de Bayes generalizado de un parámetro de ubicación θ basado en muestras gaussianas (descrito en la sección "Estimador de Bayes generalizado" anterior) es inadmisible para ; esto se conoce como el fenómeno de Stein . $p>2$

Eficiencia asintótica

Sea θ una variable aleatoria desconocida y supongamos que son muestras iid con densidad . Sea una secuencia de estimadores bayesianos de θ basados en un número creciente de mediciones. Nos interesa analizar el desempeño asintótico de esta secuencia de estimadores, es decir, el desempeño de para n grande . $x_{1},x_{2},\ldots$ $f(x_{i}|\theta )$ $\delta _{n}=\delta _{n}(x_{1},\ldots ,x_{n})$ $\delta _{n}$

Para ello, se acostumbra considerar a θ como un parámetro determinista cuyo valor verdadero es . En condiciones específicas, ^[6] para muestras grandes (valores grandes de n ), la densidad posterior de θ es aproximadamente normal. En otras palabras, para n grandes , el efecto de la probabilidad previa sobre la posterior es insignificante. Además, si δ es el estimador de Bayes bajo riesgo MSE, entonces es asintóticamente insesgado y converge en distribución a la distribución normal : $\theta _{0}$

{\sqrt {n}}(\delta _{n}-\theta _{0})\to N\left(0,{\frac {1}{I(\theta _{0})}}\right),

donde I (θ ₀ ) es la información de Fisher de θ ₀ . De ello se deduce que el estimador de Bayes δ _n bajo MSE es asintóticamente eficiente .

Otro estimador que es asintóticamente normal y eficiente es el estimador de máxima verosimilitud (EMV). Las relaciones entre los estimadores de máxima verosimilitud y de Bayes se pueden mostrar en el siguiente ejemplo simple.

Ejemplo: estimarpagen una distribución binomial

Consideremos el estimador de θ basado en la muestra binomial x ~b(θ, n ) donde θ denota la probabilidad de éxito. Suponiendo que θ se distribuye de acuerdo con la distribución previa conjugada, que en este caso es la distribución Beta B( a , b ), se sabe que la distribución posterior es B(a+x,b+nx). Por lo tanto, el estimador de Bayes bajo MSE es

\delta _{n}(x)=E[\theta |x]={\frac {a+x}{a+b+n}}.

El MLE en este caso es x/n y por lo tanto obtenemos,

\delta _{n}(x)={\frac {a+b}{a+b+n}}E[\theta ]+{\frac {n}{a+b+n}}\delta _{MLE}.

La última ecuación implica que, para n → ∞, el estimador de Bayes (en el problema descrito) está cerca del MLE.

Por otra parte, cuando n es pequeño, la información previa sigue siendo relevante para el problema de decisión y afecta la estimación. Para ver el peso relativo de la información previa, suponga que a = b ; en este caso, cada medición aporta 1 bit nuevo de información; la fórmula anterior muestra que la información previa tiene el mismo peso que a+b bits de la nueva información. En las aplicaciones, a menudo se sabe muy poco sobre los detalles finos de la distribución previa; en particular, no hay razón para suponer que coincide exactamente con B( a , b ). En tal caso, una posible interpretación de este cálculo es: "hay una distribución previa no patológica con el valor medio 0,5 y la desviación estándar d que da el peso de la información previa igual a 1/(4 d ² )-1 bits de nueva información".

Otro ejemplo del mismo fenómeno es el caso en el que la estimación previa y una medición se distribuyen normalmente. Si la estimación previa está centrada en B con desviación Σ, y la medición está centrada en b con desviación σ, entonces la estimación posterior está centrada en , con pesos en esta media ponderada siendo α=σ², β=Σ². Además, la desviación posterior al cuadrado es Σ²+σ². En otras palabras, la estimación previa se combina con la medición exactamente de la misma manera que si fuera una medición adicional a tener en cuenta. ${\frac {\alpha }{\alpha +\beta }}B+{\frac {\beta }{\alpha +\beta }}b$

Por ejemplo, si Σ=σ/2, entonces la desviación de 4 mediciones combinadas coincide con la desviación de la anterior (suponiendo que los errores de las mediciones son independientes). Y los pesos α,β en la fórmula para la posterior coinciden con esto: el peso de la anterior es 4 veces el peso de la medición. Combinando esta anterior con n mediciones con promedio v da como resultado la posterior centrada en ; en particular, la anterior juega el mismo papel que 4 mediciones realizadas por adelantado. En general, la anterior tiene el peso de (σ/Σ)² mediciones. ${\frac {4}{4+n}}V+{\frac {n}{4+n}}v$

Compárese con el ejemplo de la distribución binomial: allí la distribución anterior tiene el peso de (σ/Σ)²−1 mediciones. Se puede ver que el peso exacto depende de los detalles de la distribución, pero cuando σ≫Σ, la diferencia se vuelve pequeña.

Ejemplo práctico de estimadores de Bayes

La base de datos de películas de Internet utiliza una fórmula para calcular y comparar las calificaciones de las películas por parte de sus usuarios, incluidos los 250 títulos mejor valorados , que se afirma que dan "una estimación bayesiana verdadera". ^[7] La siguiente fórmula bayesiana se utilizó inicialmente para calcular una puntuación media ponderada para los 250 títulos mejor valorados, aunque la fórmula ha cambiado desde entonces:

W={Rv+Cm \over v+m}\

dónde:

W\

= calificación ponderada

R\

= calificación promedio de la película en forma de un número del 1 al 10 (media) = (Calificación)

v\

= número de votos/calificaciones de la película = (votos)

m\

= peso dado a la estimación previa (en este caso, la cantidad de votos que IMDB consideró necesarios para que la calificación promedio se acerque a la validez estadística)

C\

= el voto medio en todo el grupo (actualmente 7,0)

Tenga en cuenta que W es simplemente la media aritmética ponderada de R y C con el vector de peso (v, m) . A medida que el número de calificaciones supera m , la confianza de la calificación promedio supera la confianza del voto medio para todas las películas (C), y la calificación bayesiana ponderada (W) se acerca a un promedio directo (R). Cuanto más cerca esté v (el número de calificaciones para la película) de cero, más cerca estará W de C , donde W es la calificación ponderada y C es la calificación promedio de todas las películas. Entonces, en términos más simples, cuantas menos calificaciones/votos se emitan para una película, más se inclinará la Calificación ponderada de esa película hacia el promedio de todas las películas, mientras que las películas con muchas calificaciones/votos tendrán una calificación que se acercará a su calificación promedio aritmética pura.

El enfoque de IMDb garantiza que una película con sólo unas pocas calificaciones, todas de 10, no se ubique por encima de "El Padrino", por ejemplo, con un promedio de 9,2 en más de 500.000 calificaciones.

Véase también

Notas

^ Lehmann y Casella, Teorema 4.1.1
^ ab Lehmann y Casella, Definición 4.2.9
^ Jaynes, ET (2007). Probability Theory: The Logic of Science (5.ª edición impresa). Cambridge [ua]: Cambridge Univ. Press. pág. 172. ISBN 978-0-521-59271-0.
^ Berger (1980), sección 4.5.
^ Lehmann y Casella (1998), Teorema 5.2.4.
^ Lehmann y Casella (1998), sección 6.8
^ Los 250 mejores de IMDb

Referencias

Berger, James O. (1985). Teoría de la decisión estadística y análisis bayesiano (2.ª ed.). Nueva York: Springer-Verlag. ISBN 0-387-96098-8.Sr. 0804611 .
Lehmann, EL; Casella, G. (1998). Teoría de la estimación puntual (2.ª ed.). Springer. ISBN 0-387-98502-6.
Pilz, Jürgen (1991). "Estimación bayesiana". Estimación bayesiana y diseño experimental en modelos de regresión lineal . Chichester: John Wiley & Sons. págs. 38–117. ISBN 0-471-91732-X.

Enlaces externos

"Estimador bayesiano", Enciclopedia de Matemáticas , EMS Press , 2001 [1994]