stringtranslate.com

Estimador de Bayes

En teoría de la estimación y teoría de la decisión , un estimador de Bayes o una acción de Bayes es un estimador o regla de decisión que minimiza el valor esperado posterior de una función de pérdida (es decir, la pérdida esperada posterior ). De manera equivalente, maximiza la expectativa posterior de una función de utilidad . Una forma alternativa de formular un estimador dentro de la estadística bayesiana es la estimación máxima a posteriori .

Definición

Supongamos que se sabe que un parámetro desconocido tiene una distribución previa . Sea un estimador de (basado en algunas medidas x ) y sea una función de pérdida , como el error al cuadrado. El riesgo de Bayes de se define como , donde la expectativa se toma sobre la distribución de probabilidad de : esto define la función de riesgo como una función de . Se dice que un estimador es un estimador Bayes si minimiza el riesgo Bayes entre todos los estimadores. De manera equivalente, el estimador que minimiza la pérdida esperada posterior para cada uno también minimiza el riesgo de Bayes y, por lo tanto, es un estimador de Bayes. [1]

Si el a priori es inadecuado , entonces un estimador que minimiza la pérdida esperada posterior para cada uno se llama estimador de Bayes generalizado . [2]

Ejemplos

Estimación del error cuadrático medio mínimo

La función de riesgo más común utilizada para la estimación bayesiana es el error cuadrático medio (MSE), también llamado riesgo de error cuadrático . La MSE se define por

donde la expectativa se toma sobre la distribución conjunta de y .

media posterior

Utilizando el MSE como riesgo, la estimación de Bayes del parámetro desconocido es simplemente la media de la distribución posterior , [3]

Esto se conoce como estimador del error cuadrático medio mínimo (MMSE).

Estimadores de Bayes para priores conjugados

Si no hay una razón inherente para preferir una distribución de probabilidad previa sobre otra, a veces se elige una distribución previa conjugada por simplicidad. Una prior conjugada se define como una distribución previa que pertenece a alguna familia paramétrica , para la cual la distribución posterior resultante también pertenece a la misma familia. Esta es una propiedad importante, ya que el estimador de Bayes, así como sus propiedades estadísticas (varianza, intervalo de confianza, etc.), pueden derivarse de la distribución posterior.

Los priores conjugados son especialmente útiles para la estimación secuencial, donde el posterior de la medición actual se utiliza como el anterior en la siguiente medición. En la estimación secuencial, a menos que se utilice un prior conjugado, la distribución posterior generalmente se vuelve más compleja con cada medición agregada y el estimador de Bayes generalmente no se puede calcular sin recurrir a métodos numéricos.

A continuación se muestran algunos ejemplos de anteriores conjugados.

Funciones de riesgo alternativas

Las funciones de riesgo se eligen dependiendo de cómo se mide la distancia entre la estimación y el parámetro desconocido. El MSE es la función de riesgo más común en uso, principalmente debido a su simplicidad. Sin embargo, ocasionalmente también se utilizan funciones de riesgo alternativas. Los siguientes son varios ejemplos de tales alternativas. Denotamos la función de distribución generalizada posterior por .

Mediana posterior y otros cuantiles

modo posterior

Se pueden concebir otras funciones de pérdida, aunque el error cuadrático medio es el más utilizado y validado. Otras funciones de pérdida se utilizan en estadísticas, particularmente en estadísticas sólidas .

Estimadores de Bayes generalizados

Hasta ahora se ha asumido que la distribución anterior es una verdadera distribución de probabilidad, en el sentido de que

Sin embargo, en ocasiones esto puede ser un requisito restrictivo. Por ejemplo, no existe una distribución (que cubra el conjunto, R , de todos los números reales) para la cual todos los números reales sean igualmente probables. Sin embargo, en cierto sentido, tal "distribución" parece una elección natural para una distribución previa no informativa , es decir, una distribución previa que no implica una preferencia por ningún valor particular del parámetro desconocido. Todavía se puede definir una función , pero esta no sería una distribución de probabilidad adecuada ya que tiene masa infinita,

Estas medidas , que no son distribuciones de probabilidad, se denominan a priori impropias .

El uso de una distribución previa inadecuada significa que el riesgo de Bayes no está definido (ya que la distribución anterior no es una distribución de probabilidad y no podemos asumir una expectativa bajo ella). En consecuencia, ya no tiene sentido hablar de un estimador Bayes que minimice el riesgo Bayes. Sin embargo, en muchos casos, se puede definir la distribución posterior.

Esta es una definición y no una aplicación del teorema de Bayes , ya que el teorema de Bayes sólo se puede aplicar cuando todas las distribuciones son adecuadas. Sin embargo, no es raro que el "posterior" resultante sea una distribución de probabilidad válida. En este caso, la pérdida esperada posterior

suele estar bien definido y ser finito. Recuerde que, para un a priori adecuado, el estimador de Bayes minimiza la pérdida esperada posterior. Cuando el a priori es inadecuado, un estimador que minimiza la pérdida esperada posterior se denomina estimador de Bayes generalizado . [2]

Ejemplo

Un ejemplo típico es la estimación de un parámetro de ubicación con una función de pérdida del tipo . Aquí hay un parámetro de ubicación, es decir ,.

Es común utilizar el previo inadecuado en este caso, especialmente cuando no se dispone de otra información más subjetiva. Esto produce

entonces la pérdida esperada posterior

El estimador de Bayes generalizado es el valor que minimiza esta expresión para un determinado . Esto equivale a minimizar

para un determinado         (1)

En este caso se puede demostrar que el estimador de Bayes generalizado tiene la forma , para alguna constante . Para ver esto, sea el valor que minimiza (1) cuando . Entonces, dado un valor diferente , debemos minimizar

        (2)

Es idéntico a (1), excepto que ha sido reemplazado por . Así, la expresión minimizando viene dada por , de modo que el estimador óptimo tiene la forma

Estimadores empíricos de Bayes

Un estimador de Bayes derivado mediante el método empírico de Bayes se denomina estimador empírico de Bayes . Los métodos empíricos de Bayes permiten el uso de datos empíricos auxiliares, a partir de observaciones de parámetros relacionados, en el desarrollo de un estimador de Bayes. Esto se hace bajo el supuesto de que los parámetros estimados se obtienen a partir de un previo común. Por ejemplo, si se realizan observaciones independientes de diferentes parámetros, a veces se puede mejorar el rendimiento de la estimación de un parámetro particular utilizando datos de otras observaciones.

Existen enfoques tanto paramétricos como no paramétricos para la estimación empírica de Bayes. [4]

Ejemplo

El siguiente es un ejemplo sencillo de estimación empírica paramétrica de Bayes. Dadas las observaciones pasadas que tienen distribución condicional , uno está interesado en realizar estimaciones basadas en . Supongamos que los 's tienen un anterior común que depende de parámetros desconocidos. Por ejemplo, supongamos que es normal con media y varianza desconocidas . Luego podemos usar las observaciones pasadas para determinar la media y la varianza de la siguiente manera.

Primero, estimamos la media y la varianza de la distribución marginal utilizando el enfoque de máxima verosimilitud :

A continuación, usamos la ley de expectativa total para calcular y la ley de varianza total para calcular de modo que

donde y son los momentos de la distribución condicional , que se suponen conocidos. En particular, supongamos eso y aquello ; entonces tenemos

Finalmente, obtenemos los momentos estimados del anterior,

Por ejemplo, si , y si asumimos un previo normal (que es un previo conjugado en este caso), concluimos que , a partir del cual se puede calcular el estimador de Bayes de basado en .

Propiedades

Admisibilidad

Las reglas de Bayes que tienen un riesgo de Bayes finito suelen ser admisibles . Los siguientes son algunos ejemplos específicos de teoremas de admisibilidad.

Por el contrario, las reglas de Bayes generalizadas a menudo tienen un riesgo de Bayes indefinido en el caso de antecedentes inadecuados. Estas normas son a menudo inadmisibles y la verificación de su admisibilidad puede resultar difícil. Por ejemplo, el estimador de Bayes generalizado de un parámetro de ubicación θ basado en muestras gaussianas (descrito en la sección "Estimador de Bayes generalizado" anterior) es inadmisible para ; esto se conoce como fenómeno de Stein .

Eficiencia asintótica

Sea θ una variable aleatoria desconocida y supongamos que son muestras iid con densidad . Sea una secuencia de estimadores Bayes de θ basada en un número creciente de mediciones. Estamos interesados ​​en analizar el desempeño asintótico de esta secuencia de estimadores, es decir, el desempeño de para n grande .

Con este fin, se acostumbra considerar θ como un parámetro determinista cuyo valor verdadero es . En condiciones específicas, [6] para muestras grandes (valores grandes de n ), la densidad posterior de θ es aproximadamente normal. En otras palabras, para n grande , el efecto de la probabilidad a priori sobre la posterior es insignificante. Además, si δ es el estimador de Bayes bajo riesgo MSE, entonces es asintóticamente insesgado y converge en distribución a la distribución normal :

donde I0 ) es la información de Fisher de θ 0 . De ello se deduce que el estimador de Bayes δ n bajo MSE es asintóticamente eficiente .

Otro estimador asintóticamente normal y eficiente es el estimador de máxima verosimilitud (MLE). Las relaciones entre los estimadores de máxima verosimilitud y Bayes se pueden mostrar en el siguiente ejemplo sencillo.

Ejemplo: estimar p en una distribución binomial

Considere el estimador de θ basado en una muestra binomial x ~b(θ, n ) donde θ denota la probabilidad de éxito. Suponiendo que θ se distribuye según la anterior conjugada, que en este caso es la distribución Beta B( a , b ), se sabe que la distribución posterior es B(a+x,b+nx). Por lo tanto, el estimador de Bayes bajo MSE es

El MLE en este caso es x/n y entonces obtenemos,

La última ecuación implica que, para n → ∞, el estimador de Bayes (en el problema descrito) está cerca del MLE.

Por otro lado, cuando n es pequeño, la información previa sigue siendo relevante para el problema de decisión y afecta la estimación. Para ver el peso relativo de la información anterior, supongamos que a = b ; en este caso cada medición aporta 1 nuevo bit de información; La fórmula anterior muestra que la información anterior tiene el mismo peso que los bits a+b de la nueva información. En las aplicaciones, a menudo se sabe muy poco sobre los detalles finos de la distribución anterior; en particular, no hay razón para suponer que coincida exactamente con B( a , b ). En tal caso, una posible interpretación de este cálculo es: "existe una distribución previa no patológica con el valor medio 0,5 y la desviación estándar d que da el peso de la información previa igual a 1/(4 d 2 )-1 pedazos de nueva información."

Otro ejemplo del mismo fenómeno es el caso cuando la estimación previa y una medición se distribuyen normalmente. Si el anterior está centrado en B con desviación Σ, y la medición está centrada en b con desviación σ, entonces el posterior está centrado en , siendo los pesos en este promedio ponderado α=σ², β=Σ². Además, la desviación posterior al cuadrado es Σ²+σ². Es decir, el prior se combina con la medida exactamente de la misma manera como si fuera una medida extra a tener en cuenta.

Por ejemplo, si Σ=σ/2, entonces la desviación de 4 mediciones combinadas coincide con la desviación de la anterior (asumiendo que los errores de las mediciones son independientes). Y los pesos α,β en la fórmula para posterior coinciden con esto: el peso del anterior es 4 veces el peso de la medida. Combinando este anterior con n mediciones con v promedio se obtienen resultados en el posterior centrado en ; en particular, el prior juega el mismo papel que 4 mediciones realizadas con antelación. En general, el prior tiene el peso de (σ/Σ)² medidas.

Compárese con el ejemplo de la distribución binomial: allí el prior tiene el peso de (σ/Σ)²−1 medidas. Se puede ver que el peso exacto depende de los detalles de la distribución, pero cuando σ≫Σ, la diferencia se vuelve pequeña.

Ejemplo práctico de estimadores de Bayes

Internet Movie Database utiliza una fórmula para calcular y comparar las calificaciones de las películas por parte de sus usuarios, incluidos sus 250 títulos mejor calificados , que se afirma que proporciona "una verdadera estimación bayesiana". [7] La ​​siguiente fórmula bayesiana se utilizó inicialmente para calcular una puntuación promedio ponderada para los 250 mejores, aunque la fórmula ha cambiado desde entonces:

dónde:

= calificación ponderada
= calificación promedio de la película como un número del 1 al 10 (media) = (calificación)
= número de votos/calificaciones de la película = (votos)
= ponderación dada a la estimación anterior (en este caso, el número de votos que IMDB consideró necesarios para que la calificación promedio se acerque a la validez estadística)
= el voto medio en todo el grupo (actualmente 7,0)

Tenga en cuenta que W es solo la media aritmética ponderada de R y C con el vector de peso (v, m) . A medida que el número de calificaciones supera m , la confianza de la calificación promedio supera la confianza del voto medio para todas las películas (C), y la calificación bayesiana ponderada (W) se acerca a un promedio directo (R). Cuanto más cerca esté v (el número de calificaciones de la película) de cero, más cerca estará W de C , donde W es la calificación ponderada y C es la calificación promedio de todas las películas. Entonces, en términos más simples, cuantas menos calificaciones/votos se emitan para una película, más se inclinará la calificación ponderada de esa película hacia el promedio de todas las películas, mientras que las películas con muchas calificaciones/votos tendrán una calificación que se acercará a su calificación promedio aritmética pura.

El enfoque de IMDb garantiza que una película con sólo unas pocas calificaciones, todas ellas de 10, no estaría por encima de "El Padrino", por ejemplo, con un promedio de 9,2 entre más de 500.000 calificaciones.

Ver también

Notas

  1. ^ Lehmann y Casella, Teorema 4.1.1
  2. ^ ab Lehmann y Casella, Definición 4.2.9
  3. ^ Jaynes, et (2007). Teoría de la probabilidad: la lógica de la ciencia (5. ed. impresa). Cambridge [ua]: Universidad de Cambridge. Prensa. pag. 172.ISBN​ 978-0-521-59271-0.
  4. ^ Berger (1980), sección 4.5.
  5. ^ Lehmann y Casella (1998), Teorema 5.2.4.
  6. ^ Lehmann y Casella (1998), sección 6.8
  7. ^ Top 250 de IMDb

Referencias

enlaces externos