stringtranslate.com

Estimación máxima a posteriori

En estadística bayesiana , una estimación de probabilidad máxima a posteriori ( MAP ) es una estimación de una cantidad desconocida, que es igual a la moda de la distribución posterior . El MAP se puede utilizar para obtener una estimación puntual de una cantidad no observada sobre la base de datos empíricos. Está estrechamente relacionado con el método de estimación de máxima verosimilitud (ML), pero emplea un objetivo de optimización aumentado que incorpora una distribución previa (que cuantifica la información adicional disponible a través del conocimiento previo de un evento relacionado) sobre la cantidad que se quiere estimar. Por lo tanto, la estimación MAP puede verse como una regularización de la estimación de máxima verosimilitud.

Descripción

Supongamos que queremos estimar un parámetro poblacional no observado sobre la base de observaciones . Sea la distribución muestral de , por lo que es la probabilidad de que el parámetro de población subyacente sea . Entonces la función:

se conoce como función de verosimilitud y la estimación:

es la estimación de máxima verosimilitud de .

Ahora supongamos que existe una distribución anterior . Esto nos permite tratarla como una variable aleatoria como en la estadística bayesiana . Podemos calcular la distribución posterior usando el teorema de Bayes :

donde es la función de densidad de , es el dominio de .

El método de estimación máxima a posteriori estima entonces como la moda de la distribución posterior de esta variable aleatoria:

El denominador de la distribución posterior (la llamada probabilidad marginal ) es siempre positivo y no depende de la optimización y, por lo tanto, no desempeña ningún papel en ella. Observe que la estimación MAP de coincide con la estimación ML cuando el a priori es uniforme (es decir, es una función constante ).

Cuando la función de pérdida es de la forma

cuando llega a 0, el estimador de Bayes se aproxima al estimador MAP, siempre que la distribución de sea cuasicóncava. [1] Pero, en general, un estimador MAP no es un estimador Bayes a menos que sea discreto .

Cálculo

Las estimaciones de MAP se pueden calcular de varias maneras:

  1. Analíticamente, cuando los modos de la distribución posterior se pueden dar en forma cerrada . Este es el caso cuando se utilizan priores conjugados .
  2. Mediante optimización numérica como el método del gradiente conjugado o el método de Newton . Esto suele requerir primera o segunda derivada , que debe evaluarse analítica o numéricamente.
  3. Mediante una modificación de un algoritmo de maximización de expectativas . Esto no requiere derivados de la densidad posterior.
  4. Mediante un método Monte Carlo utilizando recocido simulado

Limitaciones

Si bien solo se requieren condiciones leves para que la estimación MAP sea un caso límite de la estimación Bayes (bajo la función de pérdida 0-1), [1] no es muy representativo de los métodos bayesianos en general. Esto se debe a que las estimaciones MAP son estimaciones puntuales, mientras que los métodos bayesianos se caracterizan por el uso de distribuciones para resumir datos y hacer inferencias: por lo tanto, los métodos bayesianos tienden a informar la media o mediana posterior , junto con intervalos creíbles . Esto se debe a que estos estimadores son óptimos bajo error cuadrático y pérdida de error lineal respectivamente, que son más representativos de funciones de pérdida típicas , y para una distribución posterior continua no existe una función de pérdida que sugiera que MAP es el estimador puntual óptimo. Además, es posible que la distribución posterior a menudo no tenga una forma analítica simple: en este caso, la distribución se puede simular utilizando técnicas de Monte Carlo de cadena de Markov , mientras que la optimización para encontrar su(s) modo(s) puede ser difícil o imposible. [ cita necesaria ]

Un ejemplo de densidad de una distribución bimodal en la que el modo más alto no es característico de la mayor parte de la distribución.

En muchos tipos de modelos, como los modelos mixtos , la parte posterior puede ser multimodal . En tal caso, la recomendación habitual es elegir el modo más alto: esto no siempre es factible ( la optimización global es un problema difícil), ni en algunos casos ni siquiera es posible (como cuando surgen problemas de identificabilidad ). Además, el modo más alto puede no ser característico de la mayoría de los posteriores.

Finalmente, a diferencia de los estimadores ML, la estimación MAP no es invariante bajo reparametrización. Pasar de una parametrización a otra implica introducir un jacobiano que incide en la ubicación del máximo. [2]

Como ejemplo de la diferencia entre los estimadores Bayes mencionados anteriormente (estimadores de media y mediana) y el uso de una estimación MAP, considere el caso en el que es necesario clasificar los insumos como positivos o negativos (por ejemplo, préstamos como riesgosos o seguros). Supongamos que hay sólo tres hipótesis posibles sobre el método correcto de clasificación , y con posteriores 0,4, 0,3 y 0,3 respectivamente. Supongamos que dada una nueva instancia, , la clasifica como positiva, mientras que las otras dos la clasifican como negativa. El uso de la estimación MAP para el clasificador correcto se clasifica como positivo, mientras que los estimadores de Bayes promediarían todas las hipótesis y se clasificarían como negativos.

Ejemplo

Supongamos que nos dan una secuencia de variables aleatorias IID y una distribución previa de está dada por . Deseamos encontrar la estimación MAP de . Tenga en cuenta que la distribución normal es su propia conjugada anterior , por lo que podremos encontrar analíticamente una solución de forma cerrada .

La función a maximizar viene dada por

lo que equivale a minimizar la siguiente función de :

Así, vemos que el estimador MAP para μ viene dado por

lo que resulta ser una interpolación lineal entre la media anterior y la media muestral ponderada por sus respectivas covarianzas.

El caso de se denomina a priori no informativo y conduce a una distribución de probabilidad inadecuada ; en este caso

Referencias

  1. ^ ab Bassett, Robert; Burla, Julio (30 de enero de 2018). "Estimadores máximos a posteriori como límite de los estimadores de Bayes". Programación matemática : 1–16. arXiv : 1611.05917 . doi :10.1007/s10107-018-1241-0. ISSN  0025-5610.
  2. ^ Murphy, Kevin P. (2012). Aprendizaje automático: una perspectiva probabilística . Cambridge, Massachusetts: MIT Press. págs. 151-152. ISBN 978-0-262-01802-9.