stringtranslate.com

Aproximación de Laplace

La aproximación de Laplace proporciona una expresión analítica para una distribución de probabilidad posterior al ajustar una distribución gaussiana con una media igual a la solución MAP y una precisión igual a la información de Fisher observada . [1] [2] La aproximación está justificada por el teorema de Bernstein-von Mises , que establece que, en condiciones de regularidad, el error de la aproximación tiende a 0 a medida que el número de puntos de datos tiende a infinito. [3] [4]

Por ejemplo, considere un modelo de regresión o clasificación con un conjunto de datos que comprende entradas y salidas con un vector de parámetros (desconocido) de longitud . La probabilidad se denota como , y el parámetro como . Supongamos que uno quiere aproximar la densidad conjunta de salidas y parámetros . La fórmula de Bayes dice:

La articulación es igual al producto de la verosimilitud por la anterior y, según la regla de Bayes , igual al producto de la verosimilitud marginal por la posterior . Vista como una función de la articulación, es una densidad no normalizada.

En la aproximación de Laplace, aproximamos la articulación mediante una gaussiana no normalizada , donde usamos para denotar la densidad aproximada, para la densidad no normalizada y la constante de normalización de (independiente de ). Dado que la verosimilitud marginal no depende del parámetro y la normalización posterior sobre , podemos identificarlos inmediatamente con y de nuestra aproximación, respectivamente.

La aproximación de Laplace es

donde hemos definido

donde es la ubicación de un modo de la densidad objetivo conjunta, también conocido como punto máximo a posteriori o punto MAP y es la matriz definida positiva de las segundas derivadas de la densidad objetivo conjunta logarítmica negativa en el modo . Por lo tanto, la aproximación gaussiana coincide con el valor y la curvatura logarítmica de la densidad objetivo no normalizada en el modo. El valor de se encuentra generalmente utilizando un método basado en gradientes .

En resumen, tenemos

para la probabilidad posterior aproximada y la probabilidad marginal logarítmica aproximada respectivamente.

Las principales debilidades de la aproximación de Laplace son que es simétrica en torno al modo y que es muy local: toda la aproximación se deriva de propiedades en un único punto de la densidad objetivo. El método de Laplace es ampliamente utilizado y fue desarrollado por primera vez en el contexto de las redes neuronales por David MacKay [5] y para los procesos gaussianos por Williams y Barber [6] .

Referencias

  1. ^ Kass, Robert E.; Tierney, Luke; Kadane, Joseph B. (1991). "El método de Laplace en el análisis bayesiano". Integración múltiple estadística . Matemáticas contemporáneas. Vol. 115. págs. 89-100. doi :10.1090/conm/115/07. ISBN. 0-8218-5122-5.
  2. ^ MacKay, David JC (2003). "Teoría de la información, inferencia y algoritmos de aprendizaje, capítulo 27: El método de Laplace" (PDF) .
  3. ^ Hartigan, JA (1983). "Normalidad asintótica de distribuciones posteriores". Teoría de Bayes . Springer Series in Statistics. Nueva York: Springer. págs. 107-118. doi :10.1007/978-1-4613-8242-3_11. ISBN . 978-1-4613-8244-7.
  4. ^ Kass, Robert E.; Tierney, Luke; Kadane, Joseph B. (1990). "La validez de las expansiones posteriores basadas en el método de Laplace". En Geisser, S.; Hodges, JS; Press, SJ; Zellner, A. (eds.). Métodos bayesianos y de verosimilitud en estadística y econometría . Elsevier. págs. 473–488. ISBN 0-444-88376-2.
  5. ^ MacKay, David JC (1992). "Interpolación bayesiana" (PDF) . Computación neuronal . 4 (3). MIT Press: 415–447. doi :10.1162/neco.1992.4.3.415. S2CID  1762283.
  6. ^ Williams, Christopher KI; Barber, David (1998). "Clasificación bayesiana con procesos gaussianos" (PDF) . PAMI . 20 (12). IEEE: 1342–1351. doi :10.1109/34.735807.

Lectura adicional