Aproximación de Laplace

La aproximación de Laplace proporciona una expresión analítica para una distribución de probabilidad posterior al ajustar una distribución gaussiana con una media igual a la solución MAP y una precisión igual a la información de Fisher observada . ^[1]^[2] La aproximación está justificada por el teorema de Bernstein-von Mises , que establece que, en condiciones de regularidad, el error de la aproximación tiende a 0 a medida que el número de puntos de datos tiende a infinito. ^[3]^[4]

Por ejemplo, considere un modelo de regresión o clasificación con un conjunto de datos que comprende entradas y salidas con un vector de parámetros (desconocido) de longitud . La probabilidad se denota como , y el parámetro como . Supongamos que uno quiere aproximar la densidad conjunta de salidas y parámetros . La fórmula de Bayes dice: $\{x_{n},y_{n}\}_{n=1,\ldots ,N}$ ${\estilo de visualización x}$ ${\estilo de visualización y}$ ${\estilo de visualización \theta}$ ${\estilo de visualización D}$ $p({\bf {y}}|{\bf {x}},\theta )$ $p(\theta )$ $p({\bf {y}},\theta |{\bf {x}})$

p({\bf {y}},\theta |{\bf {x}})\;=\;p({\bf {y}}|{\bf {x}},\theta )p(\theta |{\bf {x}})\;=\;p({\bf {y}}|{\bf {x}})p(\theta |{\bf {y}},{\bf {x}})\;\simeq \;{\tilde {q}}(\theta )\;=\;Zq(\theta ).

La articulación es igual al producto de la verosimilitud por la anterior y, según la regla de Bayes , igual al producto de la verosimilitud marginal por la posterior . Vista como una función de la articulación, es una densidad no normalizada. $p({\bf {y}}|{\bf {x}})$ $p(\theta |{\bf {y}},{\bf {x}})$ ${\estilo de visualización \theta}$

En la aproximación de Laplace, aproximamos la articulación mediante una gaussiana no normalizada , donde usamos para denotar la densidad aproximada, para la densidad no normalizada y la constante de normalización de (independiente de ). Dado que la verosimilitud marginal no depende del parámetro y la normalización posterior sobre , podemos identificarlos inmediatamente con y de nuestra aproximación, respectivamente. ${\tilde {q}}(\theta )=Zq(\theta )$ ${\estilo de visualización q}$ ${\tilde {q}}$ ${\estilo de visualización Z}$ ${\tilde {q}}$ ${\estilo de visualización \theta}$ $p({\bf {y}}|{\bf {x}})$ ${\estilo de visualización \theta}$ $p(\theta |{\bf {y}},{\bf {x}})$ ${\estilo de visualización \theta}$ ${\estilo de visualización Z}$ $q(\theta )$

La aproximación de Laplace es

p({\bf {y}},\theta |{\bf {x}})\;\simeq \;p({\bf {y}},{\hat {\theta }}|{\bf {x}})\exp {\big (}-{\tfrac {1}{2}}(\theta -{\hat {\theta }})^{\top }S^{-1}(\theta -{\hat {\theta }}){\big )}\;=\;{\tilde {q}}(\theta ),

donde hemos definido

{\begin{aligned}{\hat {\theta }}&\;=\;\operatorname {argmax} _{\theta }\log p({\bf {y}},\theta |{\bf {x}}),\\S^{-1}&\;=\;-\left.\nabla _{\theta }\nabla _{\theta }\log p({\bf {y}},\theta |{\bf {x}})\right|_{\theta ={\hat {\theta }}},\end{aligned}}

donde es la ubicación de un modo de la densidad objetivo conjunta, también conocido como punto máximo a posteriori o punto MAP y es la matriz definida positiva de las segundas derivadas de la densidad objetivo conjunta logarítmica negativa en el modo . Por lo tanto, la aproximación gaussiana coincide con el valor y la curvatura logarítmica de la densidad objetivo no normalizada en el modo. El valor de se encuentra generalmente utilizando un método basado en gradientes . ${\hat {\theta }}$ $S^{-1}$ $D\times D$ $\theta ={\hat {\theta }}$ ${\hat {\theta }}$

En resumen, tenemos

{\begin{aligned}q(\theta )&\;=\;{\cal {N}}(\theta |\mu ={\hat {\theta }},\Sigma =S),\\\log Z&\;=\;\log p({\bf {y}},{\hat {\theta }}|{\bf {x}})+{\tfrac {1}{2}}\log |S|+{\tfrac {D}{2}}\log(2\pi ),\end{aligned}}

para la probabilidad posterior aproximada y la probabilidad marginal logarítmica aproximada respectivamente. $\theta$

Las principales debilidades de la aproximación de Laplace son que es simétrica en torno al modo y que es muy local: toda la aproximación se deriva de propiedades en un único punto de la densidad objetivo. El método de Laplace es ampliamente utilizado y fue desarrollado por primera vez en el contexto de las redes neuronales por David MacKay ^[5] y para los procesos gaussianos por Williams y Barber ^{[6] .}

Referencias

^ Kass, Robert E.; Tierney, Luke; Kadane, Joseph B. (1991). "El método de Laplace en el análisis bayesiano". Integración múltiple estadística . Matemáticas contemporáneas. Vol. 115. págs. 89-100. doi :10.1090/conm/115/07. ISBN. 0-8218-5122-5.
^ MacKay, David JC (2003). "Teoría de la información, inferencia y algoritmos de aprendizaje, capítulo 27: El método de Laplace" (PDF) .
^ Hartigan, JA (1983). "Normalidad asintótica de distribuciones posteriores". Teoría de Bayes . Springer Series in Statistics. Nueva York: Springer. págs. 107-118. doi :10.1007/978-1-4613-8242-3_11. ISBN . 978-1-4613-8244-7.
^ Kass, Robert E.; Tierney, Luke; Kadane, Joseph B. (1990). "La validez de las expansiones posteriores basadas en el método de Laplace". En Geisser, S.; Hodges, JS; Press, SJ; Zellner, A. (eds.). Métodos bayesianos y de verosimilitud en estadística y econometría . Elsevier. págs. 473–488. ISBN 0-444-88376-2.
^ MacKay, David JC (1992). "Interpolación bayesiana" (PDF) . Computación neuronal . 4 (3). MIT Press: 415–447. doi :10.1162/neco.1992.4.3.415. S2CID 1762283.
^ Williams, Christopher KI; Barber, David (1998). "Clasificación bayesiana con procesos gaussianos" (PDF) . PAMI . 20 (12). IEEE: 1342–1351. doi :10.1109/34.735807.

Lectura adicional

Amaral Turkman, M. Antónia; Paulino, Carlos Daniel; Müller, Peter (2019). "El método clásico de Laplace". Estadística bayesiana computacional: una introducción . Cambridge: Cambridge University Press. págs. 154–159. ISBN 978-1-108-48103-8.
Tanner, Martin A. (1996). "Momentos posteriores y marginalización basados en el método de Laplace". Herramientas para la inferencia estadística . Nueva York: Springer. pp. 44–51. ISBN 0-387-94688-8.