stringtranslate.com

Reducción del modelo bayesiano

La reducción de modelos bayesianos es un método para calcular la evidencia y la posterior sobre los parámetros de los modelos bayesianos que difieren en sus anteriores . [1] [2] Un modelo completo se ajusta a los datos utilizando enfoques estándar. Luego, las hipótesis se prueban definiendo uno o más modelos "reducidos" con anteriores alternativos (y generalmente más restrictivos), que generalmente, en el límite, desactivan ciertos parámetros. La evidencia y los parámetros de los modelos reducidos se pueden calcular a partir de la evidencia y los parámetros estimados ( posteriores ) del modelo completo utilizando la reducción de modelos bayesianos. Si los anteriores y posteriores se distribuyen normalmente , entonces hay una solución analítica que se puede calcular rápidamente. Esto tiene múltiples aplicaciones científicas y de ingeniería: estas incluyen la puntuación de la evidencia para grandes cantidades de modelos muy rápidamente y la facilitación de la estimación de modelos jerárquicos ( Bayes empírico paramétrico ).

Teoría

Consideremos un modelo con parámetros y una densidad de probabilidad previa sobre esos parámetros . La creencia posterior sobre la probabilidad después de ver los datos viene dada por la regla de Bayes :

La segunda línea de la ecuación 1 es la evidencia del modelo, que es la probabilidad de observar los datos dado el modelo. En la práctica, la probabilidad posterior no suele calcularse analíticamente debido a la dificultad de calcular la integral sobre los parámetros. Por lo tanto, las probabilidades posteriores se estiman utilizando enfoques como el muestreo MCMC o el Bayes variacional . A continuación, se puede definir un modelo reducido con un conjunto alternativo de probabilidades previas :

El objetivo de la reducción de modelos bayesianos es calcular la posterior y la evidencia del modelo reducido a partir de la posterior y la evidencia del modelo completo. Combinando la ecuación 1 y la ecuación 2 y reordenándolas, la posterior reducida se puede expresar como el producto de la posterior completa, la relación de las anteriores y la relación de las evidencias:

La evidencia del modelo reducido se obtiene integrando sobre los parámetros de cada lado de la ecuación:

Y por reordenamiento:

Priores y posteriores gaussianos

Bajo densidades previas y posteriores gaussianas, como las que se usan en el contexto de Bayes variacional , la reducción del modelo bayesiano tiene una solución analítica simple. [1] Primero defina densidades normales para las anteriores y posteriores:

donde el símbolo tilde (~) indica cantidades relacionadas con el modelo reducido y el subíndice cero –como por ejemplo– indica parámetros de los valores a priori. Para mayor comodidad, también definimos matrices de precisión, que son la inversa de cada matriz de covarianza:

La energía libre del modelo completo es una aproximación (límite inferior) de la evidencia del modelo logarítmico: que se optimiza explícitamente en Bayes variacional (o se puede recuperar a partir de aproximaciones de muestreo). La energía libre y los parámetros del modelo reducido se dan entonces mediante las expresiones:

Ejemplo

Ejemplos de valores a priori. En un modelo "completo", a la izquierda, un parámetro tiene un valor a priori gaussiano con media 0 y desviación estándar 0,5. En un modelo "reducido", a la derecha, el mismo parámetro tiene una media a priori de cero y una desviación estándar de 1/1000. La reducción del modelo bayesiano permite que la evidencia y los parámetros del modelo reducido se deriven de la evidencia y los parámetros del modelo completo.

Consideremos un modelo con un parámetro y una distribución a priori gaussiana , que es la distribución normal con media cero y desviación estándar 0,5 (ilustrada en la Figura, izquierda). Esta distribución a priori dice que sin ningún dato, se espera que el parámetro tenga valor cero, pero estamos dispuestos a considerar valores positivos o negativos (con un intervalo de confianza del 99% [−1,16,1,16]). El modelo con esta distribución a priori se ajusta a los datos, para proporcionar una estimación del parámetro y la evidencia del modelo .

Para evaluar si el parámetro contribuyó a la evidencia del modelo, es decir, si aprendimos algo sobre este parámetro, se especifica un modelo alternativo "reducido" en el que el parámetro tiene una distribución previa con una varianza mucho menor: p. ej ., . Esto se ilustra en la Figura (derecha). Esta distribución previa efectivamente "desactiva" el parámetro, lo que indica que estamos casi seguros de que tiene valor cero. El parámetro y la evidencia para este modelo reducido se calculan rápidamente a partir del modelo completo utilizando la reducción del modelo bayesiano.

La hipótesis de que el parámetro contribuyó al modelo se prueba luego comparando los modelos completo y reducido a través del factor de Bayes , que es la relación de las evidencias del modelo:

Cuanto mayor sea esta relación, mayor será la evidencia a favor del modelo completo, que incluía el parámetro como parámetro libre. Por el contrario, cuanto más sólida sea la evidencia a favor del modelo reducido, más seguros podemos estar de que el parámetro no contribuyó. Tenga en cuenta que este método no es específico para comparar parámetros "activados" o "desactivados", y también se podría evaluar cualquier configuración intermedia de los valores previos.

Aplicaciones

Neuroimagen

La reducción de modelos bayesianos se desarrolló inicialmente para su uso en análisis de neuroimagen, [1] [3] en el contexto de modelado de la conectividad cerebral, como parte del marco de modelado causal dinámico (donde originalmente se lo denominó selección de modelos bayesianos post-hoc). [1] Los modelos causales dinámicos (DCM) son modelos de ecuaciones diferenciales de la dinámica cerebral. [4] El experimentador especifica múltiples modelos en competencia que difieren en sus valores previos, por ejemplo, en la elección de parámetros que se fijan en su expectativa previa de cero. Habiendo ajustado un único modelo "completo" con todos los parámetros de interés informados por los datos, la reducción de modelos bayesianos permite que la evidencia y los parámetros para los modelos en competencia se calculen rápidamente, con el fin de probar hipótesis. Estos modelos pueden ser especificados manualmente por el experimentador, o buscados automáticamente, con el fin de "podar" cualquier parámetro redundante que no contribuya a la evidencia.

La reducción del modelo bayesiano se generalizó posteriormente y se aplicó a otras formas de modelos bayesianos, por ejemplo, los modelos Bayes empíricos paramétricos (PEB) de efectos de grupo. [2] Aquí, se utiliza para calcular la evidencia y los parámetros para cualquier nivel dado de un modelo jerárquico bajo restricciones (priores empíricos) impuestas por el nivel superior.

Neurobiología

La reducción de modelos bayesianos se ha utilizado para explicar las funciones del cerebro. Por analogía con su uso para eliminar parámetros redundantes de los modelos de datos experimentales, se ha propuesto que el cerebro elimina los parámetros redundantes de los modelos internos del mundo cuando está desconectado (por ejemplo, durante el sueño). [5] [6]

Implementaciones de software

La reducción del modelo bayesiano se implementa en la caja de herramientas de mapeo paramétrico estadístico , en la función de Matlab spm_log_evidence_reduce.m.

Referencias

  1. ^ abcd Friston, Karl; Penny, Will (junio de 2011). "Selección de modelos bayesianos post hoc". NeuroImage . 56 (4): 2089–2099. doi :10.1016/j.neuroimage.2011.03.062. ISSN  1053-8119. PMC  3112494 . PMID  21459150.
  2. ^ ab Friston, Karl J.; Litvak, Vladimir; Oswal, Ashwini; Razi, Adeel; Stephan, Klaas E.; van Wijk, Bernadette CM; Ziegler, Gabriel; Zeidman, Peter (marzo de 2016). "Reducción de modelos bayesianos y Bayes empírico para estudios de grupo (DCM)". NeuroImage . 128 : 413–431. doi :10.1016/j.neuroimage.2015.11.015. ISSN  1053-8119. PMC 4767224 . PMID  26569570. 
  3. ^ Rosa, MJ; Friston, K.; Penny, W. (junio de 2012). "Selección post-hoc de modelos causales dinámicos". Journal of Neuroscience Methods . 208 (1): 66–78. doi :10.1016/j.jneumeth.2012.04.013. ISSN  0165-0270. PMC 3401996 . PMID  22561579. 
  4. ^ Friston, KJ; Harrison, L.; Penny, W. (agosto de 2003). "Modelado causal dinámico". NeuroImage . 19 (4): 1273–1302. doi :10.1016/s1053-8119(03)00202-7. ISSN  1053-8119. PMID  12948688. S2CID  2176588.
  5. ^ Friston, Karl J.; Lino, Marco; Frith, Christopher D.; Pezzulo, Giovanni; Hobson, J. Allan; Ondobaka, Sasha (octubre de 2017). "Inferencia activa, curiosidad y perspicacia" (PDF) . Computación neuronal . 29 (10): 2633–2683. doi :10.1162/neco_a_00999. ISSN  0899-7667. PMID  28777724. S2CID  13354308.
  6. ^ Tononi, Giulio; Cirelli, Chiara (febrero de 2006). "Función del sueño y homeostasis sináptica". Reseñas de medicina del sueño . 10 (1): 49–62. doi :10.1016/j.smrv.2005.05.002. ISSN  1087-0792. PMID  16376591.