Transmisión de mensajes variacional

El paso de mensajes variacionales ( VMP ) es una técnica de inferencia aproximada para redes bayesianas de valores continuos o discretos , con padres exponenciales conjugados , desarrollada por John Winn. VMP se desarrolló como un medio para generalizar los métodos variacionales aproximados utilizados por técnicas como la asignación latente de Dirichlet , y funciona actualizando una distribución aproximada en cada nodo a través de mensajes en la manta de Markov del nodo .

Límite inferior de probabilidad

Dado un conjunto de variables ocultas y variables observadas , el objetivo de la inferencia aproximada es maximizar un límite inferior en la probabilidad de que un modelo gráfico esté en la configuración . Sobre una distribución de probabilidad (que se definirá más adelante), ${\estilo de visualización H}$ ${\estilo de visualización V}$ ${\estilo de visualización V}$ ${\estilo de visualización Q}$

\ln P(V)=\suma _{H}Q(H)\ln {\frac {P(H,V)}{P(H|V)}}=\suma _{H}Q(H){\Bigg [}\ln {\frac {P(H,V)}{Q(H)}}-\ln {\frac {P(H|V)}{Q(H)}}{\Bigg ]}

Entonces, si definimos nuestro límite inferior como

L(Q)=\sum _{H}Q(H)\ln {\frac {P(H,V)}{Q(H)}}

Entonces la probabilidad es simplemente este límite más la entropía relativa entre y . Debido a que la entropía relativa no es negativa, la función definida anteriormente es de hecho un límite inferior de la probabilidad logarítmica de nuestra observación . La distribución tendrá un carácter más simple que el de porque marginalizar sobre es intratable para todos, excepto para los modelos gráficos más simples . En particular, VMP utiliza una distribución factorizada ${\estilo de visualización P}$ ${\estilo de visualización Q}$ ${\estilo de visualización L}$ ${\estilo de visualización V}$ ${\estilo de visualización Q}$ ${\estilo de visualización P}$ ${\estilo de visualización P}$

Q(H)=\prod _{i}Q_{i}(H_{i}),

donde es una parte disjunta del modelo gráfico. $H_{i}$

Determinación de la regla de actualización

La estimación de probabilidad debe ser lo más grande posible; debido a que es un límite inferior, acercarse mejora la aproximación de la probabilidad logarítmica. Al sustituir en la versión factorizada de , , parametrizada sobre los nodos ocultos como se indicó anteriormente, es simplemente la entropía relativa negativa entre y más otros términos independientes de si se define como ${\estilo de visualización \log P}$ ${\estilo de visualización Q}$ ${\estilo de visualización L(Q)}$ $H_{i}$ $Q_{j}$ $estilo de visualización Q_{j}^{*}}$ $Q_{j}$ $estilo de visualización Q_{j}^{*}}$

Q_{j}^{*}(H_{j})={\frac {1}{Z}}e^{\mathbb {E} _{-j}\{\ln P(H,V)\}}

donde es la expectativa sobre todas las distribuciones excepto . Por lo tanto, si establecemos que sea , el límite se maximiza. $\mathbb {E} _{-j}\{\ln P(H,V)\}$ $Q_{i}$ $Q_{j}$ $Q_{j}$ $estilo de visualización Q_{j}^{*}}$ ${\estilo de visualización L}$

Mensajes en el paso de mensajes variacional

Los padres envían a sus hijos la expectativa de su estadística suficiente mientras que los hijos envían a sus padres su parámetro natural , lo que también requiere que los mensajes sean enviados por los co-padres del nodo.

Relación con las familias exponenciales

Dado que todos los nodos en VMP provienen de familias exponenciales y todos los padres de los nodos son conjugados con sus nodos hijos, la expectativa de la estadística suficiente se puede calcular a partir del factor de normalización .

Algoritmo VMP

El algoritmo comienza calculando el valor esperado de las estadísticas suficientes para ese vector. Luego, hasta que la probabilidad converja a un valor estable (esto se logra generalmente estableciendo un valor umbral pequeño y ejecutando el algoritmo hasta que aumente por menos de ese valor umbral), haga lo siguiente en cada nodo:

Recibe todos los mensajes de los padres.
Obtener todos los mensajes de los niños (esto puede requerir que los niños reciban mensajes de los co-padres).
Calcular el valor esperado de las estadísticas suficientes de los nodos.

Restricciones

Como cada hijo debe ser conjugado con su padre, esto ha limitado los tipos de distribuciones que se pueden utilizar en el modelo. Por ejemplo, los padres de una distribución gaussiana deben ser una distribución gaussiana (que corresponde a la media ) y una distribución gamma (que corresponde a la precisión, o una sobre en parametrizaciones más comunes). Las variables discretas pueden tener padres Dirichlet , y los nodos Poisson y exponenciales deben tener padres gamma . Más recientemente, VMP se ha ampliado para manejar modelos que violan esta restricción de conjugación condicional. ^[1] ${\estilo de visualización \sigma}$

Referencias

^ Knowles, David A.; Minka, Thomas P. (2011). "Paso de mensajes variacionales no conjugados para regresión binaria y multinomial" (PDF) . NeurIPS .

Winn, JM; Bishop, C. (2005). "Paso de mensajes variacional" (PDF) . Revista de investigación en aprendizaje automático . 6 : 661–694.
Beal, MJ (2003). Algoritmos variacionales para inferencia bayesiana aproximada (PDF) (PhD). Unidad de Neurociencia Computacional Gatsby, University College London. Archivado desde el original (PDF) el 28 de abril de 2005. Consultado el 15 de febrero de 2007 .

Enlaces externos

Infer.NET: un marco de inferencia que incluye una implementación de VMP con ejemplos.
Dimple: un sistema de inferencia de código abierto compatible con VMP.
Una implementación antigua de VMP con ejemplos de uso.