El paso de mensajes variacionales ( VMP ) es una técnica de inferencia aproximada para redes bayesianas de valores continuos o discretos , con padres exponenciales conjugados , desarrollada por John Winn. VMP se desarrolló como un medio para generalizar los métodos variacionales aproximados utilizados por técnicas como la asignación latente de Dirichlet , y funciona actualizando una distribución aproximada en cada nodo a través de mensajes en la manta de Markov del nodo .
Dado un conjunto de variables ocultas y variables observadas , el objetivo de la inferencia aproximada es maximizar un límite inferior en la probabilidad de que un modelo gráfico esté en la configuración . Sobre una distribución de probabilidad (que se definirá más adelante),
Entonces, si definimos nuestro límite inferior como
Entonces la probabilidad es simplemente este límite más la entropía relativa entre y . Debido a que la entropía relativa no es negativa, la función definida anteriormente es de hecho un límite inferior de la probabilidad logarítmica de nuestra observación . La distribución tendrá un carácter más simple que el de porque marginalizar sobre es intratable para todos, excepto para los modelos gráficos más simples . En particular, VMP utiliza una distribución factorizada
donde es una parte disjunta del modelo gráfico.
La estimación de probabilidad debe ser lo más grande posible; debido a que es un límite inferior, acercarse mejora la aproximación de la probabilidad logarítmica. Al sustituir en la versión factorizada de , , parametrizada sobre los nodos ocultos como se indicó anteriormente, es simplemente la entropía relativa negativa entre y más otros términos independientes de si se define como
donde es la expectativa sobre todas las distribuciones excepto . Por lo tanto, si establecemos que sea , el límite se maximiza.
Los padres envían a sus hijos la expectativa de su estadística suficiente mientras que los hijos envían a sus padres su parámetro natural , lo que también requiere que los mensajes sean enviados por los co-padres del nodo.
Dado que todos los nodos en VMP provienen de familias exponenciales y todos los padres de los nodos son conjugados con sus nodos hijos, la expectativa de la estadística suficiente se puede calcular a partir del factor de normalización .
El algoritmo comienza calculando el valor esperado de las estadísticas suficientes para ese vector. Luego, hasta que la probabilidad converja a un valor estable (esto se logra generalmente estableciendo un valor umbral pequeño y ejecutando el algoritmo hasta que aumente por menos de ese valor umbral), haga lo siguiente en cada nodo:
Como cada hijo debe ser conjugado con su padre, esto ha limitado los tipos de distribuciones que se pueden utilizar en el modelo. Por ejemplo, los padres de una distribución gaussiana deben ser una distribución gaussiana (que corresponde a la media ) y una distribución gamma (que corresponde a la precisión, o una sobre en parametrizaciones más comunes). Las variables discretas pueden tener padres Dirichlet , y los nodos Poisson y exponenciales deben tener padres gamma . Más recientemente, VMP se ha ampliado para manejar modelos que violan esta restricción de conjugación condicional. [1]