Métodos bayesianos variacionales

Los métodos bayesianos variacionales son una familia de técnicas para aproximar integrales intratables que surgen de la inferencia bayesiana y el aprendizaje automático . Por lo general, se utilizan en modelos estadísticos complejos que consisten en variables observadas (generalmente denominadas "datos"), así como parámetros desconocidos y variables latentes , con varios tipos de relaciones entre los tres tipos de variables aleatorias , como podría describirse mediante un modelo gráfico . Como es típico en la inferencia bayesiana, los parámetros y las variables latentes se agrupan como "variables no observadas". Los métodos bayesianos variacionales se utilizan principalmente para dos propósitos:

Proporcionar una aproximación analítica a la probabilidad posterior de las variables no observadas, para poder hacer inferencia estadística sobre estas variables.
Deducir un límite inferior para la probabilidad marginal (a veces llamada evidencia ) de los datos observados (es decir, la probabilidad marginal de los datos dado el modelo, con marginación realizada sobre variables no observadas). Esto generalmente se usa para realizar la selección de modelos , la idea general es que una probabilidad marginal más alta para un modelo determinado indica un mejor ajuste de los datos por ese modelo y, por lo tanto, una mayor probabilidad de que el modelo en cuestión haya sido el que generó los datos. (Consulte también el artículo sobre el factor Bayes ).

En el primer propósito (el de aproximar una probabilidad posterior), el Bayes variacional es una alternativa a los métodos de muestreo de Monte Carlo (en particular, los métodos de Monte Carlo de cadena de Markov como el muestreo de Gibbs ) para adoptar un enfoque completamente bayesiano de la inferencia estadística sobre distribuciones complejas que son Difícil de evaluar directamente o muestrear . En particular, mientras que las técnicas de Monte Carlo proporcionan una aproximación numérica al posterior exacto utilizando un conjunto de muestras, el Bayes variacional proporciona una solución analítica exacta y localmente óptima para una aproximación del posterior.

El Bayes variacional puede verse como una extensión del algoritmo de maximización de expectativas (EM) desde la estimación máxima a posteriori (estimación MAP) del valor más probable de cada parámetro hasta la estimación completamente bayesiana que calcula (una aproximación a) toda la distribución posterior . de los parámetros y variables latentes. Al igual que en EM, encuentra un conjunto de valores de parámetros óptimos y tiene la misma estructura alterna que EM, basada en un conjunto de ecuaciones entrelazadas (mutuamente dependientes) que no pueden resolverse analíticamente.

Para muchas aplicaciones, Bayes variacional produce soluciones de precisión comparable al muestreo de Gibbs a mayor velocidad. Sin embargo, derivar el conjunto de ecuaciones utilizadas para actualizar los parámetros de forma iterativa a menudo requiere una gran cantidad de trabajo en comparación con derivar las ecuaciones de muestreo de Gibbs comparables. Este es el caso incluso de muchos modelos que son conceptualmente bastante simples, como se demuestra más adelante en el caso de un modelo básico no jerárquico con sólo dos parámetros y sin variables latentes.

Derivación matemática

Problema

En la inferencia variacional , la distribución posterior sobre un conjunto de variables no observadas dados algunos datos se aproxima mediante la llamada distribución variacional . $\mathbf {Z} =\{Z_{1}\dots Z_{n}\}$ $\mathbf {X}$ $Q(\mathbf {Z} ):$

P(\mathbf {Z} \mid \mathbf {X} )\approx Q(\mathbf {Z} ).

La distribución está restringida a pertenecer a una familia de distribuciones de forma más simple que (por ejemplo, una familia de distribuciones gaussianas), seleccionadas con la intención de hacerlas similares a la verdadera posterior . $Q(\mathbf {Z} )$ $P(\mathbf {Z} \mid \mathbf {X} )$ $Q(\mathbf {Z} )$ $P(\mathbf {Z} \mid \mathbf {X} )$

La similitud (o disimilitud) se mide en términos de una función de disimilitud y, por lo tanto, la inferencia se realiza seleccionando la distribución que minimiza . $d(Q;P)$ $Q(\mathbf {Z} )$ $d(Q;P)$

divergencia KL

El tipo más común de Bayes variacional utiliza la divergencia de Kullback-Leibler (divergencia KL) de Q de P como elección de la función de disimilitud. Esta elección hace que esta minimización sea manejable. La divergencia KL se define como

D_{\mathrm {KL} }(Q\parallel P)\triangleq \sum _{\mathbf {Z} }Q(\mathbf {Z} )\log {\frac {Q(\mathbf {Z} )}{P(\mathbf {Z} \mid \mathbf {X} )}}.

Tenga en cuenta que Q y P están al revés de lo que cabría esperar. Este uso de divergencia KL invertida es conceptualmente similar al algoritmo de maximización de expectativas . (El uso de la divergencia KL de otra manera produce el algoritmo de propagación de expectativas ).

Dificultad

Las técnicas variacionales se utilizan normalmente para formar una aproximación de:

P(\mathbf {Z} \mid \mathbf {X} )={\frac {P(\mathbf {X} \mid \mathbf {Z} )P(\mathbf {Z} )}{P(\mathbf {X} )}}={\frac {P(\mathbf {X} \mid \mathbf {Z} )P(\mathbf {Z} )}{\int _{\mathbf {Z} }P(\mathbf {X} ,\mathbf {Z} ')\,d\mathbf {Z} '}}

La marginación sobre el cálculo en el denominador suele ser intratable porque, por ejemplo, el espacio de búsqueda de es combinatoriamente grande. Por lo tanto, buscamos una aproximación, usando . $\mathbf {Z}$ $P(\mathbf {X} )$ $\mathbf {Z}$ $Q(\mathbf {Z} )\approx P(\mathbf {Z} \mid \mathbf {X} )$

Límite inferior de evidencia

Dado que , la divergencia KL anterior también se puede escribir como $P(\mathbf {Z} \mid \mathbf {X} )={\frac {P(\mathbf {X} ,\mathbf {Z} )}{P(\mathbf {X} )}}$

D_{\mathrm {KL} }(Q\parallel P)=\sum _{\mathbf {Z} }Q(\mathbf {Z} )\left[\log {\frac {Q(\mathbf {Z} )}{P(\mathbf {Z} ,\mathbf {X} )}}+\log P(\mathbf {X} )\right]=\sum _{\mathbf {Z} }Q(\mathbf {Z} )\left[\log Q(\mathbf {Z} )-\log P(\mathbf {Z} ,\mathbf {X} )\right]+\sum _{\mathbf {Z} }Q(\mathbf {Z} )\left[\log P(\mathbf {X} )\right]

Debido a que es una constante con respecto a y porque es una distribución, tenemos $P(\mathbf {X} )$ $\mathbf {Z}$ $\sum _{\mathbf {Z} }Q(\mathbf {Z} )=1$ $Q(\mathbf {Z} )$

D_{\mathrm {KL} }(Q\parallel P)=\sum _{\mathbf {Z} }Q(\mathbf {Z} )\left[\log Q(\mathbf {Z} )-\log P(\mathbf {Z} ,\mathbf {X} )\right]+\log P(\mathbf {X} )

que, según la definición de valor esperado (para una variable aleatoria discreta ), se puede escribir de la siguiente manera

D_{\mathrm {KL} }(Q\parallel P)=\mathbb {E} _{\mathbf {Q} }\left[\log Q(\mathbf {Z} )-\log P(\mathbf {Z} ,\mathbf {X} )\right]+\log P(\mathbf {X} )

que se puede reorganizar para convertirse en

\log P(\mathbf {X} )=D_{\mathrm {KL} }(Q\parallel P)-\mathbb {E} _{\mathbf {Q} }\left[\log Q(\mathbf {Z} )-\log P(\mathbf {Z} ,\mathbf {X} )\right]=D_{\mathrm {KL} }(Q\parallel P)+{\mathcal {L}}(Q)

Como la evidencia logarítmica es fija con respecto a , maximizar el término final minimiza la divergencia KL de . Mediante la elección adecuada de , se vuelve manejable para calcular y maximizar. Por lo tanto, tenemos una aproximación analítica para la posterior y un límite inferior para la evidencia logarítmica (ya que la divergencia KL no es negativa). $\log P(\mathbf {X} )$ $Q$ ${\mathcal {L}}(Q)$ $Q$ $P$ $Q$ ${\mathcal {L}}(Q)$ $Q$ $P(\mathbf {Z} \mid \mathbf {X} )$ ${\mathcal {L}}(Q)$ $\log P(\mathbf {X} )$

El límite inferior se conoce como energía libre variacional (negativa) en analogía con la energía libre termodinámica porque también se puede expresar como energía negativa más la entropía de . El término también se conoce como límite inferior de evidencia , abreviado como ELBO , para enfatizar que es un límite inferior en el registro de evidencia de los datos. ${\mathcal {L}}(Q)$ $\operatorname {E} _{Q}[\log P(\mathbf {Z} ,\mathbf {X} )]$ $Q$ ${\mathcal {L}}(Q)$

Pruebas

Mediante el teorema de Pitágoras generalizado de la divergencia de Bregman , del cual la divergencia KL es un caso especial, se puede demostrar que: ^[1]^[2]

D_{\mathrm {KL} }(Q\parallel P)\geq D_{\mathrm {KL} }(Q\parallel Q^{*})+D_{\mathrm {KL} }(Q^{*}\parallel P),\forall Q^{*}\in {\mathcal {C}}

donde es un conjunto convexo y la igualdad se cumple si: ${\mathcal {C}}$

Q=Q^{*}\triangleq \arg \min _{Q\in {\mathcal {C}}}D_{\mathrm {KL} }(Q\parallel P).

En este caso, el minimizador global con se puede encontrar de la siguiente manera: ^[1] $Q^{*}(\mathbf {Z} )=q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})q^{*}(\mathbf {Z} _{2})=q^{*}(\mathbf {Z} _{2}\mid \mathbf {Z} _{1})q^{*}(\mathbf {Z} _{1}),$ $\mathbf {Z} =\{\mathbf {Z_{1}} ,\mathbf {Z_{2}} \},$

q^{*}(\mathbf {Z} _{2})={\frac {P(\mathbf {X} )}{\zeta (\mathbf {X} )}}{\frac {P(\mathbf {Z} _{2}\mid \mathbf {X} )}{\exp(D_{\mathrm {KL} }(q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})\parallel P(\mathbf {Z} _{1}\mid \mathbf {Z} _{2},\mathbf {X} )))}}={\frac {1}{\zeta (\mathbf {X} )}}\exp \mathbb {E} _{q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})}\left(\log {\frac {P(\mathbf {Z} ,\mathbf {X} )}{q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})}}\right),

donde la constante de normalización es:

\zeta (\mathbf {X} )=P(\mathbf {X} )\int _{\mathbf {Z} _{2}}{\frac {P(\mathbf {Z} _{2}\mid \mathbf {X} )}{\exp(D_{\mathrm {KL} }(q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})\parallel P(\mathbf {Z} _{1}\mid \mathbf {Z} _{2},\mathbf {X} )))}}=\int _{\mathbf {Z} _{2}}\exp \mathbb {E} _{q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})}\left(\log {\frac {P(\mathbf {Z} ,\mathbf {X} )}{q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})}}\right).

El término a menudo se denomina límite inferior de evidencia ( ELBO ) en la práctica, ya que , ^[1] como se muestra arriba. $\zeta (\mathbf {X} )$ $P(\mathbf {X} )\geq \zeta (\mathbf {X} )=\exp({\mathcal {L}}(Q^{*}))$

Al intercambiar los roles de y podemos calcular iterativamente los marginales aproximados y del modelo verdadero y respectivamente. Aunque se garantiza que este esquema iterativo convergerá monótonamente, ^[1] el convergente es solo un minimizador local de . $\mathbf {Z} _{1}$ $\mathbf {Z} _{2},$ $q^{*}(\mathbf {Z} _{1})$ $q^{*}(\mathbf {Z} _{2})$ $P(\mathbf {Z} _{1}\mid \mathbf {X} )$ $P(\mathbf {Z} _{2}\mid \mathbf {X} ),$ $Q^{*}$ $D_{\mathrm {KL} }(Q\parallel P)$

Si el espacio restringido está confinado dentro del espacio independiente, es decir, el esquema iterativo anterior se convertirá en la llamada aproximación de campo medio como se muestra a continuación. ${\mathcal {C}}$ $q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})=q^{*}(\mathbf {Z_{1}} ),$ $Q^{*}(\mathbf {Z} )=q^{*}(\mathbf {Z} _{1})q^{*}(\mathbf {Z} _{2}),$

Aproximación del campo medio

Generalmente se supone que la distribución variacional factoriza alguna partición de las variables latentes, es decir, para alguna partición de las variables latentes en , $Q(\mathbf {Z} )$ $\mathbf {Z}$ $\mathbf {Z} _{1}\dots \mathbf {Z} _{M}$

Q(\mathbf {Z} )=\prod _{i=1}^{M}q_{i}(\mathbf {Z} _{i}\mid \mathbf {X} )

Se puede demostrar utilizando el cálculo de variaciones (de ahí el nombre "Bayes variacional") que la "mejor" distribución para cada uno de los factores (en términos de la distribución que minimiza la divergencia KL, como se describió anteriormente) satisface: ^[3] $q_{j}^{*}$ $q_{j}$

q_{j}^{*}(\mathbf {Z} _{j}\mid \mathbf {X} )={\frac {e^{\operatorname {E} _{q_{-j}^{*}}[\ln p(\mathbf {Z} ,\mathbf {X} )]}}{\int e^{\operatorname {E} _{q_{-j}^{*}}[\ln p(\mathbf {Z} ,\mathbf {X} )]}\,d\mathbf {Z} _{j}}}

¿Dónde está la expectativa del logaritmo de la probabilidad conjunta de los datos y las variables latentes, tomada con respecto a todas las variables que no están en la partición? Consulte el Lema 4.1 de ^[4] para obtener una derivación de la distribución . $\operatorname {E} _{q_{-j}^{*}}[\ln p(\mathbf {Z} ,\mathbf {X} )]$ $q^{*}$ $q_{j}^{*}(\mathbf {Z} _{j}\mid \mathbf {X} )$

En la práctica, normalmente trabajamos en términos de logaritmos, es decir:

\ln q_{j}^{*}(\mathbf {Z} _{j}\mid \mathbf {X} )=\operatorname {E} _{q_{-j}^{*}}[\ln p(\mathbf {Z} ,\mathbf {X} )]+{\text{constant}}

La constante en la expresión anterior está relacionada con la constante de normalización (el denominador en la expresión anterior para ) y generalmente se restablece mediante inspección, ya que el resto de la expresión generalmente puede reconocerse como un tipo conocido de distribución (por ejemplo, gaussiana , gamma , etc.). $q_{j}^{*}$

Utilizando las propiedades de las expectativas, la expresión generalmente se puede simplificar en una función de los hiperparámetros fijos de las distribuciones anteriores sobre las variables latentes y de las expectativas (y a veces momentos superiores como la varianza ) de las variables latentes que no están en la partición actual (es decir, variables latentes no incluidas en ). Esto crea dependencias circulares entre los parámetros de las distribuciones de las variables en una partición y las expectativas de las variables en las otras particiones. Naturalmente, esto sugiere un algoritmo iterativo , muy parecido al EM (el algoritmo de maximización de expectativas ), en el que las expectativas (y posiblemente los momentos más elevados) de las variables latentes se inicializan de alguna manera (quizás aleatoriamente) y luego se modifican los parámetros de cada distribución. se calcula a su vez utilizando los valores actuales de las expectativas, después de lo cual la expectativa de la distribución recién calculada se establece apropiadamente de acuerdo con los parámetros calculados. Se garantiza que un algoritmo de este tipo convergerá . ^[5] $\operatorname {E} _{q_{-j}^{*}}[\ln p(\mathbf {Z} ,\mathbf {X} )]$ $\mathbf {Z} _{j}$

En otras palabras, para cada una de las particiones de variables, simplificando la expresión para la distribución entre las variables de la partición y examinando la dependencia funcional de la distribución con las variables en cuestión, generalmente se puede determinar la familia de la distribución (que a su vez determina la valor de la constante). La fórmula para los parámetros de la distribución se expresará en términos de los hiperparámetros de las distribuciones anteriores (que son constantes conocidas), pero también en términos de expectativas de funciones de variables en otras particiones. Generalmente estas expectativas pueden simplificarse en funciones de expectativas de las propias variables (es decir, las medias ); a veces también aparecen expectativas de variables al cuadrado (que pueden estar relacionadas con la varianza de las variables), o expectativas de potencias superiores (es decir, momentos superiores ). En la mayoría de los casos, las distribuciones de las otras variables provendrán de familias conocidas y se pueden buscar las fórmulas para las expectativas relevantes. Sin embargo, esas fórmulas dependen de los parámetros de esas distribuciones, que a su vez dependen de las expectativas sobre otras variables. El resultado es que las fórmulas para los parámetros de las distribuciones de cada variable se pueden expresar como una serie de ecuaciones con dependencias mutuas y no lineales entre las variables. Generalmente no es posible resolver este sistema de ecuaciones directamente. Sin embargo, como se describió anteriormente, las dependencias sugieren un algoritmo iterativo simple, que en la mayoría de los casos garantiza la convergencia. Un ejemplo aclarará este proceso.

Una fórmula de dualidad para la inferencia variacional

El siguiente teorema se conoce como fórmula de dualidad para la inferencia variacional. ^[4] Explica algunas propiedades importantes de las distribuciones variacionales utilizadas en los métodos variacionales de Bayes.

Teorema Considere dos espacios de probabilidad y con . Supongamos que existe una medida de probabilidad dominante común tal que y . Denotemos cualquier variable aleatoria de valor real que satisfaga . Entonces se cumple la siguiente igualdad $(\Theta ,{\mathcal {F}},P)$ $(\Theta ,{\mathcal {F}},Q)$ $Q\ll P$ $\lambda$ $P\ll \lambda$ $Q\ll \lambda$ $h$ $(\Theta ,{\mathcal {F}},P)$ $h\in L_{1}(P)$

\log E_{P}[\exp h]={\text{sup}}_{Q\ll P}\{E_{Q}[h]-D_{\text{KL}}(Q\parallel P)\}.

Además, el supremo del lado derecho se alcanza si y sólo si se cumple

{\frac {q(\theta )}{p(\theta )}}={\frac {\exp h(\theta )}{E_{P}[\exp h]}},

casi seguramente con respecto a la medida de probabilidad , donde y denotan las derivadas de radón-Nikodym de las medidas de probabilidad y con respecto a , respectivamente. $Q$ $p(\theta )=dP/d\lambda$ $q(\theta )=dQ/d\lambda$ $P$ $Q$ $\lambda$

Un ejemplo básico

Considere un modelo bayesiano simple no jerárquico que consta de un conjunto de observaciones iid de una distribución gaussiana , con media y varianza desconocidas . ^[6] A continuación, analizamos este modelo con gran detalle para ilustrar el funcionamiento del método variacional de Bayes.

Por conveniencia matemática, en el siguiente ejemplo trabajamos en términos de precisión , es decir, el recíproco de la varianza (o en una gaussiana multivariada, la inversa de la matriz de covarianza ), en lugar de la varianza misma. (Desde un punto de vista teórico, la precisión y la varianza son equivalentes ya que existe una correspondencia uno a uno entre las dos).

El modelo matemático

Colocamos distribuciones previas conjugadas en la media y la precisión desconocidas , es decir, la media también sigue una distribución gaussiana mientras que la precisión sigue una distribución gamma . En otras palabras: $\mu$ $\tau$

{\begin{aligned}\tau &\sim \operatorname {Gamma} (a_{0},b_{0})\\\mu |\tau &\sim {\mathcal {N}}(\mu _{0},(\lambda _{0}\tau )^{-1})\\\{x_{1},\dots ,x_{N}\}&\sim {\mathcal {N}}(\mu ,\tau ^{-1})\\N&={\text{number of data points}}\end{aligned}}

Los hiperparámetros y en las distribuciones anteriores son valores fijos y dados. Se pueden establecer en números positivos pequeños para dar distribuciones previas amplias que indiquen ignorancia sobre las distribuciones previas de y . $\mu _{0},\lambda _{0},a_{0}$ $b_{0}$ $\mu$ $\tau$

Se nos dan puntos de datos y nuestro objetivo es inferir la distribución posterior de los parámetros y $N$ $\mathbf {X} =\{x_{1},\ldots ,x_{N}\}$ $q(\mu ,\tau )=p(\mu ,\tau \mid x_{1},\ldots ,x_{N})$ $\mu$ $\tau .$

La probabilidad conjunta

La probabilidad conjunta de todas las variables se puede reescribir como

p(\mathbf {X} ,\mu ,\tau )=p(\mathbf {X} \mid \mu ,\tau )p(\mu \mid \tau )p(\tau )

donde están los factores individuales

{\begin{aligned}p(\mathbf {X} \mid \mu ,\tau )&=\prod _{n=1}^{N}{\mathcal {N}}(x_{n}\mid \mu ,\tau ^{-1})\\p(\mu \mid \tau )&={\mathcal {N}}\left(\mu \mid \mu _{0},(\lambda _{0}\tau )^{-1}\right)\\p(\tau )&=\operatorname {Gamma} (\tau \mid a_{0},b_{0})\end{aligned}}

dónde

{\begin{aligned}{\mathcal {N}}(x\mid \mu ,\sigma ^{2})&={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{\frac {-(x-\mu )^{2}}{2\sigma ^{2}}}\\\operatorname {Gamma} (\tau \mid a,b)&={\frac {1}{\Gamma (a)}}b^{a}\tau ^{a-1}e^{-b\tau }\end{aligned}}

Aproximación factorizada

Supongamos que , es decir, que la distribución posterior se factoriza en factores independientes para y . Este tipo de supuesto subyace al método bayesiano variacional. De hecho, la verdadera distribución posterior no se factoriza de esta manera (de hecho, en este caso simple, se sabe que es una distribución gaussiana-gamma ) y, por lo tanto, el resultado que obtenemos será una aproximación. $q(\mu ,\tau )=q(\mu )q(\tau )$ $\mu$ $\tau$

Derivación de q ( μ )

Entonces

{\begin{aligned}\ln q_{\mu }^{*}(\mu )&=\operatorname {E} _{\tau }\left[\ln p(\mathbf {X} \mid \mu ,\tau )+\ln p(\mu \mid \tau )+\ln p(\tau )\right]+C\\&=\operatorname {E} _{\tau }\left[\ln p(\mathbf {X} \mid \mu ,\tau )\right]+\operatorname {E} _{\tau }\left[\ln p(\mu \mid \tau )\right]+\operatorname {E} _{\tau }\left[\ln p(\tau )\right]+C\\&=\operatorname {E} _{\tau }\left[\ln \prod _{n=1}^{N}{\mathcal {N}}\left(x_{n}\mid \mu ,\tau ^{-1}\right)\right]+\operatorname {E} _{\tau }\left[\ln {\mathcal {N}}\left(\mu \mid \mu _{0},(\lambda _{0}\tau )^{-1}\right)\right]+C_{2}\\&=\operatorname {E} _{\tau }\left[\ln \prod _{n=1}^{N}{\sqrt {\frac {\tau }{2\pi }}}e^{-{\frac {(x_{n}-\mu )^{2}\tau }{2}}}\right]+\operatorname {E} _{\tau }\left[\ln {\sqrt {\frac {\lambda _{0}\tau }{2\pi }}}e^{-{\frac {(\mu -\mu _{0})^{2}\lambda _{0}\tau }{2}}}\right]+C_{2}\\&=\operatorname {E} _{\tau }\left[\sum _{n=1}^{N}\left({\frac {1}{2}}(\ln \tau -\ln 2\pi )-{\frac {(x_{n}-\mu )^{2}\tau }{2}}\right)\right]+\operatorname {E} _{\tau }\left[{\frac {1}{2}}(\ln \lambda _{0}+\ln \tau -\ln 2\pi )-{\frac {(\mu -\mu _{0})^{2}\lambda _{0}\tau }{2}}\right]+C_{2}\\&=\operatorname {E} _{\tau }\left[\sum _{n=1}^{N}-{\frac {(x_{n}-\mu )^{2}\tau }{2}}\right]+\operatorname {E} _{\tau }\left[-{\frac {(\mu -\mu _{0})^{2}\lambda _{0}\tau }{2}}\right]+\operatorname {E} _{\tau }\left[\sum _{n=1}^{N}{\frac {1}{2}}(\ln \tau -\ln 2\pi )\right]+\operatorname {E} _{\tau }\left[{\frac {1}{2}}(\ln \lambda _{0}+\ln \tau -\ln 2\pi )\right]+C_{2}\\&=\operatorname {E} _{\tau }\left[\sum _{n=1}^{N}-{\frac {(x_{n}-\mu )^{2}\tau }{2}}\right]+\operatorname {E} _{\tau }\left[-{\frac {(\mu -\mu _{0})^{2}\lambda _{0}\tau }{2}}\right]+C_{3}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\right\}+C_{3}\end{aligned}}

En la derivación anterior, y se refieren a valores que son constantes con respecto a . Tenga en cuenta que el término no es función de y tendrá el mismo valor independientemente del valor de . Por lo tanto, en la línea 3 podemos absorberlo en el término constante al final. Hacemos lo mismo en la línea 7. $C$ $C_{2}$ $C_{3}$ $\mu$ $\operatorname {E} _{\tau }[\ln p(\tau )]$ $\mu$ $\mu$

La última línea es simplemente un polinomio cuadrático en . Dado que este es el logaritmo de , podemos ver que en sí mismo es una distribución gaussiana . $\mu$ $q_{\mu }^{*}(\mu )$ $q_{\mu }^{*}(\mu )$

Con una cierta cantidad de tediosos cálculos matemáticos (expandiendo los cuadrados dentro de las llaves, separando y agrupando los términos que involucran y completando el cuadrado sobre ), podemos derivar los parámetros de la distribución gaussiana : $\mu$ $\mu ^{2}$ $\mu$

{\begin{aligned}\ln q_{\mu }^{*}(\mu )&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\right\}+C_{3}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{\sum _{n=1}^{N}(x_{n}^{2}-2x_{n}\mu +\mu ^{2})+\lambda _{0}(\mu ^{2}-2\mu _{0}\mu +\mu _{0}^{2})\right\}+C_{3}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{\left(\sum _{n=1}^{N}x_{n}^{2}\right)-2\left(\sum _{n=1}^{N}x_{n}\right)\mu +\left(\sum _{n=1}^{N}\mu ^{2}\right)+\lambda _{0}\mu ^{2}-2\lambda _{0}\mu _{0}\mu +\lambda _{0}\mu _{0}^{2}\right\}+C_{3}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\mu ^{2}-2\left(\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}\right)\mu +\left(\sum _{n=1}^{N}x_{n}^{2}\right)+\lambda _{0}\mu _{0}^{2}\right\}+C_{3}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\mu ^{2}-2\left(\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}\right)\mu \right\}+C_{4}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\mu ^{2}-2\left({\frac {\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)(\lambda _{0}+N)\mu \right\}+C_{4}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\left(\mu ^{2}-2\left({\frac {\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)\mu \right)\right\}+C_{4}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\left(\mu ^{2}-2\left({\frac {\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)\mu +\left({\frac {\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)^{2}-\left({\frac {\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)^{2}\right)\right\}+C_{4}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\left(\mu ^{2}-2\left({\frac {\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)\mu +\left({\frac {\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)^{2}\right)\right\}+C_{5}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\left(\mu -{\frac {\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)^{2}\right\}+C_{5}\\&=-{\frac {1}{2}}(\lambda _{0}+N)\operatorname {E} _{\tau }[\tau ]\left(\mu -{\frac {\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)^{2}+C_{5}\end{aligned}}

Tenga en cuenta que todos los pasos anteriores se pueden acortar utilizando la fórmula para la suma de dos cuadráticas .

En otras palabras:

{\begin{aligned}q_{\mu }^{*}(\mu )&\sim {\mathcal {N}}(\mu \mid \mu _{N},\lambda _{N}^{-1})\\\mu _{N}&={\frac {\lambda _{0}\mu _{0}+N{\bar {x}}}{\lambda _{0}+N}}\\\lambda _{N}&=(\lambda _{0}+N)\operatorname {E} _{\tau }[\tau ]\\{\bar {x}}&={\frac {1}{N}}\sum _{n=1}^{N}x_{n}\end{aligned}}

Derivación de q(τ)

La derivación de es similar a la anterior, aunque omitimos algunos detalles por motivos de brevedad. $q_{\tau }^{*}(\tau )$

{\begin{aligned}\ln q_{\tau }^{*}(\tau )&=\operatorname {E} _{\mu }[\ln p(\mathbf {X} \mid \mu ,\tau )+\ln p(\mu \mid \tau )]+\ln p(\tau )+{\text{constant}}\\&=(a_{0}-1)\ln \tau -b_{0}\tau +{\frac {1}{2}}\ln \tau +{\frac {N}{2}}\ln \tau -{\frac {\tau }{2}}\operatorname {E} _{\mu }\left[\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\right]+{\text{constant}}\end{aligned}}

Exponenciando ambos lados, podemos ver que es una distribución gamma . Específicamente: $q_{\tau }^{*}(\tau )$

{\begin{aligned}q_{\tau }^{*}(\tau )&\sim \operatorname {Gamma} (\tau \mid a_{N},b_{N})\\a_{N}&=a_{0}+{\frac {N+1}{2}}\\b_{N}&=b_{0}+{\frac {1}{2}}\operatorname {E} _{\mu }\left[\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\right]\end{aligned}}

Algoritmo para calcular los parámetros.

Recapitulemos las conclusiones de los apartados anteriores:

{\begin{aligned}q_{\mu }^{*}(\mu )&\sim {\mathcal {N}}(\mu \mid \mu _{N},\lambda _{N}^{-1})\\\mu _{N}&={\frac {\lambda _{0}\mu _{0}+N{\bar {x}}}{\lambda _{0}+N}}\\\lambda _{N}&=(\lambda _{0}+N)\operatorname {E} _{\tau }[\tau ]\\{\bar {x}}&={\frac {1}{N}}\sum _{n=1}^{N}x_{n}\end{aligned}}

{\begin{aligned}q_{\tau }^{*}(\tau )&\sim \operatorname {Gamma} (\tau \mid a_{N},b_{N})\\a_{N}&=a_{0}+{\frac {N+1}{2}}\\b_{N}&=b_{0}+{\frac {1}{2}}\operatorname {E} _{\mu }\left[\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\right]\end{aligned}}

En cada caso, los parámetros para la distribución de una de las variables dependen de las expectativas tomadas con respecto a la otra variable. Podemos ampliar las expectativas utilizando las fórmulas estándar para las expectativas de momentos de las distribuciones gaussiana y gamma:

{\begin{aligned}\operatorname {E} [\tau \mid a_{N},b_{N}]&={\frac {a_{N}}{b_{N}}}\\\operatorname {E} \left[\mu \mid \mu _{N},\lambda _{N}^{-1}\right]&=\mu _{N}\\\operatorname {E} \left[X^{2}\right]&=\operatorname {Var} (X)+(\operatorname {E} [X])^{2}\\\operatorname {E} \left[\mu ^{2}\mid \mu _{N},\lambda _{N}^{-1}\right]&=\lambda _{N}^{-1}+\mu _{N}^{2}\end{aligned}}

Aplicar estas fórmulas a las ecuaciones anteriores es trivial en la mayoría de los casos, pero la ecuación requiere más trabajo: $b_{N}$

{\begin{aligned}b_{N}&=b_{0}+{\frac {1}{2}}\operatorname {E} _{\mu }\left[\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\right]\\&=b_{0}+{\frac {1}{2}}\operatorname {E} _{\mu }\left[(\lambda _{0}+N)\mu ^{2}-2\left(\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}\right)\mu +\left(\sum _{n=1}^{N}x_{n}^{2}\right)+\lambda _{0}\mu _{0}^{2}\right]\\&=b_{0}+{\frac {1}{2}}\left[(\lambda _{0}+N)\operatorname {E} _{\mu }[\mu ^{2}]-2\left(\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}\right)\operatorname {E} _{\mu }[\mu ]+\left(\sum _{n=1}^{N}x_{n}^{2}\right)+\lambda _{0}\mu _{0}^{2}\right]\\&=b_{0}+{\frac {1}{2}}\left[(\lambda _{0}+N)\left(\lambda _{N}^{-1}+\mu _{N}^{2}\right)-2\left(\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}\right)\mu _{N}+\left(\sum _{n=1}^{N}x_{n}^{2}\right)+\lambda _{0}\mu _{0}^{2}\right]\\\end{aligned}}

Luego podemos escribir las ecuaciones de parámetros de la siguiente manera, sin ninguna expectativa:

{\begin{aligned}\mu _{N}&={\frac {\lambda _{0}\mu _{0}+N{\bar {x}}}{\lambda _{0}+N}}\\\lambda _{N}&=(\lambda _{0}+N){\frac {a_{N}}{b_{N}}}\\{\bar {x}}&={\frac {1}{N}}\sum _{n=1}^{N}x_{n}\\a_{N}&=a_{0}+{\frac {N+1}{2}}\\b_{N}&=b_{0}+{\frac {1}{2}}\left[(\lambda _{0}+N)\left(\lambda _{N}^{-1}+\mu _{N}^{2}\right)-2\left(\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}\right)\mu _{N}+\left(\sum _{n=1}^{N}x_{n}^{2}\right)+\lambda _{0}\mu _{0}^{2}\right]\end{aligned}}

Tenga en cuenta que existen dependencias circulares entre las fórmulas para y . Esto naturalmente sugiere un algoritmo tipo EM : $\lambda _{N}$ $b_{N}$

Calcule y utilice estos valores para calcular y $\sum _{n=1}^{N}x_{n}$ $\sum _{n=1}^{N}x_{n}^{2}.$ $\mu _{N}$ $a_{N}.$
Inicializar con algún valor arbitrario. $\lambda _{N}$
Utilice el valor actual de junto con los valores conocidos de los otros parámetros para calcular . $\lambda _{N},$ $b_{N}$
Utilice el valor actual de junto con los valores conocidos de los otros parámetros para calcular . $b_{N},$ $\lambda _{N}$
Repita los dos últimos pasos hasta la convergencia (es decir, hasta que ninguno de los valores haya cambiado más que una pequeña cantidad).

Luego tenemos valores para los hiperparámetros de las distribuciones aproximadas de los parámetros posteriores, que podemos usar para calcular cualquier propiedad que queramos del posterior, por ejemplo, su media y varianza, una región de mayor densidad del 95% (el intervalo más pequeño que incluye 95 % de la probabilidad total), etc.

Se puede demostrar que se garantiza que este algoritmo convergerá a un máximo local.

Tenga en cuenta también que las distribuciones posteriores tienen la misma forma que las distribuciones anteriores correspondientes. No asumimos esto; La única suposición que hicimos fue que las distribuciones se factorizan y la forma de las distribuciones se sigue de forma natural. Resulta (ver más abajo) que el hecho de que las distribuciones posteriores tengan la misma forma que las distribuciones anteriores no es una coincidencia, sino un resultado general siempre que las distribuciones anteriores sean miembros de la familia exponencial , que es el caso de la mayoría de las distribuciones estándar.

Más discusión

Receta paso a paso

El ejemplo anterior muestra el método mediante el cual se deriva la aproximación bayesiana variacional a una densidad de probabilidad posterior en una red bayesiana determinada:

Describir la red con un modelo gráfico , identificando las variables observadas (datos) y no observadas ( parámetros y variables latentes ) y sus distribuciones de probabilidad condicional . Bayes variacional construirá entonces una aproximación a la probabilidad posterior . La aproximación tiene la propiedad básica de que es una distribución factorizada, es decir, un producto de dos o más distribuciones independientes sobre subconjuntos disjuntos de variables no observadas. $\mathbf {X}$ ${\boldsymbol {\Theta }}$ $\mathbf {Z}$ $p(\mathbf {Z} ,{\boldsymbol {\Theta }}\mid \mathbf {X} )$
Divida las variables no observadas en dos o más subconjuntos, sobre los cuales se derivarán los factores independientes. No existe un procedimiento universal para hacer esto; crear demasiados subconjuntos produce una mala aproximación, mientras que crear muy pocos hace que todo el procedimiento variacional de Bayes sea intratable. Normalmente, la primera división consiste en separar los parámetros y las variables latentes; A menudo, esto es suficiente por sí solo para producir un resultado manejable. Supongamos que las particiones se llaman . $\mathbf {Z} _{1},\ldots ,\mathbf {Z} _{M}$
Para una partición dada , escriba la fórmula para la mejor distribución aproximada usando la ecuación básica . $\mathbf {Z} _{j}$ $q_{j}^{*}(\mathbf {Z} _{j}\mid \mathbf {X} )$ $\ln q_{j}^{*}(\mathbf {Z} _{j}\mid \mathbf {X} )=\operatorname {E} _{i\neq j}[\ln p(\mathbf {Z} ,\mathbf {X} )]+{\text{constant}}$
Complete la fórmula para la distribución de probabilidad conjunta utilizando el modelo gráfico. Se puede ignorar cualquier componente de distribución condicional que no involucre ninguna de las variables ; se plegarán en el término constante. $\mathbf {Z} _{j}$
Simplifique la fórmula y aplique el operador de expectativa, siguiendo el ejemplo anterior. Idealmente, esto debería simplificarse en expectativas de funciones básicas de variables que no están incluidas (por ejemplo, primer o segundo momento bruto , expectativa de un logaritmo, etc.). Para que el procedimiento variacional de Bayes funcione bien, estas expectativas generalmente deben poder expresarse analíticamente como funciones de los parámetros y/o hiperparámetros de las distribuciones de estas variables. En todos los casos, estos términos de expectativa son constantes con respecto a las variables en la partición actual. $\mathbf {Z} _{j}$
La forma funcional de la fórmula con respecto a las variables en la partición actual indica el tipo de distribución. En particular, exponenciar la fórmula genera la función de densidad de probabilidad (PDF) de la distribución (o al menos, algo proporcional a ella, con constante de normalización desconocida ). Para que el método general sea manejable, debería ser posible reconocer que la forma funcional pertenece a una distribución conocida. Es posible que se requiera una manipulación matemática significativa para convertir la fórmula a una forma que coincida con la PDF de una distribución conocida. Cuando esto sea posible, la constante de normalización podrá restablecerse por definición y podrán derivarse ecuaciones para los parámetros de la distribución conocida extrayendo las partes apropiadas de la fórmula.
Cuando todas las expectativas se pueden reemplazar analíticamente con funciones de variables que no están en la partición actual, y la PDF se puede poner en una forma que permita la identificación con una distribución conocida, el resultado es un conjunto de ecuaciones que expresan los valores de los parámetros óptimos como funciones de la parámetros de variables en otras particiones.
Cuando este procedimiento se puede aplicar a todas las particiones, el resultado es un conjunto de ecuaciones mutuamente vinculadas que especifican los valores óptimos de todos los parámetros.
Luego se aplica un procedimiento de tipo maximización de expectativas (EM), seleccionando un valor inicial para cada parámetro y repitiendo una serie de pasos, donde en cada paso recorremos las ecuaciones, actualizando cada parámetro a su vez. Se garantiza que esto convergerá.

Puntos más importantes

Debido a todas las manipulaciones matemáticas involucradas, es fácil perder de vista el panorama general. Las cosas importantes son:

La idea del Bayes variacional es construir una aproximación analítica a la probabilidad posterior del conjunto de variables no observadas (parámetros y variables latentes), dados los datos. Esto significa que la forma de la solución es similar a otros métodos de inferencia bayesianos , como el muestreo de Gibbs , es decir, una distribución que busca describir todo lo que se sabe sobre las variables. Como en otros métodos bayesianos (pero a diferencia, por ejemplo, de la maximización de expectativas (EM) u otros métodos de máxima verosimilitud ), ambos tipos de variables no observadas (es decir, parámetros y variables latentes) se tratan de la misma manera, es decir, como variables aleatorias . Luego, las estimaciones de las variables se pueden derivar mediante métodos bayesianos estándar, por ejemplo, calculando la media de la distribución para obtener una estimación puntual única o derivando un intervalo creíble , una región de mayor densidad, etc.
"Aproximación analítica" significa que se puede escribir una fórmula para la distribución posterior. La fórmula generalmente consiste en un producto de distribuciones de probabilidad bien conocidas, cada una de las cuales factoriza un conjunto de variables no observadas (es decir, es condicionalmente independiente de las otras variables, dados los datos observados). Esta fórmula no es la verdadera distribución posterior, sino una aproximación a ella; en particular, generalmente concordará bastante en los momentos más bajos de las variables no observadas, por ejemplo, la media y la varianza .
El resultado de todas las manipulaciones matemáticas es (1) la identidad de las distribuciones de probabilidad que componen los factores y (2) fórmulas mutuamente dependientes para los parámetros de estas distribuciones. Los valores reales de estos parámetros se calculan numéricamente, mediante un procedimiento iterativo alterno muy parecido a EM.

Comparado con la maximización de expectativas (EM)

El Bayes variacional (VB) a menudo se compara con la maximización de expectativas (EM). El procedimiento numérico real es bastante similar, en el sentido de que ambos son procedimientos iterativos alternos que convergen sucesivamente en valores de parámetros óptimos. Los pasos iniciales para derivar los procedimientos respectivos también son vagamente similares: ambos comienzan con fórmulas para densidades de probabilidad y ambos implican cantidades significativas de manipulaciones matemáticas.

Sin embargo, existen una serie de diferencias. Lo más importante es lo que se está calculando.

EM calcula estimaciones puntuales de la distribución posterior de aquellas variables aleatorias que pueden clasificarse como "parámetros", pero sólo estimaciones de las distribuciones posteriores reales de las variables latentes (al menos en "EM blando", y a menudo sólo cuando las variables latentes son discretas ). Las estimaciones puntuales calculadas son las modas de estos parámetros; No hay otra informacion disponible.
VB, por otro lado, calcula estimaciones de la distribución posterior real de todas las variables, tanto parámetros como variables latentes. Cuando es necesario derivar estimaciones puntuales, generalmente se utiliza la media en lugar de la moda, como es normal en la inferencia bayesiana. Al mismo tiempo, los parámetros calculados en VB no tienen el mismo significado que los de EM. EM calcula valores óptimos de los parámetros de la propia red Bayes. VB calcula valores óptimos de los parámetros de las distribuciones utilizadas para aproximar los parámetros y variables latentes de la red Bayes. Por ejemplo, un modelo de mezcla gaussiano típico tendrá parámetros para la media y la varianza de cada uno de los componentes de la mezcla. EM estimaría directamente los valores óptimos para estos parámetros. VB, sin embargo, primero ajustaría una distribución a estos parámetros (generalmente en forma de una distribución previa , por ejemplo, una distribución gamma inversa de escala normal ) y luego calcularía valores para los parámetros de esta distribución previa, es decir, esencialmente hiperparámetros . En este caso, VB calcularía estimaciones óptimas de los cuatro parámetros de la distribución gamma inversa en escala normal que describe la distribución conjunta de la media y la varianza del componente.

Un ejemplo más complejo

Modelo de mezcla bayesiana gaussiana utilizando notación de placas . Los cuadrados más pequeños indican parámetros fijos; los círculos más grandes indican variables aleatorias. Las formas rellenas indican valores conocidos. La indicación [K] significa un vector de tamaño K ; [ D , D ] significa una matriz de tamaño D × D ; K por sí sola significa una variable categórica con K resultados. La línea ondulada que viene de z y termina en una barra transversal indica un *cambio* : el valor de esta variable selecciona, para las otras variables entrantes, qué valor usar de la matriz de tamaño *K de valores posibles.*

Imagine un modelo de mezcla bayesiana gaussiana descrito a continuación: ^[7]

{\begin{aligned}\mathbf {\pi } &\sim \operatorname {SymDir} (K,\alpha _{0})\\\mathbf {\Lambda } _{i=1\dots K}&\sim {\mathcal {W}}(\mathbf {W} _{0},\nu _{0})\\\mathbf {\mu } _{i=1\dots K}&\sim {\mathcal {N}}(\mathbf {\mu } _{0},(\beta _{0}\mathbf {\Lambda } _{i})^{-1})\\\mathbf {z} [i=1\dots N]&\sim \operatorname {Mult} (1,\mathbf {\pi } )\\\mathbf {x} _{i=1\dots N}&\sim {\mathcal {N}}(\mathbf {\mu } _{z_{i}},{\mathbf {\Lambda } _{z_{i}}}^{-1})\\K&={\text{number of mixing components}}\\N&={\text{number of data points}}\end{aligned}}

Nota:

SymDir() es la distribución simétrica de Dirichlet de dimensión , con el hiperparámetro para cada componente establecido en . La distribución de Dirichlet es la prioritaria conjugada de la distribución categórica o distribución multinomial . $K$ $\alpha _{0}$
${\mathcal {W}}()$ es la distribución Wishart , que es la prioritaria conjugada de la matriz de precisión ( matriz de covarianza inversa ) para una distribución gaussiana multivariada .
Mult() es una distribución multinomial sobre una sola observación (equivalente a una distribución categórica ). El espacio de estados es una representación "uno de K", es decir, un vector de dimensión en el que uno de los elementos es 1 (especificando la identidad de la observación) y todos los demás elementos son 0. $K$
${\mathcal {N}}()$ es la distribución gaussiana , en este caso específicamente la distribución gaussiana multivariada .

La interpretación de las variables anteriores es la siguiente:

$\mathbf {X} =\{\mathbf {x} _{1},\dots ,\mathbf {x} _{N}\}$ es el conjunto de puntos de datos, cada uno de los cuales es un vector dimensional distribuido según una distribución gaussiana multivariada . $N$ $D$
$\mathbf {Z} =\{\mathbf {z} _{1},\dots ,\mathbf {z} _{N}\}$ es un conjunto de variables latentes, una por punto de datos, que especifica a qué componente de la mezcla pertenece el punto de datos correspondiente, utilizando una representación vectorial "uno de K" con componentes para , como se describió anteriormente. $z_{nk}$ $k=1\dots K$
$\mathbf {\pi }$ son las proporciones de mezcla de los componentes de la mezcla. $K$
$\mathbf {\mu } _{i=1\dots K}$ y especificar los parámetros ( media y precisión ) asociados con cada componente de la mezcla. $\mathbf {\Lambda } _{i=1\dots K}$

La probabilidad conjunta de todas las variables se puede reescribir como

p(\mathbf {X} ,\mathbf {Z} ,\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )=p(\mathbf {X} \mid \mathbf {Z} ,\mathbf {\mu } ,\mathbf {\Lambda } )p(\mathbf {Z} \mid \mathbf {\pi } )p(\mathbf {\pi } )p(\mathbf {\mu } \mid \mathbf {\Lambda } )p(\mathbf {\Lambda } )

donde están los factores individuales

{\begin{aligned}p(\mathbf {X} \mid \mathbf {Z} ,\mathbf {\mu } ,\mathbf {\Lambda } )&=\prod _{n=1}^{N}\prod _{k=1}^{K}{\mathcal {N}}(\mathbf {x} _{n}\mid \mathbf {\mu } _{k},\mathbf {\Lambda } _{k}^{-1})^{z_{nk}}\\p(\mathbf {Z} \mid \mathbf {\pi } )&=\prod _{n=1}^{N}\prod _{k=1}^{K}\pi _{k}^{z_{nk}}\\p(\mathbf {\pi } )&={\frac {\Gamma (K\alpha _{0})}{\Gamma (\alpha _{0})^{K}}}\prod _{k=1}^{K}\pi _{k}^{\alpha _{0}-1}\\p(\mathbf {\mu } \mid \mathbf {\Lambda } )&=\prod _{k=1}^{K}{\mathcal {N}}(\mathbf {\mu } _{k}\mid \mathbf {\mu } _{0},(\beta _{0}\mathbf {\Lambda } _{k})^{-1})\\p(\mathbf {\Lambda } )&=\prod _{k=1}^{K}{\mathcal {W}}(\mathbf {\Lambda } _{k}\mid \mathbf {W} _{0},\nu _{0})\end{aligned}}

dónde

{\begin{aligned}{\mathcal {N}}(\mathbf {x} \mid \mathbf {\mu } ,\mathbf {\Sigma } )&={\frac {1}{(2\pi )^{D/2}}}{\frac {1}{|\mathbf {\Sigma } |^{1/2}}}\exp \left\{-{\frac {1}{2}}(\mathbf {x} -\mathbf {\mu } )^{\rm {T}}\mathbf {\Sigma } ^{-1}(\mathbf {x} -\mathbf {\mu } )\right\}\\{\mathcal {W}}(\mathbf {\Lambda } \mid \mathbf {W} ,\nu )&=B(\mathbf {W} ,\nu )|\mathbf {\Lambda } |^{(\nu -D-1)/2}\exp \left(-{\frac {1}{2}}\operatorname {Tr} (\mathbf {W} ^{-1}\mathbf {\Lambda } )\right)\\B(\mathbf {W} ,\nu )&=|\mathbf {W} |^{-\nu /2}\left\{2^{\nu D/2}\pi ^{D(D-1)/4}\prod _{i=1}^{D}\Gamma \left({\frac {\nu +1-i}{2}}\right)\right\}^{-1}\\D&={\text{dimensionality of each data point}}\end{aligned}}

Asumir que . $q(\mathbf {Z} ,\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )=q(\mathbf {Z} )q(\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )$

Entonces ^[8]

{\begin{aligned}\ln q^{*}(\mathbf {Z} )&=\operatorname {E} _{\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } }[\ln p(\mathbf {X} ,\mathbf {Z} ,\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )]+{\text{constant}}\\&=\operatorname {E} _{\mathbf {\pi } }[\ln p(\mathbf {Z} \mid \mathbf {\pi } )]+\operatorname {E} _{\mathbf {\mu } ,\mathbf {\Lambda } }[\ln p(\mathbf {X} \mid \mathbf {Z} ,\mathbf {\mu } ,\mathbf {\Lambda } )]+{\text{constant}}\\&=\sum _{n=1}^{N}\sum _{k=1}^{K}z_{nk}\ln \rho _{nk}+{\text{constant}}\end{aligned}}

donde hemos definido

\ln \rho _{nk}=\operatorname {E} [\ln \pi _{k}]+{\frac {1}{2}}\operatorname {E} [\ln |\mathbf {\Lambda } _{k}|]-{\frac {D}{2}}\ln(2\pi )-{\frac {1}{2}}\operatorname {E} _{\mathbf {\mu } _{k},\mathbf {\Lambda } _{k}}[(\mathbf {x} _{n}-\mathbf {\mu } _{k})^{\rm {T}}\mathbf {\Lambda } _{k}(\mathbf {x} _{n}-\mathbf {\mu } _{k})]

Exponenciando ambos lados de la fórmula de rendimientos $\ln q^{*}(\mathbf {Z} )$

q^{*}(\mathbf {Z} )\propto \prod _{n=1}^{N}\prod _{k=1}^{K}\rho _{nk}^{z_{nk}}

Requerir que esto se normalice termina requiriendo que la suma sea 1 sobre todos los valores de , lo que produce $\rho _{nk}$ $k$

q^{*}(\mathbf {Z} )=\prod _{n=1}^{N}\prod _{k=1}^{K}r_{nk}^{z_{nk}}

dónde

r_{nk}={\frac {\rho _{nk}}{\sum _{j=1}^{K}\rho _{nj}}}

En otras palabras, es un producto de distribuciones multinomiales de observación única y factores sobre cada individuo , que se distribuye como una distribución multinomial de observación única con parámetros para . $q^{*}(\mathbf {Z} )$ $\mathbf {z} _{n}$ $r_{nk}$ $k=1\dots K$

Además, observamos que

\operatorname {E} [z_{nk}]=r_{nk}\,

que es un resultado estándar para distribuciones categóricas.

Ahora, considerando el factor , tenga en cuenta que se influye automáticamente debido a la estructura del modelo gráfico que define nuestro modelo de mezcla gaussiana, que se especifica anteriormente. $q(\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )$ $q(\mathbf {\pi } )\prod _{k=1}^{K}q(\mathbf {\mu } _{k},\mathbf {\Lambda } _{k})$

Entonces,

{\begin{aligned}\ln q^{*}(\mathbf {\pi } )&=\ln p(\mathbf {\pi } )+\operatorname {E} _{\mathbf {Z} }[\ln p(\mathbf {Z} \mid \mathbf {\pi } )]+{\text{constant}}\\&=(\alpha _{0}-1)\sum _{k=1}^{K}\ln \pi _{k}+\sum _{n=1}^{N}\sum _{k=1}^{K}r_{nk}\ln \pi _{k}+{\text{constant}}\end{aligned}}

Tomando la exponencial de ambos lados, la reconocemos como distribución de Dirichlet $q^{*}(\mathbf {\pi } )$

q^{*}(\mathbf {\pi } )\sim \operatorname {Dir} (\mathbf {\alpha } )\,

dónde

\alpha _{k}=\alpha _{0}+N_{k}\,

dónde

N_{k}=\sum _{n=1}^{N}r_{nk}\,

Finalmente

\ln q^{*}(\mathbf {\mu } _{k},\mathbf {\Lambda } _{k})=\ln p(\mathbf {\mu } _{k},\mathbf {\Lambda } _{k})+\sum _{n=1}^{N}\operatorname {E} [z_{nk}]\ln {\mathcal {N}}(\mathbf {x} _{n}\mid \mathbf {\mu } _{k},\mathbf {\Lambda } _{k}^{-1})+{\text{constant}}

Agrupando y leyendo términos que involucran y , el resultado es una distribución Gaussiana-Wishart dada por $\mathbf {\mu } _{k}$ $\mathbf {\Lambda } _{k}$

q^{*}(\mathbf {\mu } _{k},\mathbf {\Lambda } _{k})={\mathcal {N}}(\mathbf {\mu } _{k}\mid \mathbf {m} _{k},(\beta _{k}\mathbf {\Lambda } _{k})^{-1}){\mathcal {W}}(\mathbf {\Lambda } _{k}\mid \mathbf {W} _{k},\nu _{k})

dadas las definiciones

{\begin{aligned}\beta _{k}&=\beta _{0}+N_{k}\\\mathbf {m} _{k}&={\frac {1}{\beta _{k}}}(\beta _{0}\mathbf {\mu } _{0}+N_{k}{\bar {\mathbf {x} }}_{k})\\\mathbf {W} _{k}^{-1}&=\mathbf {W} _{0}^{-1}+N_{k}\mathbf {S} _{k}+{\frac {\beta _{0}N_{k}}{\beta _{0}+N_{k}}}({\bar {\mathbf {x} }}_{k}-\mathbf {\mu } _{0})({\bar {\mathbf {x} }}_{k}-\mathbf {\mu } _{0})^{\rm {T}}\\\nu _{k}&=\nu _{0}+N_{k}\\N_{k}&=\sum _{n=1}^{N}r_{nk}\\{\bar {\mathbf {x} }}_{k}&={\frac {1}{N_{k}}}\sum _{n=1}^{N}r_{nk}\mathbf {x} _{n}\\\mathbf {S} _{k}&={\frac {1}{N_{k}}}\sum _{n=1}^{N}r_{nk}(\mathbf {x} _{n}-{\bar {\mathbf {x} }}_{k})(\mathbf {x} _{n}-{\bar {\mathbf {x} }}_{k})^{\rm {T}}\end{aligned}}

Finalmente, observe que estas funciones requieren los valores de , que hacen uso de , que a su vez se define en función de , y . Ahora que hemos determinado las distribuciones sobre las que se toman estas expectativas, podemos derivar fórmulas para ellas: $r_{nk}$ $\rho _{nk}$ $\operatorname {E} [\ln \pi _{k}]$ $\operatorname {E} [\ln |\mathbf {\Lambda } _{k}|]$ $\operatorname {E} _{\mathbf {\mu } _{k},\mathbf {\Lambda } _{k}}[(\mathbf {x} _{n}-\mathbf {\mu } _{k})^{\rm {T}}\mathbf {\Lambda } _{k}(\mathbf {x} _{n}-\mathbf {\mu } _{k})]$

{\begin{aligned}\operatorname {E} _{\mathbf {\mu } _{k},\mathbf {\Lambda } _{k}}[(\mathbf {x} _{n}-\mathbf {\mu } _{k})^{\rm {T}}\mathbf {\Lambda } _{k}(\mathbf {x} _{n}-\mathbf {\mu } _{k})]&=D\beta _{k}^{-1}+\nu _{k}(\mathbf {x} _{n}-\mathbf {m} _{k})^{\rm {T}}\mathbf {W} _{k}(\mathbf {x} _{n}-\mathbf {m} _{k})\\\ln {\widetilde {\Lambda }}_{k}&\equiv \operatorname {E} [\ln |\mathbf {\Lambda } _{k}|]=\sum _{i=1}^{D}\psi \left({\frac {\nu _{k}+1-i}{2}}\right)+D\ln 2+\ln |\mathbf {W} _{k}|\\\ln {\widetilde {\pi }}_{k}&\equiv \operatorname {E} \left[\ln |\pi _{k}|\right]=\psi (\alpha _{k})-\psi \left(\sum _{i=1}^{K}\alpha _{i}\right)\end{aligned}}

Estos resultados conducen a

r_{nk}\propto {\widetilde {\pi }}_{k}{\widetilde {\Lambda }}_{k}^{1/2}\exp \left\{-{\frac {D}{2\beta _{k}}}-{\frac {\nu _{k}}{2}}(\mathbf {x} _{n}-\mathbf {m} _{k})^{\rm {T}}\mathbf {W} _{k}(\mathbf {x} _{n}-\mathbf {m} _{k})\right\}

Estos se pueden convertir de valores proporcionales a absolutos normalizándolos para que los valores correspondientes sumen 1. $k$

Tenga en cuenta que:

Las ecuaciones de actualización para los parámetros , , y de las variables y dependen de las estadísticas , , y , y estas estadísticas a su vez dependen de . $\beta _{k}$ $\mathbf {m} _{k}$ $\mathbf {W} _{k}$ $\nu _{k}$ $\mathbf {\mu } _{k}$ $\mathbf {\Lambda } _{k}$ $N_{k}$ ${\bar {\mathbf {x} }}_{k}$ $\mathbf {S} _{k}$ $r_{nk}$
Las ecuaciones de actualización de los parámetros de la variable dependen del estadístico , que a su vez depende de . $\alpha _{1\dots K}$ $\mathbf {\pi }$ $N_{k}$ $r_{nk}$
La ecuación de actualización para tiene una dependencia circular directa con , y así como una dependencia circular indirecta con , y a través de y . $r_{nk}$ $\beta _{k}$ $\mathbf {m} _{k}$ $\mathbf {W} _{k}$ $\nu _{k}$ $\mathbf {W} _{k}$ $\nu _{k}$ $\alpha _{1\dots K}$ ${\widetilde {\pi }}_{k}$ ${\widetilde {\Lambda }}_{k}$

Esto sugiere un procedimiento iterativo que alterna entre dos pasos:

Un paso E que calcula el valor de utilizar los valores actuales de todos los demás parámetros. $r_{nk}$
Un paso M que utiliza el nuevo valor de para calcular nuevos valores de todos los demás parámetros. $r_{nk}$

Tenga en cuenta que estos pasos se corresponden estrechamente con el algoritmo EM estándar para derivar una solución de máxima verosimilitud o máxima a posteriori (MAP) para los parámetros de un modelo de mezcla gaussiana . Las responsabilidades en el paso E corresponden estrechamente a las probabilidades posteriores de las variables latentes dados los datos, es decir ; el cálculo de las estadísticas , y corresponde estrechamente al cálculo de las estadísticas de "conteo suave" correspondientes sobre los datos; y el uso de esas estadísticas para calcular nuevos valores de los parámetros se corresponde estrechamente con el uso de conteos suaves para calcular nuevos valores de parámetros en EM normal sobre un modelo de mezcla gaussiana. $r_{nk}$ $p(\mathbf {Z} \mid \mathbf {X} )$ $N_{k}$ ${\bar {\mathbf {x} }}_{k}$ $\mathbf {S} _{k}$

Distribuciones familiares exponenciales

Tenga en cuenta que en el ejemplo anterior, una vez que se supuso que la distribución de las variables no observadas se factorizaba en distribuciones de los "parámetros" y distribuciones de los "datos latentes", la "mejor" distribución derivada para cada variable estaba en la misma familia que la correspondiente. distribución previa sobre la variable. Este es un resultado general que es válido para todas las distribuciones anteriores derivadas de la familia exponencial .

Ver también

Paso de mensajes variacionales : un algoritmo modular para la inferencia bayesiana variacional.
Autocodificador variacional : una red neuronal artificial perteneciente a las familias de modelos gráficos probabilísticos y métodos bayesianos variacionales.
Algoritmo de maximización de expectativas : un enfoque relacionado que corresponde a un caso especial de inferencia bayesiana variacional.
Filtrado generalizado : un esquema de filtrado variacional para modelos de espacio de estados no lineales.
Cálculo de variaciones : el campo del análisis matemático que se ocupa de maximizar o minimizar funcionales.
Discriminación de máxima entropía: este es un marco de inferencia variacional que permite introducir y contabilizar restricciones adicionales de gran margen ^[9]

Referencias

^ abcd Tran, Viet Hung (2018). "Inferencia cópula variacional de Bayes mediante geometría de la información". arXiv : 1803.10998 [cs.IT].
^ ab Adamčík, Martín (2014). "La geometría de la información de las divergencias de Bregman y algunas aplicaciones en el razonamiento de múltiples expertos". Entropía . 16 (12): 6338–6381. Código Bib : 2014Entrp..16.6338A. doi : 10.3390/e16126338 .
^ Nguyen, Duy (15 de agosto de 2023). "UNA INTRODUCCIÓN EN PROFUNDIDAD A LA NOTA VARIACIONAL DE BAYES". SSRN 4541076 . Consultado el 15 de agosto de 2023 .
^ abc Lee, Se Yoon (2021). "Muestreador de Gibbs e inferencia variacional de ascenso de coordenadas: una revisión de la teoría de conjuntos". Comunicaciones en Estadística - Teoría y Métodos . 51 (6): 1–21. arXiv : 2008.01006 . doi :10.1080/03610926.2021.1921214. S2CID 220935477.
^ Boyd, Stephen P.; Vandenberghe, Lieven (2004). Optimización convexa (PDF) . Prensa de la Universidad de Cambridge. ISBN 978-0-521-83378-3. Consultado el 15 de octubre de 2011 .
^ Obispo, Christopher M. (2006). "Capítulo 10". Reconocimiento de patrones y aprendizaje automático . Saltador. ISBN 978-0-387-31073-2.
^ Nguyen, Duy (15 de agosto de 2023). "UNA INTRODUCCIÓN EN PROFUNDIDAD A LA NOTA VARIACIONAL DE BAYES". SSRN 4541076 . Consultado el 15 de agosto de 2023 .
^ Nguyen, Duy (15 de agosto de 2023). "UNA INTRODUCCIÓN EN PROFUNDIDAD A LA NOTA VARIACIONAL DE BAYES". SSRN 4541076 . Consultado el 15 de agosto de 2023 .
^ Sotirios P. Chatzis, “Máquinas de discriminación de máxima entropía con conmutación infinita de Markov”, Proc. 30ª Conferencia Internacional sobre Aprendizaje Automático (ICML). Revista de investigación sobre aprendizaje automático: actas de talleres y conferencias, vol. 28, núm. 3, págs. 729–737, junio de 2013.

enlaces externos

El libro de texto en línea: Teoría de la información, inferencia y algoritmos de aprendizaje, de David JC MacKay , proporciona una introducción a los métodos variacionales (p. 422).
Un tutorial sobre Bayes variacional. Fox, C. y Roberts, S. 2012. Revisión de inteligencia artificial, doi :10.1007/s10462-011-9236-8.
Repositorio Variacional-Bayes Un repositorio de artículos de investigación, software y enlaces relacionados con el uso de métodos variacionales para el aprendizaje bayesiano aproximado hasta 2003.
Algoritmos variacionales para inferencia bayesiana aproximada, de MJ Beal, incluye comparaciones de EM con EM bayesiano variacional y derivaciones de varios modelos, incluidos los HMM bayesianos variacionales.
Puede que valga la pena leer la Explicación de alto nivel de la inferencia variacional de Jason Eisner antes de un tratamiento matemáticamente más detallado.
Inferencia copula variacional de Bayes mediante geometría de la información (pdf) por Tran, VH 2018. Este artículo está escrito principalmente para estudiantes. A través de la divergencia de Bregman , el artículo muestra que el Bayes variacional es simplemente una proyección pitagórica generalizada de un modelo verdadero sobre un espacio de distribución arbitrariamente correlacionado (cópula), del cual el espacio independiente es simplemente un caso especial.
Una introducción en profundidad a la nota variacional de Bayes. Nguyen, D. 2023