Algoritmo de expectativa-maximización

En estadística , un algoritmo de expectativa-maximización ( EM ) es un método iterativo para encontrar estimaciones de máxima verosimilitud (local) o máxima a posteriori (MAP) de parámetros en modelos estadísticos , donde el modelo depende de variables latentes no observadas . ^[1] La iteración EM alterna entre realizar un paso de expectativa (E), que crea una función para la expectativa de la log-verosimilitud evaluada utilizando la estimación actual para los parámetros, y un paso de maximización (M), que calcula parámetros que maximizan la log-verosimilitud esperada encontrada en el paso E. Estas estimaciones de parámetros se utilizan luego para determinar la distribución de las variables latentes en el siguiente paso E. Se puede utilizar, por ejemplo, para estimar una mezcla de gaussianas , o para resolver el problema de regresión lineal múltiple. ^[2]

Agrupamiento EM de los datos de la erupción de Old Faithful . El modelo inicial aleatorio (que, debido a las diferentes escalas de los ejes, parece ser dos elipses muy planas y anchas) se ajusta a los datos observados. En las primeras iteraciones, el modelo cambia sustancialmente, pero luego converge a los dos modos del géiser . Visualizado mediante ELKI .

Historia

El algoritmo EM fue explicado y recibió su nombre en un artículo clásico de 1977 de Arthur Dempster , Nan Laird y Donald Rubin . ^[3] Señalaron que el método había sido "propuesto muchas veces en circunstancias especiales" por autores anteriores. Uno de los primeros es el método de conteo de genes para estimar frecuencias de alelos de Cedric Smith . ^[4] Otro fue propuesto por HO Hartley en 1958, y Hartley y Hocking en 1977, de donde se originaron muchas de las ideas del artículo de Dempster-Laird-Rubin. ^[5] Otro por SK Ng, Thriyambakam Krishnan y GJ McLachlan en 1977. ^[6] Las ideas de Hartley se pueden ampliar a cualquier distribución discreta agrupada. Rolf Sundberg publicó un tratamiento muy detallado del método EM para familias exponenciales en su tesis y varios artículos, ^[7]^[8]^[9] tras su colaboración con Per Martin-Löf y Anders Martin-Löf . ^[10]^[11]^[12]^[13]^[14] El artículo de Dempster–Laird–Rubin de 1977 generalizó el método y esbozó un análisis de convergencia para una clase más amplia de problemas. El artículo de Dempster–Laird–Rubin estableció el método EM como una herramienta importante de análisis estadístico. Véase también Meng y van Dyk (1997).

El análisis de convergencia del algoritmo Dempster–Laird–Rubin era defectuoso y un análisis de convergencia correcto fue publicado por CF Jeff Wu en 1983. ^[15] La prueba de Wu estableció la convergencia del método EM también fuera de la familia exponencial , como afirmó Dempster–Laird–Rubin. ^[15]

Introducción

El algoritmo EM se utiliza para encontrar parámetros de máxima verosimilitud (locales) de un modelo estadístico en casos en los que las ecuaciones no se pueden resolver directamente. Normalmente, estos modelos implican variables latentes además de parámetros desconocidos y observaciones de datos conocidos. Es decir, o bien existen valores faltantes entre los datos, o bien el modelo se puede formular de forma más sencilla suponiendo la existencia de más puntos de datos no observados. Por ejemplo, un modelo de mezcla se puede describir de forma más sencilla suponiendo que cada punto de datos observado tiene un punto de datos no observado correspondiente, o variable latente, que especifica el componente de la mezcla al que pertenece cada punto de datos.

Para encontrar una solución de máxima verosimilitud es necesario tomar las derivadas de la función de verosimilitud con respecto a todos los valores desconocidos, los parámetros y las variables latentes, y resolver simultáneamente las ecuaciones resultantes. En los modelos estadísticos con variables latentes, esto suele ser imposible. En cambio, el resultado suele ser un conjunto de ecuaciones entrelazadas en las que la solución de los parámetros requiere los valores de las variables latentes y viceversa, pero la sustitución de un conjunto de ecuaciones en el otro produce una ecuación irresoluble.

El algoritmo EM parte de la observación de que existe una forma de resolver numéricamente estos dos conjuntos de ecuaciones. Se pueden elegir valores arbitrarios para uno de los dos conjuntos de incógnitas, utilizarlos para estimar el segundo conjunto, utilizar estos nuevos valores para encontrar una mejor estimación del primer conjunto y, a continuación, seguir alternando entre los dos hasta que los valores resultantes converjan a puntos fijos. No es obvio que esto funcione, pero se puede demostrar en este contexto. Además, se puede demostrar que la derivada de la probabilidad es (arbitrariamente cercana a) cero en ese punto, lo que a su vez significa que el punto es un máximo local o un punto de silla . ^[15] En general, pueden producirse múltiples máximos, sin garantía de que se encuentre el máximo global. Algunas probabilidades también tienen singularidades , es decir, máximos sin sentido. Por ejemplo, una de las soluciones que se pueden encontrar mediante EM en un modelo de mezcla implica establecer que uno de los componentes tenga una varianza cero y que el parámetro medio para el mismo componente sea igual a uno de los puntos de datos.

Descripción

Los símbolos

Dado el modelo estadístico que genera un conjunto de datos observados, un conjunto de datos latentes no observados o valores faltantes y un vector de parámetros desconocidos , junto con una función de verosimilitud , la estimación de máxima verosimilitud (MLE) de los parámetros desconocidos se determina maximizando la verosimilitud marginal de los datos observados. $\mathbf {X}$ $\mathbf {Z}$ ${\boldsymbol {\theta }}$ $L({\boldsymbol {\theta }};\mathbf {X} ,\mathbf {Z} )=p(\mathbf {X} ,\mathbf {Z} \mid {\boldsymbol {\theta }})$

L({\boldsymbol {\theta }};\mathbf {X} )=p(\mathbf {X} \mid {\boldsymbol {\theta }})=\int p(\mathbf {X} ,\mathbf {Z} \mid {\boldsymbol {\theta }})\,d\mathbf {Z} =\int p(\mathbf {X} \mid \mathbf {Z} ,{\boldsymbol {\theta }})p(\mathbf {Z} \mid {\boldsymbol {\theta }})\,d\mathbf {Z}

Sin embargo, esta cantidad es a menudo intratable ya que no se observa y se desconoce su distribución antes de alcanzarla . $\mathbf {Z}$ $\mathbf {Z}$ ${\boldsymbol {\theta }}$

El algoritmo EM

El algoritmo EM busca encontrar la estimación de máxima verosimilitud de la verosimilitud marginal aplicando iterativamente estos dos pasos:

Paso de expectativa (paso E) : se define como el valor esperado de la función de verosimilitud logarítmica de , con respecto a la distribución condicional actual de los datos y las estimaciones actuales de los parámetros :

Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})

{\boldsymbol {\theta }}

\mathbf {Z}

\mathbf {X}

{\boldsymbol {\theta }}^{(t)}

Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})=\operatorname {E} _{\mathbf {Z} \sim p(\cdot |\mathbf {X} ,{\boldsymbol {\theta }}^{(t)})}\left[\log p(\mathbf {X} ,\mathbf {Z} |{\boldsymbol {\theta }})\right]\,

Paso de maximización (paso M) : encuentre los parámetros que maximizan esta cantidad:

{\boldsymbol {\theta }}^{(t+1)}={\underset {\boldsymbol {\theta }}{\operatorname {arg\,max} }}\ Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})\,

Más sucintamente, podemos escribirlo como una ecuación: ${\boldsymbol {\theta }}^{(t+1)}={\underset {\boldsymbol {\theta }}{\operatorname {arg\,max} }}\operatorname {E} _{\mathbf {Z} \sim p(\cdot |\mathbf {X} ,{\boldsymbol {\theta }}^{(t)})}\left[\log p(\mathbf {X} ,\mathbf {Z} |{\boldsymbol {\theta }})\right]\,$

Interpretación de las variables

Los modelos típicos a los que se aplica EM utilizan como variable latente la que indica la pertenencia a uno de un conjunto de grupos: $\mathbf {Z}$

Los puntos de datos observados pueden ser discretos (que toman valores en un conjunto finito o infinito numerable) o continuos (que toman valores en un conjunto infinito numerable). A cada punto de datos puede estar asociado un vector de observaciones. $\mathbf {X}$
Los valores faltantes (también conocidos como variables latentes ) son discretos , se extraen de un número fijo de valores y con una variable latente por unidad observada. $\mathbf {Z}$
Los parámetros son continuos y son de dos tipos: parámetros que están asociados con todos los puntos de datos y aquellos asociados con un valor específico de una variable latente (es decir, asociados con todos los puntos de datos cuya variable latente correspondiente tiene ese valor).

Sin embargo, es posible aplicar EM a otros tipos de modelos.

La motivación es la siguiente. Si se conoce el valor de los parámetros, normalmente el valor de las variables latentes se puede encontrar maximizando la verosimilitud logarítmica sobre todos los valores posibles de , ya sea simplemente iterando sobre o mediante un algoritmo como el algoritmo de Viterbi para modelos ocultos de Markov . Por el contrario, si conocemos el valor de las variables latentes , podemos encontrar una estimación de los parámetros con bastante facilidad, normalmente simplemente agrupando los puntos de datos observados según el valor de la variable latente asociada y promediando los valores, o alguna función de los valores, de los puntos de cada grupo. Esto sugiere un algoritmo iterativo, en el caso en que tanto y sean desconocidos: ${\boldsymbol {\theta }}$ $\mathbf {Z}$ $\mathbf {Z}$ $\mathbf {Z}$ $\mathbf {Z}$ ${\boldsymbol {\theta }}$ ${\boldsymbol {\theta }}$ $\mathbf {Z}$

Primero, inicialice los parámetros con algunos valores aleatorios. ${\boldsymbol {\theta }}$
Calcular la probabilidad de cada valor posible de , dado . $\mathbf {Z}$ ${\boldsymbol {\theta }}$
Luego, utilice los valores recién calculados de para calcular una mejor estimación para los parámetros . $\mathbf {Z}$ ${\boldsymbol {\theta }}$
Iterar los pasos 2 y 3 hasta la convergencia.

El algoritmo tal como se acaba de describir se aproxima monótonamente a un mínimo local de la función de costo.

Propiedades

Aunque una iteración EM sí aumenta la función de verosimilitud de los datos observados (es decir, marginal), no existe garantía de que la secuencia converja a un estimador de máxima verosimilitud . Para distribuciones multimodales , esto significa que un algoritmo EM puede converger a un máximo local de la función de verosimilitud de los datos observados, dependiendo de los valores iniciales. Existe una variedad de enfoques heurísticos o metaheurísticos para escapar de un máximo local, como la escalada de colinas con reinicio aleatorio (comenzando con varias estimaciones iniciales aleatorias diferentes ) o la aplicación de métodos de recocido simulado . ${\boldsymbol {\theta }}^{(t)}$

EM es especialmente útil cuando la probabilidad es una familia exponencial , véase Sundberg (2019, cap. 8) para un tratamiento integral: ^[16] el paso E se convierte en la suma de expectativas de estadísticas suficientes , y el paso M implica maximizar una función lineal. En tal caso, normalmente es posible derivar actualizaciones de expresiones de forma cerrada para cada paso, utilizando la fórmula de Sundberg ^[17] (probada y publicada por Rolf Sundberg, basada en resultados no publicados de Per Martin-Löf y Anders Martin-Löf ). ^[8]^[9]^[11]^[12]^[13]^[14]

El método EM fue modificado para calcular estimaciones máximas a posteriori (MAP) para la inferencia bayesiana en el artículo original de Dempster, Laird y Rubin.

Existen otros métodos para hallar estimaciones de máxima verosimilitud, como el descenso de gradiente , el gradiente conjugado o variantes del algoritmo de Gauss-Newton . A diferencia del EM, estos métodos suelen requerir la evaluación de la primera y/o segunda derivada de la función de verosimilitud.

Prueba de corrección

La maximización de expectativas funciona para mejorar en lugar de mejorar directamente . Aquí se muestra que las mejoras en la primera implican mejoras en la segunda. ^[18] $Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})$ $\log p(\mathbf {X} \mid {\boldsymbol {\theta }})$

Para cualquier con probabilidad distinta de cero , podemos escribir $\mathbf {Z}$ $p(\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }})$

\log p(\mathbf {X} \mid {\boldsymbol {\theta }})=\log p(\mathbf {X} ,\mathbf {Z} \mid {\boldsymbol {\theta }})-\log p(\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }}).

Calculamos la expectativa sobre los posibles valores de los datos desconocidos según la estimación del parámetro actual multiplicando ambos lados por y sumando (o integrando) sobre . El lado izquierdo es la expectativa de una constante, por lo que obtenemos: $\mathbf {Z}$ $\theta ^{(t)}$ $p(\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }}^{(t)})$ $\mathbf {Z}$

{\begin{aligned}\log p(\mathbf {X} \mid {\boldsymbol {\theta }})&=\sum _{\mathbf {Z} }p(\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }}^{(t)})\log p(\mathbf {X} ,\mathbf {Z} \mid {\boldsymbol {\theta }})-\sum _{\mathbf {Z} }p(\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }}^{(t)})\log p(\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }})\\&=Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})+H({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)}),\end{aligned}}

donde se define por la suma negada que reemplaza. Esta última ecuación es válida para cada valor de, incluido , $H({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})$ ${\boldsymbol {\theta }}$ ${\boldsymbol {\theta }}={\boldsymbol {\theta }}^{(t)}$

\log p(\mathbf {X} \mid {\boldsymbol {\theta }}^{(t)})=Q({\boldsymbol {\theta }}^{(t)}\mid {\boldsymbol {\theta }}^{(t)})+H({\boldsymbol {\theta }}^{(t)}\mid {\boldsymbol {\theta }}^{(t)}),

y restando esta última ecuación de la ecuación anterior nos da

\log p(\mathbf {X} \mid {\boldsymbol {\theta }})-\log p(\mathbf {X} \mid {\boldsymbol {\theta }}^{(t)})=Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})-Q({\boldsymbol {\theta }}^{(t)}\mid {\boldsymbol {\theta }}^{(t)})+H({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})-H({\boldsymbol {\theta }}^{(t)}\mid {\boldsymbol {\theta }}^{(t)}).

Sin embargo, la desigualdad de Gibbs nos dice que , por lo que podemos concluir que $H({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})\geq H({\boldsymbol {\theta }}^{(t)}\mid {\boldsymbol {\theta }}^{(t)})$

\log p(\mathbf {X} \mid {\boldsymbol {\theta }})-\log p(\mathbf {X} \mid {\boldsymbol {\theta }}^{(t)})\geq Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})-Q({\boldsymbol {\theta }}^{(t)}\mid {\boldsymbol {\theta }}^{(t)}).

En palabras, elegir mejorar provoca que mejoremos al menos tanto como antes. ${\boldsymbol {\theta }}$ $Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})$ $\log p(\mathbf {X} \mid {\boldsymbol {\theta }})$

Como procedimiento de maximización-maximización

El algoritmo EM puede verse como dos pasos de maximización alternos, es decir, como un ejemplo de descenso de coordenadas . ^[19]^[20] Considere la función:

F(q,\theta ):=\operatorname {E} _{q}[\log L(\theta ;x,Z)]+H(q),

donde q es una distribución de probabilidad arbitraria sobre los datos no observados z y H(q) es la entropía de la distribución q . Esta función se puede escribir como

F(q,\theta )=-D_{\mathrm {KL} }{\big (}q\parallel p_{Z\mid X}(\cdot \mid x;\theta ){\big )}+\log L(\theta ;x),

donde es la distribución condicional de los datos no observados dados los datos observados y es la divergencia de Kullback-Leibler . $p_{Z\mid X}(\cdot \mid x;\theta )$ $x$ $D_{KL}$

Entonces los pasos del algoritmo EM pueden verse como:

Paso de expectativa : Elija maximizar :

q

F

q^{(t)}=\operatorname {arg\,max} _{q}\ F(q,\theta ^{(t)})

Paso de maximización : Elija maximizar :

\theta

F

\theta ^{(t+1)}=\operatorname {arg\,max} _{\theta }\ F(q^{(t)},\theta )

Aplicaciones

EM se utiliza con frecuencia para la estimación de parámetros de modelos mixtos , ^[21]^[22] especialmente en genética cuantitativa . ^[23]
En psicometría , la EM es una herramienta importante para estimar los parámetros de los ítems y las capacidades latentes de los modelos de teoría de respuesta a los ítems .
Con la capacidad de manejar datos faltantes y observar variables no identificadas, EM se está convirtiendo en una herramienta útil para fijar el precio y gestionar el riesgo de una cartera. ^{[ cita requerida ]}
El algoritmo EM (y su variante más rápida, la maximización de la expectativa de subconjunto ordenado ) también se utiliza ampliamente en la reconstrucción de imágenes médicas , especialmente en la tomografía por emisión de positrones , la tomografía computarizada por emisión de fotón único y la tomografía computarizada por rayos X. Vea a continuación otras variantes más rápidas de EM.
En ingeniería estructural , el algoritmo de identificación estructural mediante maximización de expectativas (STRIDE) ^[24] es un método de solo salida para identificar las propiedades de vibración natural de un sistema estructural utilizando datos de sensores (ver Análisis modal operacional ).
EM también se utiliza para la agrupación de datos . En el procesamiento del lenguaje natural , dos ejemplos destacados del algoritmo son el algoritmo Baum-Welch para modelos ocultos de Markov y el algoritmo inside-outside para la inducción no supervisada de gramáticas probabilísticas libres de contexto .
En el análisis de los tiempos de espera entre transacciones , es decir, el tiempo entre transacciones subsiguientes de acciones en una bolsa de valores, el algoritmo EM ha demostrado ser muy útil. ^[25]

Algoritmos EM de filtrado y suavizado

Por lo general, se utiliza un filtro Kalman para la estimación de estado en línea y se puede emplear un suavizador de mínima varianza para la estimación de estado fuera de línea o por lotes. Sin embargo, estas soluciones de mínima varianza requieren estimaciones de los parámetros del modelo de espacio de estado. Los algoritmos EM se pueden utilizar para resolver problemas conjuntos de estimación de estado y parámetros.

Los algoritmos de filtrado y suavizado EM surgen repitiendo este procedimiento de dos pasos:

Paso E: Opere un filtro Kalman o un suavizador de varianza mínima diseñado con estimaciones de parámetros actuales para obtener estimaciones de estado actualizadas.

Paso M: Utilice las estimaciones de estado filtradas o suavizadas dentro de los cálculos de máxima verosimilitud para obtener estimaciones de parámetros actualizadas.

Supongamos que un filtro Kalman o un suavizador de varianza mínima opera sobre mediciones de un sistema de una sola entrada y una sola salida que posee ruido blanco aditivo. Se puede obtener una estimación actualizada de la varianza del ruido de medición a partir del cálculo de máxima verosimilitud .

{\widehat {\sigma }}_{v}^{2}={\frac {1}{N}}\sum _{k=1}^{N}{(z_{k}-{\widehat {x}}_{k})}^{2},

donde son estimaciones de salida escalar calculadas por un filtro o un suavizador a partir de N mediciones escalares . La actualización anterior también se puede aplicar para actualizar la intensidad del ruido de una medición de Poisson. De manera similar, para un proceso autorregresivo de primer orden, se puede calcular una estimación de varianza del ruido del proceso actualizada mediante ${\widehat {x}}_{k}$ $z_{k}$

{\widehat {\sigma }}_{w}^{2}={\frac {1}{N}}\sum _{k=1}^{N}{({\widehat {x}}_{k+1}-{\widehat {F}}{\widehat {x}}_{k})}^{2},

donde y son estimaciones de estado escalar calculadas mediante un filtro o suavizador. La estimación del coeficiente del modelo actualizado se obtiene mediante ${\widehat {x}}_{k}$ ${\widehat {x}}_{k+1}$

{\widehat {F}}={\frac {\sum _{k=1}^{N}{({\widehat {x}}_{k+1}-{\widehat {F}}{\widehat {x}}_{k})}^{2}}{\sum _{k=1}^{N}{\widehat {x}}_{k}^{2}}}.

La convergencia de estimaciones de parámetros como las anteriores ha sido bien estudiada. ^[26]^[27]^[28]^[29]

Variantes

Se han propuesto varios métodos para acelerar la convergencia a veces lenta del algoritmo EM, como los que utilizan el gradiente conjugado y los métodos de Newton modificados (Newton-Raphson). ^[30] Además, EM se puede utilizar con métodos de estimación restringida.

El algoritmo de maximización de expectativas expandidas por parámetros (PX-EM) a menudo proporciona aceleración al "utilizar un 'ajuste de covarianza' para corregir el análisis del paso M, aprovechando la información adicional capturada en los datos completos imputados". ^[31]

La maximización condicional de expectativas (ECM) reemplaza cada paso M con una secuencia de pasos de maximización condicional (CM) en los que cada parámetro θ _i se maximiza individualmente, condicionalmente a que los otros parámetros permanezcan fijos. ^[32] Esto mismo se puede extender al algoritmo de maximización condicional de expectativas (ECME) . ^[33]

Esta idea se amplía aún más en el algoritmo de maximización de expectativas generalizadas (GEM) , en el que se busca únicamente un aumento en la función objetivo F tanto para el paso E como para el paso M, como se describe en la sección Como procedimiento de maximización-maximización. ^[19] GEM se desarrolla aún más en un entorno distribuido y muestra resultados prometedores. ^[34]

También es posible considerar el algoritmo EM como una subclase del algoritmo MM (Mayorizar/Minimizar o Minorizar/Maximizar, dependiendo del contexto), ^[35] y por lo tanto utilizar cualquier maquinaria desarrollada en el caso más general.

Algoritmo α-EM

La función Q utilizada en el algoritmo EM se basa en la probabilidad logarítmica. Por lo tanto, se considera el algoritmo log-EM. El uso de la probabilidad logarítmica se puede generalizar al de la razón de probabilidad logarítmica α. Entonces, la razón de probabilidad logarítmica α de los datos observados se puede expresar exactamente como igualdad utilizando la función Q de la razón de probabilidad logarítmica α y la divergencia α. Obtener esta función Q es un paso E generalizado. Su maximización es un paso M generalizado. Este par se denomina algoritmo α-EM ^[36] que contiene el algoritmo log-EM como su subclase. Por lo tanto, el algoritmo α-EM de Yasuo Matsuyama es una generalización exacta del algoritmo log-EM. No se necesita ningún cálculo de gradiente o matriz hessiana. El α-EM muestra una convergencia más rápida que el algoritmo log-EM al elegir un α apropiado. El algoritmo α-EM conduce a una versión más rápida del algoritmo de estimación del modelo de Markov oculto α-HMM. ^[37]

Relación con los métodos bayesianos variacionales

EM es un método de máxima verosimilitud parcialmente no bayesiano. Su resultado final da una distribución de probabilidad sobre las variables latentes (en el estilo bayesiano) junto con una estimación puntual para θ (ya sea una estimación de máxima verosimilitud o un modo posterior). Puede ser necesaria una versión completamente bayesiana de esto, que dé una distribución de probabilidad sobre θ y las variables latentes. El enfoque bayesiano para la inferencia es simplemente tratar a θ como otra variable latente. En este paradigma, la distinción entre los pasos E y M desaparece. Si se utiliza la aproximación Q factorizada como se describió anteriormente ( Bayes variacional ), la resolución puede iterar sobre cada variable latente (ahora incluyendo θ ) y optimizarlas una a la vez. Ahora, se necesitan k pasos por iteración, donde k es el número de variables latentes. Para los modelos gráficos, esto es fácil de hacer ya que la nueva Q de cada variable depende solo de su manta de Markov , por lo que se puede utilizar el paso de mensajes local para una inferencia eficiente.

Interpretación geométrica

En geometría de la información , el paso E y el paso M se interpretan como proyecciones bajo conexiones afines duales , llamadas conexión e y conexión m; la divergencia de Kullback-Leibler también puede entenderse en estos términos.

Ejemplos

Mezcla gaussiana

Sea una muestra de observaciones independientes de una mezcla de dos distribuciones normales multivariadas de dimensión , y sean las variables latentes que determinan el componente del que se origina la observación. ^[20] $\mathbf {x} =(\mathbf {x} _{1},\mathbf {x} _{2},\ldots ,\mathbf {x} _{n})$ $n$ $d$ $\mathbf {z} =(z_{1},z_{2},\ldots ,z_{n})$

X_{i}\mid (Z_{i}=1)\sim {\mathcal {N}}_{d}({\boldsymbol {\mu }}_{1},\Sigma _{1})

X_{i}\mid (Z_{i}=2)\sim {\mathcal {N}}_{d}({\boldsymbol {\mu }}_{2},\Sigma _{2}),

dónde

\operatorname {P} (Z_{i}=1)=\tau _{1}\,

\operatorname {P} (Z_{i}=2)=\tau _{2}=1-\tau _{1}.

El objetivo es estimar los parámetros desconocidos que representan el valor de mezcla entre las gaussianas y las medias y covarianzas de cada una:

\theta ={\big (}{\boldsymbol {\tau }},{\boldsymbol {\mu }}_{1},{\boldsymbol {\mu }}_{2},\Sigma _{1},\Sigma _{2}{\big )},

donde la función de verosimilitud de datos incompletos es

L(\theta ;\mathbf {x} )=\prod _{i=1}^{n}\sum _{j=1}^{2}\tau _{j}\ f(\mathbf {x} _{i};{\boldsymbol {\mu }}_{j},\Sigma _{j}),

y la función de verosimilitud de datos completos es

L(\theta ;\mathbf {x} ,\mathbf {z} )=p(\mathbf {x} ,\mathbf {z} \mid \theta )=\prod _{i=1}^{n}\prod _{j=1}^{2}\ [f(\mathbf {x} _{i};{\boldsymbol {\mu }}_{j},\Sigma _{j})\tau _{j}]^{\mathbb {I} (z_{i}=j)},

L(\theta ;\mathbf {x} ,\mathbf {z} )=\exp \left\{\sum _{i=1}^{n}\sum _{j=1}^{2}\mathbb {I} (z_{i}=j){\big [}\log \tau _{j}-{\tfrac {1}{2}}\log |\Sigma _{j}|-{\tfrac {1}{2}}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})^{\top }\Sigma _{j}^{-1}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})-{\tfrac {d}{2}}\log(2\pi ){\big ]}\right\},

donde es una función indicadora y es la función de densidad de probabilidad de una normal multivariada. $\mathbb {I}$ $f$

En la última igualdad, para cada $i$ , un indicador es igual a cero y otro indicador es igual a uno. La suma interna se reduce entonces a un término. $\mathbb {I} (z_{i}=j)$

E paso

Dada nuestra estimación actual de los parámetros θ ^{( t )} , la distribución condicional de Z _i está determinada por el teorema de Bayes como la altura proporcional de la densidad normal ponderada por τ :

T_{j,i}^{(t)}:=\operatorname {P} (Z_{i}=j\mid X_{i}=\mathbf {x} _{i};\theta ^{(t)})={\frac {\tau _{j}^{(t)}\ f(\mathbf {x} _{i};{\boldsymbol {\mu }}_{j}^{(t)},\Sigma _{j}^{(t)})}{\tau _{1}^{(t)}\ f(\mathbf {x} _{i};{\boldsymbol {\mu }}_{1}^{(t)},\Sigma _{1}^{(t)})+\tau _{2}^{(t)}\ f(\mathbf {x} _{i};{\boldsymbol {\mu }}_{2}^{(t)},\Sigma _{2}^{(t)})}}.

Estas se denominan "probabilidades de pertenencia", que normalmente se consideran el resultado del paso E (aunque esta no es la función Q que se muestra a continuación).

Este paso E corresponde con la configuración de esta función para Q:

{\begin{aligned}Q(\theta \mid \theta ^{(t)})&=\operatorname {E} _{\mathbf {Z} \mid \mathbf {X} =\mathbf {x} ;\mathbf {\theta } ^{(t)}}[\log L(\theta ;\mathbf {x} ,\mathbf {Z} )]\\&=\operatorname {E} _{\mathbf {Z} \mid \mathbf {X} =\mathbf {x} ;\mathbf {\theta } ^{(t)}}[\log \prod _{i=1}^{n}L(\theta ;\mathbf {x} _{i},Z_{i})]\\&=\operatorname {E} _{\mathbf {Z} \mid \mathbf {X} =\mathbf {x} ;\mathbf {\theta } ^{(t)}}[\sum _{i=1}^{n}\log L(\theta ;\mathbf {x} _{i},Z_{i})]\\&=\sum _{i=1}^{n}\operatorname {E} _{Z_{i}\mid X_{i}=x_{i};\mathbf {\theta } ^{(t)}}[\log L(\theta ;\mathbf {x} _{i},Z_{i})]\\&=\sum _{i=1}^{n}\sum _{j=1}^{2}P(Z_{i}=j\mid X_{i}=\mathbf {x} _{i};\theta ^{(t)})\log L(\theta _{j};\mathbf {x} _{i},j)\\&=\sum _{i=1}^{n}\sum _{j=1}^{2}T_{j,i}^{(t)}{\big [}\log \tau _{j}-{\tfrac {1}{2}}\log |\Sigma _{j}|-{\tfrac {1}{2}}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})^{\top }\Sigma _{j}^{-1}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})-{\tfrac {d}{2}}\log(2\pi ){\big ]}.\end{aligned}}

La expectativa de dentro de la suma se toma con respecto a la función de densidad de probabilidad , que puede ser diferente para cada uno de los conjuntos de entrenamiento. Todo en el paso E se conoce antes de que se realice el paso, excepto , que se calcula de acuerdo con la ecuación al comienzo de la sección del paso E. $\log L(\theta ;\mathbf {x} _{i},Z_{i})$ $P(Z_{i}\mid X_{i}=\mathbf {x} _{i};\theta ^{(t)})$ $\mathbf {x} _{i}$ $T_{j,i}$

No es necesario calcular esta expectativa condicional completa en un solo paso, porque τ y μ / Σ aparecen en términos lineales separados y, por lo tanto, pueden maximizarse independientemente.

Paso M

$Q(\theta \mid \theta ^{(t)})$ Al tener forma cuadrática, es relativamente sencillo determinar los valores maximizadores de. Además, , y pueden maximizarse independientemente, ya que todos aparecen en términos lineales separados. $\theta$ $\tau$ $({\boldsymbol {\mu }}_{1},\Sigma _{1})$ $({\boldsymbol {\mu }}_{2},\Sigma _{2})$

Para comenzar, considere , que tiene la restricción : $\tau$ $\tau _{1}+\tau _{2}=1$

{\begin{aligned}{\boldsymbol {\tau }}^{(t+1)}&={\underset {\boldsymbol {\tau }}{\operatorname {arg\,max} }}\ Q(\theta \mid \theta ^{(t)})\\&={\underset {\boldsymbol {\tau }}{\operatorname {arg\,max} }}\ \left\{\left[\sum _{i=1}^{n}T_{1,i}^{(t)}\right]\log \tau _{1}+\left[\sum _{i=1}^{n}T_{2,i}^{(t)}\right]\log \tau _{2}\right\}.\end{aligned}}

Esto tiene la misma forma que la estimación de máxima verosimilitud para la distribución binomial , por lo que

\tau _{j}^{(t+1)}={\frac {\sum _{i=1}^{n}T_{j,i}^{(t)}}{\sum _{i=1}^{n}(T_{1,i}^{(t)}+T_{2,i}^{(t)})}}={\frac {1}{n}}\sum _{i=1}^{n}T_{j,i}^{(t)}.

Para las próximas estimaciones de : $({\boldsymbol {\mu }}_{1},\Sigma _{1})$

{\begin{aligned}({\boldsymbol {\mu }}_{1}^{(t+1)},\Sigma _{1}^{(t+1)})&={\underset {{\boldsymbol {\mu }}_{1},\Sigma _{1}}{\operatorname {arg\,max} }}\ Q(\theta \mid \theta ^{(t)})\\&={\underset {{\boldsymbol {\mu }}_{1},\Sigma _{1}}{\operatorname {arg\,max} }}\ \sum _{i=1}^{n}T_{1,i}^{(t)}\left\{-{\tfrac {1}{2}}\log |\Sigma _{1}|-{\tfrac {1}{2}}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{1})^{\top }\Sigma _{1}^{-1}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{1})\right\}\end{aligned}}.

Esto tiene la misma forma que una estimación de máxima verosimilitud ponderada para una distribución normal, por lo que

{\boldsymbol {\mu }}_{1}^{(t+1)}={\frac {\sum _{i=1}^{n}T_{1,i}^{(t)}\mathbf {x} _{i}}{\sum _{i=1}^{n}T_{1,i}^{(t)}}}

\Sigma _{1}^{(t+1)}={\frac {\sum _{i=1}^{n}T_{1,i}^{(t)}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{1}^{(t+1)})(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{1}^{(t+1)})^{\top }}{\sum _{i=1}^{n}T_{1,i}^{(t)}}}

y, por simetría,

{\boldsymbol {\mu }}_{2}^{(t+1)}={\frac {\sum _{i=1}^{n}T_{2,i}^{(t)}\mathbf {x} _{i}}{\sum _{i=1}^{n}T_{2,i}^{(t)}}}

\Sigma _{2}^{(t+1)}={\frac {\sum _{i=1}^{n}T_{2,i}^{(t)}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{2}^{(t+1)})(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{2}^{(t+1)})^{\top }}{\sum _{i=1}^{n}T_{2,i}^{(t)}}}.

Terminación

Concluya el proceso iterativo si está por debajo de un umbral preestablecido. $E_{Z\mid \theta ^{(t)},\mathbf {x} }[\log L(\theta ^{(t)};\mathbf {x} ,\mathbf {Z} )]\leq E_{Z\mid \theta ^{(t-1)},\mathbf {x} }[\log L(\theta ^{(t-1)};\mathbf {x} ,\mathbf {Z} )]+\varepsilon$ $\varepsilon$

Generalización

El algoritmo ilustrado arriba se puede generalizar para mezclas de más de dos distribuciones normales multivariadas .

Regresión truncada y censurada

El algoritmo EM se ha implementado en el caso en que existe un modelo de regresión lineal subyacente que explica la variación de alguna cantidad, pero donde los valores realmente observados son versiones censuradas o truncadas de los representados en el modelo. ^[38] Los casos especiales de este modelo incluyen observaciones censuradas o truncadas de una distribución normal . ^[38]

Alternativas

El EM converge típicamente a un óptimo local, no necesariamente al óptimo global, sin límite en la tasa de convergencia en general. Es posible que pueda ser arbitrariamente pobre en dimensiones altas y puede haber un número exponencial de óptimos locales. Por lo tanto, existe una necesidad de métodos alternativos para el aprendizaje garantizado, especialmente en el entorno de alta dimensión. Existen alternativas al EM con mejores garantías de consistencia, que se denominan enfoques basados en momentos ^[39] o las llamadas técnicas espectrales . ^[40]^[41] Los enfoques basados en momentos para aprender los parámetros de un modelo probabilístico disfrutan de garantías como la convergencia global bajo ciertas condiciones a diferencia del EM que a menudo está plagado por el problema de quedarse atascado en óptimos locales. Se pueden derivar algoritmos con garantías de aprendizaje para una serie de modelos importantes, como modelos de mezcla, HMM, etc. Para estos métodos espectrales, no ocurren óptimos locales espurios y los parámetros verdaderos se pueden estimar de manera consistente bajo algunas condiciones de regularidad. ^{[ cita requerida ]}

Véase también

distribución de mezcla
distribución compuesta
Estimación de densidad
Análisis de componentes principales
espectroscopia de absorción total
El algoritmo EM puede considerarse un caso especial del algoritmo de minimización-mayorización (MM) . ^[42]

Referencias

^ Meng, X.-L.; van Dyk, D. (1997). "El algoritmo EM: una vieja canción popular cantada con una nueva melodía rápida". J. Royal Statist. Soc. B . 59 (3): 511–567. doi : 10.1111/1467-9868.00082 . S2CID 17461647.
^ Jeongyeol Kwon, Constantine Caramanis Actas de la Vigésimo Tercera Conferencia Internacional sobre Inteligencia Artificial y Estadística , PMLR 108:1727-1736, 2020.
^ Dempster, AP ; Laird, NM ; Rubin, DB (1977). "Máxima verosimilitud a partir de datos incompletos mediante el algoritmo EM". Revista de la Royal Statistical Society, Serie B. 39 ( 1): 1–38. JSTOR 2984875. MR 0501537.
^ Ceppelini, RM (1955). "La estimación de frecuencias genéticas en una población de apareamiento aleatorio". Ann. Hum. Genet . 20 (2): 97–115. doi :10.1111/j.1469-1809.1955.tb01360.x. PMID 13268982. S2CID 38625779.
^ Hartley, Herman Otto (1958). "Estimación de máxima verosimilitud a partir de datos incompletos". Biometrics . 14 (2): 174–194. doi :10.2307/2527783. JSTOR 2527783.
^ Ng, Shu Kay; Krishnan, Thriyambakam; McLachlan, Geoffrey J. (21 de diciembre de 2011), "El algoritmo EM", Handbook of Computational Statistics , Berlín, Heidelberg: Springer Berlin Heidelberg, págs. 139-172, doi :10.1007/978-3-642-21551-3_6, ISBN 978-3-642-21550-6, S2CID 59942212 , consultado el 15 de octubre de 2022
^ Sundberg, Rolf (1974). "Teoría de máxima verosimilitud para datos incompletos de una familia exponencial". Scandinavian Journal of Statistics . 1 (2): 49–58. JSTOR 4615553. MR 0381110.
^ por Rolf Sundberg. 1971. Teoría de máxima verosimilitud y aplicaciones para distribuciones generadas al observar una función de una variable de la familia exponencial . Tesis doctoral, Instituto de Estadística Matemática, Universidad de Estocolmo.
^ ab Sundberg, Rolf (1976). "Un método iterativo para la solución de ecuaciones de verosimilitud para datos incompletos de familias exponenciales". Communications in Statistics – Simulation and Computation . 5 (1): 55–64. doi :10.1080/03610917608812007. MR 0443190.
^ Véase el reconocimiento de Dempster, Laird y Rubin en las páginas 3, 5 y 11.
^ ab Per Martin-Löf . 1966. Estadísticas desde el punto de vista de la mecánica estadística . Apuntes de clase, Instituto de Matemáticas, Universidad de Aarhus. ("Fórmula de Sundberg", atribuida a Anders Martin-Löf).
^ ab Per Martin-Löf . 1970. Statistiska Modeller (Modelos estadísticos): Anteckningar från seminarier läsåret 1969–1970 (Apuntes de conferencias 1969-1970), con la ayuda de Rolf Sundberg. Universidad de Estocolmo.
^ ab Martin-Löf, P. La noción de redundancia y su uso como medida cuantitativa de la desviación entre una hipótesis estadística y un conjunto de datos observacionales. Con una discusión de F. Abildgård, AP Dempster , D. Basu , DR Cox , AWF Edwards , DA Sprott, GA Barnard , O. Barndorff-Nielsen, JD Kalbfleisch y G. Rasch y una respuesta del autor. Actas de la Conferencia sobre Cuestiones Fundamentales en Inferencia Estadística (Aarhus, 1973), págs. 1–42. Memorias, n.º 1, Dept. Theoret. Statist., Inst. Math., Univ. Aarhus, Aarhus, 1974.
^ ab Martin-Löf, Per (1974). "La noción de redundancia y su uso como medida cuantitativa de la discrepancia entre una hipótesis estadística y un conjunto de datos observacionales". Scand. J. Statist . 1 (1): 3–18.
^ abc Wu, CF Jeff (marzo de 1983). "Sobre las propiedades de convergencia del algoritmo EM". Anales de estadística . 11 (1): 95–103. doi : 10.1214/aos/1176346060 . JSTOR 2240463. MR 0684867.
^ Sundberg, Rolf (2019). Modelado estadístico por familias exponenciales . Cambridge University Press. ISBN 9781108701112.
^ Laird, Nan (2006). "Fórmulas de Sundberg". Enciclopedia de ciencias estadísticas . Wiley. doi :10.1002/0471667196.ess2643.pub2. ISBN 0471667196.
^ Little, Roderick JA; Rubin, Donald B. (1987). Análisis estadístico con datos faltantes . Serie Wiley en probabilidad y estadística matemática. Nueva York: John Wiley & Sons. págs. 134-136. ISBN 978-0-471-80254-9.
^ ab Neal, Radford; Hinton, Geoffrey (1999). "Una visión del algoritmo EM que justifica variantes incrementales, dispersas y de otro tipo". En Michael I. Jordan (ed.). Aprendizaje en modelos gráficos (PDF) . Cambridge, MA: MIT Press. págs. 355–368. ISBN 978-0-262-60032-3. Consultado el 22 de marzo de 2009 .
^ ab Hastie, Trevor ; Tibshirani, Robert ; Friedman, Jerome (2001). "8.5 El algoritmo EM". Los elementos del aprendizaje estadístico . Nueva York: Springer. págs. 236–243. ISBN 978-0-387-95284-0.
^ Lindstrom, Mary J; Bates, Douglas M (1988). "Algoritmos Newton-Raphson y EM para modelos lineales de efectos mixtos para datos de medidas repetidas". Revista de la Asociación Estadounidense de Estadística . 83 (404): 1014. doi :10.1080/01621459.1988.10478693.
^ Van Dyk, David A (2000). "Ajuste de modelos de efectos mixtos utilizando algoritmos de tipo EM eficientes". Revista de estadística computacional y gráfica . 9 (1): 78–98. doi :10.2307/1390614. JSTOR 1390614.
^ Diffey, S. M; Smith, A. B; Welsh, A. H; Cullis, B. R (2017). "Un nuevo algoritmo EM REML (parámetro expandido) para modelos lineales mixtos". Revista Australiana y Neozelandesa de Estadística . 59 (4): 433. doi : 10.1111/anzs.12208 . hdl : 1885/211365 .
^ Matarazzo, TJ y Pakzad, SN (2016). “STRIDE para identificación estructural utilizando maximización de expectativas: método iterativo de solo salida para identificación modal”. Journal of Engineering Mechanics. http://ascelibrary.org/doi/abs/10.1061/(ASCE)EM.1943-7889.0000951
^ Kreer, Markus; Kizilersu, Ayse; Thomas, Anthony W. (2022). "Algoritmo de maximización de expectativas censuradas para mezclas: aplicación a tiempos de espera entre transacciones". Physica A: Mecánica estadística y sus aplicaciones . 587 (1): 126456. Bibcode :2022PhyA..58726456K. doi :10.1016/j.physa.2021.126456. ISSN 0378-4371. S2CID 244198364.
^ Einicke, GA; Malos, JT; Reid, DC; Hainsworth, DW (enero de 2009). "Ecuación de Riccati y convergencia del algoritmo EM para la alineación de navegación inercial". IEEE Trans. Signal Process . 57 (1): 370–375. Bibcode :2009ITSP...57..370E. doi :10.1109/TSP.2008.2007090. S2CID 1930004.
^ Einicke, GA; Falco, G.; Malos, JT (mayo de 2010). "Estimación de la matriz de estados del algoritmo EM para navegación". IEEE Signal Processing Letters . 17 (5): 437–440. Bibcode :2010ISPL...17..437E. doi :10.1109/LSP.2010.2043151. S2CID 14114266.
^ Einicke, GA; Falco, G.; Dunn, MT; Reid, DC (mayo de 2012). "Estimación de varianza basada en suavizador iterativo". IEEE Signal Processing Letters . 19 (5): 275–278. Bibcode :2012ISPL...19..275E. doi :10.1109/LSP.2012.2190278. S2CID 17476971.
^ Einicke, GA (septiembre de 2015). "Filtrado iterativo y suavizado de mediciones con ruido de Poisson". IEEE Transactions on Aerospace and Electronic Systems . 51 (3): 2205–2011. Bibcode :2015ITAES..51.2205E. doi :10.1109/TAES.2015.140843. S2CID 32667132.
^ Jamshidian, Mortaza; Jennrich, Robert I. (1997). "Aceleración del algoritmo EM mediante el uso de métodos Quasi-Newton". Revista de la Royal Statistical Society, Serie B. 59 (2): 569–587. doi :10.1111/1467-9868.00083. SEÑOR 1452026. S2CID 121966443.
^ Liu, C (1998). "Expansión de parámetros para acelerar la EM: el algoritmo PX-EM". Biometrika . 85 (4): 755–770. CiteSeerX 10.1.1.134.9617 . doi :10.1093/biomet/85.4.755.
^ Meng, Xiao-Li; Rubin, Donald B. (1993). "Estimación de máxima verosimilitud mediante el algoritmo ECM: un marco general". Biometrika . 80 (2): 267–278. doi :10.1093/biomet/80.2.267. MR 1243503. S2CID 40571416.
^ Liu, Chuanhai; Rubin, Donald B (1994). "El algoritmo ECME: una extensión simple de EM y ECM con convergencia monótona más rápida". Biometrika . 81 (4): 633. doi :10.1093/biomet/81.4.633. JSTOR 2337067.
^ Jiangtao Yin; Yanfeng Zhang; Lixin Gao (2012). "Aceleración de algoritmos de expectativa-maximización con actualizaciones frecuentes" (PDF) . Actas de la Conferencia Internacional IEEE sobre Computación en Cluster .
^ Hunter DR y Lange K (2004), Un tutorial sobre algoritmos MM, The American Statistician, 58: 30–37
^ Matsuyama, Yasuo (2003). "El algoritmo α-EM: maximización de la verosimilitud sustitutiva utilizando medidas de información α-logarítmica". IEEE Transactions on Information Theory . 49 (3): 692–706. doi :10.1109/TIT.2002.808105.
^ Matsuyama, Yasuo (2011). "Estimación del modelo oculto de Markov basada en el algoritmo alfa-EM: alfa-HMM discretos y continuos". Conferencia conjunta internacional sobre redes neuronales : 808–816.
^ ab Wolynetz, MS (1979). "Estimación de máxima verosimilitud en un modelo lineal a partir de datos normales confinados y censurados". Journal of the Royal Statistical Society, Serie C . 28 (2): 195–206. doi :10.2307/2346749. JSTOR 2346749.
^ Pearson, Karl (1894). "Contribuciones a la teoría matemática de la evolución". Philosophical Transactions of the Royal Society of London A . 185 : 71–110. Bibcode :1894RSPTA.185...71P. doi : 10.1098/rsta.1894.0003 . ISSN 0264-3820. JSTOR 90667.
^ Shaban, Amirreza; Mehrdad, Farajtabar; Bo, Xie; Le, Song; Byron, Boots (2015). "Aprendizaje de modelos de variables latentes mediante la mejora de soluciones espectrales con el método de puntos exteriores" (PDF) . UAI : 792–801. Archivado desde el original (PDF) el 2016-12-24 . Consultado el 2019-06-12 .
^ Balle, Borja Quattoni, Ariadna Carreras, Xavier (27 de junio de 2012). Optimización de pérdidas locales en modelos de operadores: una nueva visión del aprendizaje espectral . OCLC 815865081.{{cite book}}: CS1 maint: multiple names: authors list (link)
^ Lange, Kenneth. "El algoritmo MM" (PDF) .

Lectura adicional

Hogg, Robert; McKean, Joseph; Craig, Allen (2005). Introducción a la estadística matemática . Upper Saddle River, NJ: Pearson Prentice Hall. págs. 359–364.
Dellaert, Frank (febrero de 2002). El algoritmo de maximización de expectativas (PDF) (número de informe técnico GIT-GVU-02-20). Facultad de Informática de Georgia Tech.da una explicación más sencilla del algoritmo EM en cuanto a la maximización del límite inferior.
Bishop, Christopher M. (2006). Reconocimiento de patrones y aprendizaje automático . Springer. ISBN 978-0-387-31073-2.
Gupta, MR; Chen, Y. (2010). "Teoría y uso del algoritmo EM". Fundamentos y tendencias en procesamiento de señales . 4 (3): 223–296. CiteSeerX 10.1.1.219.6830 . doi :10.1561/2000000034.Un libro breve y bien escrito sobre EM, que incluye una derivación detallada de EM para GMM, HMM y Dirichlet.
Bilmes, Jeff (1997). Un tutorial sencillo sobre el algoritmo EM y su aplicación a la estimación de parámetros para modelos de mezcla gaussiana y modelos ocultos de Markov (Informe técnico TR-97-021). Instituto Internacional de Ciencias de la Computación.Incluye una derivación simplificada de las ecuaciones EM para mezclas gaussianas y modelos ocultos de Markov de mezclas gaussianas.
McLachlan, Geoffrey J.; Krishnan, Thriyambakam (2008). El algoritmo EM y extensiones (2.ª ed.). Hoboken: Wiley. ISBN 978-0-471-20170-0.

Enlaces externos

Se ofrecen diversas demostraciones en 1D, 2D y 3D de EM junto con el modelado de mezclas como parte de las actividades y aplicaciones SOCR emparejadas . Estas aplicaciones y actividades muestran empíricamente las propiedades del algoritmo EM para la estimación de parámetros en diversos entornos.
Jerarquía de clases en C++ (GPL) incluidas las mezclas gaussianas
El libro de texto en línea: Teoría de la información, inferencia y algoritmos de aprendizaje, de David JC MacKay, incluye ejemplos simples del algoritmo EM, como la agrupación mediante el algoritmo k -medias suave, y enfatiza la visión variacional del algoritmo EM, como se describe en el Capítulo 33.7 de la versión 7.2 (cuarta edición).
Algoritmos variacionales para inferencia bayesiana aproximada, por MJ Beal, incluye comparaciones de EM con EM bayesiano variacional y derivaciones de varios modelos, incluidos HMM bayesianos variacionales (capítulos).
El algoritmo de maximización de expectativas: un breve tutorial, una derivación autónoma del algoritmo EM por Sean Borman.
El algoritmo EM, de Xiaojin Zhu.
Algoritmo EM y variantes: un tutorial informal de Alexis Roche. Una descripción concisa y muy clara del EM y muchas variantes interesantes.