Algoritmo de expectativa-maximización

En estadística , un algoritmo de maximización de expectativas ( EM ) es un método iterativo para encontrar estimaciones de máxima verosimilitud (local) o máxima a posteriori (MAP) de parámetros en modelos estadísticos , donde el modelo depende de variables latentes no observadas . ^[1] La iteración EM alterna entre realizar un paso de expectativa (E), que crea una función para la expectativa de la probabilidad logarítmica evaluada utilizando la estimación actual de los parámetros, y un paso de maximización (M), que calcula los parámetros que maximizan la probabilidad logarítmica esperada encontrada en el paso E. Estas estimaciones de parámetros se utilizan luego para determinar la distribución de las variables latentes en el siguiente paso E. Puede usarse, por ejemplo, para estimar una mezcla de gaussianas o para resolver el problema de regresión lineal múltiple. ^[2]

Agrupación EM de datos de la erupción del Old Faithful . El modelo aleatorio inicial (que, debido a las diferentes escalas de los ejes, parecen dos elipses muy planas y anchas) se ajusta a los datos observados. En las primeras iteraciones, el modelo cambia sustancialmente, pero luego converge a los dos modos del géiser . Visualizado usando ELKI .

Historia

El algoritmo EM fue explicado y recibió su nombre en un artículo clásico de 1977 escrito por Arthur Dempster , Nan Laird y Donald Rubin . ^[3] Señalaron que el método había sido "propuesto muchas veces en circunstancias especiales" por autores anteriores. Uno de los primeros es el método de recuento de genes para estimar las frecuencias alélicas de Cedric Smith . ^[4]HO Hartley propuso otro en 1958, y Hartley y Hocking en 1977, del que se originaron muchas de las ideas del artículo de Dempster-Laird-Rubin. ^[5] Otro de SK Ng, Thriyambakam Krishnan y GJ McLachlan en 1977. ^[6] Las ideas de Hartley pueden ampliarse a cualquier distribución discreta agrupada. Rolf Sundberg publicó un tratamiento muy detallado del método EM para familias exponenciales en su tesis y en varios artículos, ^[7]^[8]^[9] tras su colaboración con Per Martin-Löf y Anders Martin-Löf . ^[10]^[11]^[12]^[13]^[14] El artículo de Dempster-Laird-Rubin de 1977 generalizó el método y esbozó un análisis de convergencia para una clase más amplia de problemas. El artículo de Dempster-Laird-Rubin estableció el método EM como una importante herramienta de análisis estadístico. Véase también Meng y van Dyk (1997).

El análisis de convergencia del algoritmo Dempster-Laird-Rubin fue defectuoso y CF Jeff Wu publicó un análisis de convergencia correcto en 1983. ^[15] La prueba de Wu estableció la convergencia del método EM también fuera de la familia exponencial , como afirma Dempster-Laird. -Frotar. ^[15]

Introducción

El algoritmo EM se utiliza para encontrar parámetros de máxima verosimilitud (locales) de un modelo estadístico en los casos en que las ecuaciones no se pueden resolver directamente. Normalmente, estos modelos involucran variables latentes además de parámetros desconocidos y observaciones de datos conocidos. Es decir, existen valores faltantes entre los datos o el modelo puede formularse de manera más simple suponiendo la existencia de más puntos de datos no observados. Por ejemplo, un modelo de mezcla se puede describir de manera más simple suponiendo que cada punto de datos observado tiene un punto de datos no observado correspondiente, o variable latente, que especifica el componente de la mezcla al que pertenece cada punto de datos.

Encontrar una solución de máxima verosimilitud normalmente requiere tomar las derivadas de la función de verosimilitud con respecto a todos los valores desconocidos, los parámetros y las variables latentes, y resolver simultáneamente las ecuaciones resultantes. En modelos estadísticos con variables latentes, esto suele ser imposible. En cambio, el resultado suele ser un conjunto de ecuaciones entrelazadas en las que la solución de los parámetros requiere los valores de las variables latentes y viceversa, pero al sustituir un conjunto de ecuaciones por otro se produce una ecuación sin solución.

El algoritmo EM parte de la observación de que existe una manera de resolver numéricamente estos dos conjuntos de ecuaciones. Uno puede simplemente elegir valores arbitrarios para uno de los dos conjuntos de incógnitas, usarlos para estimar el segundo conjunto, luego usar estos nuevos valores para encontrar una mejor estimación del primer conjunto y luego seguir alternando entre los dos hasta que los valores resultantes sean ambos. convergen a puntos fijos. No es obvio que esto funcione, pero se puede demostrar en este contexto. Además, se puede demostrar que la derivada de la probabilidad es (arbitrariamente cercana a) cero en ese punto, lo que a su vez significa que el punto es un máximo local o un punto de silla . ^[15] En general, pueden ocurrir múltiples máximos, sin garantía de que se encuentre el máximo global. Algunas probabilidades también tienen singularidades , es decir, máximos sin sentido. Por ejemplo, una de las soluciones que puede encontrar EM en un modelo mixto implica establecer que uno de los componentes tenga varianza cero y que el parámetro medio para el mismo componente sea igual a uno de los puntos de datos.

Descripción

los simbolos

Dado el modelo estadístico que genera un conjunto de datos observados, un conjunto de datos latentes no observados o valores faltantes y un vector de parámetros desconocidos , junto con una función de verosimilitud , la estimación de máxima verosimilitud (MLE) de los parámetros desconocidos se determina maximizando la probabilidad marginal de los datos observados $\mathbf {X}$ $\mathbf {Z}$ ${\boldsymbol {\theta }}$ $L({\boldsymbol {\theta }};\mathbf {X} ,\mathbf {Z} )=p(\mathbf {X} ,\mathbf {Z} \mid {\boldsymbol {\theta }} )$

L({\boldsymbol {\theta }};\mathbf {X} )=p(\mathbf {X} \mid {\boldsymbol {\theta }})=\int p(\mathbf {X} , \mathbf {Z} \mid {\boldsymbol {\theta }})\,d\mathbf {Z} =\int p(\mathbf {X} \mid \mathbf {Z} ,{\boldsymbol {\theta }} )p(\mathbf {Z} \mid {\boldsymbol {\theta }})\,d\mathbf {Z}

Sin embargo, esta cantidad es a menudo intratable ya que no se observa y se desconoce su distribución antes de alcanzarla . $\mathbf {Z}$ $\mathbf {Z}$ ${\boldsymbol {\theta }}$

El algoritmo EM

El algoritmo EM busca encontrar la estimación de máxima verosimilitud de la verosimilitud marginal aplicando iterativamente estos dos pasos:

Paso de expectativa (paso E) : Definir como el valor esperado de la función de probabilidad logarítmica de , con respecto a la distribución condicional actual de los parámetros dados y actuales :

Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})

{\boldsymbol {\theta }}

\mathbf {Z}

\mathbf {X}

{\boldsymbol {\theta }}^{(t)}

Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})=\operatorname {E} _{\mathbf {Z} \sim p(\cdot | \mathbf {X} ,{\boldsymbol {\theta }}^{(t)})}\left[\log p(\mathbf {X} ,\mathbf {Z} |{\boldsymbol {\theta }}) \bien]\,

Paso de maximización (paso M) : encuentre los parámetros que maximizan esta cantidad:

{\boldsymbol {\theta }}^{(t+1)}={\underset {\boldsymbol {\theta }}{\operatorname {arg\,max} }}\ Q({\boldsymbol {\ theta }}\mid {\boldsymbol {\theta }}^{(t)})\,

De manera más sucinta, podemos escribirlo como una ecuación:

{\boldsymbol {\theta }}^{(t+1)}={\underset {\boldsymbol {\theta }}{\operatorname {arg\,max} }}\operatorname {E} _{\mathbf {Z} \sim p(\cdot |\mathbf {X} ,{\boldsymbol {\theta }}^{(t)})}\left[\log p(\mathbf {X} ,\mathbf {Z} |{\boldsymbol {\theta }})\right]\,

Interpretación de las variables.

Los modelos típicos a los que se aplica EM utilizan como variable latente que indica pertenencia a uno de un conjunto de grupos: $\mathbf {Z}$

Los puntos de datos observados pueden ser discretos (tomando valores en un conjunto finito o contablemente infinito) o continuos (tomando valores en un conjunto incontablemente infinito). Asociado a cada punto de datos puede haber un vector de observaciones. $\mathbf {X}$
Los valores faltantes (también conocidos como variables latentes ) son discretos , extraídos de un número fijo de valores y con una variable latente por unidad observada. $\mathbf {Z}$
Los parámetros son continuos y son de dos tipos: parámetros que están asociados con todos los puntos de datos y aquellos asociados con un valor específico de una variable latente (es decir, asociados con todos los puntos de datos cuya variable latente correspondiente tiene ese valor).

Sin embargo, es posible aplicar EM a otros tipos de modelos.

La motivación es la siguiente. Si se conoce el valor de los parámetros , generalmente el valor de las variables latentes se puede encontrar maximizando la probabilidad logarítmica sobre todos los valores posibles de , ya sea simplemente iterando sobre o a través de un algoritmo como el algoritmo de Viterbi para modelos ocultos de Markov . Por el contrario, si conocemos el valor de las variables latentes , podemos encontrar una estimación de los parámetros con bastante facilidad, generalmente simplemente agrupando los puntos de datos observados de acuerdo con el valor de la variable latente asociada y promediando los valores, o alguna función de la variable latente. valores, de los puntos de cada grupo. Esto sugiere un algoritmo iterativo, en el caso de que tanto y sean desconocidos: ${\boldsymbol {\theta }}$ $\mathbf {Z}$ $\mathbf {Z}$ $\mathbf {Z}$ $\mathbf {Z}$ ${\boldsymbol {\theta }}$ ${\boldsymbol {\theta }}$ $\mathbf {Z}$

Primero, inicialice los parámetros con algunos valores aleatorios. ${\boldsymbol {\theta }}$
Calcula la probabilidad de cada valor posible de , dado . $\mathbf {Z}$ ${\boldsymbol {\theta }}$
Luego, utilice los valores recién calculados de para calcular una mejor estimación de los parámetros . $\mathbf {Z}$ ${\boldsymbol {\theta }}$
Repita los pasos 2 y 3 hasta la convergencia.

El algoritmo que acabamos de describir se aproxima monótonamente a un mínimo local de la función de costos.

Propiedades

Aunque una iteración EM aumenta la función de probabilidad de los datos observados (es decir, marginal), no existe garantía de que la secuencia converja a un estimador de máxima verosimilitud . Para distribuciones multimodales , esto significa que un algoritmo EM puede converger a un máximo local de la función de probabilidad de los datos observados, dependiendo de los valores iniciales. Existe una variedad de enfoques heurísticos o metaheurísticos para escapar de un máximo local, como la escalada de colinas con reinicio aleatorio (comenzando con varias estimaciones iniciales aleatorias diferentes ) o la aplicación de métodos de recocido simulados . ${\boldsymbol {\theta }}^{(t)}$

EM es especialmente útil cuando la probabilidad es una familia exponencial ; consulte Sundberg (2019, capítulo 8) para un tratamiento integral: ^[16] el paso E se convierte en la suma de expectativas de estadísticas suficientes , y el paso M implica maximizar una función lineal. . En tal caso, generalmente es posible derivar actualizaciones de expresiones de forma cerrada para cada paso, utilizando la fórmula de Sundberg ^[17] (probada y publicada por Rolf Sundberg, basada en resultados no publicados de Per Martin-Löf y Anders Martin-Löf ). . ^[8]^[9]^[11]^[12]^[13]^[14]

El método EM fue modificado para calcular estimaciones máximas a posteriori (MAP) para la inferencia bayesiana en el artículo original de Dempster, Laird y Rubin.

Existen otros métodos para encontrar estimaciones de máxima verosimilitud, como el descenso de gradiente , el gradiente conjugado o variantes del algoritmo de Gauss-Newton . A diferencia de los EM, estos métodos normalmente requieren la evaluación de la primera y/o segunda derivada de la función de probabilidad.

Prueba de corrección

La maximización de expectativas trabaja para mejorar en lugar de mejorar directamente . Aquí se muestra que las mejoras en las primeras implican mejoras en las segundas. ^[18] $Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})$ $\log p(\mathbf {X} \mid {\boldsymbol {\theta }})$

Para cualquiera con probabilidad distinta de cero , podemos escribir $\mathbf {Z}$ $p(\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }})$

\log p(\mathbf {X} \mid {\boldsymbol {\theta }})=\log p(\mathbf {X} ,\mathbf {Z} \mid {\boldsymbol {\theta }})-\log p(\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }}).

Tomamos la expectativa sobre los posibles valores de los datos desconocidos bajo la estimación del parámetro actual multiplicando ambos lados por y sumando (o integrando) sobre . El lado izquierdo es la expectativa de una constante, por lo que obtenemos: $\mathbf {Z}$ $\theta ^{(t)}$ $p(\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }}^{(t)})$ $\mathbf {Z}$

{\begin{aligned}\log p(\mathbf {X} \mid {\boldsymbol {\theta }})&=\sum _{\mathbf {Z} }p(\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }}^{(t)})\log p(\mathbf {X} ,\mathbf {Z} \mid {\boldsymbol {\theta }})-\sum _{\mathbf {Z} }p(\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }}^{(t)})\log p(\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }})\\&=Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})+H({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)}),\end{aligned}}

donde está definido por la suma negada que está reemplazando. Esta última ecuación es válida para cada valor de incluir , $H({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})$ ${\boldsymbol {\theta }}$ ${\boldsymbol {\theta }}={\boldsymbol {\theta }}^{(t)}$

\log p(\mathbf {X} \mid {\boldsymbol {\theta }}^{(t)})=Q({\boldsymbol {\theta }}^{(t)}\mid {\boldsymbol {\theta }}^{(t)})+H({\boldsymbol {\theta }}^{(t)}\mid {\boldsymbol {\theta }}^{(t)}),

y restando esta última ecuación de la ecuación anterior da

\log p(\mathbf {X} \mid {\boldsymbol {\theta }})-\log p(\mathbf {X} \mid {\boldsymbol {\theta }}^{(t)})=Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})-Q({\boldsymbol {\theta }}^{(t)}\mid {\boldsymbol {\theta }}^{(t)})+H({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})-H({\boldsymbol {\theta }}^{(t)}\mid {\boldsymbol {\theta }}^{(t)}).

Sin embargo, la desigualdad de Gibbs nos dice que , por lo que podemos concluir que $H({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})\geq H({\boldsymbol {\theta }}^{(t)}\mid {\boldsymbol {\theta }}^{(t)})$

\log p(\mathbf {X} \mid {\boldsymbol {\theta }})-\log p(\mathbf {X} \mid {\boldsymbol {\theta }}^{(t)})\geq Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})-Q({\boldsymbol {\theta }}^{(t)}\mid {\boldsymbol {\theta }}^{(t)}).

En palabras, elegir mejorar hace que se mejore al menos en la misma medida. ${\boldsymbol {\theta }}$ $Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})$ $\log p(\mathbf {X} \mid {\boldsymbol {\theta }})$

Como procedimiento de maximización-maximización

El algoritmo EM puede verse como dos pasos de maximización alternos, es decir, como un ejemplo de descenso de coordenadas . ^[19]^[20] Considere la función:

F(q,\theta ):=\operatorname {E} _{q}[\log L(\theta ;x,Z)]+H(q),

donde q es una distribución de probabilidad arbitraria sobre los datos no observados z y H(q) es la entropía de la distribución q . Esta función se puede escribir como

F(q,\theta )=-D_{\mathrm {KL} }{\big (}q\parallel p_{Z\mid X}(\cdot \mid x;\theta ){\big )}+\log L(\theta ;x),

donde es la distribución condicional de los datos no observados dados los datos observados y es la divergencia de Kullback-Leibler . $p_{Z\mid X}(\cdot \mid x;\theta )$ $x$ $D_{KL}$

Entonces, los pasos del algoritmo EM pueden verse como:

Paso de expectativa : Elija maximizar :

q

F

q^{(t)}=\operatorname {arg\,max} _{q}\ F(q,\theta ^{(t)})

Paso de maximización : Elija maximizar :

\theta

F

\theta ^{(t+1)}=\operatorname {arg\,max} _{\theta }\ F(q^{(t)},\theta )

Aplicaciones

EM se utiliza con frecuencia para la estimación de parámetros de modelos mixtos , ^[21]^[22] especialmente en genética cuantitativa . ^[23]
En psicometría , EM es una herramienta importante para estimar los parámetros de los ítems y las habilidades latentes de los modelos de teoría de respuesta al ítem .
Con la capacidad de lidiar con datos faltantes y observar variables no identificadas, los mercados emergentes se están convirtiendo en una herramienta útil para fijar precios y gestionar el riesgo de una cartera. ^{[ cita necesaria ]}
El algoritmo EM (y su variante más rápida de maximización de expectativas de subconjunto ordenado ) también se usa ampliamente en la reconstrucción de imágenes médicas , especialmente en tomografía por emisión de positrones , tomografía computarizada por emisión de fotón único y tomografía computarizada por rayos X. Consulte a continuación otras variantes más rápidas de EM.
En ingeniería estructural , el algoritmo de identificación estructural mediante maximización de expectativas (STRIDE) ^[24] es un método de solo salida para identificar las propiedades de vibración natural de un sistema estructural utilizando datos de sensores (consulte Análisis modal operativo ).
EM también se utiliza para la agrupación de datos . En el procesamiento del lenguaje natural , dos ejemplos destacados del algoritmo son el algoritmo de Baum-Welch para modelos ocultos de Markov y el algoritmo de adentro hacia afuera para la inducción no supervisada de gramáticas probabilísticas libres de contexto .
En el análisis de los tiempos de espera entre operaciones , es decir, el tiempo entre operaciones posteriores de acciones en una bolsa de valores, el algoritmo EM ha demostrado ser muy útil. ^[25]

Filtrado y suavizado de algoritmos EM.

Normalmente se utiliza un filtro de Kalman para la estimación del estado en línea y se puede emplear un suavizador de varianza mínima para la estimación del estado fuera de línea o por lotes. Sin embargo, estas soluciones de varianza mínima requieren estimaciones de los parámetros del modelo de espacio de estados. Los algoritmos EM se pueden utilizar para resolver problemas de estimación de parámetros y estados conjuntos.

Los algoritmos EM de filtrado y suavizado surgen repitiendo este procedimiento de dos pasos:

Paso E: Opere un filtro de Kalman o un suavizador de varianza mínima diseñado con estimaciones de parámetros actuales para obtener estimaciones de estado actualizadas.

paso M: Utilice las estimaciones de estado filtradas o suavizadas dentro de los cálculos de máxima verosimilitud para obtener estimaciones de parámetros actualizadas.

Supongamos que un filtro de Kalman o un suavizador de varianza mínima funciona en mediciones de un sistema de una sola entrada y una sola salida que posee ruido blanco aditivo. Se puede obtener una estimación actualizada de la varianza del ruido de medición a partir del cálculo de máxima verosimilitud.

{\widehat {\sigma }}_{v}^{2}={\frac {1}{N}}\sum _{k=1}^{N}{(z_{k}-{\widehat {x}}_{k})}^{2},

donde se calculan las estimaciones de salida escalar mediante un filtro o un suavizador a partir de N mediciones escalares . La actualización anterior también se puede aplicar para actualizar la intensidad del ruido de una medición de Poisson. De manera similar, para un proceso autorregresivo de primer orden, se puede calcular una estimación actualizada de la varianza del ruido del proceso mediante ${\widehat {x}}_{k}$ $z_{k}$

{\widehat {\sigma }}_{w}^{2}={\frac {1}{N}}\sum _{k=1}^{N}{({\widehat {x}}_{k+1}-{\widehat {F}}{\widehat {x}}_{k})}^{2},

donde y son estimaciones de estado escalar calculadas mediante un filtro o un suavizador. La estimación del coeficiente del modelo actualizado se obtiene mediante ${\widehat {x}}_{k}$ ${\widehat {x}}_{k+1}$

{\widehat {F}}={\frac {\sum _{k=1}^{N}{({\widehat {x}}_{k+1}-{\widehat {F}}{\widehat {x}}_{k})}^{2}}{\sum _{k=1}^{N}{\widehat {x}}_{k}^{2}}}.

La convergencia de estimaciones de parámetros como las anteriores está bien estudiada. ^[26]^[27]^[28]^[29]

Variantes

Se han propuesto varios métodos para acelerar la convergencia a veces lenta del algoritmo EM, como los que utilizan gradiente conjugado y los métodos de Newton modificados (Newton-Raphson). ^[30] Además, EM se puede utilizar con métodos de estimación restringidos.

El algoritmo de maximización de expectativas expandidas por parámetros (PX-EM) a menudo proporciona aceleración al "usar un 'ajuste de covarianza' para corregir el análisis del paso M, aprovechando la información adicional capturada en los datos completos imputados". ^[31]

La maximización condicional de expectativas (ECM) reemplaza cada M paso con una secuencia de pasos de maximización condicional (CM) en los que cada parámetro θ _i se maximiza individualmente, condicionalmente a que los demás parámetros permanezcan fijos. ^[32] Se puede ampliar al algoritmo de maximización condicional de expectativas (ECME) . ^[33]

Esta idea se amplía aún más en el algoritmo de maximización de expectativas generalizadas (GEM) , en el que se busca solo un aumento en la función objetivo F tanto para el paso E como para el paso M, como se describe en la sección Como procedimiento de maximización-maximización. ^[19] GEM se desarrolla aún más en un entorno distribuido y muestra resultados prometedores. ^[34]

También es posible considerar el algoritmo EM como una subclase del algoritmo MM (Mayorizar/Minimizar o Menorizar/Maximizar, dependiendo del contexto) ^[35] y, por tanto, utilizar cualquier maquinaria desarrollada en el caso más general.

algoritmo α-EM

La función Q utilizada en el algoritmo EM se basa en la probabilidad logarítmica. Por lo tanto, se considera el algoritmo log-EM. El uso del registro de probabilidad se puede generalizar al de la razón de probabilidad logarítmica α. Entonces, la razón de probabilidad logarítmica α de los datos observados se puede expresar exactamente como igualdad utilizando la función Q de la razón de probabilidad logarítmica α y la divergencia α. La obtención de esta función Q es un paso E generalizado. Su maximización es un paso M generalizado. Este par se denomina algoritmo α-EM ^[36] que contiene el algoritmo log-EM como subclase. Por tanto, el algoritmo α-EM de Yasuo Matsuyama es una generalización exacta del algoritmo log-EM. No es necesario calcular el gradiente ni la matriz de Hesse. El α-EM muestra una convergencia más rápida que el algoritmo log-EM al elegir un α apropiado. El algoritmo α-EM conduce a una versión más rápida del algoritmo de estimación del modelo oculto de Markov α-HMM. ^[37]

Relación con los métodos variacionales de Bayes

EM es un método de máxima verosimilitud parcialmente no bayesiano. Su resultado final proporciona una distribución de probabilidad sobre las variables latentes (en el estilo bayesiano) junto con una estimación puntual de θ (ya sea una estimación de máxima verosimilitud o una moda posterior). Es posible que desee una versión completamente bayesiana de esto, que proporcione una distribución de probabilidad sobre θ y las variables latentes. El enfoque bayesiano de la inferencia consiste simplemente en tratar a θ como otra variable latente. En este paradigma, la distinción entre los pasos E y M desaparece. Si se utiliza la aproximación Q factorizada como se describe anteriormente ( Bayes variacional ), la resolución puede iterar sobre cada variable latente (ahora incluida θ ) y optimizarlas una a la vez. Ahora, se necesitan k pasos por iteración, donde k es el número de variables latentes. Para los modelos gráficos, esto es fácil de hacer ya que la nueva Q de cada variable depende solo de su manta de Markov , por lo que el paso de mensajes local se puede utilizar para una inferencia eficiente.

Interpretación geométrica

En geometría de la información , el paso E y el paso M se interpretan como proyecciones bajo conexiones afines duales , llamadas conexión e y conexión m; La divergencia Kullback-Leibler también puede entenderse en estos términos.

Ejemplos

mezcla gaussiana

Sea una muestra de observaciones independientes de una mezcla de dos distribuciones normales multivariadas de dimensión , y sean las variables latentes que determinan el componente del que se origina la observación. ^[20] $\mathbf {x} =(\mathbf {x} _{1},\mathbf {x} _{2},\ldots ,\mathbf {x} _{n})$ $n$ $d$ $\mathbf {z} =(z_{1},z_{2},\ldots ,z_{n})$

X_{i}\mid (Z_{i}=1)\sim {\mathcal {N}}_{d}({\boldsymbol {\mu }}_{1},\Sigma _{1})

X_{i}\mid (Z_{i}=2)\sim {\mathcal {N}}_{d}({\boldsymbol {\mu }}_{2},\Sigma _{2}),

dónde

\operatorname {P} (Z_{i}=1)=\tau _{1}\,

\operatorname {P} (Z_{i}=2)=\tau _{2}=1-\tau _{1}.

El objetivo es estimar los parámetros desconocidos que representan el valor de mezcla entre las gaussianas y las medias y covarianzas de cada una:

\theta ={\big (}{\boldsymbol {\tau }},{\boldsymbol {\mu }}_{1},{\boldsymbol {\mu }}_{2},\Sigma _{1},\Sigma _{2}{\big )},

donde la función de probabilidad de datos incompletos es

L(\theta ;\mathbf {x} )=\prod _{i=1}^{n}\sum _{j=1}^{2}\tau _{j}\ f(\mathbf {x} _{i};{\boldsymbol {\mu }}_{j},\Sigma _{j}),

y la función de probabilidad de datos completos es

L(\theta ;\mathbf {x} ,\mathbf {z} )=p(\mathbf {x} ,\mathbf {z} \mid \theta )=\prod _{i=1}^{n}\prod _{j=1}^{2}\ [f(\mathbf {x} _{i};{\boldsymbol {\mu }}_{j},\Sigma _{j})\tau _{j}]^{\mathbb {I} (z_{i}=j)},

L(\theta ;\mathbf {x} ,\mathbf {z} )=\exp \left\{\sum _{i=1}^{n}\sum _{j=1}^{2}\mathbb {I} (z_{i}=j){\big [}\log \tau _{j}-{\tfrac {1}{2}}\log |\Sigma _{j}|-{\tfrac {1}{2}}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})^{\top }\Sigma _{j}^{-1}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})-{\tfrac {d}{2}}\log(2\pi ){\big ]}\right\},

donde es una función indicadora y es la función de densidad de probabilidad de una normal multivariada. $\mathbb {I}$ $f$

En la última igualdad, para cada $i$ , un indicador es igual a cero y un indicador es igual a uno. La suma interna se reduce así a un término. $\mathbb {I} (z_{i}=j)$

mi paso

Dada nuestra estimación actual de los parámetros θ ^{( t )} , la distribución condicional de Z _i está determinada por el teorema de Bayes como la altura proporcional de la densidad normal ponderada por τ :

T_{j,i}^{(t)}:=\operatorname {P} (Z_{i}=j\mid X_{i}=\mathbf {x} _{i};\theta ^{(t)})={\frac {\tau _{j}^{(t)}\ f(\mathbf {x} _{i};{\boldsymbol {\mu }}_{j}^{(t)},\Sigma _{j}^{(t)})}{\tau _{1}^{(t)}\ f(\mathbf {x} _{i};{\boldsymbol {\mu }}_{1}^{(t)},\Sigma _{1}^{(t)})+\tau _{2}^{(t)}\ f(\mathbf {x} _{i};{\boldsymbol {\mu }}_{2}^{(t)},\Sigma _{2}^{(t)})}}.

Éstas se denominan "probabilidades de membresía", que normalmente se consideran el resultado del paso E (aunque esta no es la función Q que se detalla a continuación).

Este paso E corresponde con la configuración de esta función para Q:

{\begin{aligned}Q(\theta \mid \theta ^{(t)})&=\operatorname {E} _{\mathbf {Z} \mid \mathbf {X} =\mathbf {x} ;\mathbf {\theta } ^{(t)}}[\log L(\theta ;\mathbf {x} ,\mathbf {Z} )]\\&=\operatorname {E} _{\mathbf {Z} \mid \mathbf {X} =\mathbf {x} ;\mathbf {\theta } ^{(t)}}[\log \prod _{i=1}^{n}L(\theta ;\mathbf {x} _{i},Z_{i})]\\&=\operatorname {E} _{\mathbf {Z} \mid \mathbf {X} =\mathbf {x} ;\mathbf {\theta } ^{(t)}}[\sum _{i=1}^{n}\log L(\theta ;\mathbf {x} _{i},Z_{i})]\\&=\sum _{i=1}^{n}\operatorname {E} _{Z_{i}\mid X_{i}=x_{i};\mathbf {\theta } ^{(t)}}[\log L(\theta ;\mathbf {x} _{i},Z_{i})]\\&=\sum _{i=1}^{n}\sum _{j=1}^{2}P(Z_{i}=j\mid X_{i}=\mathbf {x} _{i};\theta ^{(t)})\log L(\theta _{j};\mathbf {x} _{i},j)\\&=\sum _{i=1}^{n}\sum _{j=1}^{2}T_{j,i}^{(t)}{\big [}\log \tau _{j}-{\tfrac {1}{2}}\log |\Sigma _{j}|-{\tfrac {1}{2}}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})^{\top }\Sigma _{j}^{-1}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})-{\tfrac {d}{2}}\log(2\pi ){\big ]}.\end{aligned}}

La expectativa del interior de la suma se toma con respecto a la función de densidad de probabilidad , que puede ser diferente para cada conjunto de entrenamiento. Todo en el paso E se conoce antes de dar el paso, excepto , que se calcula de acuerdo con la ecuación al comienzo de la sección del paso E. $\log L(\theta ;\mathbf {x} _{i},Z_{i})$ $P(Z_{i}\mid X_{i}=\mathbf {x} _{i};\theta ^{(t)})$ $\mathbf {x} _{i}$ $T_{j,i}$

No es necesario calcular esta expectativa condicional completa en un solo paso, porque τ y μ / Σ aparecen en términos lineales separados y, por lo tanto, pueden maximizarse de forma independiente.

paso m

$Q(\theta \mid \theta ^{(t)})$ ser de forma cuadrática significa que determinar los valores maximizadores de es relativamente sencillo. Además, y pueden maximizarse independientemente ya que todos aparecen en términos lineales separados. $\theta$ $\tau$ $({\boldsymbol {\mu }}_{1},\Sigma _{1})$ $({\boldsymbol {\mu }}_{2},\Sigma _{2})$

Para empezar, considere , que tiene la restricción : $\tau$ $\tau _{1}+\tau _{2}=1$

{\begin{aligned}{\boldsymbol {\tau }}^{(t+1)}&={\underset {\boldsymbol {\tau }}{\operatorname {arg\,max} }}\ Q(\theta \mid \theta ^{(t)})\\&={\underset {\boldsymbol {\tau }}{\operatorname {arg\,max} }}\ \left\{\left[\sum _{i=1}^{n}T_{1,i}^{(t)}\right]\log \tau _{1}+\left[\sum _{i=1}^{n}T_{2,i}^{(t)}\right]\log \tau _{2}\right\}.\end{aligned}}

Esto tiene la misma forma que la estimación de máxima verosimilitud para la distribución binomial , por lo que

\tau _{j}^{(t+1)}={\frac {\sum _{i=1}^{n}T_{j,i}^{(t)}}{\sum _{i=1}^{n}(T_{1,i}^{(t)}+T_{2,i}^{(t)})}}={\frac {1}{n}}\sum _{i=1}^{n}T_{j,i}^{(t)}.

Para las próximas estimaciones de : $({\boldsymbol {\mu }}_{1},\Sigma _{1})$

{\begin{aligned}({\boldsymbol {\mu }}_{1}^{(t+1)},\Sigma _{1}^{(t+1)})&={\underset {{\boldsymbol {\mu }}_{1},\Sigma _{1}}{\operatorname {arg\,max} }}\ Q(\theta \mid \theta ^{(t)})\\&={\underset {{\boldsymbol {\mu }}_{1},\Sigma _{1}}{\operatorname {arg\,max} }}\ \sum _{i=1}^{n}T_{1,i}^{(t)}\left\{-{\tfrac {1}{2}}\log |\Sigma _{1}|-{\tfrac {1}{2}}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{1})^{\top }\Sigma _{1}^{-1}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{1})\right\}\end{aligned}}.

Esto tiene la misma forma que una estimación de máxima verosimilitud ponderada para una distribución normal, por lo que

{\boldsymbol {\mu }}_{1}^{(t+1)}={\frac {\sum _{i=1}^{n}T_{1,i}^{(t)}\mathbf {x} _{i}}{\sum _{i=1}^{n}T_{1,i}^{(t)}}}

\Sigma _{1}^{(t+1)}={\frac {\sum _{i=1}^{n}T_{1,i}^{(t)}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{1}^{(t+1)})(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{1}^{(t+1)})^{\top }}{\sum _{i=1}^{n}T_{1,i}^{(t)}}}

y, por simetría,

{\boldsymbol {\mu }}_{2}^{(t+1)}={\frac {\sum _{i=1}^{n}T_{2,i}^{(t)}\mathbf {x} _{i}}{\sum _{i=1}^{n}T_{2,i}^{(t)}}}

\Sigma _{2}^{(t+1)}={\frac {\sum _{i=1}^{n}T_{2,i}^{(t)}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{2}^{(t+1)})(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{2}^{(t+1)})^{\top }}{\sum _{i=1}^{n}T_{2,i}^{(t)}}}.

Terminación

Concluya el proceso iterativo si está por debajo de algún umbral preestablecido. $E_{Z\mid \theta ^{(t)},\mathbf {x} }[\log L(\theta ^{(t)};\mathbf {x} ,\mathbf {Z} )]\leq E_{Z\mid \theta ^{(t-1)},\mathbf {x} }[\log L(\theta ^{(t-1)};\mathbf {x} ,\mathbf {Z} )]+\varepsilon$ $\varepsilon$

Generalización

El algoritmo ilustrado anteriormente se puede generalizar para mezclas de más de dos distribuciones normales multivariadas .

Regresión truncada y censurada

El algoritmo EM se ha implementado en el caso en el que existe un modelo de regresión lineal subyacente que explica la variación de alguna cantidad, pero donde los valores realmente observados son versiones censuradas o truncadas de los representados en el modelo. ^[38] Los casos especiales de este modelo incluyen observaciones censuradas o truncadas de una distribución normal . ^[38]

Alternativas

Los mercados emergentes típicamente convergen a un óptimo local, no necesariamente al óptimo global, sin límite alguno para la tasa de convergencia en general. Es posible que pueda ser arbitrariamente pobre en dimensiones altas y que pueda haber un número exponencial de óptimos locales. Por lo tanto, existe la necesidad de métodos alternativos para garantizar el aprendizaje, especialmente en entornos de alta dimensión. Existen alternativas a los EM con mejores garantías de coherencia, que se denominan enfoques basados en momentos ^[39] o las llamadas técnicas espectrales ^[40]^[41]^{[ cita necesaria ]} . Los enfoques basados en momentos para aprender los parámetros de un modelo probabilístico son de creciente interés recientemente ^{[ ¿cuándo? ]} ya que disfrutan de garantías como la convergencia global bajo ciertas condiciones, a diferencia de los mercados emergentes, que a menudo se ven afectados por el problema de quedarse estancados en óptimos locales. Se pueden derivar algoritmos con garantías de aprendizaje para una serie de modelos importantes, como modelos mixtos, HMM, etc. Para estos métodos espectrales, no se producen óptimos locales espurios y los parámetros verdaderos se pueden estimar consistentemente bajo algunas condiciones de regularidad ^{[ cita necesaria ]} .

Ver también

distribución de la mezcla
distribución compuesta
estimación de densidad
Análisis de componentes principales
espectroscopia de absorción total
El algoritmo EM puede verse como un caso especial del algoritmo de mayorización-minimización (MM) . ^[42]

Referencias

^ Meng, X.-L.; van Dyk, D. (1997). "El algoritmo EM: una antigua canción popular cantada con una melodía nueva y rápida". J. Estatista real. Soc. B . 59 (3): 511–567. doi : 10.1111/1467-9868.00082 . S2CID 17461647.
^ Jeongyeol Kwon, Actas de Constantine Caramanis de la vigésima tercera conferencia internacional sobre inteligencia artificial y estadística , PMLR 108:1727-1736, 2020.
^ Dempster, AP ; Laird, Nuevo México ; Rubin, DB (1977). "Máxima probabilidad de obtener datos incompletos mediante el algoritmo EM". Revista de la Royal Statistical Society, Serie B. 39 (1): 1–38. JSTOR 2984875. SEÑOR 0501537.
^ Ceppelini, RM (1955). "La estimación de frecuencias genéticas en una población de apareamiento aleatorio". Ana. Tararear. Genet . 20 (2): 97-115. doi :10.1111/j.1469-1809.1955.tb01360.x. PMID 13268982. S2CID 38625779.
^ Hartley, Herman Otto (1958). "Estimación de máxima verosimilitud a partir de datos incompletos". Biometría . 14 (2): 174–194. doi :10.2307/2527783. JSTOR 2527783.
^ Ng, Shu Kay; Krishnan, Thriyambakam; McLachlan, Geoffrey J. (21 de diciembre de 2011), "The EM Algorithm", Manual de estadística computacional , Berlín, Heidelberg: Springer Berlin Heidelberg, págs. 139-172, doi :10.1007/978-3-642-21551- 3_6, ISBN 978-3-642-21550-6, S2CID 59942212 , consultado el 15 de octubre de 2022
^ Sundberg, Rolf (1974). "Teoría de la máxima verosimilitud para datos incompletos de una familia exponencial". Revista escandinava de estadística . 1 (2): 49–58. JSTOR 4615553. SEÑOR 0381110.
^ ab Rolf Sundberg. 1971. Teoría de máxima verosimilitud y aplicaciones para distribuciones generadas al observar una función de una variable familiar exponencial . Disertación, Instituto de Estadística Matemática, Universidad de Estocolmo.
^ ab Sundberg, Rolf (1976). "Un método iterativo para la solución de ecuaciones de probabilidad para datos incompletos de familias exponenciales". Comunicaciones en Estadística - Simulación y Computación . 5 (1): 55–64. doi :10.1080/03610917608812007. SEÑOR 0443190.
^ Consulte el reconocimiento de Dempster, Laird y Rubin en las páginas 3, 5 y 11.
^ ab Per Martin-Löf . 1966. La estadística desde el punto de vista de la mecánica estadística . Apuntes de conferencias, Instituto de Matemáticas, Universidad de Aarhus. ("Fórmula de Sundberg", acreditada a Anders Martin-Löf).
^ ab Per Martin-Löf . 1970. Statistiska Modeller (Modelos estadísticos): Anteckningar från seminarier läsåret 1969–1970 (Apuntes de conferencias 1969-1970), con la ayuda de Rolf Sundberg. Universidad de Estocolmo.
^ ab Martin-Löf, P. La noción de redundancia y su uso como medida cuantitativa de la desviación entre una hipótesis estadística y un conjunto de datos observacionales. Con una discusión de F. Abildgård, AP Dempster , D. Basu , DR Cox , AWF Edwards , DA Sprott, GA Barnard , O. Barndorff-Nielsen, JD Kalbfleisch y G. Rasch y una respuesta del autor. Actas de la conferencia sobre cuestiones fundamentales de la inferencia estadística (Aarhus, 1973), págs. Memorias, No. 1, Departamento Theoret. Estatista., Inst. Matemáticas, Univ. Århus, Århus, 1974.
^ ab Martin-Löf, Per (1974). "La noción de redundancia y su uso como medida cuantitativa de la discrepancia entre una hipótesis estadística y un conjunto de datos observacionales". Escanear. J. Estatista . 1 (1): 3–18.
^ abc Wu, CF Jeff (marzo de 1983). "Sobre las propiedades de convergencia del algoritmo EM". Anales de Estadística . 11 (1): 95-103. doi : 10.1214/aos/1176346060 . JSTOR 2240463. SEÑOR 0684867.
^ Sundberg, Rolf (2019). Modelado estadístico por familias exponenciales . Prensa de la Universidad de Cambridge. ISBN 9781108701112.
^ Laird, Nan (2006). "Fórmulas de Sundberg". Enciclopedia de Ciencias Estadísticas . Wiley. doi : 10.1002/0471667196.ess2643.pub2. ISBN 0471667196.
^ Pequeño, Roderick JA; Rubin, Donald B. (1987). Análisis estadístico con datos perdidos . Serie Wiley en probabilidad y estadística matemática. Nueva York: John Wiley & Sons. págs. 134-136. ISBN 978-0-471-80254-9.
^ ab Neal, Radford; Hinton, Geoffrey (1999). "Una visión del algoritmo EM que justifica variantes incrementales, dispersas y de otro tipo". En Michael I. Jordan (ed.). Aprendizaje en modelos gráficos (PDF) . Cambridge, MA: MIT Press. págs. 355–368. ISBN 978-0-262-60032-3. Consultado el 22 de marzo de 2009 .
^ ab Hastie, Trevor ; Tibshirani, Robert ; Friedman, Jerome (2001). "8.5 El algoritmo EM". Los elementos del aprendizaje estadístico . Nueva York: Springer. págs. 236-243. ISBN 978-0-387-95284-0.
^ Lindstrom, María J; Bates, Douglas M. (1988). "Algoritmos de Newton: Raphson y EM para modelos lineales de efectos mixtos para datos de medidas repetidas". Revista de la Asociación Estadounidense de Estadística . 83 (404): 1014. doi : 10.1080/01621459.1988.10478693.
^ Van Dyk, David A (2000). "Ajuste de modelos de efectos mixtos utilizando algoritmos eficientes de tipo EM". Revista de Estadística Computacional y Gráfica . 9 (1): 78–98. doi :10.2307/1390614. JSTOR 1390614.
^ Diffey, SM; Smith, AB; Galés, A.H; Cullis, BR (2017). "Un nuevo algoritmo EM REML (parámetro expandido) para modelos lineales mixtos". Revista de estadística de Australia y Nueva Zelanda . 59 (4): 433. doi : 10.1111/anzs.12208 . hdl : 1885/211365 .
^ Matarazzo, TJ y Pakzad, SN (2016). "STRIDE para la identificación estructural mediante la maximización de expectativas: método iterativo de solo resultados para la identificación modal". Revista de Mecánica de Ingeniería.http://ascelibrary.org/doi/abs/10.1061/(ASCE)EM.1943-7889.0000951
^ Kreer, Markus; Kizilersu, Ayse; Thomas, Anthony W. (2022). "Algoritmo de maximización de expectativas censuradas para mezclas: aplicación a tiempos de espera intercomerciales". Physica A: Mecánica estadística y sus aplicaciones . 587 (1): 126456. Código bibliográfico : 2022PhyA..58726456K. doi :10.1016/j.physa.2021.126456. ISSN 0378-4371. S2CID 244198364.
^ Einicke, GA; Malos, JT; Reid, CC; Hainsworth, DW (enero de 2009). "Convergencia de la ecuación de Riccati y el algoritmo EM para la alineación de la navegación inercial". Traducción IEEE. Proceso de señal . 57 (1): 370–375. Código Bib : 2009ITSP...57..370E. doi :10.1109/TSP.2008.2007090. S2CID 1930004.
^ Einicke, GA; Falcó, G.; Malos, JT (mayo de 2010). "Estimación de la matriz de estado del algoritmo EM para navegación". Cartas de procesamiento de señales IEEE . 17 (5): 437–440. Código Bib : 2010ISPL...17..437E. doi :10.1109/LSP.2010.2043151. S2CID 14114266.
^ Einicke, GA; Falcó, G.; Dunn, MT; Reid, DC (mayo de 2012). "Estimación de la varianza iterativa basada en una base más suave". Cartas de procesamiento de señales IEEE . 19 (5): 275–278. Código Bib : 2012ISPL...19..275E. doi :10.1109/LSP.2012.2190278. S2CID 17476971.
^ Einicke, GA (septiembre de 2015). "Filtrado iterativo y suavizado de medidas que poseen ruido de Poisson". Transacciones IEEE sobre sistemas aeroespaciales y electrónicos . 51 (3): 2205–2011. Código Bib :2015ITAES..51.2205E. doi :10.1109/TAES.2015.140843. S2CID 32667132.
^ Jamshidian, Mortaza; Jennrich, Robert I. (1997). "Aceleración del algoritmo EM mediante el uso de métodos Quasi-Newton". Revista de la Royal Statistical Society, Serie B. 59 (2): 569–587. doi :10.1111/1467-9868.00083. SEÑOR 1452026. S2CID 121966443.
^ Liu, C (1998). "Expansión de parámetros para acelerar EM: el algoritmo PX-EM". Biometrika . 85 (4): 755–770. CiteSeerX 10.1.1.134.9617 . doi :10.1093/biomet/85.4.755.
^ Meng, Xiao-Li; Rubin, Donald B. (1993). "Estimación de máxima verosimilitud mediante el algoritmo ECM: un marco general". Biometrika . 80 (2): 267–278. doi :10.1093/biomet/80.2.267. SEÑOR 1243503. S2CID 40571416.
^ Liu, Chuanhai; Rubin, Donald B (1994). "El algoritmo ECME: una extensión simple de EM y ECM con una convergencia monótona más rápida". Biometrika . 81 (4): 633. doi :10.1093/biomet/81.4.633. JSTOR 2337067.
^ Jiangtao Yin; Yanfeng Zhang; Lixin Gao (2012). "Acelerar los algoritmos de maximización de expectativas con actualizaciones frecuentes" (PDF) . Actas de la Conferencia Internacional IEEE sobre Computación en Clusters .
^ Hunter DR y Lange K (2004), Tutorial sobre algoritmos MM, The American Statistician, 58: 30–37
^ Matsuyama, Yasuo (2003). "El algoritmo α-EM: maximización de probabilidad sustituta utilizando medidas de información α-logarítmicas". Transacciones IEEE sobre teoría de la información . 49 (3): 692–706. doi :10.1109/TIT.2002.808105.
^ Matsuyama, Yasuo (2011). "Estimación del modelo oculto de Markov basado en el algoritmo alfa-EM: alfa-HMM discretos y continuos". Conferencia conjunta internacional sobre redes neuronales : 808–816.
^ ab Wolynetz, MS (1979). "Estimación de máxima verosimilitud en un modelo lineal a partir de datos normales confinados y censurados". Revista de la Royal Statistical Society, Serie C. 28 (2): 195–206. doi :10.2307/2346749. JSTOR 2346749.
^ Pearson, Karl (1894). "Contribuciones a la Teoría Matemática de la Evolución". Transacciones filosóficas de la Royal Society de Londres A. 185 : 71-110. Código bibliográfico : 1894RSPTA.185...71P. doi : 10.1098/rsta.1894.0003 . ISSN 0264-3820. JSTOR 90667.
^ Shaban, Amirreza; Mehrdad, Farajtabar; Bo, Xie; Le, canción; Byron, Botas (2015). "Aprendizaje de modelos de variables latentes mejorando las soluciones espectrales con el método del punto exterior" (PDF) . AUI : 792–801. Archivado desde el original (PDF) el 24 de diciembre de 2016 . Consultado el 12 de junio de 2019 .
^ Balle, Borja Quattoni, Ariadna Carreras, Xavier (27 de junio de 2012). Optimización de pérdidas locales en modelos de operadores: una nueva visión del aprendizaje espectral . OCLC 815865081.{{cite book}}: CS1 maint: multiple names: authors list (link)
^ Lange, Kenneth. "El algoritmo MM" (PDF) .

Otras lecturas

Hogg, Robert; McKean, José; Craig, Allen (2005). Introducción a la Estadística Matemática . Upper Saddle River, Nueva Jersey: Pearson Prentice Hall. págs. 359–364.
Dellaert, Frank (febrero de 2002). El algoritmo de maximización de expectativas (PDF) (Informe técnico número GIT-GVU-02-20). Facultad de Computación Tecnológica de Georgia.ofrece una explicación más sencilla del algoritmo EM en cuanto a la maximización del límite inferior.
Obispo, Christopher M. (2006). Reconocimiento de patrones y aprendizaje automático . Saltador. ISBN 978-0-387-31073-2.
Gupta, señor; Chen, Y. (2010). "Teoría y uso del algoritmo EM". Fundamentos y Tendencias en Procesamiento de Señales . 4 (3): 223–296. CiteSeerX 10.1.1.219.6830 . doi :10.1561/2000000034.Un libro breve bien escrito sobre EM, que incluye una derivación detallada de EM para GMM, HMM y Dirichlet.
Bilmes, Jeff (1997). Un sencillo tutorial del algoritmo EM y su aplicación a la estimación de parámetros para mezclas gaussianas y modelos ocultos de Markov (Informe técnico TR-97-021). Instituto Internacional de Ciencias de la Computación.incluye una derivación simplificada de las ecuaciones EM para mezclas gaussianas y modelos ocultos de Markov de mezclas gaussianas.
McLachlan, Geoffrey J.; Krishnan, Thriyambakam (2008). El algoritmo y las extensiones de EM (2ª ed.). Hoboken: Wiley. ISBN 978-0-471-20170-0.

enlaces externos

Se proporcionan varias demostraciones 1D, 2D y 3D de EM junto con el modelado de mezclas como parte de las actividades y subprogramas SOCR emparejados. Estos subprogramas y actividades muestran empíricamente las propiedades del algoritmo EM para la estimación de parámetros en diversos entornos.
Jerarquía de clases en C++ (GPL), incluidas mezclas gaussianas
El libro de texto en línea: Teoría de la información, inferencia y algoritmos de aprendizaje, de David JC MacKay, incluye ejemplos simples del algoritmo EM, como la agrupación utilizando el algoritmo k -means suave, y enfatiza la visión variacional del algoritmo EM, como se describe en Capítulo 33.7 de la versión 7.2 (cuarta edición).
Algoritmos variacionales para inferencia bayesiana aproximada, de MJ Beal, incluye comparaciones de EM con EM bayesiano variacional y derivaciones de varios modelos, incluidos los HMM bayesianos variacionales (capítulos).
El algoritmo de maximización de expectativas: un breve tutorial, una derivación autónoma del algoritmo EM de Sean Borman.
El algoritmo EM, de Xiaojin Zhu.
Algoritmo EM y variantes: un tutorial informal de Alexis Roche. Una descripción concisa y muy clara de EM y muchas variantes interesantes.