stringtranslate.com

Modelo oculto de Markov

Un modelo oculto de Markov ( HMM ) es un modelo de Markov en el que las observaciones dependen de un proceso de Markov latente (u oculto ) (denominado ). Un HMM requiere que haya un proceso observable cuyos resultados dependan de los resultados de de una manera conocida. Dado que no se puede observar directamente, el objetivo es aprender sobre el estado de observando . Por definición de ser un modelo de Markov, un HMM tiene un requisito adicional de que el resultado de en el momento debe estar "influenciado" exclusivamente por el resultado de en y que los resultados de y en deben ser condicionalmente independientes de at dado en el momento . La estimación de los parámetros en un HMM se puede realizar utilizando la estimación de máxima verosimilitud . Para los HMM de cadena lineal, se puede utilizar el algoritmo Baum-Welch para estimar los parámetros.

Los modelos ocultos de Markov son conocidos por sus aplicaciones en termodinámica , mecánica estadística , física , química , economía , finanzas , procesamiento de señales , teoría de la información , reconocimiento de patrones (como el habla , [1] escritura a mano , reconocimiento de gestos , [2] etiquetado de partes del discurso , seguimiento de partituras musicales, [3] descargas parciales [4] y bioinformática . [5] [6]

Definición

Sean y procesos estocásticos de tiempo discreto y . El par es un modelo oculto de Markov si

para cada , , y cada conjunto de Borel .

Sean y procesos estocásticos de tiempo continuo. El par es un modelo oculto de Markov si

para cada , cada conjunto de Borel y cada familia de conjuntos de Borel .

Terminología

Los estados del proceso (resp. se denominan estados ocultos , y (resp. se denomina probabilidad de emisión o probabilidad de salida ).

Ejemplos

Sacando bolas de urnas ocultas

Figura 1. Parámetros probabilísticos de un modelo oculto de Markov (ejemplo)
X — estados
y — posibles observaciones
a — probabilidades de transición de estado
b — probabilidades de salida

En su forma discreta, un proceso oculto de Markov puede visualizarse como una generalización del problema de la urna con reemplazo (donde cada elemento de la urna se devuelve a la urna original antes del siguiente paso). [7] Considere este ejemplo: en una habitación que no es visible para un observador hay un genio. La habitación contiene urnas X1, X2, X3, ... cada una de las cuales contiene una mezcla conocida de bolas, y cada bola tiene una etiqueta única y1, y2, y3, ... . El genio elige una urna en esa habitación y extrae aleatoriamente una bola de esa urna. Luego coloca la bola en una cinta transportadora, donde el observador puede observar la secuencia de las bolas, pero no la secuencia de urnas de las que fueron extraídas. El genio tiene algún procedimiento para elegir urnas; la elección de la urna para la n -ésima bola depende solo de un número aleatorio y de la elección de la urna para la ( n − 1)-ésima bola. La elección de la urna no depende directamente de las urnas elegidas antes de esta urna única anterior; por lo tanto, esto se llama un proceso de Markov . Puede describirse en la parte superior de la Figura 1.

El proceso de Markov no se puede observar, sólo la secuencia de bolas etiquetadas, por lo que esta disposición se llama proceso de Markov oculto . Esto se ilustra en la parte inferior del diagrama que se muestra en la Figura 1, donde se puede ver que las bolas y1, y2, y3, y4 se pueden extraer en cada estado. Incluso si el observador conoce la composición de las urnas y acaba de observar una secuencia de tres bolas, p. ej. y1, y2 e y3 en la cinta transportadora, el observador todavía no puede estar seguro de qué urna ( es decir , en qué estado) el genio ha extraído la tercera bola. Sin embargo, el observador puede calcular otra información, como la probabilidad de que la tercera bola provenga de cada una de las urnas.

Juego de adivinanzas sobre el clima

Consideremos a dos amigos, Alice y Bob, que viven lejos uno del otro y que hablan entre ellos a diario por teléfono sobre lo que hicieron ese día. A Bob sólo le interesan tres actividades: pasear por el parque, ir de compras y limpiar su apartamento. La elección de lo que va a hacer está determinada exclusivamente por el tiempo que hará ese día. Alice no tiene información precisa sobre el tiempo, pero conoce las tendencias generales. Basándose en lo que Bob le dice que hizo cada día, Alice intenta adivinar cómo habrá estado el tiempo.

Alice cree que el clima funciona como una cadena discreta de Markov . Hay dos estados, "lluvioso" y "soleado", pero ella no puede observarlos directamente, es decir, están ocultos para ella. Cada día, existe una cierta probabilidad de que Bob realice una de las siguientes actividades, dependiendo del clima: "caminar", "comprar" o "limpiar". Como Bob le cuenta a Alice sobre sus actividades, esas son las observaciones . El sistema completo es el de un modelo oculto de Markov (HMM).

Alice conoce las tendencias meteorológicas generales de la zona y lo que Bob suele hacer. En otras palabras, se conocen los parámetros del HMM. Se pueden representar de la siguiente manera en Python :

estados  =  ( "Lluvioso" ,  "Soleado" )observaciones  =  ( "caminar" ,  "comprar" ,  "limpiar" )probabilidad_inicial  =  { "Lluvioso" :  0,6 ,  "Soleado" :  0,4 }probabilidad_de_transición  =  {  "Lluvioso" :  { "Lluvioso" :  0,7 ,  "Soleado" :  0,3 },  "Soleado" :  { "Lluvioso" :  0,4 ,  "Soleado" :  0,6 }, }probabilidad_emisión  =  {  "Lluvioso" :  { "caminar" :  0,1 ,  "comprar" :  0,4 ,  "limpio" :  0,5 },  "Soleado" :  { "caminar" :  0,6 ,  "comprar" :  0,3 ,  "limpio" :  0,1 }, }

En este fragmento de código, start_probabilityrepresenta la creencia de Alice sobre en qué estado se encuentra el HMM cuando Bob la llama por primera vez (todo lo que sabe es que tiende a llover en promedio). La distribución de probabilidad particular utilizada aquí no es la de equilibrio, que es (dadas las probabilidades de transición) aproximadamente {'Rainy': 0.57, 'Sunny': 0.43}. La transition_probabilityrepresenta el cambio del clima en la cadena de Markov subyacente. En este ejemplo, solo hay un 30% de posibilidades de que mañana esté soleado si hoy llueve. La emission_probabilityrepresenta la probabilidad de que Bob realice una determinada actividad cada día. Si llueve, hay un 50% de posibilidades de que esté limpiando su apartamento; si está soleado, hay un 60% de posibilidades de que esté afuera dando un paseo.

Representación gráfica del HMM dado
Representación gráfica del HMM dado

Un ejemplo similar se explica con más detalle en la página del algoritmo de Viterbi .

Arquitectura estructural

El diagrama siguiente muestra la arquitectura general de un HMM instanciado. Cada forma ovalada representa una variable aleatoria que puede adoptar cualquiera de varios valores. La variable aleatoria x ( t ) es el estado oculto en el tiempo t (con el modelo del diagrama anterior, x ( t ) ∈ { x 1 , x 2 , x 3 }) . La variable aleatoria y ( t ) es la observación en el tiempo t (con y ( t ) ∈ { y 1 , y 2 , y 3 , y 4 }) . Las flechas en el diagrama (a menudo llamado diagrama de enrejado ) denotan dependencias condicionales.

Del diagrama se desprende claramente que la distribución de probabilidad condicional de la variable oculta x ( t ) en el instante t , dados los valores de la variable oculta x en todo instante, depende únicamente del valor de la variable oculta x ( t − 1) ; los valores en el instante t − 2 y anteriores no tienen influencia. Esto se denomina propiedad de Markov . De forma similar, el valor de la variable observada y ( t ) depende únicamente del valor de la variable oculta x ( t ) (ambos en el instante t ).

En el tipo estándar de modelo oculto de Markov considerado aquí, el espacio de estados de las variables ocultas es discreto, mientras que las observaciones en sí mismas pueden ser discretas (generalmente generadas a partir de una distribución categórica ) o continuas (generalmente a partir de una distribución gaussiana ). Los parámetros de un modelo oculto de Markov son de dos tipos, probabilidades de transición y probabilidades de emisión (también conocidas como probabilidades de salida ). Las probabilidades de transición controlan la forma en que se elige el estado oculto en el momento t dado el estado oculto en el momento .

Se supone que el espacio de estados ocultos consta de uno de los N valores posibles, modelados como una distribución categórica. (Véase la sección siguiente sobre extensiones para otras posibilidades). Esto significa que para cada uno de los N estados posibles en los que puede estar una variable oculta en el momento t , existe una probabilidad de transición desde este estado a cada uno de los N estados posibles de la variable oculta en el momento t , para un total de probabilidades de transición. El conjunto de probabilidades de transición para las transiciones desde cualquier estado dado debe sumar 1. Por tanto, la matriz de probabilidades de transición es una matriz de Markov . Dado que cualquier probabilidad de transición se puede determinar una vez que se conocen las demás, hay un total de parámetros de transición.

Además, para cada uno de los N estados posibles, existe un conjunto de probabilidades de emisión que gobiernan la distribución de la variable observada en un momento particular dado el estado de la variable oculta en ese momento. El tamaño de este conjunto depende de la naturaleza de la variable observada. Por ejemplo, si la variable observada es discreta con M valores posibles, regida por una distribución categórica , habrá parámetros separados, para un total de parámetros de emisión sobre todos los estados ocultos. Por otro lado, si la variable observada es un vector M -dimensional distribuido de acuerdo con una distribución gaussiana multivariante arbitraria , habrá M parámetros que controlen las medias y parámetros que controlen la matriz de covarianza , para un total de parámetros de emisión. (En tal caso, a menos que el valor de M sea pequeño, puede ser más práctico restringir la naturaleza de las covarianzas entre elementos individuales del vector de observación, por ejemplo, asumiendo que los elementos son independientes entre sí, o de manera menos restrictiva, son independientes de todos excepto un número fijo de elementos adyacentes).

Evolución temporal de un modelo oculto de Markov
Evolución temporal de un modelo oculto de Markov

Inferencia

Las probabilidades de transición de estado y de salida de un HMM se indican mediante la opacidad de la línea en la parte superior del diagrama. Dado que la secuencia de salida se observa en la parte inferior del diagrama, el interés se centra en la secuencia más probable de estados que podrían haberla producido. Con base en las flechas que están presentes en el diagrama, las siguientes secuencias de estados son candidatas:
5 3 2 5 3 2 4
3 2 5 3 2
3 1 2 5 3 2
La secuencia más probable se puede encontrar evaluando la probabilidad conjunta tanto de la secuencia de estados como de las observaciones para cada caso (simplemente multiplicando los valores de probabilidad, que aquí corresponden a las opacidades de las flechas involucradas). En general, este tipo de problema (es decir, encontrar la explicación más probable para una secuencia de observaciones) se puede resolver de manera eficiente utilizando el algoritmo de Viterbi .

Los modelos de Markov ocultos presentan varios problemas de inferencia asociados, como se describe a continuación.

Probabilidad de una secuencia observada

La tarea consiste en calcular de la mejor manera, dados los parámetros del modelo, la probabilidad de una secuencia de salida particular. Esto requiere la suma de todas las posibles secuencias de estados:

La probabilidad de observar una secuencia

,

de longitud L viene dada por

,

donde la suma recorre todas las posibles secuencias de nodos ocultos

.

Aplicando el principio de programación dinámica , este problema también puede manejarse eficientemente utilizando el algoritmo de avance .

Probabilidad de las variables latentes

Una serie de tareas relacionadas preguntan por la probabilidad de una o más de las variables latentes, dados los parámetros del modelo y una secuencia de observaciones .

Filtración

La tarea consiste en calcular, dados los parámetros del modelo y una secuencia de observaciones, la distribución sobre los estados ocultos de la última variable latente al final de la secuencia, es decir, calcular . Esta tarea se utiliza cuando se piensa en la secuencia de variables latentes como los estados subyacentes por los que se mueve un proceso en una secuencia de puntos en el tiempo, con observaciones correspondientes en cada punto. Entonces, es natural preguntarse por el estado del proceso al final.

Este problema se puede resolver de manera eficiente utilizando el algoritmo de avance . Un ejemplo es cuando el algoritmo se aplica a una red oculta de Markov para determinar .

Suavizado

Esto es similar al filtrado, pero pregunta por la distribución de una variable latente en algún lugar en el medio de una secuencia, es decir, para calcular algún . Desde la perspectiva descrita anteriormente, esto puede considerarse como la distribución de probabilidad sobre estados ocultos para un punto en el tiempo k en el pasado, en relación con el tiempo t .

El algoritmo adelante-atrás es un buen método para calcular los valores suavizados de todas las variables de estado ocultas.

Explicación más probable

La tarea, a diferencia de las dos anteriores, pregunta por la probabilidad conjunta de toda la secuencia de estados ocultos que generaron una secuencia particular de observaciones (ver la ilustración de la derecha). Esta tarea es generalmente aplicable cuando los HMM se aplican a diferentes tipos de problemas de aquellos para los que son aplicables las tareas de filtrado y suavizado. Un ejemplo es el etiquetado de partes del discurso , donde los estados ocultos representan las partes del discurso subyacentes correspondientes a una secuencia observada de palabras. En este caso, lo que interesa es toda la secuencia de partes del discurso, en lugar de simplemente la parte del discurso para una sola palabra, como se calcularía mediante el filtrado o el suavizado.

Esta tarea requiere encontrar un máximo sobre todas las secuencias de estados posibles y puede resolverse eficientemente mediante el algoritmo de Viterbi .

Significación estadística

Para algunos de los problemas anteriores, también puede ser interesante preguntar acerca de la significancia estadística . ¿Cuál es la probabilidad de que una secuencia extraída de alguna distribución nula tenga una probabilidad HMM (en el caso del algoritmo directo) o una probabilidad de secuencia de estado máximo (en el caso del algoritmo de Viterbi) al menos tan grande como la de una secuencia de salida particular? [8] Cuando se utiliza un HMM para evaluar la relevancia de una hipótesis para una secuencia de salida particular, la significancia estadística indica la tasa de falsos positivos asociada con el hecho de no rechazar la hipótesis para la secuencia de salida.

Aprendiendo

La tarea de aprendizaje de parámetros en los HMM es encontrar, dada una secuencia de salida o un conjunto de tales secuencias, el mejor conjunto de probabilidades de transición de estado y de emisión. La tarea consiste generalmente en derivar la estimación de máxima verosimilitud de los parámetros del HMM dado el conjunto de secuencias de salida. No se conoce ningún algoritmo manejable para resolver este problema de manera exacta, pero se puede derivar una máxima verosimilitud local de manera eficiente utilizando el algoritmo de Baum-Welch o el algoritmo de Baldi-Chauvin. El algoritmo de Baum-Welch es un caso especial del algoritmo de maximización de expectativas .

Si los HMM se utilizan para la predicción de series de tiempo, se ha demostrado que los métodos de inferencia bayesiana más sofisticados, como el muestreo de Monte Carlo de cadena de Markov (MCMC), son favorables a la búsqueda de un único modelo de máxima verosimilitud tanto en términos de precisión como de estabilidad. [9] Dado que el MCMC impone una carga computacional significativa, en los casos en que la escalabilidad computacional también es de interés, se puede recurrir alternativamente a aproximaciones variacionales a la inferencia bayesiana, por ejemplo [10] De hecho, la inferencia variacional aproximada ofrece una eficiencia computacional comparable a la maximización de expectativas, al tiempo que produce un perfil de precisión solo ligeramente inferior a la inferencia bayesiana exacta de tipo MCMC.

Aplicaciones

Un perfil HMM que modela una alineación de secuencias múltiples de proteínas en Pfam

Los HMM se pueden aplicar en muchos campos en los que el objetivo es recuperar una secuencia de datos que no es inmediatamente observable (pero sí otros datos que dependen de la secuencia). Las aplicaciones incluyen:

Historia

Los modelos ocultos de Markov fueron descritos en una serie de artículos estadísticos por Leonard E. Baum y otros autores en la segunda mitad de la década de 1960. [29] [30] [31] [32] [33] Una de las primeras aplicaciones de los HMM fue el reconocimiento de voz , a partir de mediados de la década de 1970. [34] [35] [36] [37] Desde el punto de vista lingüístico, los modelos ocultos de Markov son equivalentes a la gramática regular estocástica. [38]

En la segunda mitad de la década de 1980, los HMM comenzaron a aplicarse al análisis de secuencias biológicas, [39] en particular de ADN . Desde entonces, se han vuelto omnipresentes en el campo de la bioinformática . [40]

Extensiones

Espacios de estado general

En los modelos ocultos de Markov considerados anteriormente, el espacio de estado de las variables ocultas es discreto, mientras que las observaciones en sí mismas pueden ser discretas (generalmente generadas a partir de una distribución categórica ) o continuas (generalmente a partir de una distribución gaussiana ). Los modelos ocultos de Markov también se pueden generalizar para permitir espacios de estado continuos. Ejemplos de tales modelos son aquellos en los que el proceso de Markov sobre variables ocultas es un sistema dinámico lineal , con una relación lineal entre las variables relacionadas y donde todas las variables ocultas y observadas siguen una distribución gaussiana . En casos simples, como el sistema dinámico lineal que acabamos de mencionar, la inferencia exacta es manejable (en este caso, utilizando el filtro de Kalman ); sin embargo, en general, la inferencia exacta en HMM con variables latentes continuas es inviable y se deben utilizar métodos aproximados, como el filtro de Kalman extendido o el filtro de partículas .

En la actualidad, la inferencia en modelos ocultos de Markov se realiza en entornos no paramétricos , donde la estructura de dependencia permite la identificabilidad del modelo [41] y los límites de capacidad de aprendizaje aún están bajo exploración. [42]

Modelado bayesiano de las probabilidades de transición

Los modelos ocultos de Markov son modelos generativos , en los que se modela la distribución conjunta de observaciones y estados ocultos, o equivalentemente tanto la distribución previa de estados ocultos (las probabilidades de transición ) como la distribución condicional de observaciones dados los estados (las probabilidades de emisión ). Los algoritmos anteriores suponen implícitamente una distribución previa uniforme sobre las probabilidades de transición. Sin embargo, también es posible crear modelos ocultos de Markov con otros tipos de distribuciones previas. Un candidato obvio, dada la distribución categórica de las probabilidades de transición, es la distribución de Dirichlet , que es la distribución previa conjugada de la distribución categórica. Normalmente, se elige una distribución de Dirichlet simétrica, lo que refleja la ignorancia sobre qué estados son inherentemente más probables que otros. El parámetro único de esta distribución (denominado parámetro de concentración ) controla la densidad relativa o la escasez de la matriz de transición resultante. Una elección de 1 produce una distribución uniforme. Los valores mayores que 1 producen una matriz densa, en la que las probabilidades de transición entre pares de estados probablemente sean casi iguales. Los valores menores que 1 dan como resultado una matriz dispersa en la que, para cada estado de origen dado, solo una pequeña cantidad de estados de destino tienen probabilidades de transición no despreciables. También es posible utilizar una distribución Dirichlet previa de dos niveles, en la que una distribución Dirichlet (la distribución superior) gobierna los parámetros de otra distribución Dirichlet (la distribución inferior), que a su vez gobierna las probabilidades de transición. La distribución superior gobierna la distribución general de estados, determinando la probabilidad de que ocurra cada estado; su parámetro de concentración determina la densidad o escasez de estados. Una distribución previa de dos niveles de este tipo, donde ambos parámetros de concentración se establecen para producir distribuciones dispersas, podría ser útil, por ejemplo, en el etiquetado de partes del discurso no supervisado , donde algunas partes del discurso ocurren mucho más comúnmente que otras; los algoritmos de aprendizaje que suponen una distribución previa uniforme generalmente tienen un desempeño deficiente en esta tarea. Los parámetros de modelos de este tipo, con distribuciones previas no uniformes, se pueden aprender utilizando el muestreo de Gibbs o versiones extendidas del algoritmo de maximización de expectativas .

Una extensión de los modelos ocultos de Markov descritos anteriormente con priores de Dirichlet utiliza un proceso de Dirichlet en lugar de una distribución de Dirichlet. Este tipo de modelo permite un número desconocido y potencialmente infinito de estados. Es común utilizar un proceso de Dirichlet de dos niveles, similar al modelo descrito anteriormente con dos niveles de distribuciones de Dirichlet. Este modelo se denomina modelo oculto de Markov con proceso de Dirichlet jerárquico o HDP-HMM para abreviar. Originalmente se describió con el nombre de "modelo oculto infinito de Markov" [43] y se formalizó aún más en "procesos jerárquicos de Dirichlet". [44]

Enfoque discriminatorio

Un tipo diferente de extensión utiliza un modelo discriminativo en lugar del modelo generativo de los HMM estándar. Este tipo de modelo modela directamente la distribución condicional de los estados ocultos dadas las observaciones, en lugar de modelar la distribución conjunta. Un ejemplo de este modelo es el llamado modelo de Markov de máxima entropía (MEMM), que modela la distribución condicional de los estados utilizando regresión logística (también conocido como " modelo de máxima entropía "). La ventaja de este tipo de modelo es que se pueden modelar características arbitrarias (es decir, funciones) de las observaciones, lo que permite que se inyecte en el modelo conocimiento específico del dominio del problema en cuestión. Los modelos de este tipo no se limitan a modelar dependencias directas entre un estado oculto y su observación asociada; más bien, se pueden incluir características de observaciones cercanas, de combinaciones de la observación asociada y observaciones cercanas o, de hecho, de observaciones arbitrarias a cualquier distancia de un estado oculto dado en el proceso utilizado para determinar el valor de un estado oculto. Además, no es necesario que estas características sean estadísticamente independientes entre sí, como sería el caso si se utilizaran en un modelo generativo. Por último, se pueden utilizar características arbitrarias sobre pares de estados ocultos adyacentes en lugar de probabilidades de transición simples. Las desventajas de estos modelos son: (1) Los tipos de distribuciones previas que se pueden colocar sobre los estados ocultos son muy limitados; (2) No es posible predecir la probabilidad de ver una observación arbitraria. Esta segunda limitación no suele ser un problema en la práctica, ya que muchos usos comunes de los HMM no requieren tales probabilidades predictivas.

Una variante del modelo discriminante descrito anteriormente es el campo aleatorio condicional de cadena lineal . Este utiliza un modelo gráfico no dirigido (también conocido como campo aleatorio de Markov ) en lugar de los modelos gráficos dirigidos de los MEMM y modelos similares. La ventaja de este tipo de modelo es que no sufre el llamado problema de sesgo de etiqueta de los MEMM y, por lo tanto, puede realizar predicciones más precisas. La desventaja es que el entrenamiento puede ser más lento que para los MEMM.

Otras extensiones

Otra variante es el modelo factorial oculto de Markov , que permite condicionar una única observación a las variables ocultas correspondientes de un conjunto de cadenas de Markov independientes, en lugar de una única cadena de Markov. Es equivalente a un único HMM, con estados (suponiendo que hay estados para cada cadena), y por lo tanto, el aprendizaje en un modelo de este tipo es difícil: para una secuencia de longitud , un algoritmo de Viterbi sencillo tiene una complejidad . Para encontrar una solución exacta, se podría utilizar un algoritmo de árbol de uniones, pero da como resultado una complejidad. En la práctica, se podrían utilizar técnicas aproximadas, como enfoques variacionales. [45]

Todos los modelos anteriores se pueden ampliar para permitir dependencias más distantes entre estados ocultos, por ejemplo, permitiendo que un estado dado dependa de los dos o tres estados anteriores en lugar de un solo estado anterior; es decir, las probabilidades de transición se extienden para abarcar conjuntos de tres o cuatro estados adyacentes (o en general estados adyacentes). La desventaja de tales modelos es que los algoritmos de programación dinámica para entrenarlos tienen un tiempo de ejecución, para estados adyacentes y observaciones totales (es decir, una cadena de Markov de longitud). Esta extensión ha sido ampliamente utilizada en bioinformática , en el modelado de secuencias de ADN .

Otra extensión reciente es el modelo triplete de Markov [46] , en el que se añade un proceso auxiliar subyacente para modelar algunas especificidades de los datos. Se han propuesto muchas variantes de este modelo. También se debe mencionar el interesante vínculo que se ha establecido entre la teoría de la evidencia y los modelos tripletes de Markov [47] y que permite fusionar datos en un contexto markoviano [48] y modelar datos no estacionarios. [49] [50] También se han propuesto estrategias alternativas de fusión de datos de múltiples flujos en la literatura reciente, por ejemplo, [51]

Finalmente, en 2012 se sugirió una lógica diferente para abordar el problema de modelar datos no estacionarios mediante modelos ocultos de Markov. [52] Consiste en emplear una pequeña red neuronal recurrente (RNN), específicamente una red de reservorio, [53] para capturar la evolución de la dinámica temporal en los datos observados. Esta información, codificada en forma de un vector de alta dimensión, se utiliza como una variable condicionante de las probabilidades de transición de estado del HMM. Bajo esta configuración, finalmente se obtiene un HMM no estacionario, cuyas probabilidades de transición evolucionan con el tiempo de una manera que se infiere de los datos, en contraste con algún modelo ad hoc poco realista de evolución temporal.

En 2023, se introdujeron dos algoritmos innovadores para el modelo oculto de Markov. Estos algoritmos permiten el cálculo de la distribución posterior del HMM sin la necesidad de modelar explícitamente la distribución conjunta, utilizando solo las distribuciones condicionales. [54] [55] A diferencia de los métodos tradicionales, como los algoritmos Forward-Backward y Viterbi, que requieren el conocimiento de la ley conjunta del HMM y pueden ser computacionalmente intensivos para aprender, los algoritmos Discriminativos Forward-Backward y Viterbi Discriminativos evitan la necesidad de la ley de la observación. [56] [57] Este avance permite que el HMM se aplique como un modelo discriminativo, ofreciendo un enfoque más eficiente y versátil para aprovechar los modelos ocultos de Markov en varias aplicaciones.

El modelo adecuado en el contexto de datos longitudinales se denomina modelo latente de Markov. [58] La versión básica de este modelo se ha ampliado para incluir covariables individuales, efectos aleatorios y para modelar estructuras de datos más complejas, como datos multinivel. En [59] se ofrece una descripción completa de los modelos latentes de Markov, con especial atención a los supuestos del modelo y a su uso práctico .

Teoría de la medida

La parte oculta de un modelo de Markov oculto, cuyos estados observables no son markovianos.

Dada una matriz de transición de Markov y una distribución invariante en los estados, se puede imponer una medida de probabilidad en el conjunto de subdesplazamientos. Por ejemplo, considere la cadena de Markov dada a la izquierda en los estados , con distribución invariante . Al ignorar la distinción entre , este espacio de subdesplazamientos se proyecta en otro espacio de subdesplazamientos en , y esta proyección también proyecta la medida de probabilidad hacia abajo a una medida de probabilidad en los subdesplazamientos en .

Lo curioso es que la medida de probabilidad de los subdesplazamientos en no se crea mediante una cadena de Markov en , ni siquiera de órdenes múltiples. Intuitivamente, esto se debe a que si uno observa una secuencia larga de , entonces estaría cada vez más seguro de que , lo que significa que la parte observable del sistema puede verse afectada por algo infinitamente en el pasado. [60] [61]

Por el contrario, existe un espacio de subdesplazamientos en 6 símbolos, proyectados a subdesplazamientos en 2 símbolos, de modo que cualquier medida de Markov en el subdesplazamiento más pequeño tiene una medida de preimagen que no es Markov de ningún orden (ejemplo 2.6 [61] ).

Véase también

Referencias

  1. ^ "Google Académico".
  2. ^ Thad Starner, Alex Pentland. Reconocimiento visual en tiempo real del lenguaje de señas americano a partir de un vídeo mediante modelos ocultos de Markov. Tesis de máster, MIT, febrero de 1995, Programa de Artes de los Medios
  3. ^ B. Pardo y W. Birmingham. Formulario de modelado para el seguimiento en línea de interpretaciones musicales Archivado el 6 de febrero de 2012 en Wayback Machine . AAAI-05 Proc., julio de 2005.
  4. ^ Satish L, Gururaj BI (abril de 2003). "Uso de modelos ocultos de Markov para la clasificación de patrones de descarga parcial". Transacciones IEEE sobre dieléctricos y aislamiento eléctrico .
  5. ^ Li, N; Stephens, M (diciembre de 2003). "Modelado del desequilibrio de ligamiento e identificación de puntos críticos de recombinación utilizando datos de polimorfismo de un solo nucleótido". Genética . 165 (4): 2213–33. doi :10.1093/genetics/165.4.2213. PMC 1462870 . PMID  14704198. 
  6. ^ Ernst, Jason; Kellis, Manolis (marzo de 2012). "ChromHMM: automatización del descubrimiento y caracterización del estado de la cromatina". Nature Methods . 9 (3): 215–216. doi :10.1038/nmeth.1906. PMC 3577932 . PMID  22373907. 
  7. ^ Lawrence R. Rabiner (febrero de 1989). "Un tutorial sobre modelos ocultos de Markov y aplicaciones seleccionadas en reconocimiento de voz" (PDF) . Actas del IEEE . 77 (2): 257–286. CiteSeerX 10.1.1.381.3454 . doi :10.1109/5.18626. S2CID  13618539. [1]
  8. ^ Newberg, L. (2009). "Estadísticas de error de los resultados del modelo oculto de Markov y del modelo oculto de Boltzmann". BMC Bioinformatics . 10 : 212. doi : 10.1186/1471-2105-10-212 . PMC 2722652 . PMID  19589158.  Icono de acceso abierto
  9. ^ Sipos, I. Róbert. Muestreo MCMC estratificado paralelo de AR-HMM para predicción de series temporales estocásticas . En: Actas, 4.ª Conferencia internacional sobre técnicas de modelado estocástico y análisis de datos con taller demográfico (SMTDA2016), págs. 295-306. Valletta, 2016. PDF
  10. ^ Chatzis, Sotirios P.; Kosmopoulos, Dimitrios I. (2011). "Una metodología bayesiana variacional para modelos ocultos de Markov utilizando mezclas t de Student" (PDF) . Reconocimiento de patrones . 44 (2): 295–306. Bibcode :2011PatRe..44..295C. CiteSeerX 10.1.1.629.6275 . doi :10.1016/j.patcog.2010.09.001. Archivado desde el original (PDF) el 2011-04-01 . Consultado el 2018-03-11 . 
  11. ^ Sipos, I. Róbert; Ceffer, Atila; Levendovszky, János (2016). "Optimización paralela de carteras dispersas con AR-HMM". Economía Computacional . 49 (4): 563–578. doi :10.1007/s10614-016-9579-y. S2CID  61882456.
  12. ^ Petropoulos, Anastasios; Chatzis, Sotirios P.; Xanthopoulos, Stylianos (2016). "Un nuevo sistema de calificación crediticia corporativa basado en modelos ocultos de Markov con t de Student". Expert Systems with Applications . 53 : 87–105. doi :10.1016/j.eswa.2016.01.015.
  13. ^ Nicolai, Christopher (2013). "Resolución de la cinética de los canales iónicos con el software QuB". Biophysical Reviews and Letters . 8 (3n04): 191–211. doi :10.1142/S1793048013300053.
  14. ^ Higgins, Cameron; Vidaurre, Diego; Kolling, Nils; Liu, Yunzhe; Behrens, Tim; Woolrich, Mark (2022). "Análisis de patrones multivariados con resolución espaciotemporal para electroencefalografía muscular". Mapeo cerebral humano . 43 (10): 3062–3085. doi :10.1002/hbm.25835. PMC 9188977 . PMID  35302683. 
  15. ^ Diomedi, S.; Vaccari, FE; Galletti, C.; Hadjidimitrakis, K.; Fattori, P. (1 de octubre de 2021). "Dinámica neuronal de tipo motor en dos áreas parietales durante el alcance del brazo". Progreso en neurobiología . 205 : 102116. doi :10.1016/j.pneurobio.2021.102116. hdl : 11585/834094 . ISSN  0301-0082. PMID  34217822. S2CID  235703641.
  16. ^ Domingos, Pedro (2015). El algoritmo maestro: cómo la búsqueda de la máquina de aprendizaje definitiva transformará nuestro mundo . Basic Books. pág. 37. ISBN 9780465061921.
  17. ^ Kundu, Amlan, Yang He y Paramvir Bahl. "Reconocimiento de palabras manuscritas: enfoque basado en modelos ocultos de Markov de primer y segundo orden [ vínculo roto ] ". Reconocimiento de patrones 22.3 (1989): 283-297.
  18. ^ Stigler, J.; Ziegler, F.; Gieseke, A.; Gebhardt, JCM; Rief, M. (2011). "La red de plegamiento complejo de moléculas de calmodulina individuales". Science . 334 (6055): 512–516. Bibcode :2011Sci...334..512S. doi :10.1126/science.1207598. PMID  22034433. S2CID  5502662.
  19. ^ Blasiak, S.; Rangwala, H. (2011). "Una variante oculta del modelo de Markov para la clasificación de secuencias". Actas del IJCAI-Conferencia conjunta internacional sobre inteligencia artificial . 22 : 1192.
  20. ^ Wong, W.; Stamp, M. (2006). "En busca de motores metamórficos". Revista de Virología Informática . 2 (3): 211–229. doi :10.1007/s11416-006-0028-7. S2CID  8116065.
  21. ^ Wong, K. -C.; Chan, T. -M.; Peng, C.; Li, Y.; Zhang, Z. (2013). "Elucidación de motivos de ADN mediante propagación de creencias". Nucleic Acids Research . 41 (16): e153. doi :10.1093/nar/gkt574. PMC 3763557 . PMID  23814189. 
  22. ^ Shah, Shalin; Dubey, Abhishek K.; Reif, John (17 de mayo de 2019). "Multiplexación óptica mejorada con códigos de barras de ADN temporales". ACS Synthetic Biology . 8 (5): 1100–1111. doi :10.1021/acssynbio.9b00010. PMID  30951289. S2CID  96448257.
  23. ^ Shah, Shalin; Dubey, Abhishek K.; Reif, John (10 de abril de 2019). "Programación de códigos de barras temporales de ADN para la identificación de moléculas individuales". Nano Letters . 19 (4): 2668–2673. Bibcode :2019NanoL..19.2668S. doi :10.1021/acs.nanolett.9b00590. ISSN  1530-6984. PMID  30896178. S2CID  84841635.
  24. ^ "ChromHMM: descubrimiento y caracterización del estado de la cromatina". compbio.mit.edu . Consultado el 1 de agosto de 2018 .
  25. ^ El Zarwi, Feraz (mayo de 2011). "Modelado y pronóstico de la evolución de las preferencias a lo largo del tiempo: un modelo oculto de Markov sobre el comportamiento de los viajes". arXiv : 1707.09133 [stat.AP].
  26. ^ Morf, H. (febrero de 1998). "El modelo estocástico de irradiancia solar de dos estados (STSIM)". Energía solar . 62 (2): 101–112. Código Bibliográfico :1998SoEn...62..101M. doi :10.1016/S0038-092X(98)00004-8.
  27. ^ Munkhammar, J.; Widén, J. (agosto de 2018). "Un enfoque de mezcla de distribución de probabilidad de cadena de Markov para el índice de cielo despejado". Energía solar . 170 : 174–183. Código Bibliográfico :2018SoEn..170..174M. doi :10.1016/j.solener.2018.05.055. S2CID  125867684.
  28. ^ Munkhammar, J.; Widén, J. (octubre de 2018). "Un modelo de distribución de mezcla de cadena de Markov de N estados del índice de cielo despejado". Energía solar . 173 : 487–495. Código Bibliográfico :2018SoEn..173..487M. doi :10.1016/j.solener.2018.07.056. S2CID  125538244.
  29. ^ Baum, LE; Petrie, T. (1966). "Inferencia estadística para funciones probabilísticas de cadenas de Markov de estados finitos". Anales de estadística matemática . 37 (6): 1554–1563. doi : 10.1214/aoms/1177699147 .
  30. ^ Baum, LE; Eagon, JA (1967). "Una desigualdad con aplicaciones a la estimación estadística de funciones probabilísticas de procesos de Markov y a un modelo para la ecología". Boletín de la Sociedad Americana de Matemáticas . 73 (3): 360. doi : 10.1090/S0002-9904-1967-11751-8 . Zbl  0157.11101.
  31. ^ Baum, LE; Sell, GR (1968). "Transformaciones de crecimiento para funciones en variedades". Revista del Pacífico de Matemáticas . 27 (2): 211–227. doi : 10.2140/pjm.1968.27.211 .
  32. ^ Baum, LE ; Petrie, T.; Soules, G.; Weiss, N. (1970). "Una técnica de maximización que se da en el análisis estadístico de funciones probabilísticas de cadenas de Markov". Anales de estadística matemática . 41 (1): 164–171. doi : 10.1214/aoms/1177697196 . JSTOR  2239727. MR  0287613. Zbl  0188.49603.
  33. ^ Baum, LE (1972). "Una desigualdad y una técnica de maximización asociada en la estimación estadística de funciones probabilísticas de un proceso de Markov". Desigualdades . 3 : 1–8.
  34. ^ Baker, J. (1975). "El sistema DRAGON: una descripción general". IEEE Transactions on Acoustics, Speech, and Signal Processing . 23 : 24–29. doi :10.1109/TASSP.1975.1162650.
  35. ^ Jelinek, F.; Bahl, L.; Mercer, R. (1975). "Diseño de un decodificador estadístico lingüístico para el reconocimiento de habla continua". IEEE Transactions on Information Theory . 21 (3): 250. doi :10.1109/TIT.1975.1055384.
  36. ^ Xuedong Huang ; M. Jack; Y. Ariki (1990). Modelos ocultos de Markov para el reconocimiento de voz . Editorial de la Universidad de Edimburgo. ISBN 978-0-7486-0162-2.
  37. ^ Xuedong Huang ; Alex Acero; Hsiao-Wuen Hon (2001). Procesamiento del lenguaje hablado . Prentice Hall. ISBN 978-0-13-022616-7.
  38. ^ Carrasco, Rafael C.; Oncina, Jose (1994). Carrasco, Rafael C.; Oncina, Jose (eds.). "Aprendizaje de gramáticas regulares estocásticas mediante un método de fusión de estados". Inferencia gramatical y aplicaciones . Berlín, Heidelberg: Springer: 139–152. doi :10.1007/3-540-58473-0_144. ISBN 978-3-540-48985-6.
  39. ^ M. Bishop y E. Thompson (1986). "Alineamiento de secuencias de ADN con máxima verosimilitud". Journal of Molecular Biology . 190 (2): 159–165. doi :10.1016/0022-2836(86)90289-5. PMID  3641921. (se requiere suscripción) Icono de acceso cerrado
  40. ^ Durbin, Richard M. ; Eddy, Sean R. ; Krogh, Anders ; Mitchison, Graeme (1998), Análisis de secuencias biológicas: modelos probabilísticos de proteínas y ácidos nucleicos (1.ª ed.), Cambridge, Nueva York: Cambridge University Press , ISBN 0-521-62971-3, OCLC  593254083
  41. ^ Gassiat, E.; Cleynen, A.; Robin, S. (1 de enero de 2016). "Inferencia en modelos ocultos de Markov no paramétricos en el espacio de estados finitos y aplicaciones". Estadística y computación . 26 (1): 61–71. doi :10.1007/s11222-014-9523-8. ISSN  1573-1375.
  42. ^ Abraham, Kweku; Gassiat, Elisabeth; Naulet, Zacharie (marzo de 2023). "Límites fundamentales para el aprendizaje de parámetros ocultos del modelo de Markov". IEEE Transactions on Information Theory . 69 (3): 1777–1794. arXiv : 2106.12936 . doi :10.1109/TIT.2022.3213429. ISSN  0018-9448.
  43. ^ Beal, Matthew J., Zoubin Ghahramani y Carl Edward Rasmussen. "El modelo infinito oculto de Markov". Avances en sistemas de procesamiento de información neuronal 14 (2002): 577-584.
  44. ^ Teh, Yee Whye, et al. "Procesos jerárquicos de Dirichlet". Revista de la Asociación Estadounidense de Estadística 101.476 (2006).
  45. ^ Ghahramani, Zoubin ; Jordan, Michael I. (1997). "Modelos factoriales ocultos de Markov". Aprendizaje automático . 29 (2/3): 245–273. doi : 10.1023/A:1007425814087 .
  46. ^ Pieczynski, Wojciech (2002). "Triplete Chaı̂nes de Markov" (PDF) . Cuentas Rendus Mathématique . 335 (3): 275–278. doi :10.1016/S1631-073X(02)02462-7.
  47. ^ Pieczynski, Wojciech (2007). "Cadenas de Markov de tripletes multisensoriales y teoría de la evidencia". Revista Internacional de Razonamiento Aproximado . 45 : 1–16. doi : 10.1016/j.ijar.2006.05.001 .
  48. ^ Boudaren et al. Archivado el 11 de marzo de 2014 en Wayback Machine , MY Boudaren, E. Monfrini, W. Pieczynski y A. Aissani, Fusión Dempster-Shafer de señales multisensoriales en un contexto markoviano no estacionario, EURASIP Journal on Advances in Signal Processing, n.º 134, 2012.
  49. ^ Lanchantin et al., P. Lanchantin y W. Pieczynski, Restauración no supervisada de una cadena de Markov no estacionaria oculta utilizando valores evidenciales previos, IEEE Transactions on Signal Processing, Vol. 53, No. 8, págs. 3091-3098, 2005.
  50. ^ Boudaren et al., MY Boudaren, E. Monfrini y W. Pieczynski, Segmentación no supervisada de datos discretos aleatorios ocultos con distribuciones de ruido de conmutación, IEEE Signal Processing Letters, vol. 19, n.º 10, págs. 619-622, octubre de 2012.
  51. ^ Sotirios P. Chatzis, Dimitrios Kosmopoulos, "Reconocimiento de flujo de trabajo visual utilizando un tratamiento bayesiano variacional de modelos ocultos de Markov fusionados de múltiples flujos", IEEE Transactions on Circuits and Systems for Video Technology, vol. 22, n.º 7, págs. 1076-1086, julio de 2012.
  52. ^ Chatzis, Sotirios P.; Demiris, Yiannis (2012). "Un modelo oculto de Markov no estacionario impulsado por yacimientos". Reconocimiento de patrones . 45 (11): 3985–3996. Código Bibliográfico :2012PatRe..45.3985C. doi :10.1016/j.patcog.2012.04.018. hdl : 10044/1/12611 .
  53. ^ M. Lukosevicius, H. Jaeger (2009) Enfoques de computación de reservorio para el entrenamiento de redes neuronales recurrentes, Computer Science Review 3 : 127–149.
  54. ^ Azeraf, E., Monfrini, E. y Pieczynski, W. (2023). Equivalencia entre LC-CRF y HMM, y computación discriminativa de MPM y MAP basados ​​en HMM. Algorithms, 16(3), 173.
  55. ^ Azeraf, E., Monfrini, E., Vignon, E. y Pieczynski, W. (2020). Cadenas de Markov ocultas, etiquetas entrópicas hacia adelante y hacia atrás y etiquetas de categorías gramatical. Preimpresión de arXiv arXiv:2005.10629.
  56. ^ Azeraf, E., Monfrini, E. y Pieczynski, W. (2022). Derivación de clasificadores discriminativos a partir de modelos generativos. Preimpresión de arXiv arXiv:2201.00844.
  57. ^ Ng, A., y Jordan, M. (2001). Comparación entre clasificadores discriminativos y generativos: una comparación entre regresión logística y bayesiano ingenuo. Avances en sistemas de procesamiento de información neuronal, 14.
  58. ^ Wiggins, LM (1973). Análisis de panel: modelos de probabilidad latente para procesos de actitud y comportamiento . Ámsterdam: Elsevier.
  59. ^ Bartolucci, F.; Farcomeni, A.; Pennoni, F. (2013). Modelos latentes de Markov para datos longitudinales. Boca Raton: Chapman and Hall/CRC. ISBN 978-14-3981-708-7.
  60. ^ Medidas sofísticas: caracterizaciones de cadenas ocultas de Markov mediante álgebra lineal, lenguajes formales y dinámica simbólica - Karl Petersen, Matemáticas 210, primavera de 2006, Universidad de Carolina del Norte en Chapel Hill
  61. ^ ab Boyle, Mike; Petersen, Karl (13 de enero de 2010), Procesos ocultos de Markov en el contexto de la dinámica simbólica , arXiv : 0907.1858

Enlaces externos

Conceptos