En la teoría matemática de los procesos estocásticos , los modelos de Markov de orden variable (VOM) son una clase importante de modelos que extienden los conocidos modelos de cadena de Markov . A diferencia de los modelos de cadena de Markov, donde cada variable aleatoria en una secuencia con una propiedad de Markov depende de un número fijo de variables aleatorias, en los modelos VOM este número de variables aleatorias condicionantes puede variar en función de la realización observada específica.
Esta secuencia de realización se denomina a menudo contexto ; por lo tanto, los modelos VOM también se denominan árboles de contexto . [1] Los modelos VOM se representan de forma agradable mediante árboles de sufijos probabilísticos coloreados (PST). [2] La flexibilidad en el número de variables aleatorias condicionantes resulta ser una verdadera ventaja para muchas aplicaciones, como el análisis estadístico , la clasificación y la predicción . [3] [4] [5]
Consideremos, por ejemplo, una secuencia de variables aleatorias , cada una de las cuales toma un valor del alfabeto ternario { a , b , c } . En concreto, consideremos la cadena construida a partir de concatenaciones infinitas de la subcadena aaabc : aaabcaaabcaaabcaaabc…aaabc .
El modelo VOM de orden máximo 2 puede aproximar la cadena anterior utilizando solo los siguientes cinco componentes de probabilidad condicional : Pr( a | aa ) = 0.5 , Pr( b | aa ) = 0.5 , Pr( c | b ) = 1.0 , Pr( a | c )= 1.0 , Pr( a | ca ) = 1.0 .
En este ejemplo, Pr( c | ab ) = Pr( c | b ) = 1,0 ; por lo tanto, el contexto más corto b es suficiente para determinar el siguiente carácter. De manera similar, el modelo VOM de orden máximo 3 puede generar la cadena exactamente utilizando solo cinco componentes de probabilidad condicional, que son todos iguales a 1,0.
Para construir la cadena de Markov de orden 1 para el siguiente carácter en esa cadena, uno debe estimar los siguientes 9 componentes de probabilidad condicional: Pr( a | a ) , Pr( a | b ) , Pr( a | c ) , Pr( b | a ) , Pr( b | b ) , Pr( b | c ) , Pr( c | a ) , Pr( c | b ) , Pr( c | c ) . Para construir la cadena de Markov de orden 2 para el siguiente carácter, uno debe estimar 27 componentes de probabilidad condicional: Pr( a | aa ) , Pr( a | ab ) , … , Pr( c | cc ) . Y para construir la cadena de Markov de orden tres para el siguiente carácter se deben estimar los siguientes 81 componentes de probabilidad condicional: Pr( a | aaa ) , Pr( a | aab ) , … , Pr( c | ccc ) .
En la práctica, rara vez hay datos suficientes para estimar con precisión el número exponencialmente creciente de componentes de probabilidad condicional a medida que aumenta el orden de la cadena de Markov.
El modelo de Markov de orden variable supone que en entornos realistas hay ciertas realizaciones de estados (representados por contextos) en los que algunos estados pasados son independientes de los estados futuros; en consecuencia, "se puede lograr una gran reducción en el número de parámetros del modelo". [1]
Sea A un espacio de estados ( alfabeto finito ) de tamaño .
Considérese una secuencia con la propiedad de Markov de n realizaciones de variables aleatorias , donde es el estado (símbolo) en la posición i , y la concatenación de estados y se denota por .
Dado un conjunto de entrenamiento de estados observados, , el algoritmo de construcción de los modelos VOM [3] [4] [5] aprende un modelo P que proporciona una asignación de probabilidad para cada estado en la secuencia dados sus estados pasados (símbolos observados previamente) o futuros.
Específicamente, el alumno genera una distribución de probabilidad condicional para un símbolo dado un contexto , donde el signo * representa una secuencia de estados de cualquier longitud, incluido el contexto vacío.
Los modelos VOM intentan estimar distribuciones condicionales de la forma en que la longitud del contexto varía en función de las estadísticas disponibles. Por el contrario, los modelos Markov convencionales intentan estimar estas distribuciones condicionales suponiendo una longitud de contexto fija y, por lo tanto, pueden considerarse casos especiales de los modelos VOM.
En efecto, para una secuencia de entrenamiento dada, se ha descubierto que los modelos VOM obtienen una mejor parametrización del modelo que los modelos Markov de orden fijo , lo que conduce a un mejor equilibrio entre varianza y sesgo de los modelos aprendidos. [3] [4] [5]
Se han ideado varios algoritmos eficientes para estimar los parámetros del modelo VOM. [4]
Los modelos VOM se han aplicado con éxito en áreas como el aprendizaje automático , la teoría de la información y la bioinformática , incluyendo aplicaciones específicas como codificación y compresión de datos , [1] compresión de documentos, [4] clasificación e identificación de secuencias de ADN y proteínas , [6] [1] [3] control estadístico de procesos , [5] filtrado de spam , [7] haplotipificación , [8] reconocimiento de voz, [9] análisis de secuencias en ciencias sociales , [2] y otros.