En estadística , un modelo de Markov de máxima entropía ( MEMM ), o modelo de Markov condicional ( CMM ), es un modelo gráfico para el etiquetado de secuencias que combina características de los modelos de Markov ocultos (HMM) y los modelos de máxima entropía (MaxEnt). Un MEMM es un modelo discriminativo que extiende un clasificador de máxima entropía estándar al suponer que los valores desconocidos que se van a aprender están conectados en una cadena de Markov en lugar de ser condicionalmente independientes entre sí. Los MEMM encuentran aplicaciones en el procesamiento del lenguaje natural , específicamente en el etiquetado de partes del discurso [1] y la extracción de información . [2]
Supongamos que tenemos una secuencia de observaciones que buscamos etiquetar con las etiquetas que maximizan la probabilidad condicional . En un MEMM, esta probabilidad se incluye en las probabilidades de transición de Markov, donde la probabilidad de transición a una etiqueta particular depende solo de la observación en esa posición y la etiqueta de la posición anterior [ cita requerida ] :
Cada una de estas probabilidades de transición proviene de la misma distribución general . Para cada valor de etiqueta posible de la etiqueta anterior , la probabilidad de una determinada etiqueta se modela de la misma manera que un clasificador de entropía máxima : [3]
Aquí, son funciones de características categóricas o de valor real, y es un término de normalización que garantiza que la distribución sume uno. Esta forma de distribución corresponde a la distribución de probabilidad de entropía máxima que satisface la restricción de que la expectativa empírica para la característica es igual a la expectativa dada en el modelo:
Los parámetros se pueden estimar utilizando escalamiento iterativo generalizado . [4] Además, se puede utilizar una variante del algoritmo Baum–Welch , que se utiliza para entrenar HMM, para estimar parámetros cuando los datos de entrenamiento tienen etiquetas incompletas o faltantes . [2]
La secuencia de estados óptima se puede encontrar utilizando un algoritmo de Viterbi muy similar al que se utiliza para los HMM. El programa dinámico utiliza la probabilidad hacia adelante:
Una ventaja de los MEMM en comparación con los HMM para el etiquetado de secuencias es que ofrecen una mayor libertad a la hora de elegir las características que representan las observaciones. En situaciones de etiquetado de secuencias, resulta útil utilizar el conocimiento del dominio para diseñar características con un propósito específico. En el artículo original que presenta los MEMM, los autores escriben que "al intentar extraer nombres de empresas nunca antes vistos de un artículo de noticias, la identidad de una palabra por sí sola no es muy predictiva; sin embargo, saber que la palabra está en mayúscula, que es un sustantivo, que se utiliza en un apositivo y que aparece cerca de la parte superior del artículo sería bastante predictivo (en conjunción con el contexto proporcionado por la estructura de transición de estado)". [2] Las características útiles de etiquetado de secuencias, como estas, a menudo no son independientes. Los modelos de máxima entropía no suponen independencia entre características, pero los modelos de observación generativos utilizados en los HMM sí lo hacen. [2] Por lo tanto, los MEMM permiten al usuario especificar muchas características correlacionadas, pero informativas.
Otra ventaja de los MEMM frente a los HMM y los campos aleatorios condicionales (CRF) es que el entrenamiento puede ser considerablemente más eficiente. En los HMM y los CRF, es necesario utilizar alguna versión del algoritmo de avance-retroceso como un bucle interno en el entrenamiento [ cita requerida ] . Sin embargo, en los MEMM, la estimación de los parámetros de las distribuciones de máxima entropía utilizadas para las probabilidades de transición se puede realizar para cada distribución de transición de forma aislada.
Una desventaja de los MEMM es que potencialmente sufren del "problema del sesgo de etiqueta", donde los estados con distribuciones de transición de baja entropía "ignoran efectivamente sus observaciones". Los campos aleatorios condicionales fueron diseñados para superar esta debilidad, [5] que ya había sido reconocida en el contexto de los modelos de Markov basados en redes neuronales a principios de la década de 1990. [5] [6] Otra fuente de sesgo de etiqueta es que el entrenamiento siempre se realiza con respecto a etiquetas anteriores conocidas, por lo que el modelo tiene dificultades en el momento de la prueba cuando hay incertidumbre en la etiqueta anterior.
{{cite journal}}
: CS1 maint: multiple names: authors list (link)