Modelo condicional restringido

Un modelo condicional restringido (CCM) es un marco de inferencia y aprendizaje automático que aumenta el aprendizaje de modelos condicionales (probabilísticos o discriminativos) con restricciones declarativas. La restricción se puede utilizar como una forma de incorporar conocimiento previo expresivo ^{[ aclaración necesaria ]} en el modelo y sesgar las asignaciones realizadas por el modelo aprendido para satisfacer estas restricciones. El marco se puede utilizar para respaldar decisiones en un espacio de salida expresivo manteniendo al mismo tiempo la modularidad y la manejabilidad del entrenamiento y la inferencia.

Modelos de este tipo han aparecido recientemente ^{[ ¿cuándo? ]} atrajo mucha atención ^{[ cita necesaria ]} dentro de la comunidad de procesamiento del lenguaje natural ( PNL ). Formular problemas como problemas de optimización restringidos sobre la salida de modelos aprendidos tiene varias ventajas. Permite centrarse en el modelado de problemas al brindar la oportunidad de incorporar conocimiento de dominio específico como restricciones globales utilizando un lenguaje de primer orden. El uso de este marco declarativo libera al desarrollador de la ingeniería de características de bajo nivel mientras captura las propiedades específicas del dominio del problema y garantiza una inferencia exacta. Desde una perspectiva de aprendizaje automático, permite desacoplar la etapa de generación de modelos (aprendizaje) de la etapa de inferencia restringida, ayudando así a simplificar la etapa de aprendizaje mientras mejora la calidad de las soluciones. Por ejemplo, en el caso de generar oraciones comprimidas, en lugar de simplemente confiar en un modelo de lenguaje para retener los n-gramas más utilizados en la oración, se pueden usar restricciones para garantizar que si se mantiene un modificador en la oración comprimida, su El tema también se mantendrá.

Motivación

Tomar decisiones en muchos dominios (como el procesamiento del lenguaje natural y los problemas de visión por computadora) a menudo implica asignar valores a conjuntos de variables interdependientes donde la estructura de dependencia expresiva puede influir, o incluso dictar, qué asignaciones son posibles. Estas configuraciones son aplicables no solo a problemas de aprendizaje estructurado, como el etiquetado de roles semánticos, sino también a casos que requieren el uso de múltiples componentes previamente aprendidos, como resúmenes, vinculación textual y respuesta a preguntas. En todos estos casos, es natural formular el problema de decisión como un problema de optimización restringido, con una función objetivo compuesta de modelos aprendidos, sujetos a restricciones específicas del dominio o del problema.

Los modelos condicionales restringidos forman un marco de aprendizaje e inferencia que aumenta el aprendizaje de modelos condicionales (probabilísticos o discriminativos) con restricciones declarativas (escritos, por ejemplo, utilizando una representación de primer orden) como una forma de respaldar las decisiones en un espacio de salida expresivo manteniendo al mismo tiempo modularidad y manejabilidad del entrenamiento y la inferencia. Estas restricciones pueden expresar restricciones estrictas, que prohíben completamente algunas asignaciones, o restricciones suaves, que penalizan asignaciones improbables. En la mayoría de las aplicaciones de este marco en PNL, a continuación, ^[1] se utilizó la Programación Lineal Entera (ILP) como marco de inferencia, aunque se pueden usar otros algoritmos para ese propósito.

Definicion formal

Dado un conjunto de funciones de características y un conjunto de restricciones , definidas sobre una estructura de entrada y una estructura de salida , un modelo condicional de restricción se caracteriza por dos vectores de peso, w y , y se define como la solución al siguiente problema de optimización: $\{\phi _{i}(x,y)\}$ $\{C_{i}(x,y)\}$ $x\en X$ $y\en Y$ ${\displaystyle\rho}$

argmax_{y}\sum _{i}w_{i}\phi _{i}(x,y)-\sum \rho _{i}C_{i}(x,y)

Cada restricción es un mapeo booleano que indica si la asignación conjunta viola una restricción y es la penalización incurrida por violar las restricciones. Las restricciones a las que se les asigna una penalización infinita se conocen como restricciones estrictas y representan asignaciones inviables al problema de optimización. $C_{i}\en C$ $(x,y)$ ${\displaystyle\rho}$

Paradigmas de formación

Aprender modelos locales vs. globales

La función objetivo utilizada por los CCM se puede descomponer y aprender de varias maneras, que van desde un entrenamiento conjunto completo del modelo junto con las restricciones hasta desacoplar completamente las etapas de aprendizaje e inferencia. En el último caso, varios modelos locales se aprenden de forma independiente y la dependencia entre estos modelos se considera sólo en el momento de la decisión a través de un proceso de decisión global. Las ventajas de cada enfoque se discuten en ^[2] , que estudia los dos paradigmas de entrenamiento: (1) modelos locales: L+I (aprendizaje + inferencia) y (2) modelo global: IBT (entrenamiento basado en inferencia), y muestra ambos teóricamente. y experimentalmente que si bien IBT (entrenamiento conjunto) es mejor en el límite, bajo algunas condiciones (básicamente, componentes "buenos") L+I puede generalizar mejor.

La capacidad de CCM para combinar modelos locales es especialmente beneficiosa en los casos en que el aprendizaje conjunto es computacionalmente intratable o cuando los datos de entrenamiento no están disponibles para el aprendizaje conjunto. Esta flexibilidad distingue a CCM de otros marcos de aprendizaje que también combinan información estadística con restricciones declarativas, como la red lógica de Markov , que enfatiza la capacitación conjunta.

CCM mínimamente supervisado

CCM puede ayudar a reducir la supervisión utilizando el conocimiento del dominio (expresado como restricciones) para impulsar el aprendizaje. Estos entornos fueron estudiados en ^[3] y. ^[4] Estos trabajos introducen el aprendizaje impulsado por restricciones (CODL) semisupervisado y muestran que al incorporar conocimiento del dominio, el rendimiento del modelo aprendido mejora significativamente.

Aprendizaje sobre representaciones latentes

Los CCM también se han aplicado a marcos de aprendizaje latente, donde el problema de aprendizaje se define sobre una capa de representación latente. Dado que la noción de representación correcta está intrínsecamente mal definida, el alumno no dispone de datos estándar sobre la decisión de representación. La identificación de la representación de aprendizaje correcta (u óptima) se considera un proceso de predicción estructurado y, por lo tanto, se modela como un CCM. Este problema se cubrió en varios artículos, tanto en entornos supervisados ^[5] como no supervisados ^[6] . En todos los casos, la investigación demostró que modelar explícitamente las interdependencias entre decisiones de representación a través de restricciones da como resultado un mejor desempeño.

Programación lineal entera para aplicaciones de procesamiento de lenguaje natural.

Las ventajas de la formulación declarativa de CCM y la disponibilidad de solucionadores disponibles han llevado a que se formulen una gran variedad de tareas de procesamiento del lenguaje natural dentro del marco, incluido el etiquetado de roles semánticos , ^[7] análisis sintáctico, ^[8] resolución de correferencia , ^[9] resumen, ^[10]^[11]^[12] transliteración , ^[13] generación de lenguaje natural ^[14] y extracción conjunta de información. ^[15]^[16]

La mayoría de estos trabajos utilizan un solucionador de programación lineal entera (ILP) para resolver el problema de decisión. Aunque teóricamente resolver un programa lineal entero es exponencial en el tamaño del problema de decisión, en la práctica utilizando solucionadores de última generación y técnicas de inferencia aproximada ^[17] se pueden resolver problemas de gran escala de manera eficiente.

La ventaja clave de utilizar un solucionador ILP para resolver el problema de optimización definido por un modelo condicional restringido es la formulación declarativa utilizada como entrada para el solucionador ILP, que consta de una función objetivo lineal y un conjunto de restricciones lineales.

Recursos

Tutorial de CCM Predicción de estructuras en PNL: modelos condicionales restringidos y programación lineal entera en PNL

enlaces externos

Grupo de Computación Cognitiva de la Universidad de Illinois
Taller sobre programación lineal entera para el procesamiento del lenguaje natural, NAACL-2009

Referencias

^ Dan Roth y Wen-tau Yih, "Una formulación de programación lineal para la inferencia global en tareas de lenguaje natural". Archivado el 25 de octubre de 2017 en Wayback Machine CoNLL , (2004).
^ Vasin Punyakanok y Dan Roth y Wen-Tau Yih y Dav Zimak, "Aprendizaje e inferencia sobre producción restringida". Archivado el 25 de octubre de 2017 en Wayback Machine IJCAI , (2005).
^ Ming-Wei Chang, Lev Ratinov y Dan Roth, "Guía de la semisupervisión con aprendizaje basado en restricciones". Archivado el 3 de marzo de 2016 en la ACL de Wayback Machine , (2007).
^ Ming-Wei Chang, Lev Ratinov y Dan Roth, "Restricciones como conocimiento previo". Archivado el 3 de marzo de 2016 en el Taller ICML de Wayback Machine sobre conocimientos previos para el procesamiento de textos y lenguajes , (2008).
^ Ming-Wei Chang y Dan Goldwasser y Dan Roth y Vivek Srikumar, "Aprendizaje discriminativo sobre representaciones latentes restringidas". Archivado el 25 de octubre de 2017 en Wayback Machine NAACL, (2010).
^ Ming-Wei Chang Dan Goldwasser Dan Roth y Yuancheng Tu, "Aprendizaje impulsado por restricciones no supervisadas para el descubrimiento de transliteración". ^{[ enlace muerto permanente ]} NAACL, (2009).
^ Vasin Punyakanok, Dan Roth, Wen-tau Yih y Dav Zimak, "Etiquetado de roles semánticos mediante inferencia de programación lineal entera". Archivado el 9 de agosto de 2017 en Wayback Machine COLING, (2004).
^ Kenji Sagae y Yusuke Miyao y Jun'ichi Tsujii, "Análisis de HPSG con restricciones de dependencia superficiales". ACL, (2007).
^ Pascal Denis y Jason Baldridge, "Determinación conjunta de anaforicidad y resolución de correferencia mediante programación entera". Archivado el 21 de junio de 2010 en Wayback Machine NAACL-HLT, (2007).
^ James Clarke y Mirella Lapata, "Inferencia global para la compresión de oraciones: un enfoque de programación lineal entera". Archivado el 10 de mayo de 2013 en el Wayback Machine Journal of Artificial Intelligence Research (JAIR), (2008).
^ Katja Filippova y Michael Strube, "Compresión de oraciones basada en árbol de dependencia". ^{[ enlace muerto permanente ]} INLG , (2008).
^ Katja Filippova y Michael Strube, "Fusión de oraciones mediante compresión de gráficos de dependencia". EMNLP , (2008).
^ Dan Goldwasser y Dan Roth, "La transliteración como optimización restringida". Archivado el 11 de agosto de 2017 en Wayback Machine EMNLP, (2008).
^ Regina Barzilay y Mirrela Lapata, "Agregación mediante partición de conjuntos para la generación de lenguaje natural". NAACL , (2006).
^ Dan Roth y Wen-tau Yih, "Una formulación de programación lineal para la inferencia global en tareas de lenguaje natural". Archivado el 25 de octubre de 2017 en Wayback Machine CoNLL , (2004).
^ Yejin Choi , Eric Breck y Claire Cardie, "Extracción conjunta de entidades y relaciones para el reconocimiento de opiniones". EMNLP , (2006).
^ André FT Martins, Noah A. Smith y Eric P. Xing, "Formulaciones concisas de programación lineal entera para el análisis de dependencias". ACL, (2009).