stringtranslate.com

Modelo condicional restringido

Un modelo condicional restringido (CCM) es un marco de aprendizaje automático e inferencia que amplía el aprendizaje de modelos condicionales (probabilísticos o discriminativos) con restricciones declarativas. La restricción se puede utilizar como una forma de incorporar conocimiento previo expresivo [ aclaración necesaria ] en el modelo y sesgar las asignaciones realizadas por el modelo aprendido para satisfacer estas restricciones. El marco se puede utilizar para respaldar decisiones en un espacio de salida expresivo mientras se mantiene la modularidad y la manejabilidad del entrenamiento y la inferencia.

Los modelos de este tipo han atraído recientemente [ ¿cuándo? ] mucha atención [ cita requerida ] dentro de la comunidad de procesamiento del lenguaje natural ( PLN ). La formulación de problemas como problemas de optimización restringidos sobre el resultado de los modelos aprendidos tiene varias ventajas. Permite centrarse en el modelado de problemas al brindar la oportunidad de incorporar conocimiento específico del dominio como restricciones globales utilizando un lenguaje de primer orden. El uso de este marco declarativo libera al desarrollador de la ingeniería de características de bajo nivel al tiempo que captura las propiedades específicas del dominio del problema y garantiza una inferencia exacta. Desde una perspectiva de aprendizaje automático, permite disociar la etapa de generación de modelos (aprendizaje) de la etapa de inferencia restringida, lo que ayuda a simplificar la etapa de aprendizaje al tiempo que mejora la calidad de las soluciones. Por ejemplo, en el caso de generar oraciones comprimidas, en lugar de simplemente confiar en un modelo de lenguaje para retener los n-gramas más utilizados en la oración, se pueden usar restricciones para garantizar que si se mantiene un modificador en la oración comprimida, también se mantendrá su sujeto.

Motivación

La toma de decisiones en muchos dominios (como el procesamiento del lenguaje natural y los problemas de visión artificial) a menudo implica la asignación de valores a conjuntos de variables interdependientes donde la estructura de dependencia expresiva puede influir, o incluso dictar, qué asignaciones son posibles. Estas configuraciones son aplicables no solo a problemas de aprendizaje estructurado como el etiquetado de roles semánticos, sino también a casos que requieren el uso de múltiples componentes aprendidos previamente, como el resumen, la implicación textual y la respuesta a preguntas. En todos estos casos, es natural formular el problema de decisión como un problema de optimización restringida, con una función objetivo que se compone de modelos aprendidos, sujetos a restricciones específicas del dominio o del problema.

Los modelos condicionales restringidos forman un marco de aprendizaje e inferencia que amplía el aprendizaje de modelos condicionales (probabilísticos o discriminativos) con restricciones declarativas (escritas, por ejemplo, utilizando una representación de primer orden) como una forma de respaldar las decisiones en un espacio de salida expresivo mientras se mantiene la modularidad y la manejabilidad del entrenamiento y la inferencia. Estas restricciones pueden expresar restricciones duras, prohibiendo por completo algunas asignaciones, o restricciones suaves, penalizando las asignaciones improbables. En la mayoría de las aplicaciones de este marco en NLP, a continuación, [1] se utilizó la Programación Lineal Entera (ILP) como marco de inferencia, aunque se pueden utilizar otros algoritmos para ese propósito.

Definición formal

Dado un conjunto de funciones características y un conjunto de restricciones , definidas sobre una estructura de entrada y una estructura de salida , un modelo condicional de restricciones se caracteriza por dos vectores de peso, w y , y se define como la solución al siguiente problema de optimización:

.

Cada restricción es una asignación booleana que indica si la asignación conjunta viola una restricción y es la penalización que se aplica por violar las restricciones. Las restricciones a las que se les asigna una penalización infinita se conocen como restricciones duras y representan asignaciones inviables al problema de optimización.

Paradigmas de entrenamiento

Aprendiendo modelos locales vs. globales

La función objetivo utilizada por los CCM se puede descomponer y aprender de varias maneras, que van desde un entrenamiento conjunto completo del modelo junto con las restricciones hasta desacoplar por completo la etapa de aprendizaje y la de inferencia. En este último caso, se aprenden varios modelos locales de forma independiente y la dependencia entre estos modelos se considera solo en el momento de la decisión a través de un proceso de decisión global. Las ventajas de cada enfoque se discuten en [2] , que estudia los dos paradigmas de entrenamiento: (1) modelos locales: L+I (aprendizaje + inferencia) y (2) modelo global: IBT (entrenamiento basado en inferencia), y muestra tanto teórica como experimentalmente que, si bien IBT (entrenamiento conjunto) es mejor en el límite, bajo ciertas condiciones (básicamente, componentes "buenos") L+I puede generalizar mejor.

La capacidad de CCM para combinar modelos locales es especialmente beneficiosa en casos en los que el aprendizaje conjunto es computacionalmente intratable o cuando no hay datos de entrenamiento disponibles para el aprendizaje conjunto. Esta flexibilidad distingue a CCM de otros marcos de aprendizaje que también combinan información estadística con restricciones declarativas, como la red lógica de Markov , que enfatiza el entrenamiento conjunto.

CCM mínimamente supervisado

El CCM puede ayudar a reducir la supervisión al utilizar el conocimiento del dominio (expresado como restricciones) para impulsar el aprendizaje. Estas configuraciones se estudiaron en [3] y [4] . Estos trabajos introducen el aprendizaje impulsado por restricciones (CODL) semisupervisado y muestran que al incorporar el conocimiento del dominio, el rendimiento del modelo aprendido mejora significativamente.

Aprendizaje sobre representaciones latentes

Los CCM también se han aplicado a marcos de aprendizaje latente, donde el problema de aprendizaje se define sobre una capa de representación latente. Dado que la noción de una representación correcta está inherentemente mal definida, el alumno no dispone de datos etiquetados como estándar de oro sobre la decisión de representación. La identificación de la representación de aprendizaje correcta (u óptima) se considera un proceso de predicción estructurado y, por lo tanto, se modela como un CCM. Este problema se abordó en varios artículos, tanto en entornos supervisados ​​[5] como no supervisados ​​[6] . En todos los casos, la investigación mostró que modelar explícitamente las interdependencias entre las decisiones de representación a través de restricciones da como resultado un mejor desempeño.

Programación lineal entera para aplicaciones de procesamiento de lenguaje natural

Las ventajas de la formulación declarativa de CCM y la disponibilidad de solucionadores listos para usar han llevado a que se formulen una gran variedad de tareas de procesamiento del lenguaje natural dentro del marco, incluido el etiquetado de roles semánticos , [7] análisis sintáctico, [8] resolución de correferencia , [9] resumen, [10] [11] [12] transliteración , [13] generación de lenguaje natural [14] y extracción de información conjunta. [15] [16]

La mayoría de estos trabajos utilizan un solucionador de programación lineal entera (ILP) para resolver el problema de decisión. Aunque teóricamente la resolución de un programa lineal entero es exponencial en el tamaño del problema de decisión, en la práctica, utilizando solucionadores de última generación y técnicas de inferencia aproximada [17], se pueden resolver problemas de gran escala de manera eficiente.

La principal ventaja de utilizar un solucionador ILP para resolver el problema de optimización definido por un modelo condicional restringido es la formulación declarativa utilizada como entrada para el solucionador ILP, que consiste en una función objetivo lineal y un conjunto de restricciones lineales.

Recursos

Enlaces externos

Referencias

  1. ^ Dan Roth y Wen-tau Yih, "Una formulación de programación lineal para inferencia global en tareas de lenguaje natural". Archivado el 25 de octubre de 2017 en Wayback Machine CoNLL , (2004).
  2. ^ Vasin Punyakanok y Dan Roth y Wen-Tau Yih y Dav Zimak, "Aprendizaje e inferencia sobre salida restringida". Archivado el 25 de octubre de 2017 en Wayback Machine. IJCAI , (2005).
  3. ^ Ming-Wei Chang y Lev Ratinov y Dan Roth, "Guiding Semi-Supervision with Constraint-Driven Learning". Archivado el 3 de marzo de 2016 en Wayback Machine. ACL , (2007).
  4. ^ Ming-Wei Chang y Lev Ratinov y Dan Roth, "Restricciones como conocimiento previo". Archivado el 3 de marzo de 2016 en Wayback Machine Taller ICML sobre conocimiento previo para procesamiento de texto y lenguaje (2008).
  5. ^ Ming-Wei Chang y Dan Goldwasser y Dan Roth y Vivek Srikumar, "Aprendizaje discriminativo sobre representaciones latentes restringidas". Archivado el 25 de octubre de 2017 en Wayback Machine. NAACL, (2010).
  6. ^ Ming-Wei Chang Dan Goldwasser Dan Roth y Yuancheng Tu, "Aprendizaje no supervisado basado en restricciones para el descubrimiento de la transliteración". [ enlace muerto permanente ] NAACL, (2009).
  7. ^ Vasin Punyakanok, Dan Roth, Wen-tau Yih y Dav Zimak, "Etiquetado de roles semánticos mediante inferencia de programación lineal entera". Archivado el 9 de agosto de 2017 en Wayback Machine. COLING, (2004).
  8. ^ Kenji Sagae y Yusuke Miyao y Jun'ichi Tsujii, "Análisis HPSG con restricciones de dependencia superficial". ACL, (2007).
  9. ^ Pascal Denis y Jason Baldridge, "Determinación conjunta de anaforicidad y resolución de correferencia utilizando programación entera". Archivado el 21 de junio de 2010 en Wayback Machine. NAACL-HLT, (2007).
  10. ^ James Clarke y Mirella Lapata, "Inferencia global para la compresión de oraciones: un enfoque de programación lineal entera". Archivado el 10 de mayo de 2013 en la Wayback Machine Journal of Artificial Intelligence Research (JAIR), (2008).
  11. ^ Katja Filippova y Michael Strube, "Compresión de oraciones basada en árboles de dependencia". [ enlace muerto permanente ] INLG , (2008).
  12. ^ Katja Filippova y Michael Strube, "Fusión de oraciones mediante compresión de gráficos de dependencia". EMNLP , (2008).
  13. ^ Dan Goldwasser y Dan Roth, "La transliteración como optimización restringida". Archivado el 11 de agosto de 2017 en Wayback Machine. EMNLP, (2008).
  14. ^ Regina Barzilay y Mirrela Lapata, "Agregación mediante partición de conjuntos para la generación de lenguaje natural". NAACL , (2006).
  15. ^ Dan Roth y Wen-tau Yih, "Una formulación de programación lineal para inferencia global en tareas de lenguaje natural". Archivado el 25 de octubre de 2017 en Wayback Machine CoNLL , (2004).
  16. ^ Yejin Choi y Eric Breck y Claire Cardie, "Extracción conjunta de entidades y relaciones para el reconocimiento de opiniones". EMNLP , (2006).
  17. ^ André FT Martins, Noah A. Smith y Eric P. Xing, "Formulaciones concisas de programación lineal entera para análisis de dependencias". ACL, (2009).