stringtranslate.com

DesCoCat

DisCoCat (Categorical Compositional Distributional) es un marco matemático para el procesamiento del lenguaje natural que utiliza la teoría de categorías para unificar la semántica distribucional con el principio de composicionalidad . Las derivaciones gramaticales en una gramática categorial (normalmente una gramática de pregrupos ) se interpretan como mapas lineales que actúan sobre el producto tensorial de los vectores de palabras para producir el significado de una oración o un fragmento de texto. Los diagramas de cadenas se utilizan para visualizar el flujo de información y razonar sobre la semántica del lenguaje natural .

Historia

El marco fue introducido por primera vez por Bob Coecke , Mehrnoosh Sadrzadeh y Stephen Clark [1] como una aplicación de la mecánica cuántica categórica al procesamiento del lenguaje natural . Comenzó con la observación de que las gramáticas de pregrupos y los procesos cuánticos compartían una estructura matemática común: ambos forman una categoría rígida (también conocida como categoría cerrada compacta no simétrica ). Como tal, ambos se benefician de un cálculo gráfico, que permite un razonamiento puramente diagramático. Aunque la analogía con la mecánica cuántica se mantuvo informal al principio, eventualmente condujo al desarrollo del procesamiento cuántico del lenguaje natural . [2] [3] [4]

Definición

Existen múltiples definiciones de DisCoCat en la literatura, dependiendo de la elección que se haga del aspecto compositivo del modelo. Sin embargo, el denominador común entre todas las versiones existentes siempre implica una definición categórica de DisCoCat como un funtor que preserva la estructura, desde una categoría de gramática a una categoría de semántica, que generalmente codifica la hipótesis distribucional .

El artículo original [1] utilizó el producto categórico de FinVect con un pregrupo visto como una categoría posetal . Este enfoque tiene algunas deficiencias: todas las flechas paralelas de una categoría posetal son iguales, lo que significa que los pregrupos no pueden distinguir entre diferentes derivaciones gramaticales para la misma oración sintácticamente ambigua . [5] Una forma más intuitiva de decir lo mismo es que uno trabaja con diagramas en lugar de con órdenes parciales al describir la gramática.

Este problema se supera cuando se considera la categoría rígida libre generada por la gramática de pregrupo. [6] Es decir, tiene objetos generadores para las palabras y los tipos básicos de la gramática, y flechas generadoras para las entradas del diccionario que asignan un tipo de pregrupo a una palabra . Las flechas son derivaciones gramaticales para la oración que se pueden representar como diagramas de cadenas con tazas y tapas, es decir, unidades de adjunción y counits . [7]

Con esta definición de gramáticas de pregrupos como categorías rígidas libres, los modelos DisCoCat pueden definirse como funtores monoidales fuertes . Explicando las cosas en detalle, asignan un espacio vectorial de dimensión finita a cada tipo básico y un vector en el espacio de producto tensorial apropiado a cada entrada del diccionario donde (los objetos para las palabras se envían a la unidad monoidal, es decir ). El significado de una oración se da entonces mediante un vector que puede calcularse como la contracción de una red tensorial . [8]

La razón detrás de la elección de como categoría de la semántica es que los espacios vectoriales son el escenario habitual de la lectura distributiva en la lingüística computacional y el procesamiento del lenguaje natural . La idea subyacente de la hipótesis distributiva "Una palabra se caracteriza por la compañía que mantiene" es particularmente relevante cuando se asigna significado a palabras como adjetivos o verbos, cuya connotación semántica depende en gran medida del contexto.

Variaciones

Se han propuesto variaciones de DisCoCat con una elección diferente para la categoría gramatical. La motivación principal detrás de esto radica en el hecho de que se ha demostrado que las gramáticas pregrupales son débilmente equivalentes a las gramáticas independientes del contexto. [9] Un ejemplo de variación [10] elige la gramática categorial combinatoria como categoría gramatical.

Lista de fenómenos lingüísticos

El marco DisCoCat se ha utilizado para estudiar los siguientes fenómenos de la lingüística .

Aplicaciones en PNL

El marco DisCoCat se ha aplicado para resolver las siguientes tareas en el procesamiento del lenguaje natural .

Véase también

Enlaces externos

Referencias

  1. ^ ab Coecke, Bob; Sadrzadeh, Mehrnoosh; Clark, Stephen (23 de marzo de 2010). "Fundamentos matemáticos para un modelo distributivo compositivo del significado". arXiv : 1003.4394 [cs.CL].
  2. ^ Zeng, William; Coecke, Bob (2 de agosto de 2016). "Algoritmos cuánticos para el procesamiento compositivo del lenguaje natural". Actas electrónicas en informática teórica . 221 : 67–75. arXiv : 1608.01406 . doi :10.4204/EPTCS.221.8. ISSN  2075-2180. S2CID  14897915.
  3. ^ Coecke, Bob; de Felice, Giovanni; Meichanetzidis, Konstantinos; Toumi, Alexis (7 de diciembre de 2020). "Fundamentos para el procesamiento del lenguaje natural cuántico a corto plazo". arXiv : 2012.03755 [quant-ph].
  4. ^ Rai, Anshuman (31 de enero de 2022). "Un artículo de revisión sobre el procesamiento cuántico del lenguaje natural". Revista internacional de investigación en ciencia aplicada y tecnología de ingeniería . 10 (1): 1588–1594. doi : 10.22214/ijraset.2022.40103 . ISSN  2321-9653.
  5. ^ Preller, Anne (27 de diciembre de 2014). "De modelos lógicos a modelos distributivos". Actas electrónicas en informática teórica . 171 : 113–131. arXiv : 1412.8527 . doi :10.4204/EPTCS.171.11. ISSN  2075-2180. S2CID  18631267.
  6. ^ Preller, Anne; Lambek, Joachim (18 de enero de 2007). "2 categorías compactas libres". Estructuras matemáticas en informática . 17 (doi: 10.1017/S0960129506005901): 309. doi :10.1017/S0960129506005901. S2CID  10763735.
  7. ^ Selinger, Peter (2010). "Un estudio de lenguajes gráficos para categorías monoidales". Nuevas estructuras para la física . Apuntes de clases de física. Vol. 813. págs. 289–355. arXiv : 0908.3347 . doi :10.1007/978-3-642-12821-9_4. ISBN . 978-3-642-12820-2.S2CID8477212  .​
  8. ^ de Felice, Giovanni; Meichanetzidis, Konstantinos; Toumi, Alexis (15 de septiembre de 2020). "Respuesta funcional a preguntas". Actas electrónicas en informática teórica . 323 : 84–94. arXiv : 1905.07408 . doi :10.4204/EPTCS.323.6. ISSN  2075-2180. S2CID  195874109.
  9. ^ Buszkowski, Wojciech (2001). "Gramáticas de Lambek basadas en pregrupos". En la Conferencia Internacional sobre Aspectos Lógicos de la Lingüística Computacional .
  10. ^ Yeung, Richie; Kartsaklis, Dimitri (2021). "Una versión basada en CCG del marco DisCoCat". arXiv : 2105.07720 [cs.CL].
  11. ^ Sadrzadeh, Mehrnoosh; Kartsaklis, Dimitri; Balkır, Esma (2018). "Implicación de oraciones en semántica distributiva compositiva". Anales de Matemáticas e Inteligencia Artificial . 82 (4): 189–218. arXiv : 1512.04419 . doi : 10.1007/s10472-017-9570-x . S2CID  5038840.
  12. ^ Kartsaklis, Dimitri (2016). "Coordinación en semántica distributiva compositiva categórica". Actas electrónicas en informática teórica . 221 : 29–38. arXiv : 1606.01515 . doi :10.4204/EPTCS.221.4. S2CID  10842035.
  13. ^ Bankova, Dea; Coecke, Bob; Lewis, Martha; Marsden, Dan (2018). "Hiponimia graduada para semántica distributiva compositiva". Revista de modelado del lenguaje . 6 (2): 225–260.
  14. ^ Meyer, Francois; Lewis, Martha (12 de octubre de 2020). "Modelado de la ambigüedad léxica con matrices de densidad". arXiv : 2010.05670 [cs.CL].
  15. ^ Coecke, Bob; de Felice, Giovanni; Marsden, Dan; Toumi, Alexis (8 de noviembre de 2018). "Hacia un análisis distributivo compositivo del discurso". Actas electrónicas en informática teórica . 283 : 1–12. arXiv : 1811.03277 . doi : 10.4204/EPTCS.283.1 . ISSN  2075-2180.
  16. ^ Wijnholds, Gijs; Sadrzadeh, Mehrnoosh (2019). "Una semántica vectorial basada en tipos para elipsis con anáfora usando cálculo de Lambek con contracción limitada". Revista de lógica, lenguaje e información . 28 (2): 331–358. arXiv : 1905.01647 . doi : 10.1007/s10849-019-09293-4 . S2CID  146120631.
  17. ^ Bradley, Tai-Danae; Lewis, Martha; Master, Jade; Theilman, Brad (2018). "Traducción y evolución: hacia un modelo de cambio de lenguaje en DisCoCat". Actas electrónicas en informática teórica . 283 : 50–61. arXiv : 1811.11041 . doi :10.4204/EPTCS.283.4. S2CID  53775637.
  18. ^ Grefenstette, Edward; Sadrzadeh, Mehrnoosh (20 de junio de 2011). "Soporte experimental para un modelo distributivo compositivo categórico del significado". arXiv : 1106.4058 [cs.CL].
  19. ^ Kartsaklis, Dimitri; Sadrzadeh, Mehrnoosh (2013). "Desambiguación previa de tensores de palabras para construir vectores de oraciones". {{cite journal}}: Requiere citar revista |journal=( ayuda )
  20. ^ Grefenstette, Edward; Dinu, Georgiana; Zhang, Yao-Zhong; Sadrzadeh, Mehrnoosh; Baroni, Marco (30 de enero de 2013). "Aprendizaje de regresión de múltiples pasos para semántica distributiva compositiva". arXiv : 1301.6939 [cs.CL].
  21. ^ de Felice, Giovanni; Meichanetzidis, Konstantinos; Toumi, Alexis (2019). "Respuesta funcional a preguntas". Actas electrónicas en informática teórica . 323 : 84–94. arXiv : 1905.07408 . doi :10.4204/EPTCS.323.6. S2CID  195874109.
  22. ^ Tyrrell, Brian (8 de noviembre de 2018). "Aplicación de modelos categóricos composicionales distributivos de significado a la traducción de idiomas". Actas electrónicas en informática teórica . 283 : 28–49. arXiv : 1811.03274 . doi : 10.4204/EPTCS.283.3 . ISSN  2075-2180.
  23. ^ Coecke, Bob; de Felice, Giovanni; Marsden, Dan; Toumi, Alexis (8 de noviembre de 2018). "Hacia un análisis distributivo compositivo del discurso". Actas electrónicas en informática teórica . 283 : 1–12. arXiv : 1811.03277 . doi : 10.4204/EPTCS.283.1 . ISSN  2075-2180.