stringtranslate.com

Gramática de enlaces

Gramática de enlaces (LG) es una teoría de la sintaxis de Davy Temperley y Daniel Sleator que construye relaciones entre pares de palabras, en lugar de construir constituyentes en una jerarquía de estructura de frase . La gramática de enlaces es similar a la gramática de dependencia , pero la gramática de dependencia incluye una relación dependiente de la cabeza, mientras que la gramática de enlaces hace que la relación dependiente de la cabeza sea opcional (los enlaces no necesitan indicar la dirección). [1] Colored Multiplanar Link Grammar (CMLG) es una extensión de LG que permite cruzar relaciones entre pares de palabras. [2] La relación entre palabras se indica con tipos de vínculo , haciendo así que la gramática de vínculo esté estrechamente relacionada con ciertas gramáticas categoriales .

Por ejemplo, en un idioma sujeto-verbo-objeto como el inglés, el verbo se vería hacia la izquierda para formar un vínculo de sujeto y hacia la derecha para formar un vínculo de objeto. Los sustantivos se verían hacia la derecha para completar el vínculo del sujeto o hacia la izquierda para completar el vínculo del objeto.

En un lenguaje sujeto-objeto-verbo como el persa , el verbo se vería hacia la izquierda para formar un vínculo de objeto y hacia la izquierda más distante para formar un vínculo de sujeto. Los sustantivos buscarían hacia la derecha tanto para los vínculos de sujeto como de objeto.

Descripción general

La gramática de enlaces conecta las palabras de una oración con enlaces, de forma similar a una catena . A diferencia de la catena o una gramática de dependencia tradicional , la marca de la relación de dependencia principal es opcional para la mayoría de los idiomas, y se vuelve obligatoria solo en idiomas con orden libre de palabras (como el turco , [3] [ se necesita mejor fuente ] finlandés , húngaro ) . Es decir, en inglés, la relación sujeto-verbo es "obvia", ya que el sujeto casi siempre está a la izquierda del verbo y, por lo tanto, no es necesario hacer ninguna indicación específica de dependencia. En el caso de la inversión sujeto-verbo , se emplea un tipo de vínculo distinto. Para los lenguajes de orden de palabras libre, esto ya no es válido, y un vínculo entre el sujeto y el verbo debe contener una flecha direccional explícita para indicar cuál de las dos palabras es cuál.

La gramática de enlaces también se diferencia de las gramáticas de dependencia tradicionales al permitir relaciones cíclicas entre palabras. Así, por ejemplo, puede haber enlaces que indiquen tanto el verbo principal de una oración, el sujeto principal de la oración, como un enlace entre el sujeto y el verbo. Estos tres eslabones forman así un ciclo (un triángulo, en este caso). Los ciclos son útiles para restringir lo que de otro modo podrían ser análisis ambiguos; los ciclos ayudan a "reforzar" el conjunto de análisis permitidos de una oración.

Por ejemplo, en el análisis

 +---->WV--->+  +--Wd--+-Ss-+--Pa--+ | | | |PARED IZQUIERDA corre rápido

la PARED IZQUIERDA indica el inicio de la oración o el nodo raíz. El enlace direccional WV (con flechas) apunta al verbo principal de la oración; es el vínculo Muro-Verbo. [4] El enlace Wd (dibujado aquí sin flechas) indica el sustantivo principal (el sujeto) de la oración. El tipo de enlace Wd indica que se conecta a la pared (W) y que la oración es una oración declarativa (el subtipo "d" minúscula). [5] El enlace Ss indica la relación sujeto-verbo; la "s" minúscula indica que el sujeto es singular. [6] Tenga en cuenta que los enlaces WV, Wd y Ss durante un ciclo. El enlace Pa conecta el verbo con un complemento; la "a" minúscula indica que se trata de un adjetivo predicativo en este caso. [7]

Algoritmo de análisis

El análisis se realiza de manera análoga al armado de un rompecabezas (que representa la oración analizada) a partir de piezas de un rompecabezas (que representan palabras individuales). [8] [9] Una lengua se representa mediante un diccionario o léxico , que consta de palabras y el conjunto de "formas de rompecabezas" permitidas que puede tener cada palabra. La forma está indicada por un "conector", que es de tipo enlace, y un indicador de dirección + o - que indica derecha o izquierda. Así, por ejemplo, un verbo transitivo puede tener los conectores S- y O+, lo que indica que el verbo puede formar una conexión de sujeto (" S ") a su izquierda (" - ") y una conexión de objeto (" O ") a su derecha ( " + "). De manera similar, un sustantivo común puede tener los conectores D- y S+, lo que indica que puede conectarse a un determinante de la izquierda (" D- ") y actuar como sujeto, cuando se conecta a un verbo de la derecha (" S+ "). El acto de análisis es entonces identificar que el conector S+ se puede conectar al conector S- , formando un vínculo " S " entre las dos palabras. El análisis finaliza cuando se han conectado todos los conectores.

Una palabra determinada puede tener docenas o incluso cientos de formas de rompecabezas permitidas (denominadas "disjuntas"): por ejemplo, muchos verbos pueden ser opcionalmente transitivos, lo que hace que el conector O+ sea opcional; Estos verbos también pueden llevar modificadores adverbiales ( conectores E ) que son inherentemente opcionales. Los verbos más complejos pueden tener conectores adicionales para objetos indirectos o para partículas o preposiciones . Por lo tanto, una parte del análisis también implica elegir una única disyunción única para una palabra; el análisis final debe satisfacer (conectar) todos los conectores para esa disyunción. [10]

Dependencia

Los conectores también pueden incluir indicadores h y d dependientes de la cabeza . En este caso, un conector que contiene un indicador de cabeza solo puede conectarse a un conector que contiene el indicador dependiente (o a un conector sin indicadores hd). Cuando se utilizan estos indicadores, el enlace está decorado con flechas para indicar la dirección del enlace. [9]

Una extensión reciente simplifica la especificación de conectores para idiomas que tienen pocas o ninguna restricción en el orden de las palabras, como el lituano . También hay extensiones para facilitar el soporte de idiomas con morfologías concatenativas .

Planaridad

El algoritmo de análisis también requiere que el gráfico final sea un gráfico plano , es decir, que no se crucen enlaces. [9] Esta restricción se basa en evidencia psicolingüística empírica de que, de hecho, para la mayoría de las lenguas, en casi todas las situaciones, los vínculos de dependencia realmente no se cruzan. [11] [12] Hay raras excepciones, por ejemplo en finlandés e incluso en inglés; se pueden analizar mediante gramática de enlaces solo introduciendo tipos de conectores más complejos y selectivos para capturar estas situaciones.

Costos y selección.

Los conectores pueden tener un margen de costo de punto flotante opcional , de modo que algunos sean "más baratos" de usar que otros, dando así preferencia a ciertos análisis sobre otros. [9] Es decir, el costo total del análisis es la suma de los costos individuales de los conectores que se utilizaron; el análisis más barato indica el análisis más probable. Esto se utiliza para clasificar múltiples análisis ambiguos. El hecho de que los costos sean locales para los conectores y no sean una propiedad global del algoritmo los hace esencialmente de naturaleza markoviana . [13] [14] [15] [16] [17] [18]

La asignación de una probabilidad logarítmica a los enlaces permite que la gramática de enlaces implemente la selección semántica de relaciones predicado-argumento. Es decir, ciertas construcciones, aunque sintácticamente válidas, son extremadamente improbables. De esta manera, la gramática de enlaces incorpora algunas de las ideas presentes en la gramática de operadores .

Como los costos son aditivos, se comportan como el logaritmo de la probabilidad (ya que las probabilidades logarítmicas son aditivas) o, de manera equivalente, algo así como la entropía (ya que las entropías son aditivas). Esto hace que la gramática de enlaces sea compatible con técnicas de aprendizaje automático como los modelos ocultos de Markov y el algoritmo de Viterbi , porque los costos de los enlaces corresponden a los pesos de los enlaces en las redes de Markov o las redes bayesianas .

Teoría de tipos

Los tipos de enlaces de gramática de enlaces pueden entenderse como tipos en el sentido de teoría de tipos . [9] [19] En efecto, la gramática de enlace se puede utilizar para modelar el lenguaje interno de ciertas categorías cerradas compactas (no simétricas) , como las gramáticas de pregrupo . En este sentido, la gramática de enlaces parece ser isomórfica u homomórfica con respecto a algunas gramáticas categoriales . Así, por ejemplo, en una gramática categorial la frase nominal " el chico malo " puede escribirse como

mientras que las disyunciones correspondientes en la gramática de enlaces serían

el: D+;malo: A+;chico: D- y A-;

Las reglas de contracción (reglas de inferencia) del cálculo de Lambek se pueden asignar a la conexión de conectores en la gramática de enlaces. Los indicadores direccionales + y - corresponden a las barras diagonales hacia adelante y hacia atrás de la gramática categórica. Finalmente, los nombres de una sola letra A y D pueden entenderse como etiquetas o nombres mnemotécnicos "fáciles de leer" para los tipos bastante más detallados NP/N , etc.

La distinción principal aquí es entonces que las gramáticas categóricas tienen dos constructores de tipos , las barras diagonales y las barras invertidas, que se pueden usar para crear nuevos tipos (como NP/N ) a partir de tipos base (como NP y N ). Link-grammar omite el uso de constructores de tipos y opta por definir un conjunto mucho más grande de tipos base con mnemónicos compactos y fáciles de recordar.

Ejemplos

Ejemplo 1

Un archivo de reglas básico para un lenguaje SVO podría verse así:

<determinante> D+;<sustantivo-sujeto> {D-} & S+;<sustantivo-objeto> {D-} & O-;<verbo> S- & {O+};

Así, la frase en inglés "El niño pintó un cuadro" aparecería como:

 +-----O-----+ +-D-+--S--+ +--D--+ | | | | |El niño pintó un cuadro.

Se aplican análisis similares para el chino. [20]

Ejemplo 2

Por el contrario, un archivo de reglas para un lenguaje SOV con asunto nulo podría constar de los siguientes enlaces:

<sustantivo-sujeto> S+;<sustantivo-objeto> O+;<verbo> {O-} y {S-};

Y una frase persa simple , man nAn xordam (من نان خوردم) 'Comí pan' se vería así: [21] [22] [23]

+-----S-----+ | +--O--+ | | |hombre nAn xordam

También se pueden aceptar pedidos VSO, como por ejemplo en árabe. [24]

Ejemplo 3 (morfología)

En muchas lenguas con morfología concatenativa, la raíz no juega ningún papel gramatical; la gramática está determinada por los sufijos. Así, en ruso , la oración 'вверху плыли редкие облачка' podría tener el siguiente análisis: [25] [26]

 +------------Wd-----------+---------------SIp-------- -------+ | +-------EI------+ +--------Api-------+ | | +--LLCZD-+ +-LLAQZ+ +--LLCAO-+ | | | | | | | |PARED IZQUIERDA вверху.e плы.= =ли.vnndpp ре.= =дкие.api облачк.= =а.ndnpi

Los subíndices, como '.vnndpp', se utilizan para indicar la categoría gramatical. Los enlaces primarios: Wd, EI, SIp y Api conectan entre sí los sufijos, ya que, en principio, aquí podrían aparecer otras raíces, sin alterar la estructura de la oración. El enlace Api indica el adjetivo; SIP denota inversión sujeto-verbo; La IE es un modificador. El enlace Wd se utiliza para indicar el sustantivo principal; el verbo principal no está indicado en esta oración. Los enlaces LLXXX sirven sólo para adjuntar raíces a sufijos.

Ejemplo 4 (fonología)

La gramática de enlace también puede indicar concordancia fonológica entre palabras vecinas. Por ejemplo:

 +---------Ost--------+ +------>WV------>+ +------Ds**x-----+ +----Wd---+-Ss*b-+ +--PHv-+----A----+ | | | | | |PARED IZQUIERDA that.jp es.v un concepto.abstracto.n

Aquí, el conector 'PH' se utiliza para restringir los determinantes que pueden aparecer antes de la palabra 'abstracto'. Efectivamente bloquea (lo hace costoso) el uso del determinante 'a' en esta oración, mientras que el vínculo a 'an' se vuelve barato. Los otros enlaces son más o menos como en ejemplos anteriores: S denota sujeto, O denota objeto, D denota determinante. El enlace 'WV' indica el verbo principal y el enlace 'W' indica el sustantivo principal. Las letras minúsculas que siguen a los tipos de enlaces en mayúsculas sirven para refinar el tipo; así, por ejemplo, Ds sólo puede conectarse a un sustantivo singular; Ss sólo a un sujeto singular, Os a un objeto singular. La v minúscula en PHv denota 'vocal'; la d minúscula en Wd denota una oración declarativa.

Ejemplo 5 (vietnamita)

La frase en vietnamita "Bữa tiệc hôm qua là một thành công lớn" - "La fiesta de ayer fue un gran éxito" puede analizarse de la siguiente manera: [27]

Implementaciones

El analizador de sintaxis gramatical de enlaces es una biblioteca para el procesamiento del lenguaje natural escrita en C. Está disponible bajo la licencia LGPL . El analizador [29] es un proyecto en curso. Las versiones recientes incluyen cobertura de oraciones mejorada, compatibilidad con los idiomas ruso, persa y árabe, prototipos para alemán, hebreo, lituano, vietnamita y turco, y API de programación para Python , Java , Common LISP , AutoIt y OCaml , con enlaces de terceros para Perl . [30] Ruby [31 ] y JavaScript node.js. [32]

Una de las principales iniciativas actuales es un proyecto para aprender la gramática y la morfología de nuevos idiomas, utilizando algoritmos de aprendizaje no supervisados. [33] [34]

El programa analizador de enlaces junto con reglas y listas de palabras para inglés se pueden encontrar en distribuciones estándar de Linux , por ejemplo, como un paquete Debian , aunque muchos de ellos tienen años de desactualización. [35]

Aplicaciones

AbiWord comprueba la gramática utilizando la gramática de enlaces

AbiWord , [29] un procesador de textos gratuito , utiliza gramática de enlaces para la revisión gramatical sobre la marcha. Las palabras que no se pueden vincular a ningún lugar están subrayadas en verde.

El extractor de relaciones semánticas RelEx, [36] colocado encima de la biblioteca de gramática de enlaces, genera una salida de gramática de dependencia al hacer explícitas las relaciones semánticas entre las palabras de una oración. Su resultado se puede clasificar en un nivel entre el de SSyntR y el DSyntR de la teoría del texto del significado . También proporciona encuadre/conexión a tierra, resolución de anáforas , identificación de palabras principales, fragmentación léxica , identificación de partes del discurso y etiquetado, incluido el etiquetado de entidad, fecha, dinero, género, etc. Incluye un modo de compatibilidad para generar resultados de dependencia compatibles con el analizador de Stanford [37] y el etiquetado de POS compatible con Penn Treebank [38] .

La gramática de enlaces también se ha empleado para la extracción de información de textos biomédicos [39] [40] y eventos descritos en artículos de noticias, [41] así como sistemas experimentales de traducción automática del inglés al alemán, turco e indonesio. [42] y persa . [43] [44]

El diccionario de enlaces de gramática de enlaces se utiliza para generar y verificar la corrección sintáctica de tres sistemas diferentes de generación de lenguaje natural : NLGen, [45] NLGen2 [46] y microplanner/surreal. [47] También se utiliza como parte del proceso de PNL en el proyecto OpenCog AI.

Notas

  1. ^ ab Daniel Sleator (8 de septiembre de 2004). "Bibliografía de gramática de enlaces". cmu.edu . Consultado el 28 de agosto de 2023 .
  2. ^ Anssi Yli-Jyrä y Matti Nykänen (2004). "Una jerarquía de gramáticas de dependencia ligeramente sensibles al contexto" (PDF) . En GP Gerhard Jäger, Paola Monachesi y S. Wintner (ed.). Actas del IX Congreso de Gramática Formal 2004 "FGNancy". Procedimientos previos . págs. 151-165.
  3. ^ Özlem İstek (2006). Una gramática de enlace para el turco (PDF) (tesis de maestría). Ankara, Turquía: Universidad Bilkent . Consultado el 23 de agosto de 2023 .
  4. ^ Tipo de enlace WV
  5. ^ Tipo de enlace W
  6. ^ Tipo de enlace S
  7. ^ Tipo de enlace P
  8. ^ Daniel DK Sleator; Davy Temperley (1991). "Análisis del inglés con una gramática de enlaces". arXiv : cmp-lg/9508004 .
  9. ^ abcde Introducción al analizador gramatical de enlaces
  10. ^ Dennis Grinberg; John Lafferty; Daniel Sleator (1995). Un algoritmo de análisis robusto para gramática de enlaces (PDF) . Actas del Cuarto Taller Internacional sobre Tecnologías de Análisis, Praga . Consultado el 28 de agosto de 2023 .
  11. ^ J. Havelka (2007). Más allá de la proyectividad: evaluación multilingüe de restricciones y medidas sobre estructuras no proyectivas . Actas de la 45ª Reunión Anual de la Asociación de Lingüística Computacional. Praga, República Checa: Asociación de Lingüística Computacional. págs. 608–615.
  12. R. Ferrer i Cancho (2006). "¿Por qué los enlaces sintácticos no se cruzan?". EPL . 76 (6): 1228-1234. Código Bib : 2006EL..... 76.1228C. doi :10.1209/epl/i2006-10406-0. hdl : 2117/180367 .
  13. ^ John Lafferty; Daniel Sleator; Davey Temperley (1992). Trigramas gramaticales: un modelo probabilístico de gramática de enlaces (PDF) . Actas de la Conferencia AAAI sobre enfoques probabilísticos del lenguaje natural.
  14. _Ramón Ferrer-i-Cancho (2013). "Hubidad, longitud, cruces y sus relaciones en árboles de dependencia". arXiv : 1304.4086 [cs.CL].
  15. ^ D. Temperley (2008). "Minimización de la longitud de la dependencia en lenguajes naturales y artificiales". Revista de Lingüística Cuantitativa . 15 (3): 256–282. doi :10.1080/09296170802159512.
  16. ^ E. Gibson (2000). "La teoría de la localidad de dependencia: una teoría de la complejidad lingüística basada en la distancia". En Marantz, A.; Miyashita, Y.; O'Neil, W. (eds.). Imagen, lenguaje, cerebro: artículos del primer simposio del Proyecto de articulación mental . Cambridge, MA: MIT Press.
  17. ^ Haitao Liu (2008). "Distancia de dependencia como métrica de dificultad de comprensión del lenguaje" (PDF) . Revista de ciencia cognitiva . 9 (2): 159-191. doi :10.17791/jcs.2008.9.2.159.
  18. ^ Richard Futrell; Kyle Mahowald; Edward Gibson (2015). "Evidencia a gran escala de minimización de la duración de la dependencia en 37 idiomas". PNAS . 112 (33): 10336–10341. Código Bib : 2015PNAS..11210336F. doi : 10.1073/pnas.1502134112 . PMC 4547262 . PMID  26240370. 
  19. ^ Daniel Sleator; Davey Temperley (1993). Análisis de inglés con gramática de enlace (PDF) . Tercer Taller Internacional sobre Tecnologías de Análisis.(Ver la sección 6 sobre gramática categorial).
  20. ^ Carol Liu (2001). "Hacia una gramática vinculante para el chino". Procesamiento informático de lenguas chinas y orientales . Sociedad de Computación del Idioma Chino.
  21. ^ Juan Dehdari; Deryle Lonsdale (2005). "Una gramática de vínculos para persa" (PDF) . Ohio-state.edu . Archivado desde el original (PDF) el 3 de diciembre de 2008.
  22. ^ Armin Sajadi; A. Abdollahzadeh (2006). "Análisis sintáctico farsi mediante gramática de enlaces" (PDF) . Carta del Centro de Investigación de Procesamiento Inteligente de Señales (en persa). 1 (9): 25–37. Archivado desde el original (PDF) el 1 de abril de 2014.
  23. ^ A. Sajadi; M. Homayounpour (2006). "Representación del conocimiento morfológico farsi mediante gramática de enlaces". Carta del Centro de Investigación de Procesamiento Inteligente de Señales (en persa). 1 (9): 41–55.
  24. ^ Warren Casbeer; Jon Dehdari; Deryle Lonsdale (marzo de 2006). Un analizador de gramática de enlaces para árabe (PDF) . Perspectivas sobre la lingüística árabe: artículos del simposio anual sobre lingüística árabe. vol. XX. Kalamazoo, Míchigan. Archivado desde el original (PDF) el 12 de mayo de 2014.
  25. ^ Документация по связям и по классам слов доступна.
  26. ^ Грамматика связей (Gramática de enlaces)
  27. ^ Nguyễn Thị Thu Hương, Nguyễn Thúc Hải, Nguyễn Thanh Thủy "Análisis complejo: oraciones compuestas con una extensión del analizador de enlaces vietnamita combinado con un segmentador de discurso" Journal of Computer Science and Cybernetics , Vol 28 , No 4 (2012)
  28. ^ www.abisource.com/downloads/link-grammar/
  29. ^ Lingua-LinkParser (interfaces Perl)
  30. ^ "Interfaces de Ruby Link Parser". Archivado desde el original el 4 de marzo de 2016 . Consultado el 1 de febrero de 2019 .
  31. ^ biblioteca javaScript node.js
  32. ^ Aprendizaje de idiomas OpenCog
  33. ^ Aprender un idioma a partir de un corpus grande (sin anotaciones)
  34. ^ Debian - Resultados de la búsqueda de paquetes - gramática de enlaces
  35. ^ "Extractor de relaciones de dependencia RelEx". Archivado desde el original el 28 de julio de 2009 . Consultado el 21 de noviembre de 2013 .
  36. ^ The Stanford Parser: un analizador estadístico
  37. ^ El proyecto Penn Treebank Archivado el 9 de noviembre de 2013 en la Wayback Machine.
  38. ^ Jingding; Daniel Berleant; Jun Xu; Andy W. Fulmer (noviembre de 2003). "Extracción de interacciones bioquímicas de MEDLINE mediante un analizador gramatical de enlaces" (PDF) . Actas de la Decimoquinta Conferencia IEEE sobre Herramientas con Inteligencia Artificial (ICTAI), 2003 . págs. 467–471. ISBN 0-7695-2038-3. Archivado desde el original (PDF) el 31 de marzo de 2011 . Consultado el 27 de agosto de 2023 .
  39. ^ Sampo Pyysalo, Tapio Salakoski, Sophie Aubin y Adeline Nazarenko, "Adaptación léxica de la gramática de enlace al sublenguaje biomédico: una evaluación comparativa de tres enfoques", BMC Bioinformatics 7 (Suplemento 3): S2 (2006).
  40. ^ Harsha V. Madhyastha; N. Balakrishnan; KR Ramakrishnan (2003). "Extracción de información de eventos mediante gramática de enlaces". 13º Taller Internacional sobre Temas de Investigación en Ingeniería de Datos: Gestión de la Información Multilingüe (RIDE'03) . pag. 16. doi : 10.1109/RIDE.2003.1249841.
  41. ^ Teguh Bharata Adji; Baharum Baharudin; Norshuhani Zamin (2008). "Aplicación del formalismo gramatical de enlaces en el desarrollo del sistema de traducción automática inglés-indonesio". Matemáticas informáticas inteligentes, novena conferencia internacional, AISC 2008, decimoquinto simposio, Calculemus 2008, séptima conferencia internacional, Birmingham, Reino Unido, actas . págs. 17-23. doi :10.1007/978-3-540-85110-3_3.
  42. ^ A.Sajadi y MR Borujerdi, "Traducción automática utilizando gramática de enlaces", enviado al Journal of Computational Linguistics , MIT Press (febrero de 2009)
  43. ^ Sajadi, A., Borujerdi, M. "Traducción automática basada en gramática de enlaces de unificación" Journal of Artificial Intelligence Review . DOI=10.1007/s10462-011-9261-7, páginas 109-132, 2013.
  44. ^ Ruiting Lian, et al , "Generación de oraciones para cerebros artificiales: un enfoque de coincidencia de similitud glocal", Neurocomputing (Elsevier) (2009, presentado para publicación).
  45. ^ Blake Lemoine, NLGen2: un sistema de generación de lenguaje natural de propósito general y lingüísticamente plausible (2009)
  46. ^ Microplanificador y Realización de Superficies (SuReal)

enlaces externos

Extensiones de idioma