Gramática de árboles adyacentes

La gramática de árboles adyacentes ( TAG ) es un formalismo gramatical definido por Aravind Joshi . Las gramáticas de árboles adyacentes son algo similares a las gramáticas libres de contexto , pero la unidad elemental de reescritura es el árbol en lugar del símbolo. Mientras que las gramáticas libres de contexto tienen reglas para reescribir símbolos como cadenas de otros símbolos, las gramáticas de árboles adyacentes tienen reglas para reescribir los nodos de los árboles como otros árboles (ver árbol (teoría de grafos) y árbol (estructura de datos) ).

Historia

TAG se originó en investigaciones de Joshi y sus estudiantes sobre la familia de gramáticas de adjunción (AG), ^[1] la "gramática de cadenas" de Zellig Harris . ^[2] Las AG manejan propiedades exocéntricas del lenguaje de una manera natural y efectiva, pero no tienen una buena caracterización de las construcciones endocéntricas ; lo inverso es cierto para las gramáticas de reescritura o gramática de estructura de frase (PSG). En 1969, Joshi introdujo una familia de gramáticas que explota esta complementariedad mezclando los dos tipos de reglas. Unas pocas reglas de reescritura muy simples son suficientes para generar el vocabulario de cadenas para las reglas de adjunción. Esta familia es distinta de la jerarquía de Chomsky-Schützenberger pero la cruza de maneras interesantes y lingüísticamente relevantes. ^[3] Las cadenas centrales y las cadenas adjuntas también pueden generarse mediante una gramática de dependencia , evitando por completo las limitaciones de los sistemas de reescritura. ^[4]^[5]

Descripción

Las reglas en un TAG son árboles con un nodo de hoja especial conocido como nodo de pie , que está anclado a una palabra. Hay dos tipos de árboles básicos en TAG: árboles iniciales (a menudo representados como ' ') y árboles auxiliares (' '). Los árboles iniciales representan relaciones de valencia básicas, mientras que los árboles auxiliares permiten la recursión. ^[6] Los árboles auxiliares tienen el nodo raíz (superior) y el nodo de pie etiquetados con el mismo símbolo. Una derivación comienza con un árbol inicial, que se combina mediante sustitución o adjunción . La sustitución reemplaza un nodo de frontera con otro árbol cuyo nodo superior tiene la misma etiqueta. La etiqueta raíz/pie del árbol auxiliar debe coincidir con la etiqueta del nodo al que se une. La adjunción puede tener el efecto de insertar un árbol auxiliar en el centro de otro árbol. ^[4] ${\estilo de visualización \alpha}$ ${\estilo de visualización \beta}$

Otras variantes de TAG permiten árboles multicomponentes, árboles con múltiples nodos de pie y otras extensiones.

Complejidad y aplicación

Las gramáticas contiguas a árboles son más poderosas (en términos de capacidad generativa débil ) que las gramáticas libres de contexto , pero menos poderosas que los sistemas de reescritura lineales libres de contexto , ^[7] indexados ^{[nota 1]} o las gramáticas sensibles al contexto .

Una etiqueta puede describir el lenguaje de cuadrados (en el que se repite una cadena arbitraria) y el lenguaje . Este tipo de procesamiento se puede representar mediante un autómata de inserción incorporado . Los lenguajes con cubos (es decir, cadenas triplicadas) o con más de cuatro cadenas de caracteres distintas de igual longitud no se pueden generar mediante gramáticas de árboles adyacentes. $\{a^{n}b^{n}c^{n}d^{n}|1\leq n\}$

Por estas razones, las gramáticas que se unen a árboles suelen describirse como ligeramente sensibles al contexto . Se supone que estas clases de gramática son lo suficientemente potentes como para modelar lenguajes naturales y, al mismo tiempo, seguir siendo eficientemente analizables en el caso general. ^[8]

Equivalencias

Vijay-Shanker y Weir (1994) ^[9] demuestran que las gramáticas indexadas lineales , la gramática categorial combinatoria , las gramáticas contiguas a árboles y las gramáticas principales son formalismos débilmente equivalentes , ya que todas definen los mismos lenguajes de cadenas.

Lexicalizado

Las gramáticas lexicalizadas de árboles adyacentes (LTAG) son una variante de TAG en la que cada árbol elemental (inicial o auxiliar) está asociado a un elemento léxico. El grupo de investigación XTAG del Instituto de Investigación en Ciencias Cognitivas de la Universidad de Pensilvania ha desarrollado una gramática lexicalizada para el inglés. ^[5]

Véase también

Gramática de cadenas

Notas

^ dado que para cada gramática adyacente a un árbol, se puede encontrar una gramática indexada lineal que produzca el mismo lenguaje, ver más abajo, y para esta última, se puede encontrar a su vez una gramática indexada (adecuada) débilmente equivalente, ver Gramática indexada#Poder computacional

Referencias

^ Joshi, Aravind; SR Kosaraju; H. Yamada (1969). "String Adjunct Grammars" (Documento). Actas del Décimo Simposio Anual sobre Teoría de Autómatas, Waterloo, Canadá.Joshi, Aravind K.; Kosaraju, S. Rao; Yamada, HM (1972), "Gramáticas de cadenas adjuntas: I. Adjunción local y distribuida", Información y control , 21 (2): 93–116, doi : 10.1016/S0019-9958(72)90051-4Joshi, Aravind K.; Kosaraju, S. Rao; Yamada, HM (1972), "Gramáticas adjuntas de cadenas: II. Representación ecuacional, símbolos nulos y relevancia lingüística", Información y control , 21 (3): 235–260, doi : 10.1016/S0019-9958(72)80005-6
^ Harris, Zellig S. (1962). Análisis de cadenas de la estructura de la oración . Papers on Formal Linguistics. Vol. 1. La Haya: Mouton & Co.
^ Joshi, Aravind (1969). "Propiedades de las gramáticas formales con tipos mixtos de reglas y su relevancia lingüística" (Documento). Actas del Tercer Simposio Internacional sobre Lingüística Computacional, Estocolmo, Suecia.
^ ab Joshi, Aravind; Owen Rambow (2003). "Un formalismo para la gramática de dependencia basado en la gramática de árboles adyacentes" (PDF) . Actas de la Conferencia sobre teoría del significado del texto .
^ ab "Una gramática contigua de árbol lexicalizado para el inglés".
^ Jurafsky, Daniel ; James H. Martin (2000). Procesamiento del habla y del lenguaje . Upper Saddle River, NJ: Prentice Hall. p. 354.
^ Kallmeyer, Laura (2010). Análisis sintáctico más allá de las gramáticas independientes del contexto. Springer. Aquí: págs. 215-216
^ Joshi, Aravind (1985). "Cuánta sensibilidad al contexto es necesaria para caracterizar descripciones estructurales". En D. Dowty; L. Karttunen; A. Zwicky (eds.). Procesamiento del lenguaje natural: perspectivas teóricas, computacionales y psicológicas . Nueva York, NY: Cambridge University Press. págs. 206–250. ISBN 9780521262033.
^ Vijay-Shanker, K. y Weir, David J. 1994. La equivalencia de cuatro extensiones de gramáticas libres de contexto . Teoría de sistemas matemáticos 27(6): 511–546.

Enlaces externos

El proyecto XTAG, que utiliza una etiqueta para el procesamiento del lenguaje natural.
Un tutorial sobre TAG
Documentación de SemConst Un rápido estudio sobre la sintaxis y la interfaz semántica problemática dentro del marco TAG.
El proyecto TuLiPa La Arquitectura de Análisis Lingüístico de Tübingen (TuLiPA) es un entorno de análisis sintáctico (y semántico) de múltiples formalismos, diseñado principalmente para gramáticas contiguas a árboles de múltiples componentes con tuplas de árboles.
El kit de herramientas de metagramática proporciona varias herramientas para editar y compilar metagramáticas en etiquetas. También incluye una amplia cobertura de metagramáticas en francés.
LLP2 Un analizador gramatical con árbol lexicalizado que proporciona un entorno gráfico fácil de usar (página en francés)