Formalismo gramatical ligeramente sensible al contexto

En lingüística computacional , el término formalismos gramaticales ligeramente sensibles al contexto se refiere a varios formalismos gramaticales que se han desarrollado en un esfuerzo por proporcionar descripciones adecuadas de la estructura sintáctica del lenguaje natural .

Cada formalismo gramatical ligeramente sensible al contexto define una clase de gramáticas ligeramente sensibles al contexto (las gramáticas que se pueden especificar en el formalismo) y, por lo tanto, también una clase de lenguajes ligeramente sensibles al contexto (los lenguajes formales generados por las gramáticas).

Fondo

En 1985, varios investigadores en lingüística descriptiva y matemática habían aportado pruebas en contra de la hipótesis de que la estructura sintáctica del lenguaje natural puede describirse adecuadamente mediante gramáticas libres de contexto . ^[1]^[2] Al mismo tiempo, el paso al siguiente nivel de la jerarquía de Chomsky , a las gramáticas sensibles al contexto , parecía innecesario e indeseable. En un intento de señalar con precisión el poder formal exacto necesario para la descripción adecuada de la sintaxis del lenguaje natural, Aravind Joshi caracterizó "gramáticas (y lenguajes asociados ) que son sólo ligeramente más potentes que las gramáticas libres de contexto (lenguajes libres de contexto)". ^[3] Llamó a estas gramáticas gramáticas ligeramente sensibles al contexto y a los lenguajes asociados lenguajes ligeramente sensibles al contexto .

La caracterización de Joshi de las gramáticas ligeramente sensibles al contexto estaba sesgada hacia su trabajo sobre la gramática de árboles adyacentes (TAG). Sin embargo, junto con sus estudiantes Vijay Shanker y David Weir, Joshi pronto descubrió que las TAG son equivalentes, en términos de los lenguajes de cadenas generados, a la gramática de cabeza introducida independientemente (HG). ^[4] A esto le siguieron dos resultados de equivalencia similares, para la gramática indexada lineal (LIG) ^[5] y la gramática categorial combinatoria (CCG), ^[6] que mostraron que la noción de sensibilidad al contexto leve es muy general y no está vinculada a un formalismo específico.

Los formalismos equivalentes a TAG se generalizaron con la introducción de los sistemas de reescritura lineales libres de contexto (LCFRS). ^[7]^[8] Estas gramáticas definen una jerarquía infinita de lenguajes de cadenas entre los lenguajes libres de contexto y los sensibles al contexto, con los lenguajes generados por los formalismos equivalentes a TAG en el extremo inferior ^{[ aclaración necesaria ]} de la jerarquía. Independientemente y casi simultáneamente con LCFRS, Hiroyuki Seki et al. propusieron el formalismo esencialmente idéntico de gramática libre de contexto múltiple (MCFG). ^[9] LCFRS/MCFG a veces se considera el formalismo más general para especificar gramáticas ligeramente sensibles al contexto. Sin embargo, varios autores han notado que algunas de las propiedades características de los formalismos equivalentes a TAG no se conservan con LCFRS/MCFG, ^[10] y que hay lenguajes que tienen las propiedades características de una ligera sensibilidad al contexto pero no se generan con LCFRS/MCFG. ^[11]

En los últimos años ha aumentado el interés en la clase restringida de sistemas de reescritura lineal libre de contexto bien anidados /gramáticas libres de contexto múltiples, ^[10]^[12] que definen una clase de gramáticas que incluye adecuadamente los formalismos equivalentes a TAG pero que está incluida adecuadamente en la jerarquía LCFRS/MCFG sin restricciones.

Caracterización

A pesar de la considerable cantidad de trabajo sobre el tema, no existe una definición formal generalmente aceptada de sensibilidad contextual leve.

Según la caracterización original de Joshi, ^[3] una clase de gramáticas ligeramente sensibles al contexto debería tener las siguientes propiedades:

Dependencias entre series limitadas
crecimiento constante
análisis de polinomios

Además de esto, se entiende que cada clase de gramáticas ligeramente sensibles al contexto debería poder generar todos los lenguajes libres de contexto.

La caracterización de Joshi no es una definición formal. Él señala: ^[3]

Esta es sólo una caracterización aproximada porque las condiciones 1 y 3 dependen de las gramáticas, mientras que la condición 2 depende de los idiomas; además, la condición 1 debe especificarse con mucha más precisión de lo que lo he hecho hasta ahora.

Otros autores han propuesto caracterizaciones alternativas de la sensibilidad moderada al contexto, algunas de las cuales adoptan la forma de definiciones formales. Por ejemplo, Laura Kallmeyer ^[13] adopta la perspectiva de que la sensibilidad moderada al contexto debería definirse como una propiedad de las clases de lenguajes en lugar de, como en la caracterización de Joshi, de las clases de gramáticas. Esta definición basada en el lenguaje conduce a una noción del concepto diferente a la de Joshi.

Dependencias entre series

El término dependencias entre series se refiere a ciertos patrones característicos de ordenamiento de palabras, en particular a los patrones verbo-argumento observados en las cláusulas subordinadas en holandés ^{[1] y alemán suizo}^[2] . Estos son los mismos patrones que se pueden usar para argumentar en contra de la independencia de contexto del lenguaje natural; por lo tanto, requerir gramáticas ligeramente sensibles al contexto para modelar las dependencias entre series significa que estas gramáticas deben ser más poderosas que las gramáticas libres de contexto.

Kallmeyer ^[13] identifica la capacidad de modelar dependencias entre series con la capacidad de generar el lenguaje de copia.

${\mathit {COPIA}}=\{\,ww\mid w\in \{a,b\}^{*}\,\}$

y sus generalizaciones a dos o más copias de w , hasta cierto límite. Estos lenguajes no son libres de contexto, lo que se puede demostrar utilizando el lema de bombeo .

Crecimiento constante

Un lenguaje formal es de crecimiento constante si cada cadena de caracteres que lo compone es más larga que la cadena siguiente más corta, como máximo en una constante (específica del lenguaje). Los lenguajes que violan esta propiedad suelen considerarse que están más allá de la capacidad humana, aunque algunos autores han argumentado que ciertos fenómenos del lenguaje natural sí muestran un crecimiento que no puede limitarse mediante una constante. ^[14]

La mayoría de los formalismos gramaticales ligeramente sensibles al contexto (en particular, LCFRS/MCFG) en realidad satisfacen una propiedad más fuerte que el crecimiento constante llamada semilinealidad . ^[7] Un lenguaje es semilineal si su imagen bajo la función Parikh (la función que "olvida" la posición relativa de los símbolos en una cadena, tratándola efectivamente como una bolsa de palabras) es un lenguaje regular . Todos los lenguajes semilineales son de crecimiento constante, pero no todos los lenguajes con crecimiento constante son semilineales. ^[11]

Análisis sintáctico de polinomios

Se dice que un formalismo gramatical tiene análisis polinomial si su problema de pertenencia se puede resolver en tiempo polinomial determinista . Este es el problema para decidir, dada una gramática G escrita en el formalismo y una cadena w , si w es generado por G – es decir, si w es "gramatical" según G . La complejidad temporal de este problema se mide en términos del tamaño combinado de G y w .

Desde el punto de vista de la sensibilidad moderada al contexto como propiedad de las clases de lenguajes, el análisis sintáctico polinomial se refiere al problema de pertenencia al lenguaje. Este es el problema para decidir, para un lenguaje fijo L , si una cadena dada w pertenece a L . La complejidad temporal de este problema se mide en términos de la longitud de w ; ignora la cuestión de cómo se especifica L .

Obsérvese que ambas concepciones del análisis sintáctico polinomial son idealizaciones en el sentido de que para aplicaciones prácticas uno está interesado no sólo en la pregunta de sí o no sobre si una oración es gramatical, sino también en la estructura sintáctica que la gramática asigna a la oración.

Formalismos

A lo largo de los años, se han introducido una gran cantidad de formalismos gramaticales que satisfacen algunas o todas las propiedades características propuestas por Joshi. Varios de ellos tienen caracterizaciones alternativas basadas en autómatas que no se analizan en este artículo; por ejemplo, los lenguajes generados por gramáticas de contigüidad de árboles se pueden caracterizar mediante autómatas de inserción incorporados .

Formalismos equivalentes a TAG

Gramática de árboles adyacentes (TAG) ^[3]
Gramática de la cabeza (HG) ^[15]^[16]
Gramática lineal indexada (LIG) ^[17]
Gramática categorial combinatoria (CCG) ^[6]
LCFRS/MCFG bien anidados de abanico 2

Formalismos equivalentes al LCFRS/MCFG general

Sistemas de reescritura lineal libre de contexto (LCFRS) ^[7]^[8]
Gramáticas múltiples libres de contexto (MCFG) ^[9]
Gramáticas de árboles contiguos multicomponentes (MCTAG) ^[7]
Gramáticas minimalistas (MG) ^[18]
Gramáticas de concatenación de rango positivo (sRCG) simples (lineales, sin borrado, no combinatorias) ^[19]

Formalismos equivalentes a LCFRS/MCFG bien anidados

Gramáticas macro no duplicativas ^[20]
Gramáticas acopladas libres de contexto (CCFG) ^[21]
Sistemas de reescritura lineales libres de contexto bien anidados ^[12]
Gramáticas libres de contexto múltiples bien anidadas ^[10]

Relaciones entre los formalismos

Los sistemas de reescritura lineal libre de contexto/múltiples gramáticas libres de contexto forman una jerarquía bidimensional de poder generativo con respecto a dos parámetros específicos de la gramática llamados fan-out y rango . ^[22] Más precisamente, los idiomas generados por LCFRS/MCFG con fan-out $f \geq 1$ y rango $r \geq 3$ se incluyen adecuadamente en la clase de idiomas generados por LCFRS/MCFG con rango $r + 1$ y fan-out f , así como en la clase de idiomas generados por LCFRS/MCFG con rango r y fan-out $f + 1$ . En presencia de una buena anidación, esta jerarquía colapsa a una jerarquía unidimensional con respecto a fan-out; Esto se debe a que cada LCFRS/MCFG bien anidado se puede transformar en un LCFRS/MCFG bien anidado equivalente con el mismo abanico de salida y rango 2. ^[10]^[12] Dentro de la jerarquía LCFRS/MCFG, los lenguajes libres de contexto se pueden caracterizar por las gramáticas con abanico de salida 1; para este abanico de salida no hay diferencia entre gramáticas generales y bien anidadas. Los formalismos equivalentes a TAG se pueden caracterizar como LCFRS/MCFG bien anidados de abanico de salida 2.

Véase también

Referencias

^ ab Riny Huybregts. "La débil insuficiencia de las gramáticas de estructura de frases libres de contexto". En Ger de Haan, Mieke Trommelen y Wim Zonneveld, editores, Van periferie naar kern , páginas 81–99. Foris, Dordrecht, Países Bajos, 1984.
^ por Stuart M. Shieber. "Evidencia contra la independencia de contexto del lenguaje natural". Lingüística y filosofía , 8(3):333–343, 1985.
^ abcd Aravind K. Joshi. "Gramáticas contiguas a árboles: ¿cuánta sensibilidad al contexto se requiere para proporcionar descripciones estructurales razonables?". En David R. Dowty, Lauri Karttunen y Arnold M. Zwicky, editores, Natural Language Parsing , páginas 206-250. Cambridge University Press, 1985.
^ David J. Weir, K. Vijay-Shanker y Aravind K. Joshi. "La relación entre las gramáticas adyacentes a árboles y las gramáticas principales". En Actas de la 24.ª reunión anual de la Asociación de Lingüística Computacional (ACL) , páginas 67-74, Nueva York, EE. UU., 1986.
^ K. Vijay-Shanker. "Un estudio de gramáticas adyacentes a árboles". Tesis doctoral, Universidad de Pensilvania, Filadelfia, EE.UU., 1987.
^ ab David J. Weir y Aravind K. Joshi. "Gramáticas categóricas combinatorias: poder generativo y relación con los sistemas de reescritura lineales libres de contexto". En Actas de la 26.ª reunión anual de la Asociación de Lingüística Computacional (ACL) , páginas 278-285, Buffalo, EE. UU., 1988.
^ abcd K. Vijay-Shanker, David J. Weir y Aravind K. Joshi. "Caracterización de descripciones estructurales producidas por diversos formalismos gramaticales". En Actas de la 25.ª reunión anual de la Asociación de Lingüística Computacional (ACL) , páginas 104-111, Stanford, CA, EE. UU., 1987.
^ de David J. Weir. "Caracterización de formalismos gramaticales ligeramente sensibles al contexto". Tesis doctoral, Universidad de Pensilvania, Filadelfia, EE. UU., 1988.
^ ab Hiroyuki Seki, Takashi Matsumura, Mamoru Fujii y Tadao Kasami. "Sobre gramáticas múltiples libres de contexto". Theoretical Computer Science , 88(2):191–229, 1991.
^ abcd Makoto Kanazawa. "El lema de bombeo para lenguajes múltiples libres de contexto y bien anidados". En Developments in Language Theory. 13.ª Conferencia Internacional, DLT 2009, Stuttgart, Alemania, 30 de junio–3 de julio de 2009. Proceedings , volumen 5583 de Lecture Notes in Computer Science , páginas 312–325, 2009.
^ por Laura Kallmeyer. "Sobre la reescritura no lineal ligeramente sensible al contexto". Investigación sobre lenguaje y computación , 8(4):341–363, 2010.
^ abc Carlos Gómez-Rodríguez, Marco Kuhlmann y Giorgio Satta. "Análisis sintáctico eficiente de sistemas de reescritura lineales libres de contexto bien anidados". En Proceedings of Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL) , páginas 276–284, Los Ángeles, EE. UU., 2010.
^ de Laura Kallmeyer. Análisis más allá de las gramáticas libres de contexto . Springer, 2010.
^ Jens Michaelis y Marcus Kracht. "Semilinearity as a Syntactic Invariant". En Logical Aspects of Computational Linguistics. First International Conference, LACL 1996, Nancy, Francia, 23-25 de septiembre de 1996. Selected Papers , volumen 1328 de Lecture Notes in Computer Science , páginas 329-345. Springer, 1997.
^ Carl J. Pollard . "Gramáticas generalizadas de estructura sintáctica, gramáticas básicas y lenguaje natural". Tesis doctoral, Universidad de Stanford, 1984.
^ Kelly Roach. "Propiedades formales de las gramáticas de la cabeza". En Alexis Manaster-Ramer, editor, Mathematics of Language , páginas 293–347. John Benjamins, 1987.
^ Gerald Gazdar. "Aplicabilidad de las gramáticas indexadas al lenguaje natural". En Uwe Reyle y Christian Rohrer, editores, Análisis del lenguaje natural y teorías lingüísticas , páginas 69-94. D. Reidel, 1987.
^ Jens Michaelis. "El minimalismo derivacional es ligeramente sensible al contexto". En Logical Aspects of Computational Linguistics, Third International Conference, LACL 1998, Grenoble, Francia, 14-16 de diciembre de 1998, Selected Papers , volumen 2014 de Lecture Notes in Computer Science , páginas 179-198. Springer, 1998.
^ Pierre Boullier. "Range Concatenation Grammars". En Harry C. Bunt, John Carroll y Giorgio Satta, editores, New Developments in Parsing Technology , volumen 23 de Text, Speech and Language Technology , páginas 269-289. Kluwer Academic Publishers, 2004.
^ Michael J. Fischer. "Gramáticas con producciones similares a las macro". En el Noveno Simposio Anual sobre Teoría de la Conmutación y los Autómatas , páginas 131-142, Schenectady, NY, EE. UU., 1968.
^ Günter Hotz y Gisela Pitsch. "Sobre el análisis sintáctico de lenguajes acoplados e independientes del contexto". Theoretical Computer Science , 161(1–2):205–233, 1996.
^ Owen Rambow y Giorgio Satta. "Una jerarquía bidimensional para sistemas de reescritura en paralelo". Informe técnico IRCS-94-02, Universidad de Pensilvania, Filadelfia, EE. UU., 1994.