Formalismo gramatical ligeramente sensible al contexto

En lingüística computacional , el término formalismos gramaticales ligeramente sensibles al contexto se refiere a varios formalismos gramaticales que se han desarrollado en un esfuerzo por proporcionar descripciones adecuadas de la estructura sintáctica del lenguaje natural .

Cada formalismo gramatical levemente sensible al contexto define una clase de gramáticas levemente sensibles al contexto (las gramáticas que se pueden especificar en el formalismo) y, por lo tanto, también una clase de lenguajes levemente sensibles al contexto (los lenguajes formales generados por las gramáticas).

Fondo

En 1985, varios investigadores en lingüística descriptiva y matemática habían proporcionado evidencia en contra de la hipótesis de que la estructura sintáctica del lenguaje natural puede describirse adecuadamente mediante gramáticas libres de contexto . ^[1]^[2] Al mismo tiempo, el paso al siguiente nivel de la jerarquía de Chomsky , a las gramáticas sensibles al contexto , parecía innecesario e indeseable. En un intento por señalar el poder formal exacto requerido para la descripción adecuada de la sintaxis del lenguaje natural, Aravind Joshi caracterizó "gramáticas (y lenguajes asociados ) que son sólo un poco más poderosas que las gramáticas libres de contexto (lenguajes libres de contexto)". ^[3] Llamó a estas gramáticas gramáticas levemente sensibles al contexto y a los lenguajes asociados lenguajes levemente sensibles al contexto .

La caracterización de Joshi de gramáticas levemente sensibles al contexto estaba sesgada hacia su trabajo sobre gramática contigua a árboles (TAG). Sin embargo, junto con sus alumnos Vijay Shanker y David Weir, Joshi pronto descubrió que los TAG son equivalentes, en términos de los lenguajes de cadenas generados, a la gramática principal (HG) introducida de forma independiente. ^[4] A esto le siguieron dos resultados de equivalencia similares, para la gramática indexada lineal (LIG) ^[5] y la gramática categorial combinatoria (CCG), ^[6] que mostraron que la noción de sensibilidad leve al contexto es muy general y no ligado a un formalismo específico.

Los formalismos equivalentes a TAG se generalizaron mediante la introducción de sistemas de reescritura lineales libres de contexto (LCFRS). ^[7]^[8] Estas gramáticas definen una jerarquía infinita de lenguajes de cadenas entre los lenguajes libres de contexto y los sensibles al contexto, con los lenguajes generados por los formalismos equivalentes a TAG en el extremo inferior ^{[ se necesita aclaración ]} de la jerarquía. Independientemente y casi simultáneamente con LCFRS, Hiroyuki Seki et al. propuso el formalismo esencialmente idéntico de la gramática libre de contexto múltiple (MCFG). ^[9] LCFRS/MCFG a veces se considera el formalismo más general para especificar gramáticas ligeramente sensibles al contexto. Sin embargo, varios autores han observado que algunas de las propiedades características de los formalismos equivalentes a TAG no se conservan mediante LCFRS/MCFG, ^[10] y que hay lenguajes que tienen las propiedades características de una leve sensibilidad al contexto pero que no son generados por LCFRS. /MCFG. ^[11]

En los últimos años se ha observado un mayor interés en la clase restringida de sistemas de reescritura lineales libres de contexto bien anidados /gramáticas múltiples libres de contexto, ^[10]^[12] que definen una clase de gramáticas que incluye adecuadamente los formalismos equivalentes a TAG pero que es apropiadamente incluidos en la jerarquía LCFRS/MCFG sin restricciones.

Caracterización

A pesar de una cantidad considerable de trabajo sobre el tema, no existe una definición formal generalmente aceptada de sensibilidad leve al contexto.

Según la caracterización original de Joshi, ^[3] una clase de gramáticas ligeramente sensibles al contexto debería tener las siguientes propiedades:

dependencias entre series limitadas
crecimiento constante
análisis polinomial

Además de esto, se entiende que cada clase de gramáticas ligeramente sensibles al contexto debería poder generar todos los lenguajes libres de contexto.

La caracterización de Joshi no es una definición formal. Él señala: ^[3]

Esta es sólo una caracterización aproximada porque las condiciones 1 y 3 dependen de las gramáticas, mientras que la condición 2 depende de los idiomas; Además, la condición 1 debe especificarse con mucha más precisión de lo que lo he hecho hasta ahora.

Otros autores han propuesto caracterizaciones alternativas de sensibilidad leve al contexto, algunas de las cuales toman la forma de definiciones formales. Por ejemplo, Laura Kallmeyer ^[13] adopta la perspectiva de que una leve sensibilidad al contexto debería definirse como una propiedad de clases de lenguas en lugar de, como en la caracterización de Joshi, clases de gramáticas. Esta definición basada en el lenguaje conduce a una noción del concepto diferente a la de Joshi.

Dependencias entre series

El término dependencias entre series se refiere a ciertos patrones característicos de ordenación de palabras, en particular a los patrones verbo-argumento observados en cláusulas subordinadas en holandés ^[1] y alemán suizo. ^[2] Estos son los mismos patrones que pueden usarse para argumentar en contra de la libertad de contexto del lenguaje natural; por lo tanto, requerir gramáticas levemente sensibles al contexto para modelar dependencias entre series significa que estas gramáticas deben ser más poderosas que las gramáticas libres de contexto.

Kallmeyer ^[13] identifica la capacidad de modelar dependencias entre series con la capacidad de generar el lenguaje de copia.

${\mathit {COPY}}=\{\,ww\mid w\in \{a,b\}^{*}\,\}$

y sus generalizaciones a dos o más copias de w , hasta cierto límite. Estos lenguajes no están libres de contexto, lo que se puede demostrar usando el lema de bombeo .

Crecimiento constante

Un lenguaje formal tiene un crecimiento constante si cada cadena del idioma es más larga que las siguientes cadenas más cortas en como máximo una constante (específica del idioma). A menudo se considera que los lenguajes que violan esta propiedad están más allá de la capacidad humana, aunque algunos autores han argumentado que ciertos fenómenos en el lenguaje natural muestran un crecimiento que no puede limitarse a una constante. ^[14]

La mayoría de los formalismos gramaticales levemente sensibles al contexto (en particular, LCFRS/MCFG) en realidad satisfacen una propiedad más fuerte que el crecimiento constante llamada semilinealidad . ^[7] Un lenguaje es semilineal si su imagen bajo el mapeo Parikh (el mapeo que "olvida" la posición relativa de los símbolos en una cadena, tratándolo efectivamente como una bolsa de palabras) es un lenguaje regular . Todos los lenguajes semilineales son de crecimiento constante, pero no todos los lenguajes con crecimiento constante son semilineales. ^[11]

Análisis polinómico

Se dice que un formalismo gramatical tiene análisis polinomial si su problema de membresía puede resolverse en tiempo polinomial determinista . Este es el problema de decidir, dada una gramática G escrita en el formalismo y una cadena w , si w es generado por G – es decir, si w es "gramatical" según G . La complejidad temporal de este problema se mide en términos del tamaño combinado de G y w .

Desde el punto de vista de la leve sensibilidad al contexto como una propiedad de las clases de idiomas, el análisis polinomial se refiere al problema de pertenencia al idioma. Este es el problema de decidir, para un lenguaje fijo L , si una cadena determinada w pertenece a L. La complejidad temporal de este problema se mide en términos de la longitud de w ; ignora la pregunta de cómo se especifica L.

Tenga en cuenta que ambas interpretaciones del análisis polinomial son idealizaciones en el sentido de que para aplicaciones prácticas uno está interesado no sólo en la pregunta de sí o no sobre si una oración es gramatical, sino también en la estructura sintáctica que la gramática asigna a la oración.

Formalismos

A lo largo de los años, se han introducido una gran cantidad de formalismos gramaticales que satisfacen algunas o todas las propiedades características propuestas por Joshi. Varios de ellos tienen caracterizaciones alternativas basadas en autómatas que no se analizan en este artículo; por ejemplo, los lenguajes generados por gramática contigua a árboles se pueden caracterizar por autómatas pushdown incorporados .

Formalismos equivalentes a TAG

Gramática contigua a árboles (TAG) ^[3]
Gramática principal (HG) ^[15]^[16]
Gramática indexada lineal (LIG) ^[17]
Gramática categorial combinatoria (CCG) ^[6]
LCFRS/MCFG bien anidado del despliegue 2

Formalismos equivalentes a LCFRS/MCFG generales

Sistemas de reescritura lineal libre de contexto (LCFRS) ^[7]^[8]
Múltiples gramáticas libres de contexto (MCFG) ^[9]
Gramáticas contiguas a árboles multicomponentes (MCTAG) ^[7]
Gramáticas minimalistas (MG) ^[18]
Gramáticas de concatenación de rango positivo simples (lineales, que no se borran, no combinatorias) (sRCG) ^[19]

Formalismos equivalentes a LCFRS/MCFG bien anidados

Macrogramáticas no duplicadas ^[20]
Gramáticas acopladas libres de contexto (CCFG) ^[21]
Sistemas de reescritura lineales libres de contexto bien anidados ^[12]
Múltiples gramáticas libres de contexto bien anidadas ^[10]

Relaciones entre los formalismos

Los sistemas de reescritura lineales libres de contexto/gramáticas múltiples libres de contexto forman una jerarquía bidimensional de poder generativo con respecto a dos parámetros gramaticales específicos llamados fan-out y ranking . ^[22] Más precisamente, los lenguajes generados por LCFRS/MCFG con distribución en abanico $f \geq 1$ y rango $r \geq 3$ se incluyen adecuadamente en la clase de lenguajes generados por LCFRS/MCFG con rango $r + 1$ y distribución en abanico f , como así como la clase de lenguajes generados por LCFRS/MCFG con rango r y despliegue $f + 1$ . En presencia de un buen anidamiento, esta jerarquía colapsa a una jerarquía unidimensional con respecto al despliegue; esto se debe a que cada LCFRS/MCFG bien anidado se puede transformar en un LCFRS/MCFG bien anidado equivalente con el mismo despliegue y rango 2. ^[10]^[12] Dentro de la jerarquía LCFRS/MCFG, los lenguajes libres de contexto se puede caracterizar por las gramáticas con despliegue 1; Para este despliegue no hay diferencia entre gramáticas generales y gramáticas bien anidadas. Los formalismos equivalentes a TAG se pueden caracterizar como LCFRS/MCFG bien anidados de distribución 2.

Ver también

Referencias

^ ab Riny Huybregts. "La débil insuficiencia de las gramáticas de estructura de frases libres de contexto". En Ger de Haan, Mieke Trommelen y Wim Zonneveld, editores, Van periferie naar kern , páginas 81–99. Foris, Dordrecht, Países Bajos, 1984.
^ ab Stuart M. Shieber. "Evidencia contra la libertad de contexto del lenguaje natural". Lingüística y Filosofía , 8(3):333–343, 1985.
^ abcd Aravind K. Joshi. "Gramáticas contiguas de árboles: ¿Cuánta sensibilidad al contexto se requiere para proporcionar descripciones estructurales razonables?". En David R. Dowty, Lauri Karttunen y Arnold M. Zwicky, editores, Natural Language Parsing , páginas 206–250. Prensa de la Universidad de Cambridge, 1985.
^ David J. Weir, K. Vijay-Shanker y Aravind K. Joshi. "La relación entre gramáticas contiguas a árboles y gramáticas principales". En Actas de la 24ª Reunión Anual de la Asociación de Lingüística Computacional (ACL) , páginas 67–74, Nueva York, EE. UU., 1986.
^ K. Vijay-Shanker. "Un estudio de gramáticas contiguas a árboles". Doctor. tesis, Universidad de Pennsylvania, Filadelfia, EE.UU., 1987.
^ ab David J. Weir y Aravind K. Joshi. "Gramáticas categoriales combinatorias: poder generativo y relación con sistemas de reescritura lineales libres de contexto". En Actas de la 26ª Reunión Anual de la Asociación de Lingüística Computacional (ACL) , páginas 278–285, Buffalo, EE. UU., 1988.
^ abcd K. Vijay-Shanker, David J. Weir y Aravind K. Joshi. "Caracterización de descripciones estructurales producidas por diversos formalismos gramaticales". En Actas de la 25ª Reunión Anual de la Asociación de Lingüística Computacional (ACL) , páginas 104–111, Stanford, CA, EE. UU., 1987.
^ ab David J. Weir. "Caracterización de formalismos gramaticales ligeramente sensibles al contexto". Doctor. tesis, Universidad de Pennsylvania, Filadelfia, EE.UU., 1988.
^ ab Hiroyuki Seki, Takashi Matsumura, Mamoru Fujii y Tadao Kasami. "Sobre múltiples gramáticas libres de contexto". Informática teórica , 88(2):191–229, 1991.
^ abcd Makoto Kanazawa. "El lema de bombeo para múltiples lenguajes libres de contexto bien anidados". En Desarrollos en la teoría del lenguaje. 13.ª Conferencia Internacional, DLT 2009, Stuttgart, Alemania, 30 de junio a 3 de julio de 2009. Actas , volumen 5583 de Lecture Notes in Computer Science , páginas 312 a 325, 2009.
^ ab Laura Kallmeyer. "Sobre la reescritura no lineal ligeramente sensible al contexto". Investigación sobre lenguaje y computación , 8(4):341–363, 2010.
^ abc Carlos Gómez-Rodríguez, Marco Kuhlmann y Giorgio Satta. "Análisis eficiente de sistemas de reescritura lineales libres de contexto bien anidados". En Actas de tecnologías del lenguaje humano: Conferencia anual de 2010 del capítulo norteamericano de la Asociación de Lingüística Computacional (NAACL) , páginas 276–284, Los Ángeles, EE. UU., 2010.
^ ab Laura Kallmeyer. Análisis más allá de las gramáticas libres de contexto . Springer, 2010.
^ Jens Michaelis y Marcus Kracht. "La semilinealidad como invariante sintáctica". En Aspectos lógicos de la lingüística computacional. Primera conferencia internacional, LACL 1996, Nancy, Francia, 23 al 25 de septiembre de 1996. Artículos seleccionados , volumen 1328 de Lecture Notes in Computer Science , páginas 329–345. Springer, 1997.
^ Carl J. Pollard . "Gramáticas de estructura de frases generalizadas, gramáticas principales y lenguaje natural". Doctor. tesis, Universidad de Stanford, 1984.
^ Kelly Roach. "Propiedades formales de las gramáticas principales". En Alexis Manaster-Ramer, editor, Matemáticas del lenguaje , páginas 293–347. John Benjamín, 1987.
^ Gerald Gazdar. "Aplicabilidad de las gramáticas indexadas al lenguaje natural". En Uwe Reyle y Christian Rohrer, editores, Natural Language Parsing and Linguistic Theories , páginas 69–94. D.Reidel, 1987.
^ Jens Michaelis. "El minimalismo derivacional es levemente sensible al contexto". En Logical Aspects of Computational Linguistics, Tercera Conferencia Internacional, LACL 1998, Grenoble, Francia, 14 al 16 de diciembre de 1998, artículos seleccionados , volumen 2014 de Lecture Notes in Computer Science , páginas 179-198. Springer, 1998.
^ Pierre Boullier. "Gramáticas de concatenación de rangos". En Harry C. Bunt, John Carroll y Giorgio Satta, editores, New Developments in Parsing Technology , volumen 23 de Text, Speech and Language Technology , páginas 269–289. Editores académicos de Kluwer, 2004.
^ Michael J. Fischer. "Gramáticas con producciones tipo macro". En Noveno Simposio Anual sobre Teoría de Conmutación y Autómatas , páginas 131–142, Schenectady, NY, EE. UU., 1968.
^ Günter Hotz y Gisela Pitsch. "Sobre el análisis de lenguajes libres de contexto acoplados". Informática teórica , 161(1–2):205–233, 1996.
^ Owen Rambow y Giorgio Satta. "Una jerarquía bidimensional para sistemas de reescritura paralela". Informe técnico IRCS-94-02, Universidad de Pennsylvania, Filadelfia, EE.UU., 1994.