gramática categorial

La gramática categorial es una familia de formalismos en la sintaxis del lenguaje natural que comparten el supuesto central de que los constituyentes sintácticos se combinan como funciones y argumentos . La gramática categorial postula una estrecha relación entre la sintaxis y la composición semántica , ya que normalmente trata las categorías sintácticas como correspondientes a tipos semánticos. Las gramáticas categoriales fueron desarrolladas en la década de 1930 por Kazimierz Ajdukiewicz y en la década de 1950 por Yehoshua Bar-Hillel y Joachim Lambek . Experimentó un gran interés en la década de 1970 tras el trabajo de Richard Montague , cuya gramática Montague asumió una visión similar de la sintaxis. Sigue siendo un paradigma importante, particularmente dentro de la semántica formal .

Lo esencial

Una gramática categorial consta de dos partes: un léxico, que asigna un conjunto de tipos (también llamados categorías) a cada símbolo básico, y algunas reglas de inferencia de tipos , que determinan cómo el tipo de una cadena de símbolos se deriva de los tipos del constituyente. símbolos. Tiene la ventaja de que las reglas de inferencia de tipos se pueden fijar de una vez por todas, de modo que la especificación de una gramática lingüística particular esté completamente determinada por el léxico.

Una gramática categorial comparte algunas características con el cálculo lambda escrito simplemente . Mientras que el cálculo lambda tiene solo un tipo de función , una gramática categorial generalmente tiene dos tipos de función, un tipo que se aplica a la izquierda y otro a la derecha. Por ejemplo, una gramática categorial simple podría tener dos tipos de funciones y . El primero, , es el tipo de frase que da como resultado una frase de tipo cuando va seguida (a la derecha) de una frase de tipo . El segundo, , es el tipo de frase que da como resultado una frase de tipo cuando está precedida (a la izquierda) por una frase de tipo . $A\rightarrow B$ $B/A\,\!$ $A\barra invertida B$ $B/A\,\!$ $B\,\!$ $A\,\!$ $A\barra invertida B\,\!$ $B\,\!$ $A\,\!$

La notación se basa en álgebra. Una fracción cuando se multiplica (es decir, se concatena con) su denominador produce su numerador. Como la concatenación no es conmutativa , hay una diferencia si el denominador ocurre a la izquierda o a la derecha. La concatenación debe estar del mismo lado que el denominador para que se cancele.

El primer y más simple tipo de gramática categorial se llama gramática categorial básica o, a veces, gramática AB (en honor a Ajdukiewicz y Bar-Hillel ). Dado un conjunto de tipos primitivos , sea el conjunto de tipos construidos a partir de tipos primitivos. En el caso básico, este es el conjunto mínimo tal que y si entonces . Piense en éstas como expresiones puramente formales generadas libremente a partir de los tipos primitivos; cualquier semántica se agregará más adelante. Algunos autores suponen un conjunto infinito y fijo de tipos primitivos utilizados por todas las gramáticas, pero al hacer que los tipos primitivos formen parte de la gramática, toda la construcción se mantiene finita. ${\text{Prim}}\,\!$ ${\text{Tp}}({\text{Prim}})\,\!$ ${\text{Prim}}\subseteq {\text{Tp}}({\text{Prim}})$ $X,Y\in {\text{Tp}}({\text{Prim}})$ $(X/Y),(Y\barra invertida X)\in {\text{Tp}}({\text{Prim}})$

Una gramática categorial básica es una tupla donde es un conjunto finito de símbolos, es un conjunto finito de tipos primitivos y . $(\Sigma ,{\text{Prim}},S,\triangleleft )$ $\Sigma \,\!$ ${\text{Prim}}\,\!$ $S\in {\text{Tp}}({\text{Prim}})$

La relación es el léxico, que relaciona tipos con símbolos . Dado que el léxico es finito, se puede especificar enumerando un conjunto de pares como . $\triangleleft$ $(\triangleleft )\subseteq {\text{Tp}}({\text{Prim}})\times \Sigma$ $TIPO\triangleleft {\text{símbolo}}$

Esta gramática para el inglés podría tener tres tipos básicos : asignar el tipo a los sustantivos contables , el tipo a las frases nominales completas y el tipo a las oraciones . Entonces un adjetivo podría tener el tipo , porque si va seguido de un sustantivo entonces toda la frase es un sustantivo. De manera similar, un determinante tiene el tipo , porque forma un sintagma nominal completo cuando va seguido de un sustantivo. Los verbos intransitivos tienen el tipo , y los verbos transitivos el tipo . Entonces una cadena de palabras es una oración si tiene un tipo general . $(N,NP,{\text{ y }}S)\,\!$ $N\,\!$ $NP\,\!$ $S\,\!$ $N/N\,\!$ $NP/N\,\!$ $NP\barra invertida S$ $(NP\barra invertida S)/NP$ $S\,\!$

Por ejemplo, tomemos la cadena "el chico malo hizo ese desastre". Ahora "el" y "eso" son determinantes, "niño" y "desorden" son sustantivos, "malo" es un adjetivo y "hecho" es un verbo transitivo, por lo que el léxico es { ,,,,,, } . $NP/N\triangleleft {\text{el}}$ $NP/N\triangleleft {\text{eso}}$ $N\triangleleft {\text{niño}}$ $N\triangleleft {\text{lío}}$ $N/N\triangleleft {\text{malo}}$ $(NP\barra invertida S)/NP\triangleleft {\text{hecho}}$

y la secuencia de tipos en la cadena es

${{\text{the}} \atop {NP/N,}}{{\text{bad}} \atop {N/N,}}{{\text{boy}} \atop {N,}}{{\text{made}} \atop {(NP\backslash S)/NP,}}{{\text{that}} \atop {NP/N,}}{{\text{mess}} \atop {N}}$

ahora encuentre funciones y argumentos apropiados y redúzcalos de acuerdo con las dos reglas de inferencia y : $X\leftarrow X/Y,\;Y$ $X\leftarrow Y,\;Y\backslash X$

$.\qquad NP/N,\;N/N,\;N,\;(NP\backslash S)/NP,\;\underbrace {NP/N,\;N}$
$.\qquad NP/N,\;N/N,\;N,\;\underbrace {(NP\backslash S)/NP,\quad NP}$
$.\qquad NP/N,\;\underbrace {N/N,\;N} ,\qquad (NP\backslash S)$
$.\qquad \underbrace {NP/N,\;\quad N} ,\;\qquad (NP\backslash S)$
$.\qquad \qquad \underbrace {NP,\;\qquad (NP\backslash S)}$
$.\qquad \qquad \qquad \quad \;\;\;S$

El hecho de que el resultado sea significa que la cadena es una oración, mientras que la secuencia de reducciones muestra que se puede analizar como ((el (chico malo)) (hecho (ese lío))). $S\,\!$

Las gramáticas categóricas de esta forma (que solo tienen reglas de aplicación de funciones) son equivalentes en capacidad generativa a las gramáticas libres de contexto y, por lo tanto, a menudo se consideran inadecuadas para las teorías de la sintaxis del lenguaje natural. A diferencia de los CFG, las gramáticas categoriales están lexicalizadas , lo que significa que sólo se emplea una pequeña cantidad de reglas (en su mayoría independientes del idioma), y todos los demás fenómenos sintácticos se derivan de las entradas léxicas de palabras específicas.

Otro aspecto atractivo de las gramáticas categoriales es que a menudo es fácil asignarles una semántica compositiva, asignando primero tipos de interpretación a todas las categorías básicas y luego asociando todas las categorías derivadas con tipos de funciones apropiados . La interpretación de cualquier constituyente es entonces simplemente el valor de una función en un argumento. Con algunas modificaciones para manejar la intensionalidad y la cuantificación , este enfoque se puede utilizar para cubrir una amplia variedad de fenómenos semánticos.

cálculo de lambek

Una gramática de Lambek es una elaboración de esta idea que tiene un operador de concatenación para tipos y varias otras reglas de inferencia. Mati Pentus ha demostrado que éstas todavía tienen la capacidad generativa de las gramáticas libres de contexto.

Para el cálculo de Lambek, existe un operador de concatenación de tipo , así que y si entonces . $\star$ ${\text{Prim}}\subseteq {\text{Tp}}({\text{Prim}})$ $X,Y\in {\text{Tp}}({\text{Prim}})$ $(X/Y),(X\backslash Y),(X\star Y)\in {\text{Tp}}({\text{Prim}})$

El cálculo de Lambek consta de varias reglas de deducción que especifican cómo se pueden derivar las afirmaciones de inclusión de tipos. En las siguientes reglas, las letras mayúsculas romanas representan tipos, las letras mayúsculas griegas representan secuencias de tipos. Se puede leer un secuente de la forma : una cadena es de tipo $X$ si consta de la concatenación de cadenas de cada uno de los tipos en $Γ$ . Si un tipo se interpreta como un conjunto de cadenas, entonces ← puede interpretarse como ⊇, es decir, "incluye como un subconjunto". Una línea horizontal significa que la inclusión encima de la línea implica la que está debajo de la línea. $X\leftarrow \Gamma$

El proceso se inicia con la regla del Axioma, que no tiene antecedentes y simplemente dice que cualquier tipo se incluye a sí mismo.

{\text{(Axiom)}}\quad {{} \over X\leftarrow X}

La regla de corte dice que las inclusiones se pueden componer.

{\text{(Cut)}}\quad {Z\leftarrow \Delta X\Delta '\qquad X\leftarrow \Gamma \over Z\leftarrow \Delta \Gamma \Delta '}

Las otras reglas vienen en pares, un par para cada tipo de operador de construcción, cada par consta de una regla para el operador en el objetivo y otra en el origen de la flecha. El nombre de una regla consta del operador y una flecha, con el operador en el lado de la flecha en el que aparece en la conclusión.

Por ejemplo, aquí hay una derivación de "tipo de elevación", que dice que . Los nombres de las reglas y las sustituciones utilizadas están a la derecha. $(B/A)\backslash B\leftarrow A$

{\dfrac {{\dfrac {}{B\leftarrow B}}\qquad {\dfrac {}{A\leftarrow A}}}{\dfrac {B\leftarrow (B/A),\;\;A}{(B/A)\backslash B\leftarrow A}}}\qquad {\begin{matrix}{\mbox{(Axioms)}}\qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad {}\\{(\leftarrow /)\,\,[Z=Y=B,X=A,\Gamma =(A),\Delta =\Delta '=()]}\\{(\backslash \leftarrow )\,\,[Y=B,X=(B/A),\Gamma =(A)]}\qquad \qquad \qquad {}\\\end{matrix}}

Relación con gramáticas libres de contexto

Recuerde que una gramática libre de contexto es una tupla de 4 donde $G=(V,\,\Sigma ,\,::=,\,S)$

$V\,$ es un conjunto finito de no terminales o variables .
$\Sigma \,$ es un conjunto finito de símbolos terminales .
$::=\,$ es un conjunto finito de reglas de producción , es decir, una relación finita . $(::=)\subseteq V\times (V\cup \Sigma )^{*}$
$S\,$ es la variable inicial.

Desde el punto de vista de las gramáticas categoriales, una gramática libre de contexto puede verse como un cálculo con un conjunto de axiomas de propósito especial para cada idioma, pero sin operadores de construcción de tipos ni reglas de inferencia excepto Cortar.

Específicamente, dada una gramática libre de contexto como la anterior, defina una gramática categorial donde y . Sea un axioma para cada símbolo , un axioma para cada regla de producción , una entrada de léxico para cada símbolo terminal y Corte para la única regla. Esta gramática categorial genera el mismo lenguaje que el CFG dado. $({\text{Prim}},\,\Sigma ,\,\triangleleft ,\,S)$ ${\text{Prim}}=V\cup \Sigma$ ${\text{Tp}}({\text{Prim}})={\text{Prim}}\,\!$ ${x\leftarrow x}$ $x\in V\cup \Sigma$ ${X\leftarrow \Gamma }$ $X::=\Gamma \,\!$ ${s\triangleleft s}$ $s\in \Sigma$

Por supuesto, ésta no es una gramática categorial básica, ya que tiene axiomas especiales que dependen del idioma; es decir, no está lexicalizado. Además, no utiliza ningún tipo de tipo no primitivo.

Para demostrar que cualquier lenguaje libre de contexto puede generarse mediante una gramática categorial básica, recuerde que cualquier lenguaje libre de contexto puede generarse mediante una gramática libre de contexto en forma normal de Greibach .

La gramática está en forma normal de Greibach si cada regla de producción es de la forma , donde las letras mayúsculas son variables, y , es decir, el lado derecho de la producción es un único símbolo terminal seguido de cero o más variables (no terminales). . $A::=sA_{0}\ldots A_{N-1}$ $s\in \Sigma$ $N\geq 0$

Ahora, dado un CFG en forma normal de Greibach, defina una gramática categorial básica con un tipo primitivo para cada variable no terminal y con una entrada en el léxico para cada regla de producción . Es bastante fácil ver que esta gramática categorial básica genera el mismo lenguaje que el CFG original. Tenga en cuenta que el léxico de esta gramática generalmente asignará varios tipos a cada símbolo. ${\text{Prim}}=V\,\!$ $A/A_{N-1}/\ldots /A_{0}\triangleleft s$ $A::=sA_{0}\ldots A_{N-1}$

La misma construcción funciona para las gramáticas de Lambek, ya que son una extensión de las gramáticas categoriales básicas. Es necesario verificar que las reglas de inferencia adicionales no cambien el lenguaje generado. Esto se puede hacer y muestra que cada lenguaje libre de contexto es generado por alguna gramática de Lambek.

Mostrar lo contrario, que todo lenguaje generado por una gramática de Lambek está libre de contexto, es mucho más difícil. Fue un problema abierto durante casi treinta años, desde principios de la década de 1960 hasta aproximadamente 1991, cuando Pentus lo demostró.

La idea básica es, dada una gramática de Lambek, construir una gramática libre de contexto con el mismo conjunto de símbolos terminales, el mismo símbolo inicial, con variables de algunos (no todos) tipos y con una regla de producción para cada entrada en el léxico. y reglas de producción para ciertos secuenciales que son derivables en el cálculo de Lambek. $({\text{Prim}},\,\Sigma ,\,\triangleleft ,\,S)$ $(V,\,\Sigma ,\,::=,\,S)$ $V\subseteq {\text{Tp}}({\text{Prim}})\,\!$ $T::={\text{s}}\,\!$ $T\triangleleft {\text{s}}$ $T::=\Gamma \,\!$ $T\leftarrow \Gamma$

Por supuesto, hay infinitos tipos e infinitas secuencias derivables, por lo que para hacer una gramática finita es necesario poner un límite al tamaño de los tipos y secuencias que se necesitan. El corazón de la prueba de Pentus es mostrar que existe tal límite finito.

Notación

La notación en este campo no está estandarizada. Las notaciones utilizadas en la teoría del lenguaje formal, la lógica, la teoría de categorías y la lingüística entran en conflicto entre sí. En lógica, las flechas señalan lo más general desde lo más particular, es decir, la conclusión a partir de las hipótesis. En este artículo, se sigue esta convención, es decir, el objetivo de la flecha es el tipo más general (inclusivo).

En lógica, las flechas suelen apuntar de izquierda a derecha. En este artículo, esta convención se invierte por coherencia con la notación de gramáticas libres de contexto, donde el símbolo único no terminal siempre está a la izquierda. Usamos el símbolo en una regla de producción como en la forma Backus-Naur . Algunos autores utilizan una flecha, que lamentablemente puede apuntar en cualquier dirección, dependiendo de si se piensa que la gramática genera o reconoce el lenguaje. $::=$

Algunos autores sobre gramáticas categoriales escriben en lugar de . La convención utilizada aquí sigue a Lambek y al álgebra. $B\backslash A$ $A\backslash B$

Notas historicas

Las ideas básicas de la gramática categorial datan del trabajo de Kazimierz Ajdukiewicz (en 1935) y otros estudiosos de la tradición polaca de la lógica matemática, incluidos Stanisław Leśniewski , Emil Post y Alfred Tarski . El enfoque formal de Ajdukiewicz hacia la sintaxis estuvo influenciado por la gramática lógica pura de Edmund Husserl , que fue formalizada por Rudolph Carnap . Representa un desarrollo en la idea histórica de la gramática lógica universal como estructura subyacente de todas las lenguas. Un concepto central del enfoque es la sustituibilidad de categorías sintácticas, de ahí el nombre de gramática categorial. La pertenencia de un elemento (por ejemplo, palabra o frase) a una categoría sintáctica (clase de palabra, tipo de frase) se establece mediante la prueba de conmutación , y la gramática formal se construye mediante una serie de pruebas de este tipo. ^[1]

El término gramática categorial fue acuñado por Yehoshua Bar-Hillel (en 1953). En 1958, Joachim Lambek introdujo un cálculo sintáctico que formalizó los constructores de tipos de funciones junto con varias reglas para la combinación de funciones. Este cálculo es un precursor de la lógica lineal en el sentido de que es una lógica subestructural .

La gramática Montague utiliza un sistema sintáctico ad hoc para el inglés que se basa en los principios de la gramática categorial. ^[2] Aunque el trabajo de Montague a veces se considera sintácticamente poco interesante, ayudó a reforzar el interés en la gramática categorial al asociarlo con un tratamiento formal muy exitoso de la semántica del lenguaje natural . El trabajo más reciente en gramática categorial se ha centrado en la mejora de la cobertura sintáctica. Un formalismo que ha recibido considerable atención en los últimos años es la gramática categorial combinatoria de Steedman y Szabolcsi , que se basa en la lógica combinatoria inventada por Moses Schönfinkel y Haskell Curry .

Hay una serie de formalismos relacionados de este tipo en lingüística, como la gramática lógica de tipos y la gramática categorial abstracta. ^[3]

Algunas definiciones

Derivación: Una derivación es un árbol binario que codifica una prueba.
árbol de análisis: Un árbol de análisis muestra una derivación, mostrando la estructura sintáctica de una oración.
Functor y argumento: En una aplicación de función derecha (izquierda), el nodo del tipo A\B (B/A) se llama funtor y el nodo del tipo A se llama argumento.
Estructura funtor-argumento ^{[ se necesita aclaración ]}

Refinamientos de la gramática categórica

Se han propuesto una variedad de cambios en la gramática categorial para mejorar la cobertura sintáctica. Algunos de los más comunes se enumeran a continuación.

Características y subcategorías

La mayoría de los sistemas de gramática categorial subdividen categorías. La forma más común de hacerlo es etiquetándolos con características , como persona , género , número y tiempo . A veces sólo las categorías atómicas se etiquetan de esta manera. En la gramática de Montague, es tradicional subdividir categorías de funciones usando una convención de barras diagonales múltiples, por lo que A/B y A//B serían dos categorías distintas de funciones que se aplican por la izquierda, que tomaron los mismos argumentos pero que podrían distinguirse por otras funciones. tomándolos como argumentos.

Composición de funciones

Las reglas de composición de funciones se incluyen en muchas gramáticas categoriales. Un ejemplo de tal regla sería aquella que permitiera la concatenación de un constituyente de tipo A/B con uno de tipo B/C para producir un nuevo constituyente de tipo A/C . La semántica de tal regla implicaría simplemente la composición de las funciones involucradas. La composición de funciones es importante en las explicaciones categoriales de conjunción y extracción, especialmente en lo que se refiere a fenómenos como la elevación del nodo derecho . La introducción de la composición de funciones en una gramática categorial conduce a muchos tipos de ambigüedad derivacional que son vacías en el sentido de que no corresponden a ambigüedades semánticas .

Conjunción

Muchas gramáticas categoriales incluyen una regla de conjunción típica, de la forma general X CONJ X → X , donde X es una categoría. La conjunción generalmente se puede aplicar a constituyentes no estándar que resultan del aumento de tipo o de la composición de funciones.

Discontinuidad

La gramática se amplía para manejar fenómenos lingüísticos como modismos discontinuos, espacios y extracción. ^[4]

Ver también

Referencias

^ Wybraniec-Skardowska, Úrszula; Rogalski, Andrzej K. (1998). "Sobre la gramática universal y su formalización". El Archivo Paideia: XX Congreso Mundial de Filosofía . 8 : 153–172 . Consultado el 5 de septiembre de 2023 .
^ Parte, Barbara Hall; Montague, Richard (1976). [Richard] Gramática de Montague: Ed. por Barbara H[all] Partee . Nueva York [usw.]: Acad. Pr. ISBN 978-0-12-545850-4.
^ Morrill, Glyn (1994). Tipo gramática lógica: lógica categorial de signos . Dordrecht: Kluwer. ISBN 978-0-7923-3095-0.
^ Huck, Geoffrey J. (1985). Discontinuidad y orden de las palabras en gramática categorial . Club de Lingüística de la Universidad de Indiana.

Curry, Haskell B .; Feys, Richard (1958), Lógica combinatoria , vol. 1, Holanda Septentrional
Jacobson, Pauline (1999), "Hacia una semántica libre de variables", Lingüística y Filosofía , 22 (2): 117–184, doi :10.1023/A:1005464228727, S2CID 60578091
Lambek, Joachim (1958), "Las matemáticas de la estructura de las oraciones", Amer. Matemáticas. Mensual , 65 (3): 154–170, CiteSeerX 10.1.1.538.885 , doi :10.1080/00029890.1958.11989160
Pentus, Mati (1997), Cálculo y gramáticas formales de Lambek (PDF) , Amer. Matemáticas. Soc. Traducción
Steedman, Mark (1987), "Gramáticas combinatorias y lagunas parásitas", Lenguaje natural y teoría lingüística , 5 (3): 403–439, doi :10.1007/bf00134555, S2CID 170899264
Steedman, Mark (1996), Estructura e interpretación de la superficie , The MIT Press
Steedman, Mark (2000), El proceso sintáctico , The MIT Press
Szabolcsi, Anna (1989). "Variables vinculadas en sintaxis (¿hay alguna?)" (PDF) . En Bartsch; van Benthem; van Emde Boas (eds.). Semántica y Expresión Contextual . Para es. págs. 294–318.
Szabolcsi, Anna (1992). «Gramática combinatoria y proyección desde el léxico» (PDF) . En hundimiento; Szabolcsi (eds.). Cuestiones léxicas . vol. 24. Stanford: Publicaciones CSLI. págs. 241–269. {{cite book}}: |journal=ignorado ( ayuda )
Szabolcsi, Anna (2003), "Vinculante sobre la marcha: anáfora entre oraciones en semántica libre de variables", en Kruijff; Oehrle (eds.), Sensibilidad a los recursos, vinculación y anáfora , Estudios de lingüística y filosofía, vol. 80, Kluwer, págs. 215–229, CiteSeerX 10.1.1.205.3142 , doi :10.1007/978-94-010-0037-6_8, ISBN 978-1-4020-1692-9
Morril, Glyn (1995), "Discontinuidad en gramática categorial", Lingüística y Filosofía , 18 (2): 175–219, doi :10.1007/bf00985216, S2CID 62533943

Otras lecturas

Michael Moortgat, Lógicas de tipos categoriales , Capítulo 2 en J. van Benthem y A. ter Meulen (eds.) Handbook of Logic and Language . Elsevier, 1997, ISBN 0-262-22053-9
Wojciech Buszkowski, Lingüística matemática y teoría de la prueba , Capítulo 12 en J. van Benthem y A. ter Meulen (eds.) Handbook of Logic and Language . Elsevier, 1997, ISBN 0-262-22053-9
Gerhard Jäger (2005). Anáfora y gramática lógica tipográfica . Saltador. ISBN 978-1-4020-3904-1.
Glyn Morrill (2010). Gramática categorial: sintaxis lógica, semántica y procesamiento . Prensa de la Universidad de Oxford. ISBN 978-0-19-958986-9.
Richard Moot; Christian Retoré (2012). La lógica de las gramáticas categoriales: una explicación deductiva de la sintaxis y la semántica del lenguaje natural . Springer Verlag. ISBN 978-3-642-31554-1.

enlaces externos

Gramática, categorial en Springer Encyclopaedia of Mathematics
http://plato.stanford.edu/entries/typelogic-grammar/