La gramática de estructura de frase impulsada por la cabeza ( HPSG ) es una gramática altamente lexicalizada y basada en restricciones [1] [2] desarrollada por Carl Pollard e Ivan Sag . [3] [4] Es un tipo de gramática de estructura de frase , a diferencia de una gramática de dependencia , y es la sucesora inmediata de la gramática de estructura de frase generalizada . La HPSG se nutre de otros campos como la informática ( teoría de tipos de datos y representación del conocimiento ) y utiliza la noción de signo de Ferdinand de Saussure . Utiliza un formalismo uniforme y está organizada de forma modular, lo que la hace atractiva para el procesamiento del lenguaje natural .
Una gramática de estructura de alto nivel incluye principios y reglas gramaticales y entradas de léxico que normalmente no se consideran parte de una gramática. El formalismo se basa en el lexicalismo. Esto significa que el léxico es más que una simple lista de entradas; está en sí mismo ricamente estructurado. Las entradas individuales están marcadas con tipos. Los tipos forman una jerarquía. Las primeras versiones de la gramática estaban muy lexicalizadas con pocas reglas gramaticales (esquema). Las investigaciones más recientes han tendido a añadir más reglas y más ricas, volviéndose más parecidas a una gramática de construcción . [5]
El tipo básico que HPSG trata es el signo. Las palabras y las frases son dos subtipos diferentes de signo. Una palabra tiene dos características: [PHON] (el sonido, la forma fonética ) y [SYNSEM] (la información sintáctica y semántica ), las cuales se dividen en subcaracterísticas. Los signos y las reglas se formalizan como estructuras de características tipificadas .
HPSG genera cadenas combinando signos, que se definen por su ubicación dentro de una jerarquía de tipos y por su estructura de características interna, representada por matrices de valores de atributos (AVM). [4] [6] Las características toman tipos o listas de tipos como sus valores, y estos valores pueden a su vez tener su propia estructura de características. Las reglas gramaticales se expresan en gran medida a través de las restricciones que los signos imponen entre sí. La estructura de características de un signo describe sus propiedades fonológicas, sintácticas y semánticas. En la notación común, las AVM se escriben con las características en mayúsculas y los tipos en minúsculas en cursiva. Los índices numerados en una AVM representan valores idénticos entre tokens.
En el AVM simplificado para la palabra (en este caso el verbo, no el sustantivo como en "bonitos paseos para el fin de semana") "camina" a continuación, la información categórica del verbo (CAT) se divide en características que lo describen (HEAD) y características que describen sus argumentos (VALENCE).
"Walks" es un signo de tipo palabra con un núcleo de tipo verbo . Como verbo intransitivo, "walks" no tiene complemento, pero requiere un sujeto que sea un sustantivo en tercera persona del singular. El valor semántico del sujeto (CONTENT) está coindexado con el único argumento del verbo (el individuo que camina). El siguiente AVM para "she" representa un signo con un valor SYNSEM que podría cumplir esos requisitos.
Los signos del tipo frase se unifican con uno o más hijos y propagan la información hacia arriba. El siguiente AVM codifica la regla de dominancia inmediata para una frase principal-subj , que requiere dos hijos: el hijo principal (un verbo) y un hijo no principal que cumple con las restricciones SUBJ del verbo.
El resultado final es un signo con una cabeza verbal, características de subcategorización vacías y un valor fonológico que ordena a los dos niños.
Aunque la gramática real de HPSG se compone enteramente de estructuras de características, los lingüistas a menudo utilizan árboles para representar la unificación de signos cuando el AVM equivalente sería difícil de manejar.
Se han escrito varios analizadores sintácticos basados en el formalismo HPSG y actualmente se están investigando optimizaciones. La Freie Universität Berlin proporciona un ejemplo de un sistema que analiza oraciones en alemán . [7] Además, el proyecto CoreGram [8] del Grammar Group de la Freie Universität Berlin proporciona gramáticas de código abierto que se implementaron en el sistema TRALE. Actualmente existen gramáticas para alemán , [9] danés , [10] chino mandarín , [11] maltés , [12] y persa [13] que comparten un núcleo común y están disponibles públicamente.
En la Iniciativa de Procesamiento Lingüístico Profundo con HPSG ( DELPH-IN ) se están desarrollando gramáticas HPSG de gran tamaño para varios idiomas . [14] Las gramáticas de amplia cobertura de inglés, [15] alemán, [16] y japonés [17] están disponibles bajo una licencia de código abierto. Estas gramáticas se pueden utilizar con una variedad de analizadores sintácticos HPSG de código abierto intercompatibles: LKB , PET, [18] Ace, [19] y accept . [20] Todos ellos producen representaciones semánticas en el formato de “Semántica de Recursión Mínima”, MRS. [21] La naturaleza declarativa del formalismo HPSG significa que estas gramáticas computacionales se pueden utilizar normalmente tanto para el análisis sintáctico como para la generación (produciendo cadenas de superficie a partir de entradas semánticas). Los Treebanks, también distribuidos por DELPH-IN , se utilizan para desarrollar y probar las gramáticas, así como para entrenar modelos de clasificación para decidir interpretaciones plausibles al analizar (o realizaciones al generar).
Enju es un analizador HPSG probabilístico de amplia cobertura disponible de forma gratuita para inglés, desarrollado por el Laboratorio Tsujii de la Universidad de Tokio en Japón . [22]