La gramática de estructura de frases basada en la cabeza ( HPSG ) es una gramática altamente lexicalizada y basada en restricciones [1] [2] desarrollada por Carl Pollard e Ivan Sag . [3] [4] Es un tipo de gramática de estructura de frase , a diferencia de una gramática de dependencia , y es la sucesora inmediata de la gramática de estructura de frase generalizada . HPSG se basa en otros campos como la informática ( teoría de tipos de datos y representación del conocimiento ) y utiliza la noción de signo de Ferdinand de Saussure . Utiliza un formalismo uniforme y está organizado de forma modular, lo que lo hace atractivo para el procesamiento del lenguaje natural .
Un HPSG incluye principios y reglas gramaticales y entradas de léxico que normalmente no se consideran pertenecientes a una gramática. El formalismo se basa en el lexicalismo. Esto significa que el léxico es más que una simple lista de entradas; está en sí mismo ricamente estructurado. Las entradas individuales están marcadas con tipos. Los tipos forman una jerarquía. Las primeras versiones de la gramática estaban muy lexicalizadas con pocas reglas gramaticales (esquema). Las investigaciones más recientes han tendido a agregar más reglas y más ricas, pareciéndose más a una gramática de construcción . [5]
El tipo básico con el que se ocupa el HPSG es el signo. Las palabras y las frases son dos subtipos diferentes de signos. Una palabra tiene dos características: [PHON] (el sonido, la forma fonética ) y [SYNSEM] (la información sintáctica y semántica ), las cuales se dividen en subcaracterísticas. Los signos y reglas se formalizan como estructuras de características tipificadas .
HPSG genera cadenas combinando signos, que se definen por su ubicación dentro de una jerarquía de tipos y por su estructura de características internas, representadas por matrices de valores de atributos (AVM). [4] [6] Las características toman tipos o listas de tipos como valores y estos valores pueden, a su vez, tener su propia estructura de características. Las reglas gramaticales se expresan en gran medida a través de las restricciones que los signos se imponen entre sí. La estructura característica de un signo describe sus propiedades fonológicas, sintácticas y semánticas. En notación común, las MAV se escriben con características en mayúsculas y tipos en minúsculas y cursivas. Los índices numerados en un AVM representan valores token idénticos.
En la AVM simplificada para la palabra (en este caso el verbo, no el sustantivo como en "buenos paseos para el fin de semana") "caminatas" a continuación, la información categórica del verbo (CAT) se divide en características que lo describen (HEAD) y características que describen sus argumentos (VALENCIA).
"Walks" es un signo de palabra tipo con un encabezado de verbo tipo . Como verbo intransitivo, "camina" no tiene complemento pero requiere un sujeto que sea un sustantivo en tercera persona del singular. El valor semántico del sujeto (CONTENIDO) está coindexado con el único argumento del verbo (el individuo que camina). La siguiente AVM para "ella" representa un signo con un valor SYNSEM que podría cumplir esos requisitos.
Los signos de frase tipo se unifican con uno o más hijos y propagan información hacia arriba. El siguiente AVM codifica la regla de dominancia inmediata para una frase subj principal , que requiere dos hijos: el hijo principal (un verbo) y un hijo no principal que cumple las restricciones SUBJ del verbo.
El resultado final es un signo con un encabezado verbal, características de subcategorización vacías y un valor fonológico que ordena a los dos niños.
Aunque la gramática real de HPSG se compone enteramente de estructuras de características, los lingüistas suelen utilizar árboles para representar la unificación de signos donde el equivalente AVM sería difícil de manejar.
Se han escrito varios analizadores basados en el formalismo HPSG y actualmente se están investigando optimizaciones. La Freie Universität Berlin proporciona un ejemplo de un sistema que analiza frases en alemán . [7] Además, el proyecto CoreGram [8] del Grammar Group de la Freie Universität Berlin proporciona gramáticas de código abierto que se implementaron en el sistema TRALE. Actualmente existen gramáticas para alemán , [9] danés , [10] chino mandarín , [11] maltés , [12] y persa [13] que comparten un núcleo común y están disponibles públicamente.
Se están desarrollando grandes gramáticas HPSG de varios idiomas en la Iniciativa de Procesamiento Lingüístico Profundo con HPSG ( DELPH-IN ). [14] Gramáticas de amplia cobertura de inglés, [15] alemán, [16] y japonés [17] están disponibles bajo una licencia de código abierto. Estas gramáticas se pueden utilizar con una variedad de analizadores HPSG de código abierto intercompatibles: LKB , PET, [18] Ace, [19] y de acuerdo . [20] Todos estos producen representaciones semánticas en el formato de "Semántica de recursión mínima", MRS. [21] La naturaleza declarativa del formalismo HPSG significa que estas gramáticas computacionales generalmente se pueden usar tanto para análisis como para generación (produciendo cadenas de superficie a partir de entradas semánticas). Los Treebanks, también distribuidos por DELPH-IN , se utilizan para desarrollar y probar las gramáticas, así como para entrenar modelos de clasificación para decidir sobre interpretaciones plausibles al analizar (o realizaciones al generar).
Enju es un analizador HPSG probabilístico de amplia cobertura disponible gratuitamente para inglés desarrollado por el Laboratorio Tsujii de la Universidad de Tokio en Japón . [22]