En lingüística , un banco de árboles es un corpus de texto analizado que anota la estructura sintáctica o semántica de la oración . La construcción de corpus analizados a principios de la década de 1990 revolucionó la lingüística computacional , que se benefició de datos empíricos a gran escala . [1]
El término banco de árboles fue acuñado por el lingüista Geoffrey Leech en la década de 1980, por analogía con otros repositorios como un banco de semillas o un banco de sangre . [2] Esto se debe a que tanto la estructura sintáctica como la semántica comúnmente se representan composicionalmente como una estructura de árbol . El término corpus analizado se utiliza a menudo indistintamente con el término banco de árboles, con énfasis en la primacía de las oraciones sobre los árboles.
Los treebanks a menudo se crean sobre un corpus que ya ha sido anotado con etiquetas de parte del discurso . A su vez, los bancos de árboles a veces se enriquecen con información semántica o lingüística. Los bancos de árboles se pueden crear de forma completamente manual, donde los lingüistas anotan cada oración con una estructura sintáctica, o de forma semiautomática, donde un analizador asigna alguna estructura sintáctica que los lingüistas luego verifican y, si es necesario, corrigen. En la práctica, verificar y completar completamente el análisis de corpus de lenguaje natural es un proyecto que requiere mucha mano de obra y que puede llevar varios años a equipos de lingüistas graduados. El nivel de detalle de las anotaciones y la amplitud de la muestra lingüística determinan la dificultad de la tarea y el tiempo necesario para construir un banco de árboles.
Algunos treebanks siguen una teoría lingüística específica en su anotación sintáctica (por ejemplo, BulTreeBank sigue HPSG ), pero la mayoría intenta ser menos específica de la teoría. Sin embargo, se pueden distinguir dos grupos principales: bancos de árboles que anotan la estructura de las frases (por ejemplo, Penn Treebank o ICE-GB) y aquellos que anotan la estructura de dependencia (por ejemplo, el Prague Dependency Treebank o el Quranic Arab Dependency Treebank).
Es importante aclarar la distinción entre la representación formal y el formato de archivo utilizado para almacenar los datos anotados. Los treebanks se construyen necesariamente de acuerdo con una gramática particular. La misma gramática puede implementarse en diferentes formatos de archivo. Por ejemplo, el análisis sintáctico de John love Mary , que se muestra en la figura de la derecha, puede representarse mediante simples corchetes etiquetados en un archivo de texto, como este (siguiendo la notación de Penn Treebank):
(S (NP (NNP Juan)) (VP (VPZ ama) (NP (NNP María))) (. .))
Este tipo de representación es popular porque requiere pocos recursos y la estructura de árbol es relativamente fácil de leer sin herramientas de software. Sin embargo, a medida que los corpus se vuelven cada vez más complejos, es posible que se prefieran otros formatos de archivo. Las alternativas incluyen esquemas XML específicos para bancos de árboles , sangrías numeradas y varios tipos de notación de separación.
Desde una perspectiva de lingüística computacional [3] , los bancos de árboles se han utilizado para diseñar sistemas de procesamiento de lenguaje natural de última generación, como etiquetadores de partes del discurso , analizadores sintácticos , analizadores semánticos y sistemas de traducción automática. [4] La mayoría de los sistemas computacionales utilizan datos de bancos de árboles estándar. Sin embargo, un corpus analizado automáticamente que no sea corregido por lingüistas humanos aún puede resultar útil. Puede proporcionar evidencia de la frecuencia de las reglas para un analizador. Se puede mejorar un analizador aplicándolo a grandes cantidades de texto y reuniendo frecuencias de reglas. Sin embargo, debería ser obvio que sólo mediante un proceso de corrección y finalización manual de un corpus es posible identificar reglas ausentes en la base de conocimientos del analizador. Además, es probable que las frecuencias sean más precisas.
En lingüística de corpus , los bancos de árboles se utilizan para estudiar fenómenos sintácticos (por ejemplo, los corpus diacrónicos se pueden utilizar para estudiar el curso temporal del cambio sintáctico). Una vez analizado, un corpus contendrá evidencia de frecuencia que muestra cuán comunes son las diferentes estructuras gramaticales en uso. Los Treebanks también proporcionan evidencia de cobertura y apoyan el descubrimiento de fenómenos gramaticales nuevos e imprevistos.
Otro uso de los bancos de árboles en lingüística teórica y psicolingüística es la evidencia de interacción. Un banco de árboles completo puede ayudar a los lingüistas a realizar experimentos sobre cómo la decisión de utilizar una construcción gramatical tiende a influir en la decisión de formar otras, y a tratar de comprender cómo los hablantes y escritores toman decisiones mientras forman oraciones. La investigación sobre interacciones es particularmente fructífera a medida que se añaden a un corpus más capas de anotaciones, por ejemplo semánticas y pragmáticas. Entonces es posible evaluar el impacto de los fenómenos no sintácticos en las elecciones gramaticales.
En la investigación lingüística, los datos de los bancos de árboles anotados se han utilizado en la investigación sintáctica para probar las teorías lingüísticas de la estructura de las oraciones frente a grandes cantidades de ejemplos que ocurren naturalmente. [ cita necesaria ]
Un banco de árboles semántico es una colección de oraciones en lenguaje natural anotadas con una representación de significado. Estos recursos utilizan una representación formal de la estructura semántica de cada oración . Los bancos de árboles semánticos varían en la profundidad de su representación semántica. Un ejemplo notable de anotación semántica profunda es el Banco de Significado de Groningen, desarrollado en la Universidad de Groningen y anotado utilizando la Teoría de la Representación del Discurso . Un ejemplo de un banco de árboles semántico superficial es PropBank , que proporciona anotaciones de proposiciones verbales y sus argumentos, sin intentar representar cada palabra del corpus en forma lógica .
Se han desarrollado muchos bancos de árboles sintácticos para una amplia variedad de idiomas:
Para facilitar futuras investigaciones entre tareas multilingües, algunos investigadores discutieron el esquema de anotación universal para idiomas cruzados. De esta manera, la gente intenta utilizar o fusionar las ventajas de diferentes corpus de bancos de árboles. Por ejemplo, el enfoque de anotación universal para bancos de árboles de dependencia; [10] y el enfoque de anotación universal para bancos de árboles de estructura de frases. [11]
Una de las formas clave de extraer evidencia de un banco de árboles es mediante herramientas de búsqueda. Las herramientas de búsqueda de corpus analizados normalmente dependen del esquema de anotación que se aplicó al corpus. Las interfaces de usuario varían en sofisticación, desde sistemas de consulta basados en expresiones dirigidos a programadores informáticos hasta entornos de exploración completos dirigidos a lingüistas generales. Wallis (2008) analiza en detalle los principios de la búsqueda en bancos de árboles y revisa el estado del arte en esa época. [12]
{{cite conference}}
: Mantenimiento CS1: varios nombres: lista de autores ( enlace )