banco de árboles

En lingüística , un banco de árboles es un corpus de texto analizado que anota la estructura sintáctica o semántica de la oración . La construcción de corpus analizados a principios de la década de 1990 revolucionó la lingüística computacional , que se benefició de datos empíricos a gran escala . ^[1]

Etimología

El término banco de árboles fue acuñado por el lingüista Geoffrey Leech en la década de 1980, por analogía con otros repositorios como un banco de semillas o un banco de sangre . ^[2] Esto se debe a que tanto la estructura sintáctica como la semántica comúnmente se representan composicionalmente como una estructura de árbol . El término corpus analizado se utiliza a menudo indistintamente con el término banco de árboles, con énfasis en la primacía de las oraciones sobre los árboles.

Construcción

Los treebanks a menudo se crean sobre un corpus que ya ha sido anotado con etiquetas de parte del discurso . A su vez, los bancos de árboles a veces se enriquecen con información semántica o lingüística. Los bancos de árboles se pueden crear de forma completamente manual, donde los lingüistas anotan cada oración con una estructura sintáctica, o de forma semiautomática, donde un analizador asigna alguna estructura sintáctica que los lingüistas luego verifican y, si es necesario, corrigen. En la práctica, verificar y completar completamente el análisis de corpus de lenguaje natural es un proyecto que requiere mucha mano de obra y que puede llevar varios años a equipos de lingüistas graduados. El nivel de detalle de las anotaciones y la amplitud de la muestra lingüística determinan la dificultad de la tarea y el tiempo necesario para construir un banco de árboles.

Árbol de estructura de frase de ejemplo para *Juan ama a María*

Árbol híbrido de circunscripciones/dependencias del corpus árabe coránico

Algunos treebanks siguen una teoría lingüística específica en su anotación sintáctica (por ejemplo, BulTreeBank sigue HPSG ), pero la mayoría intenta ser menos específica de la teoría. Sin embargo, se pueden distinguir dos grupos principales: bancos de árboles que anotan la estructura de las frases (por ejemplo, Penn Treebank o ICE-GB) y aquellos que anotan la estructura de dependencia (por ejemplo, el Prague Dependency Treebank o el Quranic Arab Dependency Treebank).

Es importante aclarar la distinción entre la representación formal y el formato de archivo utilizado para almacenar los datos anotados. Los treebanks se construyen necesariamente de acuerdo con una gramática particular. La misma gramática puede implementarse en diferentes formatos de archivo. Por ejemplo, el análisis sintáctico de John love Mary , que se muestra en la figura de la derecha, puede representarse mediante simples corchetes etiquetados en un archivo de texto, como este (siguiendo la notación de Penn Treebank):

(S (NP (NNP Juan)) (VP (VPZ ama) (NP (NNP María))) (. .))

Este tipo de representación es popular porque requiere pocos recursos y la estructura de árbol es relativamente fácil de leer sin herramientas de software. Sin embargo, a medida que los corpus se vuelven cada vez más complejos, es posible que se prefieran otros formatos de archivo. Las alternativas incluyen esquemas XML específicos para bancos de árboles , sangrías numeradas y varios tipos de notación de separación.

Aplicaciones

Desde una perspectiva de lingüística computacional ^[3] , los bancos de árboles se han utilizado para diseñar sistemas de procesamiento de lenguaje natural de última generación, como etiquetadores de partes del discurso , analizadores sintácticos , analizadores semánticos y sistemas de traducción automática. ^[4] La mayoría de los sistemas computacionales utilizan datos de bancos de árboles estándar. Sin embargo, un corpus analizado automáticamente que no sea corregido por lingüistas humanos aún puede resultar útil. Puede proporcionar evidencia de la frecuencia de las reglas para un analizador. Se puede mejorar un analizador aplicándolo a grandes cantidades de texto y reuniendo frecuencias de reglas. Sin embargo, debería ser obvio que sólo mediante un proceso de corrección y finalización manual de un corpus es posible identificar reglas ausentes en la base de conocimientos del analizador. Además, es probable que las frecuencias sean más precisas.

En lingüística de corpus , los bancos de árboles se utilizan para estudiar fenómenos sintácticos (por ejemplo, los corpus diacrónicos se pueden utilizar para estudiar el curso temporal del cambio sintáctico). Una vez analizado, un corpus contendrá evidencia de frecuencia que muestra cuán comunes son las diferentes estructuras gramaticales en uso. Los Treebanks también proporcionan evidencia de cobertura y apoyan el descubrimiento de fenómenos gramaticales nuevos e imprevistos.

Otro uso de los bancos de árboles en lingüística teórica y psicolingüística es la evidencia de interacción. Un banco de árboles completo puede ayudar a los lingüistas a realizar experimentos sobre cómo la decisión de utilizar una construcción gramatical tiende a influir en la decisión de formar otras, y a tratar de comprender cómo los hablantes y escritores toman decisiones mientras forman oraciones. La investigación sobre interacciones es particularmente fructífera a medida que se añaden a un corpus más capas de anotaciones, por ejemplo semánticas y pragmáticas. Entonces es posible evaluar el impacto de los fenómenos no sintácticos en las elecciones gramaticales.

En la investigación lingüística, los datos de los bancos de árboles anotados se han utilizado en la investigación sintáctica para probar las teorías lingüísticas de la estructura de las oraciones frente a grandes cantidades de ejemplos que ocurren naturalmente. ^{[ cita necesaria ]}

Bancos de árboles semánticos

Un banco de árboles semántico es una colección de oraciones en lenguaje natural anotadas con una representación de significado. Estos recursos utilizan una representación formal de la estructura semántica de cada oración . Los bancos de árboles semánticos varían en la profundidad de su representación semántica. Un ejemplo notable de anotación semántica profunda es el Banco de Significado de Groningen, desarrollado en la Universidad de Groningen y anotado utilizando la Teoría de la Representación del Discurso . Un ejemplo de un banco de árboles semántico superficial es PropBank , que proporciona anotaciones de proposiciones verbales y sus argumentos, sin intentar representar cada palabra del corpus en forma lógica .

Bancos de árboles sintácticos

Se han desarrollado muchos bancos de árboles sintácticos para una amplia variedad de idiomas:

Para facilitar futuras investigaciones entre tareas multilingües, algunos investigadores discutieron el esquema de anotación universal para idiomas cruzados. De esta manera, la gente intenta utilizar o fusionar las ventajas de diferentes corpus de bancos de árboles. Por ejemplo, el enfoque de anotación universal para bancos de árboles de dependencia; ^[10] y el enfoque de anotación universal para bancos de árboles de estructura de frases. ^[11]

herramientas de búsqueda

Una de las formas clave de extraer evidencia de un banco de árboles es mediante herramientas de búsqueda. Las herramientas de búsqueda de corpus analizados normalmente dependen del esquema de anotación que se aplicó al corpus. Las interfaces de usuario varían en sofisticación, desde sistemas de consulta basados en expresiones dirigidos a programadores informáticos hasta entornos de exploración completos dirigidos a lingüistas generales. Wallis (2008) analiza en detalle los principios de la búsqueda en bancos de árboles y revisa el estado del arte en esa época. ^[12]

Ver también

Referencias

^ Alexander Clark, Chris Fox y Shalom Lappin (2010). El manual de lingüística computacional y procesamiento del lenguaje natural. Wiley.
^ Sampson, G. (2003) 'Reflexiones de un dendrógrafo'. En A. Wilson, P. Rayson y T. McEnery (eds.) Corpus Linguistics by the Lune: A Festschrift for Geoffrey Leech, Frankfurt am Main: Peter Lang, págs. 157-184
^ Haitao Liu, Wei Huang: una sintaxis de dependencia china para Treebanking, publicado por la Communication University of China , publicado (en línea) por la Association for Computational Linguistics - consultado el 4 de febrero de 2020.
^ Kubler, Sandra; McDonald, Ryan; Nivre, Joakim (18 de diciembre de 2008). "Análisis de dependencia". Conferencias de síntesis sobre tecnologías del lenguaje humano . 2 (1): 1–127. doi :10.2200/s00169ed1v01y200901hlt002.
^ Kais Dukes (2013) Anotación semántica de comandos espaciales robóticos. Congreso de Lengua y Tecnología (LTC). Poznan, Polonia.
^ Celano, Giuseppe GA 2014. Directrices para la anotación del Treebank 2.0 de dependencia de la antigua Grecia. https://github.com/PerseusDL/treebank_data/edit/master/AGDT2/guidelines
^ Mambrini, F. 2016. El banco de árboles de dependencia de la antigua Grecia: anotación lingüística en un entorno de enseñanza. En: Bodard, G & Romanello, M (eds.) Clásicos digitales fuera de la cámara de eco: enseñanza, intercambio de conocimientos y participación pública, págs. 83–99. Londres: Ubiquity Press. doi :10.5334/bat.f
^ abcdef Dag Haug. 2015. Treebanks en la investigación lingüística histórica. En Carlotta Viti (ed.), Perspectivas sobre la sintaxis histórica, Benjamins, 188-202. Una preimpresión está disponible en http://folk.uio.no/daghaug/historical-treebanks.pdf.
^ Bamman David y otros. 2008. Directrices para la anotación sintáctica de Latin Treebanks (v. 1.3). http://nlp.perseus.tufts.edu/syntax/treebank/1.3/docs/guidelines.pdf
^ McDonald, R.; Nivre, J., Quirmbach-Brundage, Y.; et al. "Anotación de dependencia universal para análisis multilingüe". Actas de la ACL 2013 .{{cite conference}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
^ Han, AL-F; Wong, DF; Chao, LS; Lu, Y.; Él, L. y Tian, L. (2014). "Un conjunto de etiquetas de frases universales para bancos de árboles multilingües" (PDF) . Actas de CCL y NLP-NABD 2014, LNAI 8801, págs. 247–258. © Springer International Publishing Switzerland . doi :10.1007/978-3-319-12277-9_22.
^ Wallis, Sean (2008). Búsqueda de bancos de árboles y otros corpus estructurados. Capítulo 34 en Lüdeling, A. & Kytö, M. (ed.) Corpus Linguistics: An International Handbook. Serie Handbücher zur Sprache und Kommunikationswissenschaft. Berlín: Mouton de Gruyter.