stringtranslate.com

Banco de árboles

La mayoría de los bancos de árboles sintácticos anotan variantes de la estructura de frase (izquierda) o de la estructura de dependencia (derecha).

En lingüística , un treebank es un corpus de texto analizado que anota la estructura sintáctica o semántica de las oraciones . La construcción de corpus analizados a principios de los años 1990 revolucionó la lingüística computacional , que se benefició de los datos empíricos a gran escala . [1]

Etimología

El término treebank fue acuñado por el lingüista Geoffrey Leech en la década de 1980, por analogía con otros repositorios como un banco de semillas o un banco de sangre . [2] Esto se debe a que tanto la estructura sintáctica como la semántica se representan comúnmente compositivamente como una estructura de árbol . El término corpus analizado se usa a menudo indistintamente con el término treebank, con énfasis en la primacía de las oraciones en lugar de los árboles.

Construcción

Los bancos de árboles se crean a menudo sobre un corpus que ya ha sido anotado con etiquetas de categorías gramaticales . A su vez, los bancos de árboles a veces se mejoran con información semántica u otra información lingüística. Los bancos de árboles se pueden crear de forma totalmente manual, donde los lingüistas anotan cada oración con estructura sintáctica, o de forma semiautomática, donde un analizador asigna cierta estructura sintáctica que los lingüistas luego verifican y, si es necesario, corrigen. En la práctica, verificar y completar por completo el análisis de corpus de lenguaje natural es un proyecto que requiere mucho trabajo y que puede llevar varios años a equipos de lingüistas graduados. El nivel de detalle de la anotación y la amplitud de la muestra lingüística determinan la dificultad de la tarea y el tiempo necesario para construir un banco de árboles.

Ejemplo de estructura de frase en forma de árbol para Juan ama a María
Árbol híbrido de circunscripciones y dependencias del corpus árabe coránico

Algunos bancos de árboles siguen una teoría lingüística específica en su anotación sintáctica (por ejemplo, BulTreeBank sigue HPSG ), pero la mayoría intenta ser menos específica en cuanto a la teoría. Sin embargo, se pueden distinguir dos grupos principales: los bancos de árboles que anotan la estructura de frases (por ejemplo, Penn Treebank o ICE-GB) y los que anotan la estructura de dependencia (por ejemplo, Prague Dependency Treebank o Quranic Arabic Dependency Treebank).

Es importante aclarar la distinción entre la representación formal y el formato de archivo utilizado para almacenar los datos anotados. Los Treebanks se construyen necesariamente de acuerdo con una gramática particular. La misma gramática puede implementarse mediante diferentes formatos de archivo. Por ejemplo, el análisis sintáctico de John loves Mary , que se muestra en la figura de la derecha, puede representarse mediante simples corchetes etiquetados en un archivo de texto, como este (siguiendo la notación de Penn Treebank):

(S (NP (NNP Juan)) (VP (VPZ ama) (NP (NNP María))) (. .))

Este tipo de representación es popular porque requiere pocos recursos y la estructura de árbol es relativamente fácil de leer sin herramientas de software. Sin embargo, a medida que los corpus se vuelven cada vez más complejos, pueden preferirse otros formatos de archivo. Las alternativas incluyen esquemas XML específicos de Treebank , sangría numerada y varios tipos de notación de separación.

Aplicaciones

Desde una perspectiva de lingüística computacional [3] , los bancos de árboles se han utilizado para diseñar sistemas de procesamiento de lenguaje natural de última generación, como etiquetadores de partes del discurso , analizadores sintácticos , analizadores semánticos y sistemas de traducción automática. [4] La mayoría de los sistemas computacionales utilizan datos de bancos de árboles de referencia. Sin embargo, un corpus analizado automáticamente que no sea corregido por lingüistas humanos aún puede ser útil. Puede proporcionar evidencia de la frecuencia de reglas para un analizador sintáctico. Un analizador sintáctico se puede mejorar aplicándolo a grandes cantidades de texto y recopilando frecuencias de reglas. Sin embargo, debería ser obvio que solo mediante un proceso de corrección y finalización de un corpus a mano es posible identificar reglas ausentes de la base de conocimiento del analizador. Además, es probable que las frecuencias sean más precisas.

En lingüística de corpus , los bancos de datos se utilizan para estudiar fenómenos sintácticos (por ejemplo, los corpus diacrónicos se pueden utilizar para estudiar la evolución temporal de los cambios sintácticos). Una vez analizado, un corpus contendrá evidencia de frecuencia que muestra cuán comunes son las diferentes estructuras gramaticales en uso. Los bancos de datos también brindan evidencia de cobertura y respaldan el descubrimiento de fenómenos gramaticales nuevos e imprevistos.

Otro uso de los treebanks en la lingüística teórica y la psicolingüística es la evidencia de interacción. Un treebank completo puede ayudar a los lingüistas a realizar experimentos sobre cómo la decisión de utilizar una construcción gramatical tiende a influir en la decisión de formar otras, y a tratar de entender cómo los hablantes y escritores toman decisiones al formar oraciones. La investigación sobre la interacción es particularmente fructífera a medida que se agregan más capas de anotación, por ejemplo semánticas o pragmáticas, a un corpus. Entonces es posible evaluar el impacto de los fenómenos no sintácticos en las elecciones gramaticales.

En la investigación lingüística, los datos de Treebank anotados se han utilizado en la investigación sintáctica para probar teorías lingüísticas de la estructura de oraciones frente a grandes cantidades de ejemplos que ocurren de forma natural. [ cita requerida ]

Bancos de árboles semánticos

Un banco de árboles semánticos es una colección de oraciones en lenguaje natural anotadas con una representación de significado. Estos recursos utilizan una representación formal de la estructura semántica de cada oración . Los bancos de árboles semánticos varían en la profundidad de su representación semántica. Un ejemplo notable de anotación semántica profunda es el Groningen Meaning Bank, desarrollado en la Universidad de Groningen y anotado utilizando la teoría de representación del discurso . Un ejemplo de un banco de árboles semánticos superficial es PropBank , que proporciona anotación de proposiciones verbales y sus argumentos, sin intentar representar cada palabra del corpus en forma lógica .

Bancos de árboles sintácticos

Se han desarrollado muchos bancos de árboles sintácticos para una amplia variedad de idiomas:

Para facilitar las investigaciones posteriores entre tareas multilingües, algunos investigadores discutieron el esquema de anotación universal para varios idiomas. De esta manera, la gente intenta utilizar o fusionar las ventajas de diferentes corpora de treebanks. Por ejemplo, el enfoque de anotación universal para treebanks de dependencia; [10] y el enfoque de anotación universal para treebanks de estructura de frases. [11]

Herramientas de búsqueda

Una de las formas clave de extraer evidencia de un banco de datos es a través de herramientas de búsqueda. Las herramientas de búsqueda para corpus analizados generalmente dependen del esquema de anotación que se aplicó al corpus. Las interfaces de usuario varían en sofisticación desde sistemas de consulta basados ​​en expresiones dirigidos a programadores informáticos hasta entornos de exploración completos dirigidos a lingüistas generales. Wallis (2008) analiza los principios de búsqueda en bancos de datos en detalle y revisa el estado del arte en ese momento. [12]

Véase también

Referencias

  1. ^ Alexander Clark, Chris Fox y Shalom Lappin (2010). Manual de lingüística computacional y procesamiento del lenguaje natural. Wiley.
  2. ^ Sampson, G. (2003) 'Reflexiones de un dendrógrafo'. En A. Wilson, P. Rayson y T. McEnery (eds.) Corpus Linguistics by the Lune: A Festschrift for Geoffrey Leech, Frankfurt am Main: Peter Lang, pp. 157-184
  3. ^ Haitao Liu, Wei Huang — A Chinese Dependency Syntax for Treebanking, publicado por la Universidad de Comunicación de China , publicado (en línea) por la Asociación de Lingüística Computacional - consultado el 4 de febrero de 2020
  4. ^ Kübler, Sandra; McDonald, Ryan; Nivre, Joakim (18 de diciembre de 2008). "Análisis de dependencia". Synthesis Lectures on Human Language Technologies . 2 (1): 1–127. doi :10.2200/s00169ed1v01y200901hlt002.
  5. ^ Kais Dukes (2013) Anotación semántica de comandos espaciales robóticos. Conferencia sobre lenguaje y tecnología (LTC). Poznan, Polonia.
  6. ^ Celano, Giuseppe GA 2014. Directrices para la anotación del Ancient Greek Dependency Treebank 2.0. https://github.com/PerseusDL/treebank_data/edit/master/AGDT2/guidelines
  7. ^ Mambrini, F. 2016. El árbol de dependencias de la Grecia antigua: anotación lingüística en un entorno de enseñanza. En: Bodard, G y Romanello, M (eds.) Clásicos digitales fuera de la cámara de eco: enseñanza, intercambio de conocimientos y participación pública, pp. 83-99. Londres: Ubiquity Press. doi :10.5334/bat.f
  8. ^ abcdef Dag Haug. 2015. Treebanks en la investigación lingüística histórica. En Carlotta Viti (ed.), Perspectives on Historical Syntax, Benjamins, 188-202. Hay una versión preliminar disponible en http://folk.uio.no/daghaug/historical-treebanks.pdf.
  9. ^ Bamman David & al. 2008. Pautas para la anotación sintáctica de Treebanks latinos (v. 1.3). http://nlp.perseus.tufts.edu/syntax/treebank/1.3/docs/guidelines.pdf
  10. ^ McDonald, R.; Nivre, J., Quirmbach-Brundage, Y.; et al. "Anotación de dependencia universal para análisis multilingüe". Actas de la ACL 2013 .{{cite conference}}: CS1 maint: varios nombres: lista de autores ( enlace )
  11. ^ Han, AL-F; Wong, DF; Chao, LS; Lu, Y.; He, L. y Tian, ​​L. (2014). "Un conjunto de etiquetas de frases universal para bancos de árboles multilingües" (PDF) . Actas del CCL y NLP-NABD 2014, LNAI 8801, págs. 247– 258. © Springer International Publishing Suiza . doi :10.1007/978-3-319-12277-9_22.
  12. ^ Wallis, Sean (2008). Búsqueda de bancos de árboles y otros corpus estructurados. Capítulo 34 en Lüdeling, A. & Kytö, M. (ed.) Corpus Linguistics: An International Handbook. Serie Handbücher zur Sprache und Kommunikationswissenschaft. Berlín: Mouton de Gruyter.