Colecciones digitales de datos en lenguaje natural
En lingüística y procesamiento del lenguaje natural , un corpus ( pl.: corpus ) o corpus de texto es un conjunto de datos que consiste en recursos lingüísticos originalmente digitales y otros más antiguos, digitalizados , ya sea anotados o no anotados.
Anotados, se han utilizado en lingüística de corpus para probar hipótesis estadísticas , verificar ocurrencias o validar reglas lingüísticas dentro de un territorio lingüístico específico.
Descripción general
Un corpus puede contener textos en un solo idioma ( corpus monolingüe ) o datos de texto en varios idiomas ( corpus multilingüe ).
Para que los corpus resulten más útiles para la investigación lingüística, suelen someterse a un proceso conocido como anotación . Un ejemplo de anotación de un corpus es el etiquetado de las partes del discurso , o etiquetado POS , en el que se añade al corpus información sobre la parte del discurso de cada palabra (verbo, sustantivo, adjetivo, etc.) en forma de etiquetas . Otro ejemplo es indicar la forma lema (base) de cada palabra. Cuando el idioma del corpus no es un idioma de trabajo de los investigadores que lo utilizan, se utiliza la glosa interlineal para que la anotación sea bilingüe.
Algunos corpus tienen niveles de análisis estructurados adicionales aplicados. En particular, los corpus más pequeños pueden analizarse completamente . Dichos corpus suelen denominarse Treebanks o Parsed Corpora . La dificultad de garantizar que todo el corpus esté anotado de forma completa y consistente significa que estos corpus suelen ser más pequeños, conteniendo entre uno y tres millones de palabras. Son posibles otros niveles de análisis lingüístico estructurado, incluidas las anotaciones para morfología , semántica y pragmática .
Aplicaciones
Los corpus son la base de conocimiento principal en lingüística de corpus . Otras áreas de aplicación notables incluyen:
- Traducción automática
- Los corpus multilingües que han sido especialmente formateados para la comparación lado a lado se denominan corpus paralelos alineados . Hay dos tipos principales de corpus paralelos que contienen textos en dos idiomas. En un corpus de traducción , los textos en un idioma son traducciones de textos en el otro idioma. En un corpus comparable , los textos son del mismo tipo y cubren el mismo contenido, pero no son traducciones entre sí. [2] Para explotar un texto paralelo, algún tipo de alineación de texto que identifique segmentos de texto equivalentes (frases u oraciones) es un prerrequisito para el análisis. Los algoritmos de traducción automática para traducir entre dos idiomas a menudo se entrenan utilizando fragmentos paralelos que comprenden un corpus de primera lengua y un corpus de segunda lengua, que es una traducción elemento por elemento del corpus de primera lengua. [3]
- Filologías
- Los corpus de textos también se utilizan en el estudio de documentos históricos , por ejemplo, en los intentos de descifrar escrituras antiguas o en la erudición bíblica . Algunos corpus arqueológicos pueden ser de duración tan corta que proporcionan una instantánea en el tiempo. Uno de los corpus más cortos en el tiempo puede ser el de las cartas de Amarna ( 1350 a. C. ), de entre 15 y 30 años de antigüedad. El corpus de una ciudad antigua (por ejemplo, los " Textos de Kültepe " de Turquía) puede pasar por una serie de corpus, determinados por las fechas de sus sitios de hallazgo.
Algunos corpus de textos notables
Véase también
Referencias
- ^ Yoon, H. y Hirvela, A. (2004). Actitudes de los estudiantes de inglés como segundo idioma hacia el uso de corpus en la escritura como segunda lengua. Journal of Second Language Writing, 13 (4), 257–283. Consultado el 21 de marzo de 2012.
- ^ Wołk, K.; Marasek, K. (7 de abril de 2014). "Traducción estadística del habla en tiempo real". Nuevas perspectivas en sistemas de información y tecnologías, volumen 1. Avances en sistemas inteligentes y computación. Vol. 275. Springer. págs. 107–114. arXiv : 1509.09090 . doi :10.1007/978-3-319-05951-8_11. ISBN . 978-3-319-05950-1. ISSN 2194-5357. S2CID 15361632.
- ^ Wolk, Krzysztof; Marasek, Krzysztof (2015). "Minería de datos paralela optimizada y acelerada por GPU a partir de corpus comparables". En Král, Pavel; Matousek, Václav (eds.). Texto, habla y diálogo: 18.ª conferencia internacional, TSD 2015, Pilsen, República Checa, 14-17 de septiembre de 2015, Actas . Notas de clase en informática. Vol. 9302. Springer. págs. 32-40. arXiv : 1509.08639 . doi :10.1007/978-3-319-24033-6_4. ISBN . 978-3-319-24032-9.
Enlaces externos
- Enlaces de recursos de ACL SIGLEX: Corpora de texto Archivado el 13 de agosto de 2013 en Wayback Machine
- Desarrollo de corpus lingüísticos: guía de buenas prácticas
- Muestras gratuitas (no gratuitas), corpus basados en la web (45-425 millones de palabras cada uno): estadounidenses (COCA, COHA, TIME), británicas (BNC), españolas, portuguesas
- Intercorp Construye corpus paralelos sincrónicos de las lenguas enseñadas en la Facultad de Artes de la Universidad Carolina.
- Sketch Engine: Corpora abiertos con acceso libre
- TS Corpus: un corpus turco disponible gratuitamente para la investigación académica.
- Corpus Nacional Turco: un corpus de propósito general para la literatura turca contemporánea
- Corpus de discursos políticos, acceso gratuito a discursos políticos de políticos estadounidenses y chinos, desarrollado por la Biblioteca de la Universidad Bautista de Hong Kong
- Corpus nacional ruso