Colecciones digitales de datos en lenguaje natural.
En lingüística y procesamiento del lenguaje natural , un corpus ( pl.: corpora ) o corpus de texto es un conjunto de datos, que consta de recursos lingüísticos nativos digitales y más antiguos, digitalizados , ya sea anotados o sin anotaciones.
Anotados, se han utilizado en lingüística de corpus para probar hipótesis estadísticas , verificar ocurrencias o validar reglas lingüísticas dentro de un territorio lingüístico específico.
En tecnología de búsqueda , un corpus es la colección de documentos que se buscan.
Descripción general
Un corpus puede contener textos en un solo idioma ( corpus monolingüe ) o datos de texto en múltiples idiomas ( corpus multilingüe ).
Para que los corpus sean más útiles para realizar investigaciones lingüísticas, a menudo se los somete a un proceso conocido como anotación . Un ejemplo de anotación de un corpus es el etiquetado de parte del discurso , o etiquetado POS , en el que información sobre la parte del discurso de cada palabra (verbo, sustantivo, adjetivo, etc.) se agrega al corpus en forma de etiquetas . Otro ejemplo es indicar la forma del lema (base) de cada palabra. Cuando el idioma del corpus no es un idioma de trabajo de los investigadores que lo utilizan, se utiliza glosación interlineal para que la anotación sea bilingüe.
Algunos corpus han aplicado niveles de análisis más estructurados . En particular, los corpus más pequeños pueden analizarse completamente . Estos corpus suelen denominarse Treebanks o Parsed Corpora . La dificultad de garantizar que todo el corpus esté anotado de forma completa y coherente significa que estos corpus suelen ser más pequeños y contienen entre uno y tres millones de palabras. Son posibles otros niveles de análisis estructurado lingüístico, incluidas anotaciones para morfología , semántica y pragmática .
Aplicaciones
Los corpus son la principal base de conocimientos en lingüística de corpus . Otras áreas de aplicación notables incluyen:
- Máquina traductora
- Los corpus multilingües que han sido formateados especialmente para la comparación lado a lado se denominan corpus paralelos alineados . Hay dos tipos principales de corpus paralelos que contienen textos en dos idiomas. En un corpus de traducción , los textos en un idioma son traducciones de textos en el otro idioma. En un corpus comparable , los textos son del mismo tipo y cubren el mismo contenido, pero no son traducciones entre sí. [2] Para explotar un texto paralelo, algún tipo de alineación del texto que identifique segmentos de texto equivalentes (frases u oraciones) es un requisito previo para el análisis. Los algoritmos de traducción automática para traducir entre dos idiomas a menudo se entrenan utilizando fragmentos paralelos que comprenden un corpus de primera lengua y un corpus de segunda lengua, que es una traducción elemento por elemento del corpus de primera lengua. [3]
- Filologías
- Los corpus de texto también se utilizan en el estudio de documentos históricos , por ejemplo en intentos de descifrar escrituras antiguas o en estudios bíblicos . Algunos corpus arqueológicos pueden tener una duración tan corta que proporcionan una instantánea en el tiempo. Uno de los corpus más cortos en el tiempo pueden ser los textos de las cartas de Amarna de 15 a 30 años ( 1350 a. C. ). El corpus de una ciudad antigua (por ejemplo, los " Textos Kültepe " de Turquía), puede pasar por una serie de corpus, determinados por las fechas del lugar de su hallazgo.
Algunos corpus de texto notables
Ver también
Referencias
- ^ Yoon, H. e Hirvela, A. (2004). Actitudes de los estudiantes de ESL hacia el uso de corpus en la escritura L2. Revista de escritura en un segundo idioma, 13 (4), 257–283. Consultado el 21 de marzo de 2012.
- ^ Wołk, K.; Marasek, K. (7 de abril de 2014). "Traducción estadística de voz en tiempo real". Nuevas perspectivas en sistemas y tecnologías de la información, volumen 1 . Avances en Sistemas Inteligentes y Computación. vol. 275. Saltador. págs. 107-114. arXiv : 1509.09090 . doi :10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN 2194-5357. S2CID 15361632.
- ^ Wolk, Krzysztof; Marasek, Krzysztof (2015). "Extracción de datos paralela optimizada y acelerada por GPU a partir de corpus comparables". En Král, Pavel; Matousek, Václav (eds.). Texto, discurso y diálogo: 18.ª Conferencia Internacional, TSD 2015, Pilsen, República Checa, 14 al 17 de septiembre de 2015, Actas . Apuntes de conferencias sobre informática. vol. 9302. Saltador. págs. 32–40. arXiv : 1509.08639 . doi :10.1007/978-3-319-24033-6_4.
enlaces externos
- Enlaces de recursos de ACL SIGLEX: Corporas de texto Archivado el 13 de agosto de 2013 en Wayback Machine.
- Desarrollo de corpus lingüísticos: una guía de buenas prácticas
- Muestras gratuitas (no gratuitas), corpus basados en la web (entre 45 y 425 millones de palabras cada uno): americano (COCA, COHA, TIME), británico (BNC), español, portugués
- Intercorp Construcción de corpus paralelos sincrónicos de los idiomas enseñados en la Facultad de Artes de la Universidad Charles.
- Sketch Engine: corpus abiertos con acceso gratuito
- TS Corpus: un corpus turco disponible gratuitamente para investigaciones académicas.
- Corpus Nacional Turco: un corpus de propósito general para el turco contemporáneo.
- Corpus de discursos políticos, acceso gratuito a discursos políticos de políticos estadounidenses y chinos, desarrollado por la Biblioteca de la Universidad Bautista de Hong Kong
- Corpus Nacional Ruso