stringtranslate.com

Corpus de texto

En lingüística y procesamiento del lenguaje natural , un corpus ( pl.: corpus ) o corpus de texto es un conjunto de datos que consiste en recursos lingüísticos originalmente digitales y otros más antiguos, digitalizados , ya sea anotados o no anotados.

Anotados, se han utilizado en lingüística de corpus para probar hipótesis estadísticas , verificar ocurrencias o validar reglas lingüísticas dentro de un territorio lingüístico específico.

Descripción general

Un corpus puede contener textos en un solo idioma ( corpus monolingüe ) o datos de texto en varios idiomas ( corpus multilingüe ).

Para que los corpus resulten más útiles para la investigación lingüística, suelen someterse a un proceso conocido como anotación . Un ejemplo de anotación de un corpus es el etiquetado de las partes del discurso , o etiquetado POS , en el que se añade al corpus información sobre la parte del discurso de cada palabra (verbo, sustantivo, adjetivo, etc.) en forma de etiquetas . Otro ejemplo es indicar la forma lema (base) de cada palabra. Cuando el idioma del corpus no es un idioma de trabajo de los investigadores que lo utilizan, se utiliza la glosa interlineal para que la anotación sea bilingüe.

Algunos corpus tienen niveles de análisis estructurados adicionales aplicados. En particular, los corpus más pequeños pueden analizarse completamente . Dichos corpus suelen denominarse Treebanks o Parsed Corpora . La dificultad de garantizar que todo el corpus esté anotado de forma completa y consistente significa que estos corpus suelen ser más pequeños, conteniendo entre uno y tres millones de palabras. Son posibles otros niveles de análisis lingüístico estructurado, incluidas las anotaciones para morfología , semántica y pragmática .

Aplicaciones

Los corpus son la base de conocimiento principal en lingüística de corpus . Otras áreas de aplicación notables incluyen:

Algunos corpus de textos notables

Véase también

Referencias

  1. ^ Yoon, H. y Hirvela, A. (2004). Actitudes de los estudiantes de inglés como segundo idioma hacia el uso de corpus en la escritura como segunda lengua. Journal of Second Language Writing, 13 (4), 257–283. Consultado el 21 de marzo de 2012.
  2. ^ Wołk, K.; Marasek, K. (7 de abril de 2014). "Traducción estadística del habla en tiempo real". Nuevas perspectivas en sistemas de información y tecnologías, volumen 1. Avances en sistemas inteligentes y computación. Vol. 275. Springer. págs. 107–114. arXiv : 1509.09090 . doi :10.1007/978-3-319-05951-8_11. ISBN . 978-3-319-05950-1. ISSN  2194-5357. S2CID  15361632.
  3. ^ Wolk, Krzysztof; Marasek, Krzysztof (2015). "Minería de datos paralela optimizada y acelerada por GPU a partir de corpus comparables". En Král, Pavel; Matousek, Václav (eds.). Texto, habla y diálogo: 18.ª conferencia internacional, TSD 2015, Pilsen, República Checa, 14-17 de septiembre de 2015, Actas . Notas de clase en informática. Vol. 9302. Springer. págs. 32-40. arXiv : 1509.08639 . doi :10.1007/978-3-319-24033-6_4. ISBN . 978-3-319-24032-9.

Enlaces externos