stringtranslate.com

Corpus de texto

En lingüística y procesamiento del lenguaje natural , un corpus ( pl.: corpora ) o corpus de texto es un conjunto de datos, que consta de recursos lingüísticos nativos digitales y más antiguos, digitalizados , ya sea anotados o sin anotaciones.

Anotados, se han utilizado en lingüística de corpus para probar hipótesis estadísticas , verificar ocurrencias o validar reglas lingüísticas dentro de un territorio lingüístico específico.

En tecnología de búsqueda , un corpus es la colección de documentos que se buscan.

Descripción general

Un corpus puede contener textos en un solo idioma ( corpus monolingüe ) o datos de texto en múltiples idiomas ( corpus multilingüe ).

Para que los corpus sean más útiles para realizar investigaciones lingüísticas, a menudo se los somete a un proceso conocido como anotación . Un ejemplo de anotación de un corpus es el etiquetado de parte del discurso , o etiquetado POS , en el que información sobre la parte del discurso de cada palabra (verbo, sustantivo, adjetivo, etc.) se agrega al corpus en forma de etiquetas . Otro ejemplo es indicar la forma del lema (base) de cada palabra. Cuando el idioma del corpus no es un idioma de trabajo de los investigadores que lo utilizan, se utiliza glosación interlineal para que la anotación sea bilingüe.

Algunos corpus han aplicado niveles de análisis más estructurados . En particular, los corpus más pequeños pueden analizarse completamente . Estos corpus suelen denominarse Treebanks o Parsed Corpora . La dificultad de garantizar que todo el corpus esté anotado de forma completa y coherente significa que estos corpus suelen ser más pequeños y contienen entre uno y tres millones de palabras. Son posibles otros niveles de análisis estructurado lingüístico, incluidas anotaciones para morfología , semántica y pragmática .

Aplicaciones

Los corpus son la principal base de conocimientos en lingüística de corpus . Otras áreas de aplicación notables incluyen:

Algunos corpus de texto notables

Ver también

Referencias

  1. ^ Yoon, H. e Hirvela, A. (2004). Actitudes de los estudiantes de ESL hacia el uso de corpus en la escritura L2. Revista de escritura en un segundo idioma, 13 (4), 257–283. Consultado el 21 de marzo de 2012.
  2. ^ Wołk, K.; Marasek, K. (7 de abril de 2014). "Traducción estadística de voz en tiempo real". Nuevas perspectivas en sistemas y tecnologías de la información, volumen 1 . Avances en Sistemas Inteligentes y Computación. vol. 275. Saltador. págs. 107-114. arXiv : 1509.09090 . doi :10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN  2194-5357. S2CID  15361632.
  3. ^ Wolk, Krzysztof; Marasek, Krzysztof (2015). "Extracción de datos paralela optimizada y acelerada por GPU a partir de corpus comparables". En Král, Pavel; Matousek, Václav (eds.). Texto, discurso y diálogo: 18.ª Conferencia Internacional, TSD 2015, Pilsen, República Checa, 14 al 17 de septiembre de 2015, Actas . Apuntes de conferencias sobre informática. vol. 9302. Saltador. págs. 32–40. arXiv : 1509.08639 . doi :10.1007/978-3-319-24033-6_4.

enlaces externos