stringtranslate.com

Corpus somalí

El Corpus Somalí , también conocido como Kaydka Af Soomaaliga (KAF) , es una colección digital de textos en somalí , un idioma hablado en la Gran Somalia , Etiopía y Kenia . Comenzó con 3 millones de palabras de literatura y lengua somalíes desarrolladas por Jama Musse Jama en 2016 [1] [2] como parte de su tesis doctoral. [3] El corpus contiene actualmente más de 7 millones de palabras, principalmente de literatura, poesía, canciones, noticias, ensayos y discursos políticos, [4] lo que lo convierte en una de las colecciones más extensas de tipos de texto de corpus de idiomas dentro de las lenguas africanas y una importante adición a los materiales en línea de idiomas con recursos insuficientes. [5] [6] [7] [8] Las palabras del corpus están etiquetadas para categorías de partes del discurso. El corpus se puede utilizar para destilar listas de frecuencia de palabras somalíes. [9] El corpus también sirve como base para un corrector ortográfico somalí en línea. [10]

Otros corpus de lenguas somalíes

Véase también

Referencias

  1. ^ "El Corpus Oficial Somalí 2016".
  2. ^ Morgan Nilsson. 2018. Tres corpus de la lengua somalí: ¿cómo pueden ser útiles? https://morgannilsson.se/ppt/2018-08-15-Mogadishu.pdf
  3. ^ Jama Musse Jama (2016). Un corpus de literatura somalí anotado sintácticamente . Tesis doctoral inédita.
  4. ^ Jama Musse Jama. 2017. Corpus somalí: estado del arte y herramientas para el análisis lingüístico. https://www.academia.edu/26504727/Somali_Corpus_state_of_the_art_and_tools_for_linguistic_analysis.
  5. ^ Bendjaballah, Sabrina. 2024. Cúmulos de partículas somalíes: paradigmas completos, sincretismo y frecuencia de corpus. Brill's Journal of Afroasiatic Languages ​​and Linguistics. Brill 16(1). 102–136. https://doi.org/10.1163/18776930-01601003.
  6. ^ Mohammed, Siraj. 2020. Uso del aprendizaje automático para crear un etiquetador POS para un idioma con pocos recursos: el caso del somalí. Revista internacional de tecnología de la información 12(3). 717–729. https://doi.org/10.1007/s41870-020-00480-2.
  7. ^ Hashi, Awil. 2014. Desarrollo de un corpus modelo para lenguas en peligro de extinción. Estudios de posgrado. Universidad de Calgary. Tesis doctoral. https://doi.org/10.11575/PRISM/25614.
  8. ^ Nimaan, Abdillahi. 2014. Construcción y evaluación de corpus lingüísticos somalíes. En Jeff Good, Julia Hirschberg y Owen Rambow (eds.), Actas del taller de 2014 sobre el uso de métodos computacionales en el estudio de las lenguas en peligro de extinción, 73–76. Baltimore, Maryland, EE. UU.: Asociación de Lingüística Computacional. https://doi.org/10.3115/v1/W14-2210.
  9. ^ Giorgio Banti. 2022. Algunas cuestiones para un diccionario etimológico del somalí. https://www.academia.edu/81600790/Banti_2022_Some_issues_for_an_Etymological_Dictionary_of_Somali.
  10. ^ "Corpus somalí del RCF | 2012-2013".
  11. ^ "El amor es una mentira".
  12. ^ "Corpus web somalí".