stringtranslate.com

Lematización

La lematización (o menos comúnmente lematización ) en lingüística es el proceso de agrupar las formas flexivas de una palabra para que puedan analizarse como un solo elemento, identificado por el lema de la palabra o la forma del diccionario. [1]

En lingüística computacional , la lematización es el proceso algorítmico de determinar el lema de una palabra en función de su significado pretendido. A diferencia de la lematización , la lematización depende de la identificación correcta de la parte gramatical y el significado pretendidos de una palabra en una oración, así como dentro del contexto más amplio que rodea esa oración, como oraciones vecinas o incluso un documento completo. Como resultado, el desarrollo de algoritmos de lematización eficientes es un área abierta de investigación. [2] [3] [4]

Descripción

En muchos idiomas, las palabras aparecen en varias formas flexivas . Por ejemplo, en inglés, el verbo "caminar" puede aparecer como "caminar", "caminado", "camina" o "caminando". La forma básica, "caminar", que se puede buscar en un diccionario, se denomina lema de la palabra. La asociación de la forma básica con una parte del discurso se suele denominar lexema de la palabra.

La lematización está estrechamente relacionada con la lematización . La diferencia es que un lematizador opera sobre una sola palabra sin conocimiento del contexto y, por lo tanto, no puede discriminar entre palabras que tienen diferentes significados según la parte del discurso. Sin embargo, los lematizadores suelen ser más fáciles de implementar y se ejecutan más rápido. La "precisión" reducida puede no ser importante para algunas aplicaciones. De hecho, cuando se utiliza dentro de sistemas de recuperación de información, la lematización mejora la precisión de recuperación de la consulta , o la tasa de verdaderos positivos, en comparación con la lematización. No obstante, la lematización reduce la precisión , o la proporción de instancias etiquetadas positivamente que son realmente positivas, para tales sistemas. [5]

Por ejemplo:

  1. La palabra "mejor" tiene como lema "bueno". Este vínculo no se encuentra en la derivación, ya que requiere una búsqueda en el diccionario.
  2. La palabra "caminar" es la forma base de la palabra "caminar" y, por lo tanto, coincide tanto en la derivación como en la lematización.
  3. La palabra "reunión" puede ser la forma base de un sustantivo o la forma de un verbo ("reunirse") según el contexto; por ejemplo, "en nuestra última reunión" o "nos reuniremos de nuevo mañana". A diferencia de la lematización, la lematización intenta seleccionar el lema correcto según el contexto.

Los programas de indexación de documentos como Lucene [6] pueden almacenar el formato básico de la palabra sin conocer su significado, sino solo teniendo en cuenta las reglas gramaticales de formación de palabras. La palabra derivada en sí misma podría no ser una palabra válida: "lazy", como se ve en el ejemplo siguiente, es derivada por muchos lematizadores a "lazi". Esto se debe a que el propósito de la lematización no es producir el lema apropiado, que es una tarea más desafiante que requiere conocimiento del contexto. El propósito principal de la lematización es mapear diferentes formas de una palabra a una sola forma. [7] Como algoritmo basado en reglas, que depende solo de la ortografía de una palabra, sacrifica la precisión para garantizar que, por ejemplo, cuando "laziness" se deriva a "lazi", tenga la misma raíz que "lazy".

Algoritmos

Una forma sencilla de realizar la lematización es mediante una simple búsqueda en el diccionario. Esto funciona bien para formas flexivas sencillas, pero será necesario un sistema basado en reglas para otros casos, como en idiomas con palabras compuestas largas . Dichas reglas pueden crearse manualmente o aprenderse automáticamente a partir de un corpus anotado .

Uso en biomedicina

El análisis morfológico de la literatura biomédica publicada puede producir resultados útiles. El procesamiento morfológico de textos biomédicos puede ser más eficaz mediante un programa de lematización especializado en biomedicina y puede mejorar la precisión de las tareas prácticas de extracción de información . [8]

Véase también

Referencias

  1. ^ Diccionario Collins Inglés , entrada para "lemmatizar"
  2. ^ "WebBANC: construcción de corpus anotados semánticamente ricos a partir de anotaciones de usuarios web de lenguas minoritarias".
  3. ^ Müller, Thomas; Cotterell, Ryan; Fraser, Alexander; Schütze, Hinrich (2015). Lematización conjunta y etiquetado morfológico con LEMMING (PDF) . Conferencia de 2015 sobre métodos empíricos en el procesamiento del lenguaje natural. Lisboa: Asociación de Lingüística Computacional. págs. 2268–2274. doi : 10.18653/v1/D15-1272 .
  4. ^ Bergmanis, Toms; Goldwater, Sharon . "Lematización neuronal sensible al contexto con Lematus" (PDF) .
  5. ^ Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich. "Introducción a la recuperación de información". Cambridge University Press.
  6. ^ "Lucene Snowball". Proyecto Apache.
  7. ^ Martín Porter. "Porter Stemmer".
  8. ^ Liu, H.; Christiansen, T.; Baumgartner, WA; Verspoor, K. (2012). "BioLemmatizer: una herramienta de lematización para el procesamiento morfológico de textos biomédicos". Journal of Biomedical Semantics . 3 : 3. doi : 10.1186/2041-1480-3-3 . PMC 3359276 . PMID  22464129. 

Enlaces externos