stringtranslate.com

Lematización

La lematización (o menos comúnmente lematización ) en lingüística es el proceso de agrupar las formas flexionadas de una palabra para que puedan analizarse como un solo elemento, identificado por el lema o forma del diccionario de la palabra. [1]

En lingüística computacional , la lematización es el proceso algorítmico de determinar el lema de una palabra en función de su significado previsto. A diferencia de la derivación , la lematización depende de identificar correctamente la parte del discurso prevista y el significado de una palabra en una oración, así como dentro del contexto más amplio que rodea esa oración, como oraciones vecinas o incluso un documento completo. Como resultado, el desarrollo de algoritmos de lematización eficientes es un área abierta de investigación. [2] [3] [4]

Descripción

En muchos idiomas, las palabras aparecen en varias formas flexionadas . Por ejemplo, en inglés, el verbo 'to walk' puede aparecer como 'walk', 'walked', 'walks' o 'walking'. La forma base, "caminar", que uno podría buscar en un diccionario, se llama lema de la palabra. La asociación de la forma básica con una parte del discurso a menudo se denomina lexema de la palabra.

La lematización está estrechamente relacionada con la derivación . La diferencia es que un lematizador opera con una sola palabra sin conocer el contexto y, por lo tanto, no puede discriminar entre palabras que tienen diferentes significados según la parte del discurso. Sin embargo, los destiladores suelen ser más fáciles de implementar y ejecutarse más rápido. Es posible que la "precisión" reducida no sea importante para algunas aplicaciones. De hecho, cuando se utiliza dentro de sistemas de recuperación de información, la derivación mejora la precisión de la recuperación de consultas , o la tasa de verdaderos positivos, en comparación con la lematización. No obstante, la derivación reduce la precisión , o la proporción de instancias etiquetadas positivamente que en realidad son positivas, para tales sistemas. [5]

Por ejemplo:

  1. La palabra "mejor" tiene como lema "bueno". La derivación omite este vínculo, ya que requiere una búsqueda en el diccionario.
  2. La palabra "caminar" es la forma base de la palabra "caminar" y, por lo tanto, coincide tanto en la derivación como en la lematización.
  3. La palabra "reunión" puede ser la forma base de un sustantivo o una forma de un verbo ("reunirse") según el contexto; por ejemplo, "en nuestra última reunión" o "Nos reuniremos nuevamente mañana". A diferencia de la derivación, la lematización intenta seleccionar el lema correcto según el contexto.

El software de indexación de documentos como Lucene [6] puede almacenar el formato de raíz base de la palabra sin conocer el significado, pero solo considerando las reglas gramaticales de formación de palabras. La palabra derivada en sí misma podría no ser una palabra válida: "lazy", como se ve en el siguiente ejemplo, muchos lematizadores derivan de "lazi". Esto se debe a que el propósito de derivar no es producir el lema apropiado; esa es una tarea más desafiante que requiere conocimiento del contexto. El objetivo principal de la derivación es mapear diferentes formas de una palabra en una sola forma. [7] Como algoritmo basado en reglas, que depende únicamente de la ortografía de una palabra, sacrifica la precisión para garantizar que, por ejemplo, cuando 'pereza' se deriva de 'lazi', tiene la misma raíz que 'perezoso'.

Algoritmos

Una forma trivial de realizar lematización es mediante una simple búsqueda en el diccionario. Esto funciona bien para formas con flexiones sencillas, pero será necesario un sistema basado en reglas para otros casos, como en idiomas con palabras compuestas largas . Estas reglas pueden elaborarse manualmente o aprenderse automáticamente a partir de un corpus anotado .

Uso en biomedicina

El análisis morfológico de la literatura biomédica publicada puede arrojar resultados útiles. El procesamiento morfológico de textos biomédicos puede ser más eficaz mediante un programa de lematización especializado para biomedicina y puede mejorar la precisión de las tareas prácticas de extracción de información . [8]

Ver también

Referencias

  1. ^ Diccionario de inglés Collins , entrada para "lematizar"
  2. ^ "WebBANC: creación de corpus anotados semánticamente ricos a partir de anotaciones de usuarios web de idiomas minoritarios".
  3. ^ Muller, Thomas; Cotterell, Ryan; Fraser, Alejandro; Schütze, Hinrich (2015). Lematización conjunta y etiquetado morfológico con LEMMING (PDF) . 2015 Conferencia sobre Métodos Empíricos en Procesamiento del Lenguaje Natural. Lisboa: Asociación de Lingüística Computacional. págs. 2268–2274. doi : 10.18653/v1/D15-1272 .
  4. ^ Bergmanis, Toms; Goldwater, Sharon . "Lematización neuronal sensible al contexto con Lematus" (PDF) .
  5. ^ Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich. "Introducción a la recuperación de información". Prensa de la Universidad de Cambridge.
  6. ^ "Bola de nieve de Lucene". proyecto apache.
  7. ^ Martín Porter. "Porter Stemmer".
  8. ^ Liu, H.; Christiansen, T.; Baumgartner, Washington; Verspoor, K. (2012). "BioLemmatizer: una herramienta de lematización para el procesamiento morfológico de textos biomédicos". Revista de Semántica Biomédica . 3 : 3. doi : 10.1186/2041-1480-3-3 . PMC 3359276 . PMID  22464129. 

enlaces externos