El algoritmo de Lesk es un algoritmo clásico para la desambiguación del sentido de las palabras introducido por Michael E. Lesk en 1986. [1] Opera bajo la premisa de que es probable que las palabras dentro de un contexto determinado compartan un significado común. Este algoritmo compara las definiciones del diccionario de una palabra ambigua con las palabras en su contexto circundante para determinar el sentido más apropiado. Variaciones, como el algoritmo Lesk simplificado, han demostrado una mayor precisión y eficiencia. Sin embargo, el algoritmo de Lesk ha enfrentado críticas por su sensibilidad a la redacción de definiciones y su dependencia de glosas breves. Los investigadores han tratado de mejorar su precisión incorporando recursos adicionales como tesauros y modelos sintácticos.
El algoritmo de Lesk se basa en el supuesto de que las palabras de un "vecindario" determinado (sección de texto) tenderán a compartir un tema común. Una versión simplificada del algoritmo de Lesk consiste en comparar la definición del diccionario de una palabra ambigua con los términos contenidos en su vecindad. Se han adaptado versiones para utilizar WordNet . [2] Una implementación podría verse así:
Un ejemplo de uso frecuente que ilustra este algoritmo es el del contexto "piña". Se utilizan las siguientes definiciones del diccionario:
PINO1. tipos de árboles de hoja perenne con hojas en forma de aguja2. consumirse por el dolor o la enfermedad
CONO1. cuerpo sólido que se estrecha hasta llegar a un punto2. algo de esta forma ya sea sólido o hueco3. fruto de ciertos árboles de hoja perenne
Como puede verse, la mejor intersección es Pino #1 ⋂ Cono #3 = 2.
En el algoritmo de Lesk simplificado, [3] el significado correcto de cada palabra en un contexto dado se determina individualmente ubicando el sentido que más se superpone entre su definición de diccionario y el contexto dado. En lugar de determinar simultáneamente los significados de todas las palabras en un contexto determinado, este enfoque aborda cada palabra individualmente, independientemente del significado de las otras palabras que aparecen en el mismo contexto.
"Una evaluación comparativa realizada por Vasilescu et al. (2004) [4] ha demostrado que el algoritmo de Lesk simplificado puede superar significativamente la definición original del algoritmo, tanto en términos de precisión como de eficiencia. Al evaluar los algoritmos de desambiguación en el Senseval- 2 En inglés, todos los datos de palabras, miden una precisión del 58% utilizando el algoritmo simplificado de Lesk en comparación con el solo 42% con el algoritmo original.
Nota: Vasilescu et al. La implementación considera una estrategia de retroceso para palabras no cubiertas por el algoritmo, que consiste en el sentido más frecuente definido en WordNet. Esto significa que a las palabras para las cuales todos sus posibles significados no se superponen con el contexto actual o con otras definiciones de palabras se les asigna por defecto el sentido número uno en WordNet." [5]
Algoritmo LESK simplificado con sentido de palabra predeterminado inteligente (Vasilescu et al., 2004) [6]
La función COMPUTEOVERLAP devuelve el número de palabras en común entre dos conjuntos, ignorando las palabras de función u otras palabras en una lista de exclusión. El algoritmo original de Lesk define el contexto de una manera más compleja.
Desafortunadamente, el enfoque de Lesk es muy sensible a la redacción exacta de las definiciones, por lo que la ausencia de una determinada palabra puede cambiar radicalmente los resultados. Además, el algoritmo determina las superposiciones sólo entre las glosas de los sentidos considerados. Esta es una limitación importante, ya que las glosas de los diccionarios tienden a ser bastante breves y no proporcionan vocabulario suficiente para relacionar distinciones de sentido detalladas.
Han aparecido muchos trabajos que ofrecen diferentes modificaciones de este algoritmo. Estos trabajos utilizan otros recursos para el análisis (tesauros, diccionarios de sinónimos o modelos morfológicos y sintácticos): por ejemplo, pueden utilizar información como sinónimos, diferentes derivados o palabras provenientes de definiciones de palabras provenientes de definiciones. [7]
Hay muchos estudios sobre Lesk y sus extensiones: [9]