algoritmo de lesk

El algoritmo de Lesk es un algoritmo clásico para la desambiguación del sentido de las palabras introducido por Michael E. Lesk en 1986. ^[1] Opera bajo la premisa de que es probable que las palabras dentro de un contexto determinado compartan un significado común. Este algoritmo compara las definiciones del diccionario de una palabra ambigua con las palabras en su contexto circundante para determinar el sentido más apropiado. Variaciones, como el algoritmo Lesk simplificado, han demostrado una mayor precisión y eficiencia. Sin embargo, el algoritmo de Lesk ha enfrentado críticas por su sensibilidad a la redacción de definiciones y su dependencia de glosas breves. Los investigadores han tratado de mejorar su precisión incorporando recursos adicionales como tesauros y modelos sintácticos.

Descripción general

El algoritmo de Lesk se basa en el supuesto de que las palabras de un "vecindario" determinado (sección de texto) tenderán a compartir un tema común. Una versión simplificada del algoritmo de Lesk consiste en comparar la definición del diccionario de una palabra ambigua con los términos contenidos en su vecindad. Se han adaptado versiones para utilizar WordNet . ^[2] Una implementación podría verse así:

para cada sentido de la palabra que se desambigua, se debe contar el número de palabras que se encuentran tanto en la vecindad de esa palabra como en la definición del diccionario de ese sentido.
el sentido que se va a elegir es el sentido que tiene el mayor número de este conteo.

Un ejemplo de uso frecuente que ilustra este algoritmo es el del contexto "piña". Se utilizan las siguientes definiciones del diccionario:

PINO1. tipos de árboles de hoja perenne con hojas en forma de aguja2. consumirse por el dolor o la enfermedad

CONO1. cuerpo sólido que se estrecha hasta llegar a un punto2. algo de esta forma ya sea sólido o hueco3. fruto de ciertos árboles de hoja perenne

Como puede verse, la mejor intersección es Pino #1 ⋂ Cono #3 = 2.

Algoritmo de Lesk simplificado

En el algoritmo de Lesk simplificado, ^[3] el significado correcto de cada palabra en un contexto dado se determina individualmente ubicando el sentido que más se superpone entre su definición de diccionario y el contexto dado. En lugar de determinar simultáneamente los significados de todas las palabras en un contexto determinado, este enfoque aborda cada palabra individualmente, independientemente del significado de las otras palabras que aparecen en el mismo contexto.

"Una evaluación comparativa realizada por Vasilescu et al. (2004) ^[4] ha demostrado que el algoritmo de Lesk simplificado puede superar significativamente la definición original del algoritmo, tanto en términos de precisión como de eficiencia. Al evaluar los algoritmos de desambiguación en el Senseval- 2 En inglés, todos los datos de palabras, miden una precisión del 58% utilizando el algoritmo simplificado de Lesk en comparación con el solo 42% con el algoritmo original.

Nota: Vasilescu et al. La implementación considera una estrategia de retroceso para palabras no cubiertas por el algoritmo, que consiste en el sentido más frecuente definido en WordNet. Esto significa que a las palabras para las cuales todos sus posibles significados no se superponen con el contexto actual o con otras definiciones de palabras se les asigna por defecto el sentido número uno en WordNet." ^[5]

Algoritmo LESK simplificado con sentido de palabra predeterminado inteligente (Vasilescu et al., 2004) ^[6]

La función COMPUTEOVERLAP devuelve el número de palabras en común entre dos conjuntos, ignorando las palabras de función u otras palabras en una lista de exclusión. El algoritmo original de Lesk define el contexto de una manera más compleja.

Críticas

Desafortunadamente, el enfoque de Lesk es muy sensible a la redacción exacta de las definiciones, por lo que la ausencia de una determinada palabra puede cambiar radicalmente los resultados. Además, el algoritmo determina las superposiciones sólo entre las glosas de los sentidos considerados. Esta es una limitación importante, ya que las glosas de los diccionarios tienden a ser bastante breves y no proporcionan vocabulario suficiente para relacionar distinciones de sentido detalladas.

Han aparecido muchos trabajos que ofrecen diferentes modificaciones de este algoritmo. Estos trabajos utilizan otros recursos para el análisis (tesauros, diccionarios de sinónimos o modelos morfológicos y sintácticos): por ejemplo, pueden utilizar información como sinónimos, diferentes derivados o palabras provenientes de definiciones de palabras provenientes de definiciones. ^[7]

Variantes de lesk

Lesk original (Lesk, 1986)
Lesk adaptado/extendido (Banerjee y Pederson, 2002/2003): en el algoritmo lesk adaptativo, se crea un vector de palabras que corresponde a cada palabra de contenido en el glosa de wordnet. Se pueden utilizar glosas concatenadas de conceptos relacionados en WordNet para aumentar este vector. El vector contiene los recuentos de coocurrencia de palabras que coexisten con w en un corpus grande. Agregar todos los vectores de palabras para todas las palabras de contenido en su brillo crea el vector de brillo g para un concepto. La relación se determina comparando el vector de brillo utilizando la medida de similitud del coseno . ^[8]

Hay muchos estudios sobre Lesk y sus extensiones: ^[9]

Wilks y Stevenson, 1998, 1999;
Mahesh y otros, 1997;
Cowie y otros, 1992;
Yarowsky, 1992;
Pook y Catlett, 1988;
Kilgarriff y Rosensweig, 2000;
Kwong, 2001;
Nastase y Szpakowicz, 2001;
Gelbukh y Sidorov, 2004.

Ver también

Wikimedia Commons tiene medios relacionados con la categoría: algoritmo de Lesk.

Desambiguación del sentido de las palabras

Referencias

^ Lesk, M. (1986). Desambiguación automática del sentido mediante diccionarios legibles por máquina: cómo distinguir una piña de un cono de helado. En SIGDOC '86: Actas de la quinta conferencia internacional anual sobre documentación de sistemas, páginas 24-26, Nueva York, NY, EE. UU. ACM.
^ Satanjeev Banerjee y Ted Pedersen. Un algoritmo Lesk adaptado para la desambiguación del sentido de las palabras utilizando WordNet , Apuntes de conferencias sobre informática; vol. 2276, páginas: 136 - 145, 2002. ISBN 3-540-43219-1
^ Kilgarriff y J. Rosenzweig. 2000. Inglés SENSEVAL: Informe y Resultados. En Actas de la Segunda Conferencia Internacional sobre Evaluación y Recursos Lingüísticos, LREC, Atenas, Grecia.
^ Florentina Vasilescu, Philippe Langlais y Guy Lapalme. 2004. Evaluación de variantes del enfoque Lesk para desambiguar palabras. LREC, Portugal.
^ Agirre, Eneko y Philip Edmonds (eds.). 2006. Desambiguación del sentido de las palabras: algoritmos y aplicaciones. Dordrecht: Springer. www.wsdbook.org
^ Florentina Vasilescu, Philippe Langlais y Guy Lapalme. 2004. Evaluación de variantes del enfoque Lesk para desambiguar palabras. LREC, Portugal.
^ Alexander Gelbukh, Grigori Sidorov. Resolución automática de ambigüedades de los sentidos de las palabras en las definiciones del diccionario (en ruso). J. Nauchno-Tehnicheskaya Informaciya (NTI), ISSN 0548-0027, ser. 2, N 3, 2004, págs. 10-15.
^ Banerjee, Satanjeev; Pedersen, Ted (17 de febrero de 2002). "Un algoritmo Lesk adaptado para la desambiguación del sentido de las palabras utilizando WordNet". Lingüística Computacional y Procesamiento Inteligente de Textos . Apuntes de conferencias sobre informática. vol. 2276. Springer, Berlín, Heidelberg. págs. 136-145. CiteSeerX 10.1.1.118.8359 . doi :10.1007/3-540-45715-1_11. ISBN 978-3540457152.
^ Roberto Navigli. Desambiguación del sentido de las palabras: una encuesta, ACM Computing Surveys, 41(2), 2009, págs. 1–69.