stringtranslate.com

Desambiguación clásica monolingüe del sentido de las palabras

Las tareas clásicas monolingües de evaluación de desambiguación del sentido de la palabra utilizan WordNet como inventario de sentido y se basan en gran medida en una clasificación supervisada / semisupervisada con corpus anotados con sentido manual: [1]

Inventarios de sentido

Durante el primer taller de Senseval se adoptó el inventario sensorial HECTOR. La razón para adoptar un inventario de sentidos previamente desconocido fue principalmente evitar el uso de sentidos de palabras populares y detallados (como WordNet), que podrían hacer que los experimentos fueran injustos o sesgados. Sin embargo, dada la falta de cobertura de dichos inventarios, desde el segundo taller de Senseval se adoptó el inventario de sentido WordNet. Los ejercicios de WSD requieren un diccionario para especificar los sentidos de las palabras que se deben desambiguar y un corpus de datos lingüísticos que se deben desambiguar. WordNet es el ejemplo más popular de inventario sensorial. El motivo para adoptar la base de datos HECTOR durante Senseval-1 fue que el inventario de WordNet ya estaba disponible públicamente. [2]

Descripción de la tarea

La comparación de métodos se puede dividir en 2 grupos según la cantidad de palabras a probar. La diferencia consiste en la cantidad de análisis y procesamiento:

Se supone que la primera es una evaluación más realista, aunque con pruebas de resultados muy laboriosas. Inicialmente sólo se utilizó este último en la evaluación, pero luego se incluyó el primero.

Los organizadores de muestras léxicas tuvieron que elegir muestras en las que se probarían los sistemas. Una crítica a las incursiones anteriores en la evaluación de WSD con muestras léxicas es que la muestra léxica había sido elegida según el capricho del experimentador (o, para coincidir con las selecciones de experimentadores anteriores). Para English Senseval se ideó un marco muestral en el que se clasificaron las palabras según su frecuencia (en el BNC) y su nivel de polisemia (en WordNet). Además, el problema de inclusión del etiquetado POS fue un tema de discusión y se decidió que las muestras deberían ser palabras con partes de la oración conocidas y algunos indeterminantes (por ejemplo, 15 tareas de sustantivos, 13 tareas de verbos, 8 adjetivos y 5 indeterminados).

Para fines de comparación, se utilizan algoritmos conocidos, aunque simples, denominados líneas de base. Estos incluyen diferentes variantes del algoritmo de Lesk o algoritmo de sentido más frecuente.

Medidas de evaluación

Durante la evaluación de los sistemas WSD se utilizan dos medidas de rendimiento principales:

Si un sistema realiza una asignación para cada palabra, entonces la precisión y la recuperación son iguales y pueden denominarse precisión . Este modelo se ha ampliado para tener en cuenta sistemas que devuelven un conjunto de sentidos con pesos para cada ocurrencia.

Ver también

Referencias

  1. ^ Lucia Specia, Maria das Gracas Volpe Nunes, Gabriela Castelo Branco Ribeiro y Mark Stevenson. WSD multilingüe versus monolingüe Archivado el 10 de abril de 2012 en Wayback Machine . En EACL-2006 Workshop on Making Sense of Sense: Bringing Psycholinguistics and Computational Linguistics Together, páginas 33–40, Trento, Italia, abril de 2006.
  2. ^ Adam Kilgarriff y Joseph Rosenzweig. 2000. Marco inglés y resultados. Computación y Humanidades 34 (1-2), Número especial sobre SENSEVAL.