stringtranslate.com

Desambiguación del sentido de las palabras

La desambiguación del sentido de las palabras es el proceso de identificar qué sentido tieneuna palabra en una oración u otro segmento del contexto . Eny la cognición del lenguaje humano , suele ser subconsciente.

Dado que el lenguaje natural requiere el reflejo de la realidad neurológica, tal como la moldean las capacidades proporcionadas por las redes neuronales del cerebro , la ciencia informática ha tenido el desafío a largo plazo de desarrollar la capacidad de las computadoras para realizar el procesamiento del lenguaje natural y el aprendizaje automático .

Se han investigado muchas técnicas, incluidos los métodos basados ​​en diccionarios que utilizan el conocimiento codificado en recursos léxicos, los métodos de aprendizaje automático supervisado en los que se entrena un clasificador para cada palabra distinta en un corpus de ejemplos anotados manualmente y los métodos completamente no supervisados ​​que agrupan las ocurrencias de las palabras, induciendo así los sentidos de las palabras. Entre estos, los enfoques de aprendizaje supervisado han sido los algoritmos más exitosos hasta la fecha.

Es difícil afirmar la precisión de los algoritmos actuales sin tener en cuenta una serie de advertencias. En inglés, la precisión en el nivel de grano grueso ( homógrafo ) es habitualmente superior al 90% (a partir de 2009), y algunos métodos en homógrafos particulares alcanzan más del 96%. En distinciones de sentido de grano más fino, se han informado precisiones máximas del 59,1% al 69,0% en ejercicios de evaluación (SemEval-2007, Senseval-2), donde la precisión de referencia del algoritmo más simple posible de elegir siempre el sentido más frecuente fue del 51,4% y el 57%, respectivamente.

Variantes

La desambiguación requiere dos entradas estrictas: un diccionario para especificar los sentidos que se van a desambiguar y un corpus de datos del lenguaje que se van a desambiguar (en algunos métodos, también se requiere un corpus de entrenamiento de ejemplos del lenguaje). La tarea WSD tiene dos variantes: "muestra léxica" (desambiguación de las ocurrencias de una pequeña muestra de palabras objetivo que se seleccionaron previamente) y la tarea "todas las palabras" (desambiguación de todas las palabras en un texto continuo). La tarea "todas las palabras" generalmente se considera una forma de evaluación más realista, pero el corpus es más costoso de producir porque los anotadores humanos tienen que leer las definiciones de cada palabra en la secuencia cada vez que necesitan hacer un juicio de etiquetado, en lugar de una vez para un bloque de instancias para la misma palabra objetivo.

Historia

La WSD se formuló por primera vez como una tarea computacional específica durante los primeros días de la traducción automática en la década de 1940, lo que la convierte en uno de los problemas más antiguos de la lingüística computacional. Warren Weaver introdujo por primera vez el problema en un contexto computacional en su memorando de 1949 sobre traducción. [1] Más tarde, Bar-Hillel (1960) argumentó [2] que la WSD no podía resolverse mediante una "computadora electrónica" debido a la necesidad en general de modelar todo el conocimiento del mundo.

En la década de 1970, la WSD era una subtarea de los sistemas de interpretación semántica desarrollados en el campo de la inteligencia artificial, comenzando con la semántica de preferencias de Wilks . Sin embargo, como en ese momento los sistemas WSD se basaban en gran medida en reglas y estaban codificados manualmente, eran propensos a sufrir cuellos de botella en la adquisición de conocimientos.

En la década de 1980, se dispuso de recursos léxicos a gran escala, como el Oxford Advanced Learner's Dictionary of Current English (OALD): la codificación manual fue reemplazada por conocimiento extraído automáticamente de estos recursos, pero la desambiguación seguía estando basada en el conocimiento o en el diccionario.

En la década de 1990, la revolución estadística hizo avanzar la lingüística computacional y WSD se convirtió en un problema paradigmático sobre el que aplicar técnicas de aprendizaje automático supervisado.

En la década de 2000, las técnicas supervisadas alcanzaron un punto muerto en cuanto a precisión, por lo que la atención se desplazó hacia sentidos de grano más grueso, adaptación de dominios , sistemas basados ​​en corpus semisupervisados ​​y no supervisados, combinaciones de diferentes métodos y el retorno de sistemas basados ​​en conocimiento a través de métodos basados ​​en grafos. Aun así, los sistemas supervisados ​​siguen teniendo el mejor rendimiento.

Dificultades

Diferencias entre diccionarios

Un problema con la desambiguación de los sentidos de las palabras es decidir cuáles son los sentidos, ya que los diferentes diccionarios y tesauros proporcionarán diferentes divisiones de las palabras en sentidos. Algunos investigadores han sugerido elegir un diccionario en particular y utilizar su conjunto de sentidos para abordar esta cuestión. Sin embargo, en general, los resultados de las investigaciones que utilizan distinciones amplias en los sentidos han sido mucho mejores que los que utilizan distinciones estrechas. [3] [4] La mayoría de los investigadores siguen trabajando en la desambiguación de los sentidos de granularidad fina .

La mayor parte de las investigaciones en el campo de la WSD se realizan utilizando WordNet como un inventario de sentido de referencia para el inglés. WordNet es un léxico computacional que codifica conceptos como conjuntos de sinónimos (por ejemplo, el concepto de coche se codifica como {car, auto, automóvil, máquina, automóvil}). Otros recursos utilizados para fines de desambiguación incluyen Roget's Thesaurus [5] y Wikipedia . [6] Más recientemente, BabelNet , un diccionario enciclopédico multilingüe, se ha utilizado para la WSD multilingüe. [7]

Etiquetado de partes del discurso

En cualquier prueba real, el etiquetado de las partes del discurso y el etiquetado de los sentidos han demostrado estar muy estrechamente relacionados, y cada uno de ellos puede imponer restricciones al otro. La cuestión de si estas tareas deben mantenerse juntas o desacopladas aún no se ha resuelto de forma unánime, pero recientemente los científicos se inclinan a probarlas por separado (por ejemplo, en las competiciones Senseval/ SemEval se proporcionan las partes del discurso como entrada para el texto para desambiguar).

Tanto el WSD como el etiquetado de partes del discurso implican la desambiguación o el etiquetado con palabras. Sin embargo, los algoritmos utilizados para uno no tienden a funcionar bien para el otro, principalmente porque la parte del discurso de una palabra está determinada principalmente por las palabras inmediatamente adyacentes de una a tres, mientras que el sentido de una palabra puede estar determinado por palabras más lejanas. La tasa de éxito de los algoritmos de etiquetado de partes del discurso es actualmente mucho mayor que la de WSD, siendo la tecnología de punta de alrededor del 96% [8] de precisión o mejor, en comparación con menos del 75% [ cita requerida ] de precisión en la desambiguación del sentido de las palabras con aprendizaje supervisado . Estas cifras son típicas para el inglés y pueden ser muy diferentes de las de otros idiomas.

Variación entre jueces

Otro problema es la varianza entre jueces . Los sistemas WSD normalmente se prueban comparando sus resultados en una tarea con los de un ser humano. Sin embargo, si bien es relativamente fácil asignar partes del discurso a un texto, se ha demostrado que entrenar a las personas para que etiqueten los sentidos es mucho más difícil. [9] Si bien los usuarios pueden memorizar todas las posibles partes del discurso que puede tener una palabra, a menudo es imposible que las personas memoricen todos los sentidos que puede tener una palabra. Además, los humanos no se ponen de acuerdo sobre la tarea en cuestión: si se les da una lista de sentidos y oraciones, no siempre se pondrán de acuerdo sobre qué palabra pertenece a qué sentido. [10]

Como el rendimiento humano sirve como estándar, es un límite superior para el rendimiento de la computadora. Sin embargo, el rendimiento humano es mucho mejor en las distinciones de grano grueso que en las de grano fino , por lo que nuevamente esta es la razón por la que la investigación sobre distinciones de grano grueso [11] [12] se ha puesto a prueba en ejercicios recientes de evaluación de WSD. [3] [4]

Inventario de sentidos y dependencia de tareas de los algoritmos

Un inventario de sentidos independiente de la tarea no es un concepto coherente: [13] cada tarea requiere su propia división del significado de las palabras en sentidos relevantes para la tarea. Además, diferentes aplicaciones pueden requerir algoritmos completamente diferentes. En la traducción automática, el problema toma la forma de selección de palabras de destino. Los "sentidos" son palabras en el idioma de destino, que a menudo corresponden a distinciones de significado significativas en el idioma de origen ("banco" podría traducirse al francés banque , es decir, "banco financiero" o rive , es decir, "borde de un río"). En la recuperación de información, no se requiere necesariamente un inventario de sentidos, porque es suficiente saber que una palabra se usa en el mismo sentido en la consulta y en un documento recuperado; qué sentido tenga, no es importante.

Discreción de los sentidos

Finalmente, la noción misma de " sentido de la palabra " es escurridiza y controvertida. La mayoría de las personas pueden estar de acuerdo en distinciones a nivel de homógrafo de grano grueso (por ejemplo, la pluma como instrumento de escritura o estuche), pero bajan un nivel a la polisemia de grano fino y surgen desacuerdos. Por ejemplo, en Senseval-2, que utilizó distinciones de sentido de grano fino, los anotadores humanos coincidieron solo en el 85% de las ocurrencias de palabras. [14] El significado de las palabras es en principio infinitamente variable y sensible al contexto. No se divide fácilmente en subsignificados distintos o discretos. [15] Los lexicógrafos descubren con frecuencia en los corpus significados de palabras vagos y superpuestos, y significados estándar o convencionales extendidos, modulados y explotados en una desconcertante variedad de formas. El arte de la lexicografía es generalizar a partir del corpus a definiciones que evocan y explican el rango completo de significados de una palabra, haciendo que parezca que las palabras se comportan bien semánticamente. Sin embargo, no está del todo claro si estas mismas distinciones de significado son aplicables en aplicaciones computacionales , ya que las decisiones de los lexicógrafos suelen estar impulsadas por otras consideraciones. En 2009, se propuso una tarea, denominada sustitución léxica , como una posible solución al problema de discreción del sentido. [16] La tarea consiste en proporcionar un sustituto para una palabra en contexto que preserve el significado de la palabra original (potencialmente, los sustitutos pueden elegirse del léxico completo del idioma de destino, superando así la discreción).

Enfoques y métodos

Hay dos enfoques principales para el WSD: enfoques profundos y enfoques superficiales.

Los enfoques profundos presuponen el acceso a un cuerpo integral de conocimiento mundial . Estos enfoques generalmente no se consideran muy exitosos en la práctica, principalmente porque dicho cuerpo de conocimiento no existe en un formato legible por computadora, fuera de dominios muy limitados. [17] Además, debido a la larga tradición en lingüística computacional , de probar tales enfoques en términos de conocimiento codificado y en algunos casos, puede ser difícil distinguir entre el conocimiento involucrado en el conocimiento lingüístico o el conocimiento mundial. El primer intento fue el de Margaret Masterman y sus colegas, en la Unidad de Investigación del Lenguaje de Cambridge en Inglaterra, en la década de 1950. Este intento utilizó como datos una versión de tarjeta perforada del Thesaurus de Roget y sus "cabezas" numeradas, como indicador de temas y buscó repeticiones en el texto, utilizando un algoritmo de intersección de conjuntos. No fue muy exitoso, [18] pero tuvo fuertes relaciones con trabajos posteriores, especialmente la optimización del aprendizaje automático de Yarowsky de un método de tesauro en la década de 1990.

Los enfoques superficiales no intentan comprender el texto, sino que consideran las palabras que lo rodean. La computadora puede derivar automáticamente estas reglas utilizando un corpus de entrenamiento de palabras etiquetadas con sus significados. Este enfoque, si bien en teoría no es tan poderoso como los enfoques profundos, brinda mejores resultados en la práctica, debido al conocimiento limitado del mundo que posee la computadora.

Existen cuatro enfoques convencionales para el WSD:

Casi todos estos enfoques funcionan definiendo una ventana de n palabras de contenido alrededor de cada palabra que se va a desambiguar en el corpus y analizando estadísticamente esas n palabras circundantes. Dos enfoques superficiales utilizados para entrenar y luego desambiguar son los clasificadores Naïve Bayes y los árboles de decisión . En investigaciones recientes, los métodos basados ​​en kernel, como las máquinas de vectores de soporte, han demostrado un rendimiento superior en el aprendizaje supervisado . Los enfoques basados ​​en gráficos también han ganado mucha atención de la comunidad de investigación y actualmente logran un rendimiento cercano al estado del arte.

Métodos basados ​​en diccionarios y conocimientos

El algoritmo Lesk [19] es el método seminal basado en diccionarios. Se basa en la hipótesis de que las palabras utilizadas juntas en un texto están relacionadas entre sí y que la relación se puede observar en las definiciones de las palabras y sus sentidos. Dos (o más) palabras se desambiguan al encontrar el par de sentidos del diccionario con la mayor superposición de palabras en sus definiciones de diccionario. Por ejemplo, al desambiguar las palabras en "pine cone", las definiciones de los sentidos apropiados incluyen las palabras evergreen y tree (al menos en un diccionario). Un enfoque similar [20] busca el camino más corto entre dos palabras: la segunda palabra se busca iterativamente entre las definiciones de cada variante semántica de la primera palabra, luego entre las definiciones de cada variante semántica de cada palabra en las definiciones anteriores y así sucesivamente. Finalmente, la primera palabra se desambigua al seleccionar la variante semántica que minimiza la distancia entre la primera y la segunda palabra.

Una alternativa al uso de las definiciones es considerar la relación general entre los sentidos de las palabras y calcular la similitud semántica de cada par de sentidos de las palabras basándose en una base de conocimiento léxico dada, como WordNet . Se han aplicado con cierto éxito métodos basados ​​en gráficos que recuerdan a la investigación de activación por difusión de los primeros días de la investigación de la IA. Se ha demostrado que los enfoques basados ​​en gráficos más complejos funcionan casi tan bien como los métodos supervisados ​​[21] o incluso los superan en dominios específicos. [3] [22] Recientemente, se ha informado de que las medidas de conectividad gráfica simples , como el grado , realizan una WSD de última generación en presencia de una base de conocimiento léxico suficientemente rica. [23] Además, se ha demostrado que la transferencia automática de conocimiento en forma de relaciones semánticas de Wikipedia a WordNet impulsa los métodos simples basados ​​en conocimiento, lo que les permite rivalizar con los mejores sistemas supervisados ​​e incluso superarlos en un entorno específico de dominio. [24]

El uso de preferencias de selección (o restricciones de selección) también es útil; por ejemplo, sabiendo que uno normalmente cocina alimentos, puede desambiguar la palabra bajo en "estoy cocinando bajos" (es decir, no es un instrumento musical).

Métodos supervisados

Los métodos supervisados ​​se basan en el supuesto de que el contexto puede proporcionar suficiente evidencia por sí solo para desambiguar las palabras (por lo tanto, el sentido común y el razonamiento se consideran innecesarios). Probablemente todos los algoritmos de aprendizaje automático existentes se han aplicado a WSD, incluidas las técnicas asociadas como la selección de características , la optimización de parámetros y el aprendizaje de conjuntos . Las máquinas de vectores de soporte y el aprendizaje basado en la memoria han demostrado ser los enfoques más exitosos, hasta la fecha, probablemente porque pueden lidiar con la alta dimensionalidad del espacio de características. Sin embargo, estos métodos supervisados ​​están sujetos a un nuevo cuello de botella de adquisición de conocimiento, ya que dependen de cantidades sustanciales de corpus etiquetados manualmente con sentido para el entrenamiento, que son laboriosos y costosos de crear.

Métodos semisupervisados

Debido a la falta de datos de entrenamiento, muchos algoritmos de desambiguación del sentido de las palabras utilizan un aprendizaje semisupervisado , que permite utilizar datos tanto etiquetados como no etiquetados. El algoritmo de Yarowsky fue un ejemplo temprano de este tipo de algoritmo. [25] Utiliza las propiedades de "Un sentido por colocación" y "Un sentido por discurso" de los lenguajes humanos para la desambiguación del sentido de las palabras. A partir de la observación, las palabras tienden a exhibir solo un sentido en la mayoría de los discursos dados y en una colocación dada. [26]

El método bootstrap comienza con una pequeña cantidad de datos de semillas para cada palabra: ya sean ejemplos de entrenamiento etiquetados manualmente o una pequeña cantidad de reglas de decisión infalibles (por ejemplo, "tocar" en el contexto de "bajo" casi siempre indica el instrumento musical). Las semillas se utilizan para entrenar un clasificador inicial , utilizando cualquier método supervisado. Luego, este clasificador se utiliza en la parte no etiquetada del corpus para extraer un conjunto de entrenamiento más grande, en el que solo se incluyen las clasificaciones más confiables. El proceso se repite, y cada nuevo clasificador se entrena en un corpus de entrenamiento sucesivamente más grande, hasta que se consume todo el corpus o hasta que se alcanza un número máximo determinado de iteraciones.

Otras técnicas semisupervisadas utilizan grandes cantidades de corpus no etiquetados para proporcionar información de coocurrencia que complementa a los corpus etiquetados. Estas técnicas tienen el potencial de ayudar en la adaptación de modelos supervisados ​​a diferentes dominios.

Además, una palabra ambigua en un idioma suele traducirse en palabras diferentes en un segundo idioma según el sentido de la palabra. Se han utilizado corpus bilingües alineados con las palabras para inferir distinciones de sentido entre idiomas, una especie de sistema semisupervisado. [ cita requerida ]

Métodos no supervisados

El aprendizaje no supervisado es el mayor desafío para los investigadores de WSD. La suposición subyacente es que los sentidos similares ocurren en contextos similares y, por lo tanto, los sentidos pueden inducirse a partir del texto agrupando las ocurrencias de las palabras utilizando alguna medida de similitud de contexto, [27] una tarea conocida como inducción o discriminación del sentido de las palabras. Luego, las nuevas ocurrencias de la palabra pueden clasificarse en los grupos/sentidos inducidos más cercanos. El rendimiento ha sido menor que para los otros métodos descritos anteriormente, pero las comparaciones son difíciles ya que los sentidos inducidos deben mapearse a un diccionario conocido de sentidos de palabras. Si no se desea un mapeo a un conjunto de sentidos del diccionario, se pueden realizar evaluaciones basadas en grupos (incluidas medidas de entropía y pureza). Alternativamente, los métodos de inducción del sentido de las palabras se pueden probar y comparar dentro de una aplicación. Por ejemplo, se ha demostrado que la inducción del sentido de las palabras mejora la agrupación de los resultados de búsqueda web al aumentar la calidad de los grupos de resultados y el grado de diversificación de las listas de resultados. [28] [29] Se espera que el aprendizaje no supervisado supere el cuello de botella de la adquisición de conocimientos porque no depende del esfuerzo manual.

Representar palabras considerando su contexto a través de vectores densos de tamaño fijo ( word embeddings ) se ha convertido en uno de los bloques más fundamentales en varios sistemas NLP. [30] [31] [32] Aunque la mayoría de las técnicas tradicionales de incrustación de palabras fusionan palabras con múltiples significados en una única representación vectorial, aún se pueden utilizar para mejorar WSD. [33] Un enfoque simple para emplear incrustaciones de palabras precalculadas para representar sentidos de palabras es calcular los centroides de los grupos de sentidos. [34] [35] Además de las técnicas de incrustación de palabras, las bases de datos léxicas (por ejemplo, WordNet , ConceptNet , BabelNet ) también pueden ayudar a los sistemas no supervisados ​​a mapear palabras y sus sentidos como diccionarios. Algunas técnicas que combinan bases de datos léxicas e incrustaciones de palabras se presentan en AutoExtend [36] [37] y Most Suitable Sense Annotation (MSSA). [38] En AutoExtend, [37] presentan un método que desacopla una representación de entrada de objeto en sus propiedades, como palabras y sus sentidos de palabra. AutoExtend utiliza una estructura gráfica para mapear palabras (por ejemplo, texto) y objetos que no son palabras (por ejemplo, synsets en WordNet ) como nodos y la relación entre nodos como bordes. Las relaciones (bordes) en AutoExtend pueden expresar la adición o similitud entre sus nodos. El primero captura la intuición detrás del cálculo de desplazamiento, [30] mientras que el último define la similitud entre dos nodos. En MSSA, [38] un sistema de desambiguación no supervisado utiliza la similitud entre los sentidos de las palabras en una ventana de contexto fija para seleccionar el sentido de palabra más adecuado utilizando un modelo de incrustación de palabras entrenado previamente y WordNet . Para cada ventana de contexto, MSSA calcula el centroide de la definición del sentido de cada palabra promediando los vectores de palabras de sus palabras en las glosas de WordNet (es decir, una glosa de definición breve y uno o más ejemplos de uso) utilizando un modelo de incrustación de palabras previamente entrenado. Estos centroides se utilizan posteriormente para seleccionar el sentido de la palabra con la mayor similitud de una palabra de destino con sus vecinas inmediatamente adyacentes (es decir, palabras predecesoras y sucesoras). Una vez que se han anotado y desambiguado todas las palabras, se pueden utilizar como un corpus de entrenamiento en cualquier técnica de incrustación de palabras estándar. En su versión mejorada, MSSA puede hacer uso de incrustaciones de sentido de palabras para repetir su proceso de desambiguación de forma iterativa.

Otros enfoques

Otros enfoques pueden variar de manera diferente en sus métodos:

Otros idiomas

Impedimentos locales y resumen

El cuello de botella de la adquisición de conocimientos es quizás el mayor impedimento para resolver el problema de la WSD. Los métodos no supervisados ​​se basan en el conocimiento sobre los sentidos de las palabras, que sólo se formula de forma dispersa en diccionarios y bases de datos léxicas. Los métodos supervisados ​​dependen fundamentalmente de la existencia de ejemplos anotados manualmente para cada sentido de palabra, un requisito que hasta ahora [¿ cuándo? ] sólo se puede cumplir para un puñado de palabras con fines de prueba, como se hace en los ejercicios de Senseval .

Una de las tendencias más prometedoras en la investigación de WSD es el uso del corpus más grande jamás accesible, la World Wide Web , para adquirir información léxica automáticamente. [50] La WSD se ha entendido tradicionalmente como una tecnología intermedia de ingeniería del lenguaje que podría mejorar aplicaciones como la recuperación de información (IR). En este caso, sin embargo, lo inverso también es cierto: los motores de búsqueda web implementan técnicas de IR simples y robustas que pueden extraer con éxito información de la Web para usar en WSD. La falta histórica de datos de entrenamiento ha provocado la aparición de algunos nuevos algoritmos y técnicas, como se describe en Automatic acquisition of sense-tagged corpora .

Fuentes de conocimiento externas

El conocimiento es un componente fundamental del desarrollo de la inteligencia artificial. Las fuentes de conocimiento proporcionan datos esenciales para asociar los sentidos con las palabras. Pueden variar desde corpus de textos, ya sea sin etiquetar o anotados con los sentidos de las palabras, hasta diccionarios legibles por máquina, tesauros, glosarios, ontologías, etc. Se pueden clasificar [51] [52] de la siguiente manera:

Estructurado:

  1. Diccionarios legibles por máquina (MRD)
  2. Ontologías
  3. Tesauros

No estructurado:

  1. Recursos de colocación
  2. Otros recursos (como listas de frecuencia de palabras , listas de exclusión , etiquetas de dominio, [53] etc.)
  3. Corpora : corpora en bruto y corpora con anotaciones de sentido

Evaluación

Comparar y evaluar diferentes sistemas WSD es extremadamente difícil debido a los diferentes conjuntos de pruebas, inventarios de sentidos y recursos de conocimiento adoptados. Antes de la organización de campañas de evaluación específicas, la mayoría de los sistemas se evaluaban en conjuntos de datos internos, a menudo a pequeña escala . Para probar un algoritmo, los desarrolladores deben dedicar su tiempo a anotar todas las ocurrencias de palabras. Y la comparación de métodos incluso en el mismo corpus no es elegible si hay diferentes inventarios de sentidos.

Para definir conjuntos de datos y procedimientos de evaluación comunes, se han organizado campañas de evaluación públicas. Senseval (ahora renombrado SemEval ) es una competencia internacional de desambiguación de sentido de palabras, que se lleva a cabo cada tres años desde 1998: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 [usurpado] (2004), y su sucesor, SemEval (2007). El objetivo de la competencia es organizar diferentes conferencias, preparar y anotar a mano corpus para sistemas de prueba, realizar una evaluación comparativa de sistemas WSD en varios tipos de tareas, incluyendo WSD de todas las palabras y de muestra léxica para diferentes idiomas y, más recientemente, nuevas tareas como etiquetado de roles semánticos , WSD de glosa, sustitución léxica , etc. Los sistemas presentados para evaluación a estas competiciones generalmente integran diferentes técnicas y a menudo combinan métodos supervisados ​​y basados ​​en el conocimiento (especialmente para evitar un mal desempeño en falta de ejemplos de entrenamiento).

En los últimos años 2007-2012 , las opciones de evaluación de WSD han aumentado y el criterio para evaluar WSD ha cambiado drásticamente dependiendo de la variante de la tarea de evaluación de WSD. A continuación se enumera la variedad de tareas de WSD:

Opciones de diseño de tareas

A medida que la tecnología evoluciona, las tareas de desambiguación del sentido de las palabras (WSD) crecen en diferentes direcciones de investigación y para más idiomas:

Software

Véase también

Referencias

  1. ^ Tejedor 1949.
  2. ^ Bar-Hillel 1964, págs. 174-179.
  3. ^ abc Navigli, Litkowski y Hargraves 2007, págs. 30-35.
  4. ^ ab Pradhan et al. 2007, págs. 87–92.
  5. ^ Yarowsky 1992, págs. 454–460.
  6. ^ Mihalcea 2007.
  7. ^ A. Moro; A. Raganato; R. Navigli. La vinculación de entidades se encuentra con la desambiguación del sentido de las palabras: un enfoque unificado. Archivado el 8 de agosto de 2014 en Wayback Machine . Transacciones de la Asociación de Lingüística Computacional (TACL). 2. págs. 231–244. 2014.
  8. ^ Martinez, Angel R. (enero de 2012). "Etiquetado de partes del discurso: etiquetado de partes del discurso". Wiley Interdisciplinary Reviews: Computational Statistics . 4 (1): 107–113. doi :10.1002/wics.195. S2CID  62672734. Archivado desde el original el 2023-07-15 . Consultado el 2021-04-01 .
  9. ^ Fellbaum 1997.
  10. ^ Snyder y Palmer 2004, págs. 41–43.
  11. ^ Navigli 2006, págs. 105-112.
  12. ^ Snow et al. 2007, págs. 1005–1014.
  13. ^ Palmer, Babko-Malaya y Dang 2004, págs. 49–56.
  14. ^ Edmonds 2000.
  15. ^ Kilgarrif 1997, págs. 91-113.
  16. ^ McCarthy y Navigli 2009, págs. 139-159.
  17. ^ Lenat y Guha 1989.
  18. ^ Wilks, Slator y Guthrie 1996.
  19. ^ Lesk 1986, págs. 24-26.
  20. ^ Diamantini, C.; Mircoli, A.; Potena, D.; Storti, E. (1 de junio de 2015). "Desambiguación semántica en un sistema de descubrimiento de información social". Conferencia internacional sobre tecnologías y sistemas de colaboración (CTS) de 2015. págs. 326–333. doi :10.1109/CTS.2015.7210442. ISBN 978-1-4673-7647-1. Número de identificación del sujeto  13260353.
  21. ^ Navigli y Velardi 2005, págs. 1063-1074.
  22. ^ Agirre, López de Lacalle y Soroa 2009, págs. 1501-1506.
  23. ^ Navigli y Lapata 2010, págs. 678–692.
  24. ^ Ponzetto y Navigli 2010, págs. 1522-1531.
  25. ^ Yarowsky 1995, págs. 189-196.
  26. ^ Mitkov, Ruslan (2004). "13.5.3 Dos afirmaciones sobre los sentidos". The Oxford Handbook of Computational Linguistics . OUP. pág. 257. ISBN 978-0-19-927634-9Archivado desde el original el 22 de febrero de 2022 . Consultado el 22 de febrero de 2022 .
  27. ^ Schütze 1998, págs. 97-123.
  28. ^ Navigli y Crisafulli 2010.
  29. ^ Di Marco y Navigli 2013.
  30. ^ ab Mikolov, Tomas; Chen, Kai; Corrado, Greg; Dean, Jeffrey (16 de enero de 2013). "Estimación eficiente de representaciones de palabras en el espacio vectorial". arXiv : 1301.3781 [cs.CL].
  31. ^ Pennington, Jeffrey; Socher, Richard; Manning, Christopher (2014). "Glove: Global Vectors for Word Representation". Actas de la Conferencia de 2014 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP) . Stroudsburg, PA, EE. UU.: Asociación de Lingüística Computacional. págs. 1532–1543. doi : 10.3115/v1/d14-1162 . S2CID  1957433.
  32. ^ Bojanowski, Piotr; Grave, Edouard; Joulin, Armand; Mikolov, Tomas (diciembre de 2017). "Enriquecimiento de vectores de palabras con información de subpalabras". Transacciones de la Asociación de Lingüística Computacional . 5 : 135–146. arXiv : 1607.04606 . doi : 10.1162/tacl_a_00051 . ISSN  2307-387X.
  33. ^ Iacobacci, Ignacio; Pilehvar, Mohammad Taher; Navigli, Roberto (2016). "Incrustaciones para la desambiguación del sentido de las palabras: un estudio de evaluación". Actas de la 54.ª reunión anual de la Asociación de Lingüística Computacional (volumen 1: artículos extensos) . Berlín, Alemania: Asociación de Lingüística Computacional: 897–907. doi : 10.18653/v1/P16-1085 . hdl : 11573/936571 . Archivado desde el original el 28 de octubre de 2019. Consultado el 28 de octubre de 2019 .
  34. ^ Bhingardive, Sudha; Singh, Dhirendra; V, Rudramurthy; Redkar, Hanumant; Bhattacharyya, Pushpak (2015). "Detección de sentidos más frecuentes sin supervisión mediante incrustaciones de palabras". Actas de la Conferencia de 2015 del Capítulo norteamericano de la Asociación de Lingüística Computacional: Tecnologías del lenguaje humano . Denver, Colorado: Asociación de Lingüística Computacional. págs. 1238–1243. doi :10.3115/v1/N15-1132. S2CID  10778029. Archivado desde el original el 21 de enero de 2023. Consultado el 21 de enero de 2023 .
  35. ^ Butnaru, Andrei; Ionescu, Radu Tudor; Hristea, Florentina (2017). «ShotgunWSD: Un algoritmo no supervisado para la desambiguación global del sentido de las palabras inspirado en la secuenciación del ADN». Actas de la 15.ª Conferencia del Capítulo Europeo de la Asociación de Lingüística Computacional : 916–926. arXiv : 1707.08084 . Archivado desde el original el 2023-01-21 . Consultado el 2023-01-21 .
  36. ^ Rothe, Sascha; Schütze, Hinrich (2015). "AutoExtend: Extending Word Embeddings to Embeddings for Synsets and Lexemes". Volumen 1: Artículos largos . Asociación de Lingüística Computacional y la Conferencia Conjunta Internacional sobre Procesamiento del Lenguaje Natural. Actas de la 53.ª Reunión Anual de la Asociación de Lingüística Computacional y la 7.ª Conferencia Conjunta Internacional sobre Procesamiento del Lenguaje Natural . Stroudsburg, Pensilvania, EE. UU.: Asociación de Lingüística Computacional. págs. 1793–1803. arXiv : 1507.01127 . Bibcode :2015arXiv150701127R. doi :10.3115/v1/p15-1173. S2CID  15687295.
  37. ^ ab Rothe, Sascha; Schütze, Hinrich (septiembre de 2017). "AutoExtend: Combinación de incrustaciones de palabras con recursos semánticos". Computational Linguistics . 43 (3): 593–617. doi : 10.1162/coli_a_00294 . ISSN  0891-2017.
  38. ^ ab Ruas, Terry; Grosky, William; Aizawa, Akiko (diciembre de 2019). "Incorporaciones multisensoriales a través de un proceso de desambiguación del sentido de las palabras". Sistemas expertos con aplicaciones . 136 : 288–303. arXiv : 2101.08700 . doi :10.1016/j.eswa.2019.06.026. hdl : 2027.42/145475 . S2CID  52225306.
  39. ^ Gliozzo, Magnini y Strapparava 2004, págs. 380–387.
  40. ^ Buitelaar y col. 2006, págs. 275–298.
  41. ^ McCarthy y otros. 2007, págs. 553–590.
  42. ^ Mohammad y Hirst 2006, págs. 121-128.
  43. ^ Lapata y Keller 2007, págs. 348–355.
  44. ^ Ide, Erjavec y Tufis 2002, págs. 54–60.
  45. ^ Chan y Ng 2005, págs. 1037-1042.
  46. ^ Shieber, Stuart M. (1992). Formalismos gramaticales basados ​​en restricciones: análisis sintáctico e inferencia de tipos para lenguajes naturales y de computación. Massachusetts: MIT Press. ISBN 978-0-262-19324-5Archivado desde el original el 15 de julio de 2023. Consultado el 23 de diciembre de 2018 .
  47. ^ Bhattacharya, Indrajit, Lise Getoor y Yoshua Bengio. Desambiguación de sentido no supervisada utilizando modelos probabilísticos bilingües Archivado el 9 de enero de 2016 en Wayback Machine . Actas de la 42.ª Reunión Anual de la Asociación de Lingüística Computacional. Asociación de Lingüística Computacional, 2004.
  48. ^ Diab, Mona y Philip Resnik. Un método no supervisado para el etiquetado del sentido de las palabras utilizando corpus paralelos Archivado el 4 de marzo de 2016 en Wayback Machine . Actas de la 40.ª Reunión Anual de la Asociación de Lingüística Computacional. Asociación de Lingüística Computacional, 2002.
  49. ^ Manish Sinha, Mahesh Kumar, Prabhakar Pande, Laxmi Kashyap y Pushpak Bhattacharyya. Desambiguación del sentido de las palabras en hindi Archivado el 4 de marzo de 2016 en Wayback Machine . En Simposio internacional sobre traducción automática, procesamiento del lenguaje natural y sistemas de apoyo a la traducción, Delhi, India, 2004.
  50. ^ Kilgarrif y Grefenstette 2003, págs. 333–347.
  51. ^ Litkowski 2005, págs. 753–761.
  52. ^ Agirre y Stevenson 2007, págs. 217-251.
  53. ^ Magnini y Cavaglià 2000, págs. 1413-1418.
  54. ^ Lucia Specia, Maria das Gracas Volpe Nunes, Gabriela Castelo Branco Ribeiro y Mark Stevenson. WSD multilingüe versus monolingüe Archivado el 10 de abril de 2012 en Wayback Machine . En EACL-2006 Workshop on Making Sense of Sense: Bringing Psycholinguistics and Computational Linguistics Together, páginas 33–40, Trento, Italia, abril de 2006.
  55. ^ Els Lefever y Veronique Hoste. Tarea 3 de SemEval-2010: desambiguación del sentido de palabras en diferentes idiomas Archivado el 16 de junio de 2010 en Wayback Machine . Actas del taller sobre evaluaciones semánticas: logros recientes y direcciones futuras. 4 y 4 de junio de 2009, Boulder, Colorado.
  56. ^ R. Navigli, DA Jurgens, D. Vannella. SemEval-2013 Tarea 12: Desambiguación del sentido de palabras multilingües Archivado el 8 de agosto de 2014 en Wayback Machine . Actas del séptimo Taller internacional sobre evaluación semántica (SemEval), en la Segunda Conferencia conjunta sobre semántica léxica y computacional (*SEM 2013), Atlanta, EE. UU., 14 y 15 de junio de 2013, págs. 222-231.
  57. ^ Lucia Specia, Maria das Gracas Volpe Nunes, Gabriela Castelo Branco Ribeiro y Mark Stevenson. WSD multilingüe versus monolingüe Archivado el 10 de abril de 2012 en Wayback Machine . En EACL-2006 Workshop on Making Sense of Sense: Bringing Psycholinguistics and Computational Linguistics Together, páginas 33–40, Trento, Italia, abril de 2006.
  58. ^ Eneko Agirre y Aitor Soroa. Semeval-2007, tarea 02: evaluación de sistemas de inducción y discriminación del sentido de las palabras Archivado el 28 de febrero de 2013 en Wayback Machine . Actas del 4º Taller Internacional sobre Evaluaciones Semánticas, págs. 7-12, 23-24 de junio de 2007, Praga, República Checa.
  59. ^ "Babelfy". Babelfy. Archivado desde el original el 8 de agosto de 2014. Consultado el 22 de marzo de 2018 .
  60. ^ "BabelNet API". Babelnet.org. Archivado desde el original el 22 de marzo de 2018. Consultado el 22 de marzo de 2018 .
  61. ^ "WordNet::SenseRelate". Senserelate.sourceforge.net. Archivado desde el original el 21 de marzo de 2018. Consultado el 22 de marzo de 2018 .
  62. ^ "UKB: Graph Base WSD". Ixa2.si.ehu.es. Archivado desde el original el 12-03-2018 . Consultado el 22-03-2018 .
  63. ^ "Base de conocimiento léxico (LKB)". Moin.delph-in.net. 5 de febrero de 2018. Archivado desde el original el 9 de marzo de 2018. Consultado el 22 de marzo de 2018 .
  64. ^ salvations. "pyWSD". Github.com. Archivado desde el original el 2018-06-11 . Consultado el 2018-03-22 .

Obras citadas

Lectura adicional

Enlaces externos