La desambiguación del sentido de las palabras es el proceso de identificar qué sentido tieneuna palabra en una oración u otro segmento del contexto . Eny la cognición del lenguaje humano , suele ser subconsciente.
Dado que el lenguaje natural requiere el reflejo de la realidad neurológica, tal como la moldean las capacidades proporcionadas por las redes neuronales del cerebro , la ciencia informática ha tenido el desafío a largo plazo de desarrollar la capacidad de las computadoras para realizar el procesamiento del lenguaje natural y el aprendizaje automático .
Se han investigado muchas técnicas, incluidos los métodos basados en diccionarios que utilizan el conocimiento codificado en recursos léxicos, los métodos de aprendizaje automático supervisado en los que se entrena un clasificador para cada palabra distinta en un corpus de ejemplos anotados manualmente y los métodos completamente no supervisados que agrupan las ocurrencias de las palabras, induciendo así los sentidos de las palabras. Entre estos, los enfoques de aprendizaje supervisado han sido los algoritmos más exitosos hasta la fecha.
Es difícil afirmar la precisión de los algoritmos actuales sin tener en cuenta una serie de advertencias. En inglés, la precisión en el nivel de grano grueso ( homógrafo ) es habitualmente superior al 90% (a partir de 2009), y algunos métodos en homógrafos particulares alcanzan más del 96%. En distinciones de sentido de grano más fino, se han informado precisiones máximas del 59,1% al 69,0% en ejercicios de evaluación (SemEval-2007, Senseval-2), donde la precisión de referencia del algoritmo más simple posible de elegir siempre el sentido más frecuente fue del 51,4% y el 57%, respectivamente.
La desambiguación requiere dos entradas estrictas: un diccionario para especificar los sentidos que se van a desambiguar y un corpus de datos del lenguaje que se van a desambiguar (en algunos métodos, también se requiere un corpus de entrenamiento de ejemplos del lenguaje). La tarea WSD tiene dos variantes: "muestra léxica" (desambiguación de las ocurrencias de una pequeña muestra de palabras objetivo que se seleccionaron previamente) y la tarea "todas las palabras" (desambiguación de todas las palabras en un texto continuo). La tarea "todas las palabras" generalmente se considera una forma de evaluación más realista, pero el corpus es más costoso de producir porque los anotadores humanos tienen que leer las definiciones de cada palabra en la secuencia cada vez que necesitan hacer un juicio de etiquetado, en lugar de una vez para un bloque de instancias para la misma palabra objetivo.
La WSD se formuló por primera vez como una tarea computacional específica durante los primeros días de la traducción automática en la década de 1940, lo que la convierte en uno de los problemas más antiguos de la lingüística computacional. Warren Weaver introdujo por primera vez el problema en un contexto computacional en su memorando de 1949 sobre traducción. [1] Más tarde, Bar-Hillel (1960) argumentó [2] que la WSD no podía resolverse mediante una "computadora electrónica" debido a la necesidad en general de modelar todo el conocimiento del mundo.
En la década de 1970, la WSD era una subtarea de los sistemas de interpretación semántica desarrollados en el campo de la inteligencia artificial, comenzando con la semántica de preferencias de Wilks . Sin embargo, como en ese momento los sistemas WSD se basaban en gran medida en reglas y estaban codificados manualmente, eran propensos a sufrir cuellos de botella en la adquisición de conocimientos.
En la década de 1980, se dispuso de recursos léxicos a gran escala, como el Oxford Advanced Learner's Dictionary of Current English (OALD): la codificación manual fue reemplazada por conocimiento extraído automáticamente de estos recursos, pero la desambiguación seguía estando basada en el conocimiento o en el diccionario.
En la década de 1990, la revolución estadística hizo avanzar la lingüística computacional y WSD se convirtió en un problema paradigmático sobre el que aplicar técnicas de aprendizaje automático supervisado.
En la década de 2000, las técnicas supervisadas alcanzaron un punto muerto en cuanto a precisión, por lo que la atención se desplazó hacia sentidos de grano más grueso, adaptación de dominios , sistemas basados en corpus semisupervisados y no supervisados, combinaciones de diferentes métodos y el retorno de sistemas basados en conocimiento a través de métodos basados en grafos. Aun así, los sistemas supervisados siguen teniendo el mejor rendimiento.
Un problema con la desambiguación de los sentidos de las palabras es decidir cuáles son los sentidos, ya que los diferentes diccionarios y tesauros proporcionarán diferentes divisiones de las palabras en sentidos. Algunos investigadores han sugerido elegir un diccionario en particular y utilizar su conjunto de sentidos para abordar esta cuestión. Sin embargo, en general, los resultados de las investigaciones que utilizan distinciones amplias en los sentidos han sido mucho mejores que los que utilizan distinciones estrechas. [3] [4] La mayoría de los investigadores siguen trabajando en la desambiguación de los sentidos de granularidad fina .
La mayor parte de las investigaciones en el campo de la WSD se realizan utilizando WordNet como un inventario de sentido de referencia para el inglés. WordNet es un léxico computacional que codifica conceptos como conjuntos de sinónimos (por ejemplo, el concepto de coche se codifica como {car, auto, automóvil, máquina, automóvil}). Otros recursos utilizados para fines de desambiguación incluyen Roget's Thesaurus [5] y Wikipedia . [6] Más recientemente, BabelNet , un diccionario enciclopédico multilingüe, se ha utilizado para la WSD multilingüe. [7]
En cualquier prueba real, el etiquetado de las partes del discurso y el etiquetado de los sentidos han demostrado estar muy estrechamente relacionados, y cada uno de ellos puede imponer restricciones al otro. La cuestión de si estas tareas deben mantenerse juntas o desacopladas aún no se ha resuelto de forma unánime, pero recientemente los científicos se inclinan a probarlas por separado (por ejemplo, en las competiciones Senseval/ SemEval se proporcionan las partes del discurso como entrada para el texto para desambiguar).
Tanto el WSD como el etiquetado de partes del discurso implican la desambiguación o el etiquetado con palabras. Sin embargo, los algoritmos utilizados para uno no tienden a funcionar bien para el otro, principalmente porque la parte del discurso de una palabra está determinada principalmente por las palabras inmediatamente adyacentes de una a tres, mientras que el sentido de una palabra puede estar determinado por palabras más lejanas. La tasa de éxito de los algoritmos de etiquetado de partes del discurso es actualmente mucho mayor que la de WSD, siendo la tecnología de punta de alrededor del 96% [8] de precisión o mejor, en comparación con menos del 75% [ cita requerida ] de precisión en la desambiguación del sentido de las palabras con aprendizaje supervisado . Estas cifras son típicas para el inglés y pueden ser muy diferentes de las de otros idiomas.
Otro problema es la varianza entre jueces . Los sistemas WSD normalmente se prueban comparando sus resultados en una tarea con los de un ser humano. Sin embargo, si bien es relativamente fácil asignar partes del discurso a un texto, se ha demostrado que entrenar a las personas para que etiqueten los sentidos es mucho más difícil. [9] Si bien los usuarios pueden memorizar todas las posibles partes del discurso que puede tener una palabra, a menudo es imposible que las personas memoricen todos los sentidos que puede tener una palabra. Además, los humanos no se ponen de acuerdo sobre la tarea en cuestión: si se les da una lista de sentidos y oraciones, no siempre se pondrán de acuerdo sobre qué palabra pertenece a qué sentido. [10]
Como el rendimiento humano sirve como estándar, es un límite superior para el rendimiento de la computadora. Sin embargo, el rendimiento humano es mucho mejor en las distinciones de grano grueso que en las de grano fino , por lo que nuevamente esta es la razón por la que la investigación sobre distinciones de grano grueso [11] [12] se ha puesto a prueba en ejercicios recientes de evaluación de WSD. [3] [4]
Un inventario de sentidos independiente de la tarea no es un concepto coherente: [13] cada tarea requiere su propia división del significado de las palabras en sentidos relevantes para la tarea. Además, diferentes aplicaciones pueden requerir algoritmos completamente diferentes. En la traducción automática, el problema toma la forma de selección de palabras de destino. Los "sentidos" son palabras en el idioma de destino, que a menudo corresponden a distinciones de significado significativas en el idioma de origen ("banco" podría traducirse al francés banque , es decir, "banco financiero" o rive , es decir, "borde de un río"). En la recuperación de información, no se requiere necesariamente un inventario de sentidos, porque es suficiente saber que una palabra se usa en el mismo sentido en la consulta y en un documento recuperado; qué sentido tenga, no es importante.
Finalmente, la noción misma de " sentido de la palabra " es escurridiza y controvertida. La mayoría de las personas pueden estar de acuerdo en distinciones a nivel de homógrafo de grano grueso (por ejemplo, la pluma como instrumento de escritura o estuche), pero bajan un nivel a la polisemia de grano fino y surgen desacuerdos. Por ejemplo, en Senseval-2, que utilizó distinciones de sentido de grano fino, los anotadores humanos coincidieron solo en el 85% de las ocurrencias de palabras. [14] El significado de las palabras es en principio infinitamente variable y sensible al contexto. No se divide fácilmente en subsignificados distintos o discretos. [15] Los lexicógrafos descubren con frecuencia en los corpus significados de palabras vagos y superpuestos, y significados estándar o convencionales extendidos, modulados y explotados en una desconcertante variedad de formas. El arte de la lexicografía es generalizar a partir del corpus a definiciones que evocan y explican el rango completo de significados de una palabra, haciendo que parezca que las palabras se comportan bien semánticamente. Sin embargo, no está del todo claro si estas mismas distinciones de significado son aplicables en aplicaciones computacionales , ya que las decisiones de los lexicógrafos suelen estar impulsadas por otras consideraciones. En 2009, se propuso una tarea, denominada sustitución léxica , como una posible solución al problema de discreción del sentido. [16] La tarea consiste en proporcionar un sustituto para una palabra en contexto que preserve el significado de la palabra original (potencialmente, los sustitutos pueden elegirse del léxico completo del idioma de destino, superando así la discreción).
Hay dos enfoques principales para el WSD: enfoques profundos y enfoques superficiales.
Los enfoques profundos presuponen el acceso a un cuerpo integral de conocimiento mundial . Estos enfoques generalmente no se consideran muy exitosos en la práctica, principalmente porque dicho cuerpo de conocimiento no existe en un formato legible por computadora, fuera de dominios muy limitados. [17] Además, debido a la larga tradición en lingüística computacional , de probar tales enfoques en términos de conocimiento codificado y en algunos casos, puede ser difícil distinguir entre el conocimiento involucrado en el conocimiento lingüístico o el conocimiento mundial. El primer intento fue el de Margaret Masterman y sus colegas, en la Unidad de Investigación del Lenguaje de Cambridge en Inglaterra, en la década de 1950. Este intento utilizó como datos una versión de tarjeta perforada del Thesaurus de Roget y sus "cabezas" numeradas, como indicador de temas y buscó repeticiones en el texto, utilizando un algoritmo de intersección de conjuntos. No fue muy exitoso, [18] pero tuvo fuertes relaciones con trabajos posteriores, especialmente la optimización del aprendizaje automático de Yarowsky de un método de tesauro en la década de 1990.
Los enfoques superficiales no intentan comprender el texto, sino que consideran las palabras que lo rodean. La computadora puede derivar automáticamente estas reglas utilizando un corpus de entrenamiento de palabras etiquetadas con sus significados. Este enfoque, si bien en teoría no es tan poderoso como los enfoques profundos, brinda mejores resultados en la práctica, debido al conocimiento limitado del mundo que posee la computadora.
Existen cuatro enfoques convencionales para el WSD:
Casi todos estos enfoques funcionan definiendo una ventana de n palabras de contenido alrededor de cada palabra que se va a desambiguar en el corpus y analizando estadísticamente esas n palabras circundantes. Dos enfoques superficiales utilizados para entrenar y luego desambiguar son los clasificadores Naïve Bayes y los árboles de decisión . En investigaciones recientes, los métodos basados en kernel, como las máquinas de vectores de soporte, han demostrado un rendimiento superior en el aprendizaje supervisado . Los enfoques basados en gráficos también han ganado mucha atención de la comunidad de investigación y actualmente logran un rendimiento cercano al estado del arte.
El algoritmo Lesk [19] es el método seminal basado en diccionarios. Se basa en la hipótesis de que las palabras utilizadas juntas en un texto están relacionadas entre sí y que la relación se puede observar en las definiciones de las palabras y sus sentidos. Dos (o más) palabras se desambiguan al encontrar el par de sentidos del diccionario con la mayor superposición de palabras en sus definiciones de diccionario. Por ejemplo, al desambiguar las palabras en "pine cone", las definiciones de los sentidos apropiados incluyen las palabras evergreen y tree (al menos en un diccionario). Un enfoque similar [20] busca el camino más corto entre dos palabras: la segunda palabra se busca iterativamente entre las definiciones de cada variante semántica de la primera palabra, luego entre las definiciones de cada variante semántica de cada palabra en las definiciones anteriores y así sucesivamente. Finalmente, la primera palabra se desambigua al seleccionar la variante semántica que minimiza la distancia entre la primera y la segunda palabra.
Una alternativa al uso de las definiciones es considerar la relación general entre los sentidos de las palabras y calcular la similitud semántica de cada par de sentidos de las palabras basándose en una base de conocimiento léxico dada, como WordNet . Se han aplicado con cierto éxito métodos basados en gráficos que recuerdan a la investigación de activación por difusión de los primeros días de la investigación de la IA. Se ha demostrado que los enfoques basados en gráficos más complejos funcionan casi tan bien como los métodos supervisados [21] o incluso los superan en dominios específicos. [3] [22] Recientemente, se ha informado de que las medidas de conectividad gráfica simples , como el grado , realizan una WSD de última generación en presencia de una base de conocimiento léxico suficientemente rica. [23] Además, se ha demostrado que la transferencia automática de conocimiento en forma de relaciones semánticas de Wikipedia a WordNet impulsa los métodos simples basados en conocimiento, lo que les permite rivalizar con los mejores sistemas supervisados e incluso superarlos en un entorno específico de dominio. [24]
El uso de preferencias de selección (o restricciones de selección) también es útil; por ejemplo, sabiendo que uno normalmente cocina alimentos, puede desambiguar la palabra bajo en "estoy cocinando bajos" (es decir, no es un instrumento musical).
Los métodos supervisados se basan en el supuesto de que el contexto puede proporcionar suficiente evidencia por sí solo para desambiguar las palabras (por lo tanto, el sentido común y el razonamiento se consideran innecesarios). Probablemente todos los algoritmos de aprendizaje automático existentes se han aplicado a WSD, incluidas las técnicas asociadas como la selección de características , la optimización de parámetros y el aprendizaje de conjuntos . Las máquinas de vectores de soporte y el aprendizaje basado en la memoria han demostrado ser los enfoques más exitosos, hasta la fecha, probablemente porque pueden lidiar con la alta dimensionalidad del espacio de características. Sin embargo, estos métodos supervisados están sujetos a un nuevo cuello de botella de adquisición de conocimiento, ya que dependen de cantidades sustanciales de corpus etiquetados manualmente con sentido para el entrenamiento, que son laboriosos y costosos de crear.
Debido a la falta de datos de entrenamiento, muchos algoritmos de desambiguación del sentido de las palabras utilizan un aprendizaje semisupervisado , que permite utilizar datos tanto etiquetados como no etiquetados. El algoritmo de Yarowsky fue un ejemplo temprano de este tipo de algoritmo. [25] Utiliza las propiedades de "Un sentido por colocación" y "Un sentido por discurso" de los lenguajes humanos para la desambiguación del sentido de las palabras. A partir de la observación, las palabras tienden a exhibir solo un sentido en la mayoría de los discursos dados y en una colocación dada. [26]
El método bootstrap comienza con una pequeña cantidad de datos de semillas para cada palabra: ya sean ejemplos de entrenamiento etiquetados manualmente o una pequeña cantidad de reglas de decisión infalibles (por ejemplo, "tocar" en el contexto de "bajo" casi siempre indica el instrumento musical). Las semillas se utilizan para entrenar un clasificador inicial , utilizando cualquier método supervisado. Luego, este clasificador se utiliza en la parte no etiquetada del corpus para extraer un conjunto de entrenamiento más grande, en el que solo se incluyen las clasificaciones más confiables. El proceso se repite, y cada nuevo clasificador se entrena en un corpus de entrenamiento sucesivamente más grande, hasta que se consume todo el corpus o hasta que se alcanza un número máximo determinado de iteraciones.
Otras técnicas semisupervisadas utilizan grandes cantidades de corpus no etiquetados para proporcionar información de coocurrencia que complementa a los corpus etiquetados. Estas técnicas tienen el potencial de ayudar en la adaptación de modelos supervisados a diferentes dominios.
Además, una palabra ambigua en un idioma suele traducirse en palabras diferentes en un segundo idioma según el sentido de la palabra. Se han utilizado corpus bilingües alineados con las palabras para inferir distinciones de sentido entre idiomas, una especie de sistema semisupervisado. [ cita requerida ]
El aprendizaje no supervisado es el mayor desafío para los investigadores de WSD. La suposición subyacente es que los sentidos similares ocurren en contextos similares y, por lo tanto, los sentidos pueden inducirse a partir del texto agrupando las ocurrencias de las palabras utilizando alguna medida de similitud de contexto, [27] una tarea conocida como inducción o discriminación del sentido de las palabras. Luego, las nuevas ocurrencias de la palabra pueden clasificarse en los grupos/sentidos inducidos más cercanos. El rendimiento ha sido menor que para los otros métodos descritos anteriormente, pero las comparaciones son difíciles ya que los sentidos inducidos deben mapearse a un diccionario conocido de sentidos de palabras. Si no se desea un mapeo a un conjunto de sentidos del diccionario, se pueden realizar evaluaciones basadas en grupos (incluidas medidas de entropía y pureza). Alternativamente, los métodos de inducción del sentido de las palabras se pueden probar y comparar dentro de una aplicación. Por ejemplo, se ha demostrado que la inducción del sentido de las palabras mejora la agrupación de los resultados de búsqueda web al aumentar la calidad de los grupos de resultados y el grado de diversificación de las listas de resultados. [28] [29] Se espera que el aprendizaje no supervisado supere el cuello de botella de la adquisición de conocimientos porque no depende del esfuerzo manual.
Representar palabras considerando su contexto a través de vectores densos de tamaño fijo ( word embeddings ) se ha convertido en uno de los bloques más fundamentales en varios sistemas NLP. [30] [31] [32] Aunque la mayoría de las técnicas tradicionales de incrustación de palabras fusionan palabras con múltiples significados en una única representación vectorial, aún se pueden utilizar para mejorar WSD. [33] Un enfoque simple para emplear incrustaciones de palabras precalculadas para representar sentidos de palabras es calcular los centroides de los grupos de sentidos. [34] [35] Además de las técnicas de incrustación de palabras, las bases de datos léxicas (por ejemplo, WordNet , ConceptNet , BabelNet ) también pueden ayudar a los sistemas no supervisados a mapear palabras y sus sentidos como diccionarios. Algunas técnicas que combinan bases de datos léxicas e incrustaciones de palabras se presentan en AutoExtend [36] [37] y Most Suitable Sense Annotation (MSSA). [38] En AutoExtend, [37] presentan un método que desacopla una representación de entrada de objeto en sus propiedades, como palabras y sus sentidos de palabra. AutoExtend utiliza una estructura gráfica para mapear palabras (por ejemplo, texto) y objetos que no son palabras (por ejemplo, synsets en WordNet ) como nodos y la relación entre nodos como bordes. Las relaciones (bordes) en AutoExtend pueden expresar la adición o similitud entre sus nodos. El primero captura la intuición detrás del cálculo de desplazamiento, [30] mientras que el último define la similitud entre dos nodos. En MSSA, [38] un sistema de desambiguación no supervisado utiliza la similitud entre los sentidos de las palabras en una ventana de contexto fija para seleccionar el sentido de palabra más adecuado utilizando un modelo de incrustación de palabras entrenado previamente y WordNet . Para cada ventana de contexto, MSSA calcula el centroide de la definición del sentido de cada palabra promediando los vectores de palabras de sus palabras en las glosas de WordNet (es decir, una glosa de definición breve y uno o más ejemplos de uso) utilizando un modelo de incrustación de palabras previamente entrenado. Estos centroides se utilizan posteriormente para seleccionar el sentido de la palabra con la mayor similitud de una palabra de destino con sus vecinas inmediatamente adyacentes (es decir, palabras predecesoras y sucesoras). Una vez que se han anotado y desambiguado todas las palabras, se pueden utilizar como un corpus de entrenamiento en cualquier técnica de incrustación de palabras estándar. En su versión mejorada, MSSA puede hacer uso de incrustaciones de sentido de palabras para repetir su proceso de desambiguación de forma iterativa.
Otros enfoques pueden variar de manera diferente en sus métodos:
El cuello de botella de la adquisición de conocimientos es quizás el mayor impedimento para resolver el problema de la WSD. Los métodos no supervisados se basan en el conocimiento sobre los sentidos de las palabras, que sólo se formula de forma dispersa en diccionarios y bases de datos léxicas. Los métodos supervisados dependen fundamentalmente de la existencia de ejemplos anotados manualmente para cada sentido de palabra, un requisito que hasta ahora [¿ cuándo? ] sólo se puede cumplir para un puñado de palabras con fines de prueba, como se hace en los ejercicios de Senseval .
Una de las tendencias más prometedoras en la investigación de WSD es el uso del corpus más grande jamás accesible, la World Wide Web , para adquirir información léxica automáticamente. [50] La WSD se ha entendido tradicionalmente como una tecnología intermedia de ingeniería del lenguaje que podría mejorar aplicaciones como la recuperación de información (IR). En este caso, sin embargo, lo inverso también es cierto: los motores de búsqueda web implementan técnicas de IR simples y robustas que pueden extraer con éxito información de la Web para usar en WSD. La falta histórica de datos de entrenamiento ha provocado la aparición de algunos nuevos algoritmos y técnicas, como se describe en Automatic acquisition of sense-tagged corpora .
El conocimiento es un componente fundamental del desarrollo de la inteligencia artificial. Las fuentes de conocimiento proporcionan datos esenciales para asociar los sentidos con las palabras. Pueden variar desde corpus de textos, ya sea sin etiquetar o anotados con los sentidos de las palabras, hasta diccionarios legibles por máquina, tesauros, glosarios, ontologías, etc. Se pueden clasificar [51] [52] de la siguiente manera:
Estructurado:
No estructurado:
Comparar y evaluar diferentes sistemas WSD es extremadamente difícil debido a los diferentes conjuntos de pruebas, inventarios de sentidos y recursos de conocimiento adoptados. Antes de la organización de campañas de evaluación específicas, la mayoría de los sistemas se evaluaban en conjuntos de datos internos, a menudo a pequeña escala . Para probar un algoritmo, los desarrolladores deben dedicar su tiempo a anotar todas las ocurrencias de palabras. Y la comparación de métodos incluso en el mismo corpus no es elegible si hay diferentes inventarios de sentidos.
Para definir conjuntos de datos y procedimientos de evaluación comunes, se han organizado campañas de evaluación públicas. Senseval (ahora renombrado SemEval ) es una competencia internacional de desambiguación de sentido de palabras, que se lleva a cabo cada tres años desde 1998: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 [usurpado] (2004), y su sucesor, SemEval (2007). El objetivo de la competencia es organizar diferentes conferencias, preparar y anotar a mano corpus para sistemas de prueba, realizar una evaluación comparativa de sistemas WSD en varios tipos de tareas, incluyendo WSD de todas las palabras y de muestra léxica para diferentes idiomas y, más recientemente, nuevas tareas como etiquetado de roles semánticos , WSD de glosa, sustitución léxica , etc. Los sistemas presentados para evaluación a estas competiciones generalmente integran diferentes técnicas y a menudo combinan métodos supervisados y basados en el conocimiento (especialmente para evitar un mal desempeño en falta de ejemplos de entrenamiento).
En los últimos años 2007-2012 , las opciones de evaluación de WSD han aumentado y el criterio para evaluar WSD ha cambiado drásticamente dependiendo de la variante de la tarea de evaluación de WSD. A continuación se enumera la variedad de tareas de WSD:
A medida que la tecnología evoluciona, las tareas de desambiguación del sentido de las palabras (WSD) crecen en diferentes direcciones de investigación y para más idiomas:
{{cite book}}
: Mantenimiento de CS1: falta la ubicación del editor ( enlace )