En lingüística computacional , la inducción del sentido de las palabras (WSI) o discriminación es un problema abierto del procesamiento del lenguaje natural , que se refiere a la identificación automática de los sentidos de una palabra (es decir, significados ). Dado que el resultado de la inducción del sentido de la palabra es un conjunto de sentidos para la palabra objetivo (inventario de sentido), esta tarea está estrictamente relacionada con la de desambiguación del sentido de la palabra (WSD), que se basa en un inventario de sentido predefinido y tiene como objetivo resolver La ambigüedad de las palabras en contexto.
El resultado de un algoritmo de inducción del sentido de las palabras es una agrupación de contextos en los que aparece la palabra objetivo o una agrupación de palabras relacionadas con la palabra objetivo. Se han propuesto tres métodos principales en la literatura: [1] [2]
La hipótesis subyacente de este enfoque es que las palabras son semánticamente similares si aparecen en documentos similares, en ventanas de contexto similares o en contextos sintácticos similares. [3] Cada aparición de una palabra objetivo en un corpus se representa como un vector de contexto . Estos vectores de contexto pueden ser vectores de primer orden, que representan directamente el contexto en cuestión, o vectores de segundo orden, es decir, los contextos de la palabra objetivo son similares si sus palabras tienden a coexistir juntas. Luego, los vectores se agrupan en grupos, cada uno de los cuales identifica un sentido de la palabra objetivo. Un enfoque bien conocido para la agrupación de contextos es el algoritmo de discriminación de grupos de contexto [4] basado en métodos de cálculo de matrices grandes.
La agrupación de palabras es un enfoque diferente a la inducción de los sentidos de las palabras. Consiste en agrupar palabras que son semánticamente similares y, por tanto, pueden tener un significado específico. El algoritmo de Lin [5] es un ejemplo prototípico de agrupación de palabras, que se basa en estadísticas de dependencia sintáctica, que ocurren en un corpus para producir conjuntos de palabras para cada sentido descubierto de una palabra objetivo. [6] El Clustering By Committee (CBC) [7] también utiliza contextos sintácticos, pero explota una matriz de similitud para codificar las similitudes entre palabras y se basa en la noción de comités para generar diferentes sentidos de la palabra de interés. Estos enfoques son difíciles de obtener a gran escala para muchos dominios e idiomas.
La principal hipótesis de los gráficos de coocurrencia supone que la semántica de una palabra se puede representar mediante un gráfico de coocurrencia , cuyos vértices son coocurrencias y aristas son relaciones de coocurrencia. Estos enfoques están relacionados con los métodos de agrupación de palabras, donde las coocurrencias entre palabras se pueden obtener sobre la base de relaciones gramaticales [8] o de colocación. [9] HyperLex es el enfoque exitoso de un algoritmo gráfico, basado en la identificación de centros en gráficos de coocurrencia, que tienen que hacer frente a la necesidad de ajustar una gran cantidad de parámetros. [10] Para abordar este problema se han propuesto varios algoritmos basados en gráficos, que se basan en patrones de gráficos simples, a saber, agrupación de curvaturas, cuadrados, triángulos y diamantes (SquaT++) y agrupación de árboles de expansión máxima equilibrada (B-MST). [11] Los patrones tienen como objetivo identificar significados utilizando las propiedades estructurales locales del gráfico de co-ocurrencia. Un algoritmo aleatorio que divide los vértices del gráfico transfiriendo iterativamente el mensaje principal (es decir, el sentido de la palabra) a los vértices vecinos [12] es Chinese Whispers. Se ha demostrado que mediante la aplicación de gráficos de coocurrencia se logra un rendimiento de última generación en tareas de evaluación estándar.