En lingüística computacional , la inducción del sentido de las palabras (WSI) o discriminación es un problema abierto del procesamiento del lenguaje natural , que se refiere a la identificación automática de los sentidos de una palabra (es decir, significados ). Dado que el resultado de la inducción del sentido de las palabras es un conjunto de sentidos para la palabra objetivo (inventario de sentidos), esta tarea está estrictamente relacionada con la de la desambiguación del sentido de las palabras (WSD), que se basa en un inventario de sentidos predefinido y tiene como objetivo resolver la ambigüedad de las palabras en contexto.
El resultado de un algoritmo de inducción del sentido de las palabras es una agrupación de contextos en los que aparece la palabra objetivo o una agrupación de palabras relacionadas con la palabra objetivo. En la literatura se han propuesto tres métodos principales: [1] [2]
La hipótesis subyacente de este enfoque es que las palabras son semánticamente similares si aparecen en documentos similares, con ventanas de contexto similares o en contextos sintácticos similares. [3] Cada aparición de una palabra objetivo en un corpus se representa como un vector de contexto . Estos vectores de contexto pueden ser vectores de primer orden, que representan directamente el contexto en cuestión, o vectores de segundo orden, es decir, los contextos de la palabra objetivo son similares si sus palabras tienden a coocurrir juntas. Luego, los vectores se agrupan en grupos, cada uno de los cuales identifica un sentido de la palabra objetivo. Un enfoque bien conocido para la agrupación de contextos es el algoritmo de discriminación de grupos de contexto [4] basado en métodos de cálculo de matrices grandes.
La agrupación de palabras es un enfoque diferente para la inducción de sentidos de palabras. Consiste en agrupar palabras que son semánticamente similares y, por lo tanto, pueden tener un significado específico. El algoritmo de Lin [5] es un ejemplo prototípico de agrupación de palabras, que se basa en estadísticas de dependencia sintáctica, que se producen en un corpus para producir conjuntos de palabras para cada sentido descubierto de una palabra objetivo. [6] El agrupamiento por comité (CBC) [7] también utiliza contextos sintácticos, pero explota una matriz de similitud para codificar las similitudes entre palabras y se basa en la noción de comités para generar diferentes sentidos de la palabra de interés. Estos enfoques son difíciles de obtener a gran escala para muchos dominios e idiomas.
La hipótesis principal de los grafos de coocurrencia supone que la semántica de una palabra se puede representar por medio de un grafo de coocurrencia , cuyos vértices son coocurrencias y los bordes son relaciones de coocurrencia. Estos enfoques están relacionados con los métodos de agrupamiento de palabras, donde las coocurrencias entre palabras se pueden obtener sobre la base de relaciones gramaticales [8] o colocacionales. [9] HyperLex es el enfoque exitoso de un algoritmo de grafo, basado en la identificación de centros en grafos de coocurrencia, que tienen que hacer frente a la necesidad de ajustar una gran cantidad de parámetros. [10] Para abordar este problema, se han propuesto varios algoritmos basados en grafos, que se basan en patrones de grafos simples, a saber, Curvature Clustering, Squares, Triangles and Diamonds (SquaT++), y Balanced Maximum Spanning Tree Clustering (B-MST). [11] Los patrones apuntan a identificar significados utilizando las propiedades estructurales locales del grafo de coocurrencia. Un algoritmo aleatorio que divide los vértices del grafo mediante la transferencia iterativa del mensaje principal (es decir, el sentido de la palabra) a los vértices vecinos [12] es Chinese Whispers. Se ha demostrado que la aplicación de enfoques de grafos de coocurrencia permite alcanzar un rendimiento de vanguardia en tareas de evaluación estándar.