Inducción del sentido de las palabras

En lingüística computacional , la inducción del sentido de las palabras (WSI) o discriminación es un problema abierto del procesamiento del lenguaje natural , que se refiere a la identificación automática de los sentidos de una palabra (es decir, significados ). Dado que el resultado de la inducción del sentido de las palabras es un conjunto de sentidos para la palabra objetivo (inventario de sentidos), esta tarea está estrictamente relacionada con la de la desambiguación del sentido de las palabras (WSD), que se basa en un inventario de sentidos predefinido y tiene como objetivo resolver la ambigüedad de las palabras en contexto.

Enfoques y métodos

El resultado de un algoritmo de inducción del sentido de las palabras es una agrupación de contextos en los que aparece la palabra objetivo o una agrupación de palabras relacionadas con la palabra objetivo. En la literatura se han propuesto tres métodos principales: ^[1]^[2]

Agrupamiento de contexto
Agrupamiento de palabras
Gráficos de coocurrencia

Agrupamiento de contexto

La hipótesis subyacente de este enfoque es que las palabras son semánticamente similares si aparecen en documentos similares, con ventanas de contexto similares o en contextos sintácticos similares. ^[3] Cada aparición de una palabra objetivo en un corpus se representa como un vector de contexto . Estos vectores de contexto pueden ser vectores de primer orden, que representan directamente el contexto en cuestión, o vectores de segundo orden, es decir, los contextos de la palabra objetivo son similares si sus palabras tienden a coocurrir juntas. Luego, los vectores se agrupan en grupos, cada uno de los cuales identifica un sentido de la palabra objetivo. Un enfoque bien conocido para la agrupación de contextos es el algoritmo de discriminación de grupos de contexto ^[4] basado en métodos de cálculo de matrices grandes.

Agrupamiento de palabras

La agrupación de palabras es un enfoque diferente para la inducción de sentidos de palabras. Consiste en agrupar palabras que son semánticamente similares y, por lo tanto, pueden tener un significado específico. El algoritmo de Lin ^[5] es un ejemplo prototípico de agrupación de palabras, que se basa en estadísticas de dependencia sintáctica, que se producen en un corpus para producir conjuntos de palabras para cada sentido descubierto de una palabra objetivo. ^[6] El agrupamiento por comité (CBC) ^[7] también utiliza contextos sintácticos, pero explota una matriz de similitud para codificar las similitudes entre palabras y se basa en la noción de comités para generar diferentes sentidos de la palabra de interés. Estos enfoques son difíciles de obtener a gran escala para muchos dominios e idiomas.

Gráficos de coocurrencia

La hipótesis principal de los grafos de coocurrencia supone que la semántica de una palabra se puede representar por medio de un grafo de coocurrencia , cuyos vértices son coocurrencias y los bordes son relaciones de coocurrencia. Estos enfoques están relacionados con los métodos de agrupamiento de palabras, donde las coocurrencias entre palabras se pueden obtener sobre la base de relaciones gramaticales ^[8] o colocacionales. ^[9] HyperLex es el enfoque exitoso de un algoritmo de grafo, basado en la identificación de centros en grafos de coocurrencia, que tienen que hacer frente a la necesidad de ajustar una gran cantidad de parámetros. ^[10] Para abordar este problema, se han propuesto varios algoritmos basados en grafos, que se basan en patrones de grafos simples, a saber, Curvature Clustering, Squares, Triangles and Diamonds (SquaT++), y Balanced Maximum Spanning Tree Clustering (B-MST). ^[11] Los patrones apuntan a identificar significados utilizando las propiedades estructurales locales del grafo de coocurrencia. Un algoritmo aleatorio que divide los vértices del grafo mediante la transferencia iterativa del mensaje principal (es decir, el sentido de la palabra) a los vértices vecinos ^[12] es Chinese Whispers. Se ha demostrado que la aplicación de enfoques de grafos de coocurrencia permite alcanzar un rendimiento de vanguardia en tareas de evaluación estándar.

Aplicaciones

Se ha demostrado que la inducción del sentido de las palabras beneficia la recuperación de información web cuando se emplean consultas altamente ambiguas. ^[9]
Los algoritmos simples de inducción del sentido de las palabras aumentan considerablemente la agrupación de los resultados de búsqueda web y mejoran la diversificación de los resultados de búsqueda devueltos por motores de búsqueda como Yahoo! ^[13]
La inducción del sentido de las palabras se ha aplicado para enriquecer recursos léxicos como WordNet . ^[14]

Software

SenseClusters es un paquete de software de código abierto disponible gratuitamente que realiza agrupamiento de contextos y agrupamiento de palabras.

Véase también

Referencias

^ Navigli, R. (2009). "Desambiguación del sentido de las palabras: una encuesta" (PDF) . Encuestas de informática de la ACM . 41 (2): 1–69. doi :10.1145/1459352.1459355. S2CID 461624.
^ Nasiruddin, M. (2013). Un estado del arte de la inducción del sentido de las palabras: un camino hacia la desambiguación del sentido de las palabras para idiomas con pocos recursos (PDF) . TALN-RÉCITAL 2013. Les Sables d'Olonne, Francia. págs. 192-205.
^ Van de Cruys, T. (2010). "Extracción de significado. La extracción de conocimiento léxico-semántico del texto" (PDF) .
^ Schütze, H. (1998). Dimensiones del significado . Conferencia ACM/IEEE sobre supercomputación de 1992. Los Alamitos, CA: IEEE Computer Society Press. pp. 787–796. doi :10.1109/SUPERC.1992.236684.
^ Lin, D. (1998). Recuperación automática y agrupamiento de palabras similares (PDF) . 17.ª Conferencia Internacional sobre Lingüística Computacional (COLING). Montreal, Canadá. pp. 768–774.
^ Van de Cruys, Tim; Apidianaki, Marianna (2011). "Inducción y desambiguación del sentido semántico latente de las palabras" (PDF) .
^ Lin, D.; Pantel, P. (2002). Descubrimiento de los sentidos de las palabras a partir del texto . 8.ª Conferencia internacional sobre descubrimiento de conocimientos y minería de datos (KDD). Edmonton, Canadá. págs. 613–619. CiteSeerX 10.1.1.12.6771 .
^ Widdows, D.; Dorow, B. (2002). Un modelo gráfico para la adquisición léxica no supervisada (PDF) . 19.ª Conferencia Internacional sobre Lingüística Computacional (COLING). Taipei, Taiwán. pp. 1–7.
^ ab Véronis, J. (2004). "Hyperlex: cartografía léxica para la recuperación de información" (PDF) . Lenguaje y habla por ordenador . 18 (3): 223–252. CiteSeerX 10.1.1.66.6499 . doi :10.1016/j.csl.2004.05.002.
^ Agirre, E.; Martínez, D.; De Lacalle, O. López; Soroa, A. Dos algoritmos basados en grafos para el procesamiento de lenguaje natural de última generación (PDF) . Conferencia de 2006 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP). Sídney, Australia. págs. 585–593.
^ Di Marco, A.; Navigli, R. (2013). "Agrupamiento y diversificación de resultados de búsqueda web con inducción de sentido de palabras basada en gráficos" (PDF) . Computational Linguistics . 39 (3): 709–754. doi :10.1162/coli_a_00148. S2CID 1775181.
^ Biemann, C. (2006). "Chinese Whispers - un algoritmo de agrupamiento de gráficos eficiente y su aplicación a problemas de procesamiento del lenguaje natural" (PDF) .
^ Navigli, R.; Crisafulli, G. Inducción de sentidos de palabras para mejorar la agrupación de resultados de búsqueda web (PDF) . Conferencia de 2010 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP 2010). Massachusetts, EE. UU.: MIT Stata Center. págs. 116–126.
^ Nasiruddin, M.; Schwab, D.; Tchechmedjiev, A.; Sérasset, G.; Blanchon, H. Induction de sens pour enrichir des ressources lexicales (Inducción del sentido de las palabras para el enriquecimiento de recursos léxicos) (PDF) . 21ème conferencia sur le Traitement Automatique des Langues Naturelles (TALN 2014). Marsella, Francia. págs. 598–603.