Inducción del sentido de la palabra

En lingüística computacional , la inducción del sentido de las palabras (WSI) o discriminación es un problema abierto del procesamiento del lenguaje natural , que se refiere a la identificación automática de los sentidos de una palabra (es decir, significados ). Dado que el resultado de la inducción del sentido de la palabra es un conjunto de sentidos para la palabra objetivo (inventario de sentido), esta tarea está estrictamente relacionada con la de desambiguación del sentido de la palabra (WSD), que se basa en un inventario de sentido predefinido y tiene como objetivo resolver La ambigüedad de las palabras en contexto.

Enfoques y métodos

El resultado de un algoritmo de inducción del sentido de las palabras es una agrupación de contextos en los que aparece la palabra objetivo o una agrupación de palabras relacionadas con la palabra objetivo. Se han propuesto tres métodos principales en la literatura: ^[1]^[2]

Agrupación de contexto
Agrupación de palabras
Gráficos de coocurrencia

Agrupación de contexto

La hipótesis subyacente de este enfoque es que las palabras son semánticamente similares si aparecen en documentos similares, en ventanas de contexto similares o en contextos sintácticos similares. ^[3] Cada aparición de una palabra objetivo en un corpus se representa como un vector de contexto . Estos vectores de contexto pueden ser vectores de primer orden, que representan directamente el contexto en cuestión, o vectores de segundo orden, es decir, los contextos de la palabra objetivo son similares si sus palabras tienden a coexistir juntas. Luego, los vectores se agrupan en grupos, cada uno de los cuales identifica un sentido de la palabra objetivo. Un enfoque bien conocido para la agrupación de contextos es el algoritmo de discriminación de grupos de contexto ^[4] basado en métodos de cálculo de matrices grandes.

Agrupación de palabras

La agrupación de palabras es un enfoque diferente a la inducción de los sentidos de las palabras. Consiste en agrupar palabras que son semánticamente similares y, por tanto, pueden tener un significado específico. El algoritmo de Lin ^[5] es un ejemplo prototípico de agrupación de palabras, que se basa en estadísticas de dependencia sintáctica, que ocurren en un corpus para producir conjuntos de palabras para cada sentido descubierto de una palabra objetivo. ^[6] El Clustering By Committee (CBC) ^[7] también utiliza contextos sintácticos, pero explota una matriz de similitud para codificar las similitudes entre palabras y se basa en la noción de comités para generar diferentes sentidos de la palabra de interés. Estos enfoques son difíciles de obtener a gran escala para muchos dominios e idiomas.

Gráficos de coocurrencia

La principal hipótesis de los gráficos de coocurrencia supone que la semántica de una palabra se puede representar mediante un gráfico de coocurrencia , cuyos vértices son coocurrencias y aristas son relaciones de coocurrencia. Estos enfoques están relacionados con los métodos de agrupación de palabras, donde las coocurrencias entre palabras se pueden obtener sobre la base de relaciones gramaticales ^[8] o de colocación. ^[9] HyperLex es el enfoque exitoso de un algoritmo gráfico, basado en la identificación de centros en gráficos de coocurrencia, que tienen que hacer frente a la necesidad de ajustar una gran cantidad de parámetros. ^[10] Para abordar este problema se han propuesto varios algoritmos basados en gráficos, que se basan en patrones de gráficos simples, a saber, agrupación de curvaturas, cuadrados, triángulos y diamantes (SquaT++) y agrupación de árboles de expansión máxima equilibrada (B-MST). ^[11] Los patrones tienen como objetivo identificar significados utilizando las propiedades estructurales locales del gráfico de co-ocurrencia. Un algoritmo aleatorio que divide los vértices del gráfico transfiriendo iterativamente el mensaje principal (es decir, el sentido de la palabra) a los vértices vecinos ^[12] es Chinese Whispers. Se ha demostrado que mediante la aplicación de gráficos de coocurrencia se logra un rendimiento de última generación en tareas de evaluación estándar.

Aplicaciones

Se ha demostrado que la inducción del sentido de las palabras beneficia la recuperación de información web cuando se emplean consultas muy ambiguas. ^[9]
Los algoritmos simples de inducción del sentido de las palabras aumentan considerablemente la agrupación de resultados de búsqueda en la Web y mejoran la diversificación de los resultados de búsqueda devueltos por motores de búsqueda como Yahoo! ^[13]
La inducción del sentido de las palabras se ha aplicado para enriquecer recursos léxicos como WordNet . ^[14]

Software

SenseClusters es un paquete de software de código abierto disponible gratuitamente que realiza agrupaciones de contexto y de palabras.

Ver también

Referencias

^ Navigli, R. (2009). "Desambiguación del sentido de las palabras: una encuesta" (PDF) . Encuestas de Computación ACM . 41 (2): 1–69. doi :10.1145/1459352.1459355. S2CID 461624.
^ Nasiruddin, M. (2013). Un estado del arte de la inducción del sentido de las palabras: un camino hacia la desambiguación del sentido de las palabras para idiomas con pocos recursos (PDF) . TALN-RÉCITAL 2013. Les Sables d'Olonne, Francia. págs. 192-205.
^ Van de Cruys, T. (2010). "Minería de significado. La extracción de conocimiento léxico-semántico del texto" (PDF) .
^ Schütze, H. (1998). Dimensiones del significado . 1992 Conferencia ACM/IEEE sobre Supercomputación. Los Alamitos, CA: IEEE Computer Society Press. págs. 787–796. doi :10.1109/SUPERC.1992.236684.
^ Lin, D. (1998). Recuperación automática y agrupación de palabras similares (PDF) . XVII Congreso Internacional de Lingüística Computacional (COLING). Montréal, Canadá. págs. 768–774.
^ Van de Cruys, Tim; Apidianaki, Marianna (2011). "Inducción y desambiguación del sentido de palabras semánticas latentes" (PDF) .
^ Lin, D.; Pantel, P. (2002). Descubrir los sentidos de las palabras a partir del texto . Octava Conferencia Internacional sobre Descubrimiento de Conocimiento y Minería de Datos (KDD). Edmonton, Canadá. págs. 613–619. CiteSeerX 10.1.1.12.6771 .
^ Viudas, D.; Dorow, B. (2002). Un modelo gráfico para la adquisición léxica no supervisada (PDF) . XIX Congreso Internacional de Lingüística Computacional (COLING). Taipei, Taiwán. págs. 1–7.
^ ab Véronis, J. (2004). "Hyperlex: Cartografía léxica para la recuperación de información" (PDF) . Habla y lenguaje informático . 18 (3): 223–252. CiteSeerX 10.1.1.66.6499 . doi : 10.1016/j.csl.2004.05.002.
^ Agirre, E.; Martínez, D.; De Lacalle, O. López; Soroa, A. Dos algoritmos basados en gráficos para WSD de última generación (PDF) . 2006 Conferencia sobre Métodos Empíricos en Procesamiento del Lenguaje Natural (EMNLP). Sídney, Australia. págs. 585–593.
^ DiMarco, A.; Navigli, R. (2013). "Agrupación y diversificación de resultados de búsqueda web con inducción del sentido de palabras basada en gráficos" (PDF) . Lingüística Computacional . 39 (3): 709–754. doi :10.1162/coli_a_00148. S2CID 1775181.
^ Biemann, C. (2006). "Chinese Whispers: un algoritmo eficiente de agrupación de gráficos y su aplicación a problemas de procesamiento del lenguaje natural" (PDF) .
^ Navigli, R.; Crisafulli, G. Inducir los sentidos de las palabras para mejorar la agrupación de resultados de búsqueda web (PDF) . 2010 Conferencia sobre Métodos Empíricos en Procesamiento del Lenguaje Natural (EMNLP 2010). Massachusetts, Estados Unidos: MIT Stata Center. págs. 116-126.
^ Nasiruddin, M.; Schwab, D.; Tchechmedjiev, A.; Sérasset, G.; Blanchon, H. Induction de sens pour enrichir des ressources lexicales (Inducción del sentido de las palabras para el enriquecimiento de los recursos léxicos) (PDF) . 21ème conferencia sur le Traitement Automatique des Langues Naturelles (TALN 2014). Marsella, Francia. págs. 598–603.