Sustitución léxica

La sustitución léxica es la tarea de identificar un sustituto para una palabra en el contexto de una cláusula. Por ejemplo, dado el siguiente texto: "Después del partido , reponga cualquier déficit de líquido restante para prevenir la deshidratación crónica durante todo el torneo", se podría dar un sustituto de juego .

La sustitución léxica está estrictamente relacionada con la desambiguación del sentido de las palabras (WSD), en el sentido de que ambas tienen como objetivo determinar el significado de una palabra. Sin embargo, mientras que la WSD consiste en asignar automáticamente el sentido apropiado de un inventario de sentidos fijo, la sustitución léxica no impone ninguna restricción sobre qué sustituto elegir como el mejor representante de la palabra en contexto. Al no prescribir el inventario, la sustitución léxica supera el problema de la granularidad de las distinciones de sentido y proporciona un campo de juego nivelado para los sistemas automáticos que adquieren automáticamente los sentidos de las palabras (una tarea conocida como Inducción del sentido de las palabras ).

Evaluación

Para evaluar los sistemas automáticos de sustitución léxica, se organizó una tarea en el marco del concurso de evaluación Semeval-2007 celebrado en Praga en 2007. También se llevó a cabo una tarea Semeval-2010 sobre sustitución léxica interlingüística.

Modelo de salto de gramo

El modelo skip-gram lleva las palabras con significados similares a un espacio vectorial (colección de objetos que se pueden sumar y multiplicar por números) que se encuentran cerca unas de otras en N-dimensiones (lista de elementos). Una variedad de redes neuronales (sistema informático modelado a partir de un cerebro humano) se forman juntas como resultado de los vectores y redes que están relacionados entre sí. Todo esto ocurre en las dimensiones del vocabulario que se ha generado en una red. ^[1] El modelo se ha utilizado en algoritmos de automatización y predicción de sustitución léxica. Uno de estos algoritmos desarrollado por Oren Melamud, Omer Levy e Ido Dagan utiliza el modelo skip-gram para encontrar un vector para cada palabra y sus sinónimos. Luego, calcula la distancia del coseno entre los vectores para determinar qué palabras serán los mejores sustitutos. ^[2]

Ejemplo

En una oración como "El perro caminaba a paso rápido", cada palabra tiene un vector específico en relación con la otra. El vector de "El" sería [1,0,0,0,0,0,0] porque el 1 es el vocabulario de palabras y los 0 son las palabras que rodean ese vocabulario, lo que crea un vector.

Véase también

Bibliografía

D. McCarthy, R. Navigli. La tarea de sustitución léxica en inglés. Recursos lingüísticos y evaluación , 43(2), Springer, 2009, págs. 139–159.
D. McCarthy, R. Navigli. SemEval-2007 Task 10: English Lexical Substitution Task. Actas del taller Semeval-2007 (SEMEVAL) , en la 45.ª reunión anual de la Asociación de Lingüística Computacional (ACL 2007), Praga, República Checa, 23-24 de junio de 2007, págs. 48-53.
D. McCarthy. La sustitución léxica como tarea para la evaluación de la WSD. En Actas del taller de la ACL sobre desambiguación del sentido de las palabras: éxitos recientes y direcciones futuras, Filadelfia, EE. UU., 2002, págs. 109-115.
R. Navigli. Desambiguación del sentido de las palabras: una encuesta, ACM Computing Surveys, 41(2), 2009, págs. 1–69.

Referencias

^ Barazza, Leonardo (3 de abril de 2017). "¿Cómo funciona Skip-Gram de Word2Vec?". Becoming Human .
^ Melamud, Oren; Levy, Omer; Dagan, Ido (5 de junio de 2015). "Un modelo simple de incrustación de palabras para la sustitución léxica". Actas de NAACL-HLT 201 : 1–7. doi : 10.3115/v1/W15-1501 . S2CID : 2897037. Consultado el 16 de abril de 2018 .