La sustitución léxica es la tarea de identificar un sustituto para una palabra en el contexto de una cláusula. Por ejemplo, dado el siguiente texto: "Después del partido , reponga cualquier déficit de líquido restante para prevenir la deshidratación crónica durante todo el torneo", se podría dar un sustituto de juego .
La sustitución léxica está estrictamente relacionada con la desambiguación del sentido de las palabras (WSD), en el sentido de que ambas tienen como objetivo determinar el significado de una palabra. Sin embargo, mientras que la WSD consiste en asignar automáticamente el sentido apropiado a partir de un inventario de sentidos fijo, la sustitución léxica no impone ninguna restricción sobre qué sustituto elegir como el mejor representante de la palabra en el contexto. Al no prescribir el inventario, la sustitución léxica supera el problema de la granularidad de las distinciones de sentido y proporciona un campo de juego nivelado para los sistemas automáticos que adquieren automáticamente los sentidos de las palabras (una tarea conocida como Inducción del sentido de las palabras ).
Para evaluar los sistemas automáticos de sustitución léxica, se organizó una tarea en el marco del concurso de evaluación Semeval-2007 celebrado en Praga en 2007. También se llevó a cabo una tarea Semeval-2010 sobre sustitución léxica interlingüística.
El modelo skip-gram lleva las palabras con significados similares a un espacio vectorial (colección de objetos que se pueden sumar y multiplicar por números) que se encuentran cerca unas de otras en N-dimensiones (lista de elementos). Una variedad de redes neuronales (sistema informático modelado a partir de un cerebro humano) se forman juntas como resultado de los vectores y redes que están relacionados entre sí. Todo esto ocurre en las dimensiones del vocabulario que se ha generado en una red. [1] El modelo se ha utilizado en algoritmos de automatización y predicción de sustitución léxica. Uno de estos algoritmos desarrollado por Oren Melamud, Omer Levy e Ido Dagan utiliza el modelo skip-gram para encontrar un vector para cada palabra y sus sinónimos. Luego, calcula la distancia del coseno entre los vectores para determinar qué palabras serán los mejores sustitutos. [2]
En una oración como "El perro caminaba a paso rápido", cada palabra tiene un vector específico en relación con la otra. El vector de "El" sería [1,0,0,0,0,0,0] porque el 1 es el vocabulario de palabras y los 0 son las palabras que rodean ese vocabulario, lo que crea un vector.