Conceptualmente implica el encaje matemático de un espacio con una dimensión por palabra a un espacio vectorial continuo con menos dimensiones.
[1][2][3][4][5][6] El Word y phrase embeddings (para palabras y frases respectivamente), utilizados de forma subyacente como forma de representación, demostraron aumentar el rendimiento de tareas en el procesamiento del lenguaje natural (NLP) como en el análisis sintáctico[7] y análisis de sentimiento.
Apunta para cuantificar y categorizar las semejanzas semánticas entre elementos lingüísticos basándose en sus propiedades distribucionales en muestras grandes de dato de lengua.
En 2013, un equipo en Google dirigido por Tomas Mikolov creó word2vec, un paquete de herramientas el cual puede entrenar un modelo de espacio vectorial más rápidamente que las aproximaciones anteriores.
[14] Tanto el análisis de Componente principal (PCA en inglés) como T-Distributed Stochastic Neighbour Embedding (t-SNE) se utilizan para reducir la dimensionalidad del espacio vectorial de palabras y visualizar el encaje de palabras en grupos (clusters).