Word2vec

Como su nombre indica, Word2vec representa cada palabra distinta con una lista particular de números llamada vector.Word2vec es un grupo de modelos relacionados que se utilizan para producir word embeddings.Los word embeddings están colocados en el espacio vectorial de forma que las palabras que comparten contextos comunes en el corpus están localizadas cerca unas de otras en el espacio.[1] Un equipo de investigadores dirigido por Tomas Mikolov en Google creó, patentó y publicó Word2vec en 2013 en dos artículos.[1][6] Según la nota de los autores[7], CBOW es más rápido, mientras que saltograma trabaja mejor para palabras poco frecuentes.Para aproximar la verosimilitud logarítmica condicional, un modelo busca maximizar, el método jerárquico softmax utiliza un árbol de Huffman para reducir el cálculo.Si el modelo Word2vec no ha encontrado una palabra particular antes, será forzado a utilizar un vector aleatorio, el cual está generalmente lejos de su representación ideal.Esto particularmente puede ser un problema en ámbitos como la medicina, donde los sinónimos y palabras relacionadas pueden ser utilizadas dependiendo del estilo preferido del radiólogo, y las palabras pueden haber sido utilizadas de manera poco frecuente en un gran corpus.Las razones para el aprendizaje exitoso del word embedding en el marco Word2vec son poco conocidas.La transferencia de estos hiperparámetros a enfoques más 'tradicionales' produce rendimientos similares en tareas posteriores.Utilizan esto para explicar algunas propiedades de los word embeddings, incluido su uso para resolver analogías.(2013)[19] encontraron que los patrones semánticos y sintácticos se pueden reproducir utilizando aritmética vectorial.(2013)[1] desarrollaron un enfoque para evaluar la calidad de un modelo Word2vec que se basa en los patrones semánticos y sintácticos discutidos anteriormente.[1] En los modelos que utilizan grandes corpus y una gran cantidad de dimensiones, el modelo saltograma produce la precisión general más alta y produce consistentemente la precisión más alta en las relaciones semánticas, además de producir la precisión sintáctica más alta en la mayoría de los casos.Sin embargo, el CBOW es menos costoso computacionalmente y produce resultados de precisión similares.Sin embargo, con un corpus pequeño de entrenamiento, LSA mostró un mejor rendimiento.