Modelo de espacio vectorial

El modelo de espacio vectorial o modelo de vector de término es un modelo algebraico para representar documentos de texto (o, de manera más general, elementos) como vectores de modo que la distancia entre vectores represente la relevancia entre los documentos. Se utiliza en el filtrado de información , la recuperación de información , la indexación y las clasificaciones de relevancia. Su primer uso fue en el sistema de recuperación de información SMART . ^[1]

Definiciones

En esta sección, analizamos un modelo de espacio vectorial particular basado en la representación de bolsa de palabras . Los documentos y las consultas se representan como vectores.

d_{j}=(w_{1,j},w_{2,j},\dotsc,w_{n,j})

q=(w_{1,q},w_{2,q},\puntosc,w_{n,q})

Cada dimensión corresponde a un término independiente. Si un término aparece en el documento, su valor en el vector no es cero. Se han desarrollado varias formas diferentes de calcular estos valores, también conocidos como ponderaciones (de término). Uno de los esquemas más conocidos es la ponderación tf-idf (consulte el ejemplo a continuación).

La definición de término depende de la aplicación. Normalmente, los términos son palabras individuales, palabras clave o frases más largas. Si se eligen palabras como términos, la dimensionalidad del vector es la cantidad de palabras del vocabulario (la cantidad de palabras distintas que aparecen en el corpus ).

Las operaciones vectoriales se pueden utilizar para comparar documentos con consultas. ^[2]

Aplicaciones

Los documentos candidatos del corpus se pueden recuperar y clasificar utilizando una variedad de métodos. Las clasificaciones de relevancia de los documentos en una búsqueda de palabras clave se pueden calcular, utilizando los supuestos de la teoría de similitudes entre documentos , comparando la desviación de los ángulos entre cada vector de documento y el vector de consulta original, donde la consulta se representa como un vector con la misma dimensión que los vectores que representan los otros documentos.

En la práctica, es más fácil calcular el coseno del ángulo entre los vectores, en lugar del ángulo en sí:

\cos {\theta }={\frac {\mathbf {d_{2}} \cdot \mathbf {q}}

Donde es la intersección (es decir, el producto escalar ) de los vectores del documento (d ₂ en la figura de la derecha) y de la consulta (q en la figura), es la norma del vector d ₂ y es la norma del vector q. La norma de un vector se calcula de la siguiente manera: $\mathbf {d_{2}} \cdot \mathbf {q}$ $\izquierda\|\mathbf {d_{2}} \derecha\|$ $\izquierda\|\mathbf {q} \derecha\|$

\left\|\mathbf {q} \right\|={\sqrt {\sum _{i=1}^{n}q_{i}^{2}}}

Utilizando el coseno, la similitud entre el documento d _j y la consulta q se puede calcular como:

\mathrm {cos} (d_{j},q)={\frac {\mathbf {d_{j}} \cdot \mathbf {q} }{\left\|\mathbf {d_{j}} \right\|\left\|\mathbf {q} \right\|}}={\frac {\sum _{i=1}^{N}d_{i,j}q_{i}}{{\ sqrt {\sum _{i=1}^{N}d_{i,j}^{2}}}{\sqrt {\sum _{i=1}^{N}q_{i}^{2} }}}}

Como todos los vectores que se consideran en este modelo son no negativos en sus elementos, un valor de coseno de cero significa que el vector de consulta y el del documento son ortogonales y no tienen coincidencia (es decir, el término de consulta no existe en el documento que se está considerando). Consulte la similitud de cosenos para obtener más información. ^[2]

Pesos de frecuencia de documentos con frecuencia inversa de términos

En el modelo de espacio vectorial clásico propuesto por Salton , Wong y Yang ^[3], los pesos específicos de los términos en los vectores de documentos son productos de parámetros locales y globales. El modelo se conoce como modelo de frecuencia de término-frecuencia de documento inversa . El vector de pesos para el documento d es , donde $\mathbf {v} _{d}=[w_{1,d},w_{2,d},\ldots ,w_{N,d}]^{T}$

w_{t,d}=\mathrm {tf} _{t,d}\cdot \log {\frac {|D|}{|\{d'\en D\,|\,t\en d'\}|}}

$\mathrm {tf}_{t,d}$ es la frecuencia del término t en el documento d (un parámetro local)
$\log {\frac {|D|}{|\{d'\en D\,|\,t\en d'\}|}}$ es la frecuencia inversa del documento (un parámetro global). es el número total de documentos en el conjunto de documentos; es el número de documentos que contienen el término t . ${\estilo de visualización |D|}$ $|\{d'\en D\,|\,t\en d'\}|$

Ventajas

El modelo de espacio vectorial tiene las siguientes ventajas sobre el modelo booleano estándar :

Permite clasificar documentos según su posible relevancia
Permite recuperar elementos con una superposición de términos parcial ^[2]

La mayoría de estas ventajas son consecuencia de la diferencia en la densidad de la representación de la colección de documentos entre los enfoques booleanos y de frecuencia de términos-frecuencia de documentos inversa. Cuando se utilizan pesos booleanos, cualquier documento se encuentra en un vértice en un hipercubo n-dimensional . Por lo tanto, las posibles representaciones de documentos son y la distancia euclidiana máxima entre pares es . A medida que se agregan documentos a la colección de documentos, la región definida por los vértices del hipercubo se vuelve más poblada y, por lo tanto, más densa. A diferencia de Boolean, cuando se agrega un documento utilizando pesos de frecuencia de términos-frecuencia de documentos inversa, las frecuencias de documentos inversas de los términos en el nuevo documento disminuyen mientras que las de los términos restantes aumentan. En promedio, a medida que se agregan documentos, la región donde se encuentran los documentos se expande regulando la densidad de toda la representación de la colección. Este comportamiento modela la motivación original de Salton y sus colegas de que una colección de documentos representada en una región de baja densidad podría producir mejores resultados de recuperación. $Estilo de visualización 2^{n}}$ ${\sqrt {n}}$

Limitaciones

El modelo de espacio vectorial tiene las siguientes limitaciones:

Se supone que los términos de consulta son independientes, por lo que es posible que las frases no estén bien representadas en la clasificación.
Sensibilidad semántica; no se asociarán documentos con contexto similar pero con vocabulario de términos diferente ^[2]

Sin embargo, muchas de estas dificultades pueden superarse mediante la integración de diversas herramientas, incluidas técnicas matemáticas como la descomposición en valores singulares y bases de datos léxicas como WordNet .

Modelos basados en el modelo de espacio vectorial y que lo extienden

Los modelos basados en el modelo de espacio vectorial y que lo extienden incluyen:

Software que implementa el modelo de espacio vectorial

Los siguientes paquetes de software pueden ser de interés para aquellos que deseen experimentar con modelos vectoriales e implementar servicios de búsqueda basados en ellos.

Software libre de código abierto

Apache Lucene . Apache Lucene es una biblioteca de motor de búsqueda de texto de código abierto, de alto rendimiento y con todas las funciones, escrita completamente en Java.
OpenSearch (software) y Solr : los dos programas de motor de búsqueda más conocidos (existen muchos más pequeños) basados en Lucene.
Gensim es un marco de trabajo Python+ NumPy para el modelado de espacios vectoriales. Contiene algoritmos incrementales (que hacen un uso eficiente de la memoria) para frecuencias de términos e inversas a las frecuencias de documentos , indexación semántica latente , proyecciones aleatorias y asignación de Dirichlet latente .
Weka . Weka es un popular paquete de minería de datos para Java que incluye modelos WordVectors y Bag Of Words .
Word2vec . Word2vec utiliza espacios vectoriales para incrustar palabras.

Lectura adicional

G. Salton (1962), "Algunos experimentos en la generación de asociaciones de palabras y documentos", Actas de la AFIPS '62 (otoño), Actas de la conferencia conjunta de informática del 4 al 6 de diciembre de 1962 , páginas 234-250. (Artículo inicial de Salton en el que se utiliza la formalización de la matriz término-documento)
G. Salton , A. Wong y CS Yang (1975), "Un modelo de espacio vectorial para indexación automática", Communications of the ACM , vol. 18, n.° 11, páginas 613–620. (Artículo en el que se presentó un modelo de espacio vectorial)
David Dubin (2004), El artículo más influyente que Gerard Salton nunca escribió (Explica la historia del modelo de espacio vectorial y la inexistencia de una publicación citada con frecuencia)
Descripción del modelo de espacio vectorial
Descripción del modelo clásico del espacio vectorial por el Dr. E. García
Relación de la búsqueda en el espacio vectorial con la búsqueda del "vecino más cercano k"

Véase también

Referencias

^ Berry, Michael W.; Drmac, Zlatko; Jessup, Elizabeth R. (enero de 1999). "Matrices, espacios vectoriales y recuperación de información". SIAM Review . 41 (2): 335–362. doi :10.1137/s0036144598347035.
^ abcd Büttcher, Stefan; Clarke, Charles LA; Cormack, Gordon V. (2016). Recuperación de información: implementación y evaluación de motores de búsqueda (Primera edición de bolsillo de MIT Press). Cambridge, Massachusetts Londres, Inglaterra: The MIT Press. ISBN 978-0-262-52887-0.
^ G. Salton, A. Wong, CS Yang, Un modelo de espacio vectorial para indexación automática, Communications of the ACM, v.18 n.11, p.613–620, noviembre de 1975