Modelo de espacio vectorial

El modelo de espacio vectorial o modelo de vector de término es un modelo algebraico para representar documentos de texto (o más generalmente, elementos) como vectores de modo que la distancia entre vectores represente la relevancia entre los documentos. Se utiliza en filtrado de información , recuperación de información , indexación y clasificaciones de relevancia. Su primer uso fue en el Sistema de recuperación de información SMART ^{[ cita necesaria ]} .

Definiciones

En esta sección consideramos un modelo de espacio vectorial particular basado en la representación de bolsa de palabras . Los documentos y consultas se representan como vectores.

d_{j}=(w_{1,j},w_{2,j},\dotsc,w_{n,j})

q=(w_{1,q},w_{2,q},\dotsc,w_{n,q})

Cada dimensión corresponde a un término separado. Si un término aparece en el documento, su valor en el vector es distinto de cero. Se han desarrollado varias formas diferentes de calcular estos valores, también conocidos como ponderaciones (término). Uno de los esquemas más conocidos es la ponderación tf-idf (consulte el ejemplo a continuación).

La definición del término depende de la aplicación. Normalmente, los términos son palabras sueltas, palabras clave o frases más largas. Si se eligen palabras como términos, la dimensionalidad del vector es el número de palabras en el vocabulario (el número de palabras distintas que aparecen en el corpus ).

Las operaciones vectoriales se pueden utilizar para comparar documentos con consultas. ^[1]

Aplicaciones

Los documentos candidatos del corpus se pueden recuperar y clasificar utilizando una variedad de métodos. Las clasificaciones de relevancia de los documentos en una búsqueda de palabras clave se pueden calcular, utilizando los supuestos de la teoría de similitudes de documentos , comparando la desviación de ángulos entre cada vector de documento y el vector de consulta original, donde la consulta se representa como un vector con la misma dimensión que los vectores que representan los demás documentos.

En la práctica, es más fácil calcular el coseno del ángulo entre los vectores, en lugar del ángulo en sí:

\cos {\theta }={\frac {\mathbf {d_{2}} \cdot \mathbf {q} }{\left\|\mathbf {d_{2}} \right\|\left\ |\mathbf {q} \right\|}}

¿Dónde está la intersección (es decir, el producto escalar ) de los vectores del documento (d ₂ en la figura de la derecha) y de la consulta (q en la figura), es la norma del vector d ₂ y es la norma del vector q? La norma de un vector se calcula como tal: $\mathbf {d_{2}} \cdot \mathbf {q}$ $\left\|\mathbf {d_ {2}} \right\|$ $\left\|\mathbf {q} \right\|$

\left\|\mathbf {q} \right\|={\sqrt {\sum _ {i=1}^{n}q_{i}^{2}}}

Usando el coseno, la similitud entre el documento d _j y la consulta q se puede calcular como:

\mathrm {cos} (d_{j},q)={\frac {\mathbf {d_{j}} \cdot \mathbf {q} }{\left\|\mathbf {d_{j}} \right\|\left\|\mathbf {q} \right\|}}={\frac {\sum _{i=1}^{N}d_{i,j}q_{i}}{{\ sqrt {\sum _{i=1}^{N}d_{i,j}^{2}}}{\sqrt {\sum _{i=1}^{N}q_{i}^{2} }}}}

Como todos los vectores considerados por este modelo son no negativos en cuanto a elementos, un valor de coseno de cero significa que la consulta y el vector del documento son ortogonales y no coinciden (es decir, el término de consulta no existe en el documento que se está considerando). Consulte similitud del coseno para obtener más información. ^[1]

Ponderaciones de frecuencia de documentos de frecuencia inversa de términos

En el modelo clásico de espacio vectorial propuesto por Salton , Wong y Yang ^[2], los pesos específicos de los términos en los vectores de documentos son productos de parámetros locales y globales. El modelo se conoce como modelo de frecuencia de documentos inversa a la frecuencia . El vector de peso para el documento d es , donde $\mathbf {v} _{d}=[w_{1,d},w_{2,d},\ldots ,w_{N,d}]^{T}$

w_{t,d}=\mathrm {tf} _{t,d}\cdot \log {\frac {|D|}{|\{d'\in D\,|\,t\in d'\}|}}

$\mathrm {tf} _ {t,d}$ es la frecuencia del término t en el documento d (un parámetro local)
$\log {\frac {|D|}{|\{d'\in D\,|\,t\in d'\}|}}$ es la frecuencia inversa del documento (un parámetro global). es el número total de documentos del conjunto de documentos; es el número de documentos que contienen el término t . $|D|$ $|\{d'\en D\,|\,t\en d'\}|$

Ventajas

El modelo de espacio vectorial tiene las siguientes ventajas sobre el modelo booleano estándar :

Permite clasificar documentos según su posible relevancia
Permite recuperar elementos con una superposición parcial de términos ^[1]

La mayoría de estas ventajas son consecuencia de la diferencia en la densidad de la representación de la colección de documentos entre los enfoques de frecuencia de documentos booleanos y de frecuencia inversa de términos. Cuando se utilizan pesos booleanos, cualquier documento se encuentra en un vértice de un hipercubo de n dimensiones . Por tanto, las posibles representaciones de documentos son y la distancia euclidiana máxima entre pares es . A medida que se agregan documentos a la colección de documentos, la región definida por los vértices del hipercubo se vuelve más poblada y, por lo tanto, más densa. A diferencia del booleano, cuando se agrega un documento utilizando ponderaciones de frecuencia de documento inversa de frecuencia, las frecuencias inversas de los términos del nuevo documento disminuyen mientras que las de los términos restantes aumentan. En promedio, a medida que se agregan documentos, la región donde se encuentran los documentos se expande regulando la densidad de toda la representación de la colección. Este comportamiento modela la motivación original de Salton y sus colegas de que una colección de documentos representada en una región de baja densidad podría producir mejores resultados de recuperación. $2^{n}$ ${\sqrt {n}}$

Limitaciones

El modelo de espacio vectorial tiene las siguientes limitaciones:

Se supone que los términos de consulta son independientes, por lo que es posible que las frases no estén bien representadas en la clasificación.
Sensibilidad semántica; Los documentos con contexto similar pero con vocabulario de términos diferente no se asociarán ^[1]

Sin embargo, muchas de estas dificultades pueden superarse mediante la integración de varias herramientas, incluidas técnicas matemáticas como la descomposición de valores singulares y bases de datos léxicas como WordNet .

Modelos basados y ampliando el modelo del espacio vectorial.

Los modelos basados y ampliando el modelo de espacio vectorial incluyen:

Software que implementa el modelo de espacio vectorial.

Los siguientes paquetes de software pueden ser de interés para quienes deseen experimentar con modelos vectoriales e implementar servicios de búsqueda basados en ellos.

Software gratuito de código abierto

Apache Lucena . Apache Lucene es una biblioteca de motor de búsqueda de texto con todas las funciones, de código abierto y de alto rendimiento escrita íntegramente en Java.
OpenSearch (software) y Solr : los 2 programas de motor de búsqueda más famosos (existen muchos más pequeños) basados en Lucene.
Gensim es un marco Python+ NumPy para modelado de espacio vectorial. Contiene algoritmos incrementales (eficientes en memoria) para frecuencia de documentos inversa de frecuencia de términos , indexación semántica latente , proyecciones aleatorias y asignación de Dirichlet latente .
Weka . Weka es un popular paquete de minería de datos para Java que incluye los modelos WordVectors y Bag Of Words .
Palabra2vec . Word2vec utiliza espacios vectoriales para incrustaciones de palabras.

Otras lecturas

G. Salton (1962), "Algunos experimentos en la generación de asociaciones de palabras y documentos" Actas de AFIPS '62 (otoño) Actas de la conferencia informática conjunta de otoño del 4 al 6 de diciembre de 1962 , páginas 234-250. (Artículo anterior de Salton utilizando la formalización de la matriz término-documento)
G. Salton , A. Wong y CS Yang (1975), "Un modelo espacial vectorial para la indexación automática" Comunicaciones del ACM , vol. 18, núm. 11, páginas 613–620. (Artículo en el que se presentó un modelo de espacio vectorial)
David Dubin (2004), El artículo más influyente que Gerard Salton nunca escribió (explica la historia del modelo espacial vectorial y la inexistencia de una publicación citada con frecuencia)
Descripción del modelo de espacio vectorial.
Descripción del modelo espacial vectorial clásico por el Dr. E. García
Relación de la búsqueda en el espacio vectorial con la búsqueda del "k-vecino más cercano"

Ver también

Referencias

^ abcdBüttcher , Stefan; Clarke, Charles LA; Cormack, Gordon V. (2016). Recuperación de información: implementación y evaluación de motores de búsqueda (Primera edición de bolsillo de MIT Press). Cambridge, Massachusetts Londres, Inglaterra: The MIT Press. ISBN 978-0-262-52887-0.
^ G. Salton, A. Wong, CS Yang, Un modelo de espacio vectorial para indexación automática, Communications of the ACM, v.18 n.11, p.613–620, noviembre de 1975