El modelo de espacio vectorial o modelo de vector de término es un modelo algebraico para representar documentos de texto (o, de manera más general, elementos) como vectores de modo que la distancia entre vectores represente la relevancia entre los documentos. Se utiliza en el filtrado de información , la recuperación de información , la indexación y las clasificaciones de relevancia. Su primer uso fue en el sistema de recuperación de información SMART . [1]
En esta sección, analizamos un modelo de espacio vectorial particular basado en la representación de bolsa de palabras . Los documentos y las consultas se representan como vectores.
Cada dimensión corresponde a un término independiente. Si un término aparece en el documento, su valor en el vector no es cero. Se han desarrollado varias formas diferentes de calcular estos valores, también conocidos como ponderaciones (de término). Uno de los esquemas más conocidos es la ponderación tf-idf (consulte el ejemplo siguiente).
La definición de término depende de la aplicación. Normalmente, los términos son palabras individuales, palabras clave o frases más largas. Si se eligen palabras como términos, la dimensionalidad del vector es la cantidad de palabras del vocabulario (la cantidad de palabras distintas que aparecen en el corpus ).
Las operaciones vectoriales se pueden utilizar para comparar documentos con consultas. [2]
Los documentos candidatos del corpus se pueden recuperar y clasificar utilizando una variedad de métodos. Las clasificaciones de relevancia de los documentos en una búsqueda de palabras clave se pueden calcular, utilizando los supuestos de la teoría de similitudes entre documentos , comparando la desviación de los ángulos entre cada vector de documento y el vector de consulta original, donde la consulta se representa como un vector con la misma dimensión que los vectores que representan los otros documentos.
En la práctica, es más fácil calcular el coseno del ángulo entre los vectores, en lugar del ángulo en sí:
Donde es la intersección (es decir, el producto escalar ) de los vectores del documento (d 2 en la figura de la derecha) y de la consulta (q en la figura), es la norma del vector d 2 y es la norma del vector q. La norma de un vector se calcula de la siguiente manera:
Utilizando el coseno, la similitud entre el documento d j y la consulta q se puede calcular como:
Como todos los vectores que se consideran en este modelo son no negativos en cuanto a sus elementos, un valor de coseno de cero significa que el vector de consulta y el del documento son ortogonales y no tienen coincidencia (es decir, el término de consulta no existe en el documento que se está considerando). Consulte la similitud de cosenos para obtener más información. [2]
En el modelo de espacio vectorial clásico propuesto por Salton , Wong y Yang [3], los pesos específicos de los términos en los vectores de documentos son productos de parámetros locales y globales. El modelo se conoce como modelo de frecuencia de término-frecuencia de documento inversa . El vector de pesos para el documento d es , donde
y
El modelo de espacio vectorial tiene las siguientes ventajas sobre el modelo booleano estándar :
La mayoría de estas ventajas son consecuencia de la diferencia en la densidad de la representación de la colección de documentos entre los enfoques booleanos y de frecuencia de términos-frecuencia de documentos inversa. Cuando se utilizan pesos booleanos, cualquier documento se encuentra en un vértice en un hipercubo n-dimensional . Por lo tanto, las posibles representaciones de documentos son y la distancia euclidiana máxima entre pares es . A medida que se agregan documentos a la colección de documentos, la región definida por los vértices del hipercubo se vuelve más poblada y, por lo tanto, más densa. A diferencia de Boolean, cuando se agrega un documento utilizando pesos de frecuencia de términos-frecuencia de documentos inversa, las frecuencias de documentos inversas de los términos en el nuevo documento disminuyen mientras que las de los términos restantes aumentan. En promedio, a medida que se agregan documentos, la región donde se encuentran los documentos se expande regulando la densidad de toda la representación de la colección. Este comportamiento modela la motivación original de Salton y sus colegas de que una colección de documentos representada en una región de baja densidad podría producir mejores resultados de recuperación.
El modelo de espacio vectorial tiene las siguientes limitaciones:
Sin embargo, muchas de estas dificultades pueden superarse mediante la integración de diversas herramientas, incluidas técnicas matemáticas como la descomposición en valores singulares y bases de datos léxicas como WordNet .
Los modelos basados en el modelo de espacio vectorial y que lo extienden incluyen:
Los siguientes paquetes de software pueden ser de interés para aquellos que deseen experimentar con modelos vectoriales e implementar servicios de búsqueda basados en ellos.