Modelo vectorial generalizado

[1]​ Este modelo tiene su base en el álgebra lineal multidimensional y ofrece características destacables en cuanto a diseño, implementación y resultados.

Los términos indexados como los documentos se modelan como vectores, los cuales son llamados vectores-términos y vectores-documentos, respectivamente.

El peso de un término indexado en un documento representa la componente del documento asociada al correspondiente vector término de la base.

En el modelo adoptado por Salton asume que los vectores términos son ortonormales, pero no se especifica nada acerca de la correlación de estos.

Es un modelo que deriva del clásico propuesto por Salton, y en realidad podemos contemplarlo como una extensión del mismo, ya que los principios en que está basado son muy parecidos, se puede decir que el modelo vectorial es un caso particular del Modelo Vectorial Generalizado, el cual permite, mediante transformaciones del vectorial, tomar en cuenta las relaciones entre los términos, y cuyo propósito principal es el de integrarle naturalmente al modelo, el cómputo de la correlación entre términos.

[2]​ La idea fundamental que plantea el modelo vectorial es que la colección de documentos y la consulta se representan como vectores multidimensionales.

El espacio vectorial sobre el que se definen estos vectores está generado por el conjunto de vectores términos {

De esta idea podemos definir formalmente las siguientes expresiones.

(1) Vectores de Peso (términos indexados i en el documento j)

- representa el peso asociado al término indexado i en el documento j Consultas

(2) Vectores de Peso (términos indexados i en la consulta j)

- representa el peso asociado al término indexado i en la consulta q Ranking

(3) Determina cuan relevante es un documento a una consulta q se determina la magnitud del coseno del ángulo entre ellos.

Al plantear los vectores documentos en forma matricial tenemos:

Esta es una generalización del MRI Vectorial Clásico, pues este se puede obtener como caso particular haciendo G= I (Matriz Identidad), de lo cual podemos decir que en este caso t es ortonormal.

El MRI Vectorial Generalizado tiene sus principios en el Álgebra Booleana y la integración teórica de esta en el modelo vectorial.

es una conjunción donde cada literal o su negación aparece exactamente una vez.

El MRI Vectorial Generalizado se basa en esta idea para determinar el grado de correlación de dos términos.

es la representación correcta del modelo vectorial general, lo que refleja implícitamente la relevancia a la dependencia entre términos.

Entonces el k-ésimo documento de la colección se representa como:[3]​

si el k-ésimo documento contiene al término indexado i

si el k-ésimo documento no contiene al término indexado i

{\displaystyle {\boldsymbol {\alpha _{k1}}}={\begin{cases}1,&{\text{si el k-ésimo documento contiene al término indexado i}}\\0,&{\text{si el k-ésimo documento no contiene al término indexado i }}\end{cases}}}

Para obtener la representación explícita del véctor término

sumemos los vectores que representan a los minterm, multipliquémoslos por su factor de correlación asociado al término indexado i y normalicemos el vector.

El producto escalar entre dos vectores términos proporciona una medida “normalizada" de la cantidad de documentos en los que ellos aparecen.

Representar los documentos como vectores de valores reales lo único que modifica es el factor de correlación asociado a un término indexado, dado por

Los cuales quedan almacenados en la matriz G y son utilizados en el cómputo del ranking como se planificó inicialmente.

Se define como el cuádruplo: MVG = Documentos (D): Vectores de peso dados por (1) Consultas (Q): Vectores de peso dados por (2) Framework (F): Álgebra Booleana y Lineal.

Espacio vectorial n-dimensional con vectores de dimensión 2𝑛 Ranking (R): Ecuación (5) Ventajas: Desventajas: