Modelo de espacio vectorial

En el área de recuperación de información normalmente se usa una expresión vectorial, donde las dimensiones del vector representan términos, frases o conceptos que aparecen en el documento.

En este aspecto la representación más adoptada es la conocida como bolsa de palabras: una colección de documentos compuesta por n documentos indexados y m términos representados por una matriz documento-término de n x m. Donde los n vectores renglón representan los n documentos; y el valor asignado a cada componente refleja la importancia o frecuencia ponderada que produce el término, frase o concepto ti en la representación semántica del documento j.

Aunque ha habido mucha investigación sobre técnicas de ponderación de términos, en realidad no hay un consenso sobre cuál método es el mejor.

Más importante aún, mediante el modelo espacio vectorial se pueden explotar las relaciones geométricas entre dos vectores documento (y términos) a fin de expresar las similitudes y diferencias entre términos.

Una colección de n documentos indexados por m términos puede ser representada por una matriz A de dimensión n x m, donde cada elemento aij es usualmente definido por una frecuencia ponderada del término i en el documento j cuyo objetivo principal es mejorar el rendimiento en la recuperación de información; entendiendo como rendimiento la habilidad de recuperar información relevante y descartar información irrelevante.

La siguiente figura (ver figura 1) muestra una matriz documento-término simple, donde cada columna representa un término en la colección, cada renglón un documento y cada celda o elemento de la matriz la ocurrencia del término en el documento.

Figura 1 – Matriz documento-término simple En ella podemos ver que el término 1 aparece en el documento 1 y 3, pero no en los otros dos docu-mentos.

Cada elemento aij de la matriz documento-término A queda definido como

donde lij es el peso local del término i en el documento j, el cual mide la importancia de dicho término en el documento, gi el peso global del término i en la colección de documentos y dj es el factor de normalización para el j-ésimo documento.

Los siguientes apartados contienen las fórmulas más populares usadas en sistemas de indexado automático.

Usualmente los componentes principales son el factor término-frecuencia (TF) y el factor de frecuencia inversa del documento, inverse document frequency (IDF).

Espacio lineal multidimensional usado por el sistema SMART de recuperación de información.