Modelo de independencia binaria

Los documentos y las consultas se representan a partir de un vector con un elemento booleano para cada término tomado en consideración, es decir un documento es representado por un vectoe d = (x1, x2,..., xm) donde xt = 1 si el término t está presente en el documento d y xt = 0 en caso contrario.

Con esta simplificación muchos documentos pueden tener al mismo vector como representación.

Esta suposición es muy limitante pero ha sido probado que provee resultados lo suficientemente buenos para muchas situaciones.

Yu y Salton mostraron que esa asignación de pesos arroja mejores resultados que en el caso donde los términos de la consulta poseen el mismo peso.

Robertson y Sparck posteriormente mostraron que si al término i-ésimo se le asigna el peso de log(Yi) se obtiene la efectividad óptima bajo este modelo.

Función de similitud
Función de peso para cada término.