stringtranslate.com

Modelo booleano extendido

El modelo booleano extendido fue descrito en un artículo de Communications of the ACM que apareció en 1983, por Gerard Salton, Edward A. Fox y Harry Wu. El objetivo del modelo booleano extendido es superar los inconvenientes del modelo booleano que se ha utilizado en la recuperación de información . El modelo booleano no considera los pesos de los términos en las consultas, y el conjunto de resultados de una consulta booleana suele ser demasiado pequeño o demasiado grande. La idea del modelo extendido es hacer uso de la correspondencia parcial y los pesos de los términos como en el modelo de espacio vectorial. Combina las características del modelo de espacio vectorial con las propiedades del álgebra booleana y clasifica la similitud entre las consultas y los documentos. De esta manera, un documento puede ser algo relevante si coincide con algunos de los términos consultados y se devolverá como resultado, mientras que en el modelo booleano estándar no lo era. [1]

Por lo tanto, el modelo booleano extendido puede considerarse como una generalización de los modelos booleano y de espacio vectorial; estos dos son casos especiales si se emplean configuraciones y definiciones adecuadas. Además, la investigación ha demostrado que la eficacia mejora en relación con el procesamiento de consultas booleanas. Otras investigaciones han demostrado que la retroalimentación de relevancia y la expansión de consultas se pueden integrar con el procesamiento de consultas booleanas extendidas.

Definiciones

En el modelo booleano extendido , un documento se representa como un vector (de manera similar al modelo vectorial). Cada dimensión i corresponde a un término independiente asociado con el documento.

El peso del término K x asociado al documento d j se mide por su frecuencia de término normalizada y se puede definir como:

donde Idf x es la frecuencia inversa del documento y f x,j la frecuencia del término x en el documento j.

El vector de peso asociado al documento d j se puede representar como:

El ejemplo de las 2 dimensiones

Considerando el espacio compuesto únicamente por dos términos K x y K y , los pesos de los términos correspondientes son w 1 y w 2 . [2] Por lo tanto, para la consulta q o = ( K xK y ) , podemos calcular la similitud con la siguiente fórmula:

Para la consulta q y = ( K xK y ) , podemos utilizar:

Generalizando la idea y las normas P

Podemos generalizar el ejemplo anterior del modelo booleano extendido 2D a un espacio t-dimensional superior utilizando distancias euclidianas.

Esto se puede hacer usando normas P que extienden la noción de distancia para incluir distancias p, donde 1 ≤ p ≤ ∞ es un nuevo parámetro. [3]

:

Ejemplos

Considere la consulta q = ( K 1K 2 ) ∨ K 3 . La similitud entre la consulta q y el documento d se puede calcular utilizando la fórmula:

Mejoras respecto al modelo booleano estándar

Lee y Fox [4] compararon los modelos booleanos estándar y extendido con tres colecciones de prueba, CISI, CACM e INSPEC. Utilizando normas P, obtuvieron una mejora de precisión promedio de 79%, 106% y 210% sobre el modelo estándar, para las colecciones CISI, CACM e INSPEC, respectivamente.
El modelo de normas P es computacionalmente costoso debido a la cantidad de operaciones de exponenciación que requiere, pero logra resultados mucho mejores que el modelo estándar e incluso que las técnicas de recuperación difusa . El modelo booleano estándar sigue siendo el más eficiente.

Lectura adicional

Véase también

Referencias

  1. ^ Salton, Gerard; Fox, Edward A.; Wu, Harry (1983), "Recuperación de información booleana extendida", Communications of the ACM , 26 (11), Communications of the ACM, Volumen 26, Número 11: 1022–1036, doi :10.1145/182.358466, hdl : 1813/6351 , S2CID  207180535
  2. ^ "Lusheng Wang". Archivado desde el original el 27 de septiembre de 2011. Consultado el 1 de diciembre de 2009 .
  3. ^ García, Dr. E., El modelo booleano extendido - Consultas ponderadas: ponderaciones de términos, consultas p-norma y tipos multiconceptuales. ¿O booleano extendido? Y esa es la consulta
  4. ^ Lee, WC; Fox, EA (1988), Comparación experimental de esquemas para interpretar consultas booleanas (PDF)