El modelo booleano extendido fue descrito en un artículo de Communications of the ACM que apareció en 1983, por Gerard Salton, Edward A. Fox y Harry Wu. El objetivo del modelo booleano extendido es superar los inconvenientes del modelo booleano que se ha utilizado en la recuperación de información . El modelo booleano no considera los pesos de los términos en las consultas, y el conjunto de resultados de una consulta booleana suele ser demasiado pequeño o demasiado grande. La idea del modelo extendido es hacer uso de la correspondencia parcial y los pesos de los términos como en el modelo de espacio vectorial. Combina las características del modelo de espacio vectorial con las propiedades del álgebra booleana y clasifica la similitud entre las consultas y los documentos. De esta manera, un documento puede ser algo relevante si coincide con algunos de los términos consultados y se devolverá como resultado, mientras que en el modelo booleano estándar no lo era. [1]
Por lo tanto, el modelo booleano extendido puede considerarse como una generalización de los modelos booleano y de espacio vectorial; estos dos son casos especiales si se emplean configuraciones y definiciones adecuadas. Además, la investigación ha demostrado que la eficacia mejora en relación con el procesamiento de consultas booleanas. Otras investigaciones han demostrado que la retroalimentación de relevancia y la expansión de consultas se pueden integrar con el procesamiento de consultas booleanas extendidas.
Definiciones
En el modelo booleano extendido , un documento se representa como un vector (de manera similar al modelo vectorial). Cada dimensión i corresponde a un término independiente asociado con el documento.
El peso del término K x asociado al documento d j se mide por su frecuencia de término normalizada y se puede definir como:
donde Idf x es la frecuencia inversa del documento y f x,j la frecuencia del término x en el documento j.
El vector de peso asociado al documento d j se puede representar como:
El ejemplo de las 2 dimensiones
Considerando el espacio compuesto únicamente por dos términos K x y K y , los pesos de los términos correspondientes son w 1 y w 2 . [2] Por lo tanto, para la consulta q o = ( K x ∨ K y ) , podemos calcular la similitud con la siguiente fórmula:
Para la consulta q y = ( K x ∧ K y ) , podemos utilizar:
Generalizando la idea y las normas P
Podemos generalizar el ejemplo anterior del modelo booleano extendido 2D a un espacio t-dimensional superior utilizando distancias euclidianas.
Esto se puede hacer usando normas P que extienden la noción de distancia para incluir distancias p, donde 1 ≤ p ≤ ∞ es un nuevo parámetro. [3]
- Una consulta conjuntiva generalizada viene dada por:
- La similitud de y se puede definir como:
:
- Una consulta disyuntiva generalizada viene dada por:
- La similitud de y se puede definir como:
Ejemplos
Considere la consulta q = ( K 1 ∧ K 2 ) ∨ K 3 . La similitud entre la consulta q y el documento d se puede calcular utilizando la fórmula:
Mejoras respecto al modelo booleano estándar
Lee y Fox [4] compararon los modelos booleanos estándar y extendido con tres colecciones de prueba, CISI, CACM e INSPEC. Utilizando normas P, obtuvieron una mejora de precisión promedio de 79%, 106% y 210% sobre el modelo estándar, para las colecciones CISI, CACM e INSPEC, respectivamente.
El modelo de normas P es computacionalmente costoso debido a la cantidad de operaciones de exponenciación que requiere, pero logra resultados mucho mejores que el modelo estándar e incluso que las técnicas de recuperación difusa . El modelo booleano estándar sigue siendo el más eficiente.
Lectura adicional
- Choi, Jongpill; Kim, Minkoo; Raghavan, Vijay V. (marzo de 2006), "Método de retroalimentación de relevancia adaptativa del modelo booleano extendido utilizando técnicas de agrupamiento jerárquico", Procesamiento y gestión de la información , 42 (2): 331–349, doi :10.1016/j.ipm.2005.05.009
- Zanger, Daniel Z. (noviembre de 2002), "Interpolación del modelo de recuperación booleano extendido", Information Processing & Management , 38 (6): 743–748, doi :10.1016/S0306-4573(02)00023-7
- Fox, E.; Betrabet, S.; Koushik, M.; Lee, W. (1992), Recuperación de información: algoritmos y estructuras de datos; modelo booleano extendido, Prentice-Hall, Inc., archivado desde el original el 28 de septiembre de 2013 , consultado el 9 de septiembre de 2017
- Skorkovská, Lucie; Ircing, Pavel (2009), "Experimentos con la formulación automática de consultas en el modelo booleano extendido", Texto, habla y diálogo , Lecture Notes in Computer Science, vol. 5729, Springer Berlin / Heidelberg, págs. 371–378, doi :10.1007/978-3-642-04208-9_51, hdl : 11025/16985 , ISBN 978-3-642-04207-2
Véase también
Referencias
- ^ Salton, Gerard; Fox, Edward A.; Wu, Harry (1983), "Recuperación de información booleana extendida", Communications of the ACM , 26 (11), Communications of the ACM, Volumen 26, Número 11: 1022–1036, doi :10.1145/182.358466, hdl : 1813/6351 , S2CID 207180535
- ^ "Lusheng Wang". Archivado desde el original el 27 de septiembre de 2011. Consultado el 1 de diciembre de 2009 .
- ^ García, Dr. E., El modelo booleano extendido - Consultas ponderadas: ponderaciones de términos, consultas p-norma y tipos multiconceptuales. ¿O booleano extendido? Y esa es la consulta
- ^ Lee, WC; Fox, EA (1988), Comparación experimental de esquemas para interpretar consultas booleanas (PDF)