Las técnicas de recuperación difusa se basan en el modelo booleano extendido y en la teoría de conjuntos difusos . Existen dos modelos clásicos de recuperación difusa: el modelo mixto mínimo y máximo (MMM) y el modelo Paice. Ninguno de los dos modelos proporciona una forma de evaluar los pesos de las consultas, pero el algoritmo P-norms lo tiene en cuenta .
En la teoría de conjuntos difusos, un elemento tiene un grado de pertenencia variable, digamos d A , a un conjunto dado A en lugar de la elección de pertenencia tradicional (es un elemento/no es un elemento).
En MMM [1] cada término índice tiene un conjunto difuso asociado a él. El peso de un documento con respecto a un término índice A se considera el grado de pertenencia del documento al conjunto difuso asociado con A . El grado de pertenencia para la unión y la intersección se define de la siguiente manera en la teoría de conjuntos difusos:
De acuerdo con esto, los documentos que deben recuperarse para una consulta de la forma A o B , deben estar en el conjunto difuso asociado con la unión de los dos conjuntos A y B . De manera similar, los documentos que deben recuperarse para una consulta de la forma A y B , deben estar en el conjunto difuso asociado con la intersección de los dos conjuntos. Por lo tanto, es posible definir la similitud de un documento con la consulta or como max(d A , d B ) y la similitud del documento con la consulta and como min(d A , d B ) . El modelo MMM intenta suavizar los operadores booleanos al considerar la similitud consulta-documento como una combinación lineal de los pesos min y max del documento.
Dado un documento D con pesos de términos índice d A1 , d A2 , ..., d An para los términos A 1 , A 2 , ..., A n , y las consultas:
Q o = (A 1 o A 2 o ... o A n )
Q y = (A 1 y A 2 y ... y A n )
La similitud entre la consulta y el documento en el modelo MMM se calcula de la siguiente manera:
SlM(Q o , D) = C o 1 * máx (d A1 , d A2 , ..., d An ) + C o 2 * mín (d A1 , d A2 , ..., d An )
SlM(Q y , D) = C y 1 * mín (d A1 , d A2 , ..., d An ) + C y 2 * máx (d A1 , d A2 ..., d An )
donde C or1 , C or2 son coeficientes de "suavidad" para el operador or , y C and1 , C and2 son coeficientes de suavidad para el operador and . Dado que nos gustaría dar más importancia al máximo de los pesos del documento al considerar una consulta or y más importancia al mínimo al considerar una consulta and , generalmente tenemos C or1 > C or2 y C and1 > C and2 . Para simplificar, generalmente se supone que C or1 = 1 - C or2 y C and1 = 1 - C and2 .
Los experimentos de Lee y Fox [2] indican que el mejor rendimiento suele darse con C y 1 en el rango [0,5, 0,8] y con C y 1 > 0,2. En general, el coste computacional de MMM es bajo y la eficacia de recuperación es mucho mejor que con el modelo booleano estándar .
El modelo Paice [3] es una extensión general del modelo MMM. En comparación con el modelo MMM, que solo considera los pesos mínimos y máximos de los términos del índice, el modelo Paice incorpora todos los pesos de los términos al calcular la similitud:
donde r es un coeficiente constante y w di se organiza en orden ascendente para consultas y y en orden descendente para consultas o . Cuando n = 2, el modelo Paice muestra el mismo comportamiento que el modelo MMM.
Los experimentos de Lee y Fox [2] han demostrado que establecer r en 1,0 para consultas and y 0,7 para consultas or proporciona una buena efectividad de recuperación. El costo computacional para este modelo es mayor que el del modelo MMM. Esto se debe a que el modelo MMM solo requiere la determinación del mínimo o máximo de un conjunto de pesos de términos cada vez que se considera una cláusula and u or , lo que se puede hacer en O(n) . El modelo Paice requiere que los pesos de los términos se ordenen en orden ascendente o descendente, dependiendo de si se está considerando una cláusula and o una cláusula or . Esto requiere al menos un algoritmo de ordenamiento 0(n log n) . También se necesita una buena cantidad de cálculo de punto flotante.
Lee y Fox [2] compararon el modelo booleano estándar con los modelos MMM y Paice con tres colecciones de pruebas, CISI, CACM e INSPEC. Estos son los resultados informados para la mejora de la precisión media promedio:
Estas son mejoras muy buenas con respecto al modelo estándar. El MMM está muy cerca de los resultados de Paice y P-norm, lo que indica que puede ser una técnica muy buena y es la más eficiente de las tres.
En 2005, Kang et al. [4] idearon un sistema de recuperación difusa indexado por identificación de conceptos.
Si analizamos los documentos con un enfoque Tf-idf puro , incluso eliminando las palabras vacías, habrá palabras más relevantes para el tema del documento que otras y tendrán el mismo peso porque tienen la misma frecuencia de términos. Si tenemos en cuenta la intención del usuario en una consulta, podemos ponderar mejor los términos de un documento. Cada término puede identificarse como un concepto en una determinada cadena léxica que traduce la importancia de ese concepto para ese documento.
Informan mejoras sobre Paice y P-norm en la precisión y recuperación promedio para los 5 documentos recuperados principales.
Zadrozny [5] revisó el modelo de recuperación de información difusa y amplió aún más el modelo booleano extendido difuso mediante:
El modelo propuesto permite captar tanto la imprecisión como la incertidumbre relativa a la representación y recuperación de la información textual.