stringtranslate.com

Modelo booleano de recuperación de información

El modelo booleano (estándar) de recuperación de información ( BIR ) [1] es un modelo clásico de recuperación de información (IR) y, al mismo tiempo, el primero y más adoptado. [2] El BIR se basa en la lógica booleana y la teoría clásica de conjuntos en que tanto los documentos que se van a buscar como la consulta del usuario se conciben como conjuntos de términos (un modelo de bolsa de palabras ). La recuperación se basa en si los documentos contienen o no los términos de la consulta y si satisfacen las condiciones booleanas descritas por la consulta.

Definiciones

Un término de índice es una palabra o expresión que puede tener una raíz que describe o caracteriza un documento, como una palabra clave dada para un artículo de revista. Sea el conjunto de todos esos términos de índice.

Un documento es cualquier subconjunto de . Sea el conjunto de todos los documentos.


es una serie de palabras o frases cortas (términos índice). Cada una de esas palabras o frases cortas se nombra , donde es el número del término en la serie/lista. Puedes pensar en ellos como "Términos" y como "término índice n ".

Las palabras o frases cortas (términos de índice ) pueden existir en documentos. Estos documentos forman una serie/lista donde cada documento individual se denomina . Estos documentos ( ) pueden contener palabras o frases cortas (términos de índice ) como podrían contener los términos y de . Hay un ejemplo de esto en la siguiente sección.

Los términos de índice generalmente quieren representar palabras que tienen más significado para ellos y corresponden a lo que podría tratar el contenido de un artículo o documento. Términos como "the" y "like" aparecerían en casi todos los documentos, mientras que "bayesiano" solo aparecería en una pequeña fracción de los documentos. Por lo tanto, términos más raros como "bayesiano" son una mejor opción para ser seleccionados en los conjuntos. Esto se relaciona con Entropy (teoría de la información) . Hay varios tipos de operaciones que se pueden aplicar a los términos de índice utilizados en las consultas para hacerlos más genéricos y más relevantes. Una de ellas es Stemming .


Una consulta es una expresión booleana en forma normal: donde es verdadero para cuando . (De manera equivalente, podría expresarse en forma normal disyuntiva .)

Cualquier consulta es una selección de términos de índice ( o ) elegidos de un conjunto de términos que se combinan mediante operadores booleanos para formar un conjunto de condiciones.

Estas condiciones se aplican luego a un conjunto de documentos que contienen los mismos términos de índice ( ) del conjunto .

Buscamos encontrar el conjunto de documentos que satisfacen . Esta operación se denomina recuperación y consta de los dos pasos siguientes:

1. Para cada uno en , encuentre el conjunto de documentos que satisfacen : 2. Entonces el conjunto de documentos que satisfacen Q está dado por: Donde significa OR y significa AND como operadores booleanos.

Ejemplo

Sea el conjunto de documentos originales (reales), por ejemplo

dónde

= "Principio de Bayes: Principio que establece que, al estimar un parámetro, uno debe asumir inicialmente que cada valor posible tiene la misma probabilidad (una distribución previa uniforme)."

= " Teoría de la decisión bayesiana : Teoría matemática de la toma de decisiones que presupone funciones de utilidad y probabilidad, y según la cual el acto que debe elegirse es el acto bayesiano, es decir, el que tiene la mayor utilidad subjetiva esperada. Si uno tuviera tiempo ilimitado y poder de cálculo con el que tomar cada decisión, este procedimiento sería la mejor manera de tomar cualquier decisión."

= " Epistemología bayesiana : teoría filosófica que sostiene que el estatus epistémico de una proposición (es decir, cuán bien probada o bien establecida está) se mide mejor por una probabilidad y que la forma adecuada de revisar esta probabilidad está dada por la condicionalización bayesiana o procedimientos similares. Un epistemólogo bayesiano usaría la probabilidad para definir y explorar la relación entre conceptos como el estatus epistémico, el apoyo o el poder explicativo".

Sea el conjunto de términos:

Entonces, el conjunto de documentos es el siguiente:

dónde

Sea la consulta ("probabilidad" Y "toma de decisiones"):

Luego, para recuperar los documentos pertinentes:

  1. En primer lugar se obtienen (recuperan) los siguientes conjuntos de documentos : Donde corresponde a los documentos que contienen el término "probabilidad" y contienen el término "toma de decisiones".
  2. Finalmente, se recuperan los siguientes documentos en respuesta a : Donde la consulta busca documentos que estén contenidos en ambos conjuntos utilizando el operador de intersección.

Esto significa que el documento original es la respuesta a .

Si hay más de un documento con la misma representación (el mismo subconjunto de términos del índice ), se recuperan todos los documentos. Dichos documentos son indistinguibles en el BIR (en otras palabras, son equivalentes).

Ventajas

Desventajas

Estructuras de datos y algoritmos

Desde un punto de vista puramente matemático formal, el BIR es sencillo. Sin embargo, desde un punto de vista práctico, se deben resolver varios problemas adicionales relacionados con algoritmos y estructuras de datos, como, por ejemplo, la elección de términos (selección manual o automática o ambas), la derivación , las tablas hash , la estructura de archivos invertida , etc. [4]

Conjuntos hash

Otra posibilidad es utilizar conjuntos hash. Cada documento está representado por una tabla hash que contiene cada término de ese documento. Dado que el tamaño de la tabla hash aumenta y disminuye en tiempo real con la adición y eliminación de términos, cada documento ocupará mucho menos espacio en la memoria. Sin embargo, tendrá una ralentización del rendimiento porque las operaciones son más complejas que con los vectores de bits . En el peor de los casos, el rendimiento puede degradarse de O( n ) a O( n 2 ). En el caso medio, la ralentización del rendimiento no será mucho peor que con los vectores de bits y el uso del espacio es mucho más eficiente.

Archivo de firma

Cada documento puede resumirse mediante un filtro Bloom que representa el conjunto de palabras de ese documento, almacenadas en una cadena de bits de longitud fija, denominada firma. El archivo de firma contiene una de esas cadenas de bits de código superpuesto para cada documento de la colección. Cada consulta también puede resumirse mediante un filtro Bloom que representa el conjunto de palabras de la consulta, almacenadas en una cadena de bits de la misma longitud fija. La cadena de bits de la consulta se prueba con cada firma. [5] [6] [7]

El archivo de firma abordado se utiliza en BitFunnel .

Archivo invertido

Un archivo de índice invertido contiene dos partes: un vocabulario que contiene todos los términos utilizados en la colección y, para cada término distinto, un índice invertido que enumera todos los documentos que mencionan ese término. [5] [6]

Referencias

  1. ^ Lancaster, FW; Fayen, EG (1973), Recuperación de información en línea , Melville Publishing Co., Los Ángeles, California
  2. ^ "Recuperación de información". MIT Press . Consultado el 9 de diciembre de 2023 .
  3. ^ Shokraneh, Farhad (6 de agosto de 2024). "Deja de buscar y lo encontrarás: conceptos resistentes a la búsqueda en búsquedas de revisiones sistemáticas". BMJ Evidence-Based Medicine : bmjebm–2023–112798. doi :10.1136/bmjebm-2023-112798.
  4. ^ Wartik, Steven (1992). "Operaciones booleanas". Estructuras y algoritmos de recuperación de información. Prentice-Hall, Inc. ISBN 0-13-463837-9. Archivado desde el original el 28 de septiembre de 2013.
  5. ^ por Justin Zobel; Alistair Moffat; y Kotagiri Ramamohanarao. "Archivos invertidos versus archivos de firma para indexación de texto".
  6. ^ por Bob Goodwin; et al. "BitFunnel: Revisando las firmas para búsqueda". 2017.
  7. ^ Richard Startin. "Firmas fragmentadas en bits y filtros Bloom".