La recuperación de documentos se define como la comparación de una consulta de usuario con un conjunto de registros de texto libre . Estos registros pueden ser cualquier tipo de texto, principalmente no estructurado , como artículos de periódicos , registros inmobiliarios o párrafos de un manual. Las consultas de usuario pueden variar desde descripciones completas de varias oraciones de una necesidad de información hasta unas pocas palabras.
La recuperación de documentos a veces se denomina recuperación de texto o una rama de esta . La recuperación de texto es una rama de la recuperación de información en la que la información se almacena principalmente en forma de texto . Las bases de datos de texto se descentralizaron gracias a la computadora personal . La recuperación de texto es un área de estudio fundamental en la actualidad, ya que es la base fundamental de todos los motores de búsqueda de Internet .
Los sistemas de recuperación de documentos encuentran información según criterios determinados haciendo coincidir registros de texto ( documentos ) con consultas de los usuarios, a diferencia de los sistemas expertos que responden a las preguntas infiriendo sobre una base de datos de conocimiento lógico . Un sistema de recuperación de documentos consta de una base de datos de documentos, un algoritmo de clasificación para crear un índice de texto completo y una interfaz de usuario para acceder a la base de datos.
Un sistema de recuperación de documentos tiene dos tareas principales:
Los motores de búsqueda en Internet son aplicaciones clásicas de recuperación de documentos. La gran mayoría de los sistemas de recuperación que se utilizan actualmente van desde sistemas booleanos simples hasta sistemas que utilizan técnicas estadísticas o de procesamiento del lenguaje natural .
Existen dos clases principales de esquemas de indexación para los sistemas de recuperación de documentos: indexación basada en forma (o basada en palabras ) e indexación basada en contenido . El esquema de clasificación de documentos (o algoritmo de indexación ) en uso determina la naturaleza del sistema de recuperación de documentos.
La recuperación de documentos basada en formularios aborda las propiedades sintácticas exactas de un texto, comparable a la coincidencia de subcadenas en las búsquedas de cadenas. El texto generalmente no está estructurado y no necesariamente en un lenguaje natural; el sistema podría usarse, por ejemplo, para procesar grandes conjuntos de representaciones químicas en biología molecular. Un algoritmo de árbol de sufijos es un ejemplo de indexación basada en formularios.
El enfoque basado en el contenido aprovecha las conexiones semánticas entre documentos y partes de ellos, así como las conexiones semánticas entre consultas y documentos. La mayoría de los sistemas de recuperación de documentos basados en el contenido utilizan un algoritmo de índice invertido .
Un archivo de firma es una técnica que crea un filtro rápido y sencillo , por ejemplo, un filtro Bloom , que conservará todos los documentos que coincidan con la consulta y, con suerte , algunos que no. La forma en que esto se hace es creando una firma para cada archivo, generalmente una versión codificada en hash. Un método es la codificación superpuesta. Se realiza un paso de posprocesamiento para descartar las falsas alarmas. Dado que en la mayoría de los casos esta estructura es inferior a los archivos invertidos en términos de velocidad, tamaño y funcionalidad, no se usa ampliamente. Sin embargo, con los parámetros adecuados puede superar a los archivos invertidos en ciertos entornos.
La interfaz del formulario PubMed [1] incluye la búsqueda de "artículos relacionados", que funciona a través de una comparación de palabras del título, el resumen y los términos MeSH de los documentos utilizando un algoritmo ponderado por palabras. [2] [3]
{{cite journal}}
: CS1 maint: nombres numéricos: lista de autores ( enlace )