stringtranslate.com

Recuperación de documentos

La recuperación de documentos se define como la comparación de una consulta de usuario con un conjunto de registros de texto libre . Estos registros pueden ser cualquier tipo de texto, principalmente no estructurado , como artículos de periódicos , registros inmobiliarios o párrafos de un manual. Las consultas de usuario pueden variar desde descripciones completas de varias oraciones de una necesidad de información hasta unas pocas palabras.

La recuperación de documentos a veces se denomina recuperación de texto o una rama de esta . La recuperación de texto es una rama de la recuperación de información en la que la información se almacena principalmente en forma de texto . Las bases de datos de texto se descentralizaron gracias a la computadora personal . La recuperación de texto es un área de estudio fundamental en la actualidad, ya que es la base fundamental de todos los motores de búsqueda de Internet .

Descripción

Los sistemas de recuperación de documentos encuentran información según criterios determinados haciendo coincidir registros de texto ( documentos ) con consultas de los usuarios, a diferencia de los sistemas expertos que responden a las preguntas infiriendo sobre una base de datos de conocimiento lógico . Un sistema de recuperación de documentos consta de una base de datos de documentos, un algoritmo de clasificación para crear un índice de texto completo y una interfaz de usuario para acceder a la base de datos.

Un sistema de recuperación de documentos tiene dos tareas principales:

  1. Encuentre documentos relevantes para las consultas de los usuarios
  2. Evalúa los resultados coincidentes y ordénalos según relevancia, utilizando algoritmos como PageRank .

Los motores de búsqueda en Internet son aplicaciones clásicas de recuperación de documentos. La gran mayoría de los sistemas de recuperación que se utilizan actualmente van desde sistemas booleanos simples hasta sistemas que utilizan técnicas estadísticas o de procesamiento del lenguaje natural .

Variaciones

Existen dos clases principales de esquemas de indexación para los sistemas de recuperación de documentos: indexación basada en forma (o basada en palabras ) e indexación basada en contenido . El esquema de clasificación de documentos (o algoritmo de indexación ) en uso determina la naturaleza del sistema de recuperación de documentos.

Basado en formularios

La recuperación de documentos basada en formularios aborda las propiedades sintácticas exactas de un texto, comparable a la coincidencia de subcadenas en las búsquedas de cadenas. El texto generalmente no está estructurado y no necesariamente en un lenguaje natural; el sistema podría usarse, por ejemplo, para procesar grandes conjuntos de representaciones químicas en biología molecular. Un algoritmo de árbol de sufijos es un ejemplo de indexación basada en formularios.

Basado en contenido

El enfoque basado en el contenido aprovecha las conexiones semánticas entre documentos y partes de ellos, así como las conexiones semánticas entre consultas y documentos. La mayoría de los sistemas de recuperación de documentos basados ​​en el contenido utilizan un algoritmo de índice invertido .

Un archivo de firma es una técnica que crea un filtro rápido y sencillo , por ejemplo, un filtro Bloom , que conservará todos los documentos que coincidan con la consulta y, con suerte , algunos que no. La forma en que esto se hace es creando una firma para cada archivo, generalmente una versión codificada en hash. Un método es la codificación superpuesta. Se realiza un paso de posprocesamiento para descartar las falsas alarmas. Dado que en la mayoría de los casos esta estructura es inferior a los archivos invertidos en términos de velocidad, tamaño y funcionalidad, no se usa ampliamente. Sin embargo, con los parámetros adecuados puede superar a los archivos invertidos en ciertos entornos.

Ejemplo: PubMed

La interfaz del formulario PubMed [1] incluye la búsqueda de "artículos relacionados", que funciona a través de una comparación de palabras del título, el resumen y los términos MeSH de los documentos utilizando un algoritmo ponderado por palabras. [2] [3]

Véase también

Referencias

  1. ^ Kim W, Aronson AR, Wilbur WJ (2001). "Asignación automática de términos MeSH y evaluación de calidad". Proc AMIA Symp : 319–23. PMC  2243528 . PMID  11825203.
  2. ^ Cálculo de citas relacionadas. Centro Nacional de Información Biotecnológica (EE. UU.). 6 de febrero de 2019.
  3. ^ Lin J1, Wilbur WJ (30 de octubre de 2007). "Artículos relacionados con PubMed: un modelo probabilístico basado en temas para la similitud de contenido". BMC Bioinformatics . 8 : 423. doi : 10.1186/1471-2105-8-423 . PMC 2212667 . PMID  17971238. {{cite journal}}: CS1 maint: nombres numéricos: lista de autores ( enlace )

Lectura adicional

Enlaces externos