Obtención de recursos de información relevantes para una necesidad de información
La recuperación de información ( IR ) en informática y ciencias de la información es la tarea de identificar y recuperar recursos de sistemas de información que sean relevantes para una necesidad de información . La necesidad de información se puede especificar en forma de una consulta de búsqueda. En el caso de la recuperación de documentos, las consultas pueden basarse en la indexación de texto completo u otra indexación basada en contenido. La recuperación de información es la ciencia [1] de buscar información en un documento, buscar los documentos en sí mismos y también buscar los metadatos que describen los datos y bases de datos de textos, imágenes o sonidos.
Los sistemas de recuperación de información automática se utilizan para reducir lo que se ha denominado sobrecarga de información . Un sistema de recuperación de información automática es un sistema de software que proporciona acceso a libros, revistas y otros documentos; también almacena y administra esos documentos. Los motores de búsqueda web son las aplicaciones de recuperación de información más visibles.
Descripción general
Un proceso de recuperación de información comienza cuando un usuario introduce una consulta en el sistema. Las consultas son enunciados formales de necesidades de información, por ejemplo, cadenas de búsqueda en motores de búsqueda web. En la recuperación de información, una consulta no identifica de forma única un único objeto de la colección, sino que varios objetos pueden coincidir con la consulta, quizás con diferentes grados de relevancia .
Un objeto es una entidad que está representada por información en una colección de contenido o base de datos . Las consultas de los usuarios se comparan con la información de la base de datos. Sin embargo, a diferencia de las consultas SQL clásicas de una base de datos, en la recuperación de información los resultados devueltos pueden coincidir o no con la consulta, por lo que los resultados suelen clasificarse. Esta clasificación de los resultados es una diferencia clave entre la búsqueda de recuperación de información y la búsqueda en bases de datos. [2]
Dependiendo de la aplicación, los objetos de datos pueden ser, por ejemplo, documentos de texto, imágenes, [3] audio, [4] mapas mentales [5] o vídeos. A menudo, los documentos en sí no se guardan ni se almacenan directamente en el sistema IR, sino que se representan en el sistema mediante sustitutos de documentos o metadatos .
La mayoría de los sistemas IR calculan una puntuación numérica sobre la correspondencia entre cada objeto de la base de datos y la consulta, y clasifican los objetos según este valor. Los objetos mejor clasificados se muestran al usuario. El proceso puede repetirse si el usuario desea refinar la consulta. [6]
Historia
Existe una máquina llamada Univac que codifica letras y cifras en forma de puntos magnéticos sobre una cinta de acero de gran tamaño. De esta manera, se puede registrar el texto de un documento, precedido por el símbolo de código de tema... La máquina selecciona y escribe automáticamente las referencias que se han codificado de cualquier forma deseada a una velocidad de 120 palabras por minuto.
— JE Holmström, 1948
La idea de utilizar ordenadores para buscar piezas relevantes de información se popularizó en el artículo As We May Think de Vannevar Bush en 1945. [7] Parece que Bush se inspiró en las patentes de una "máquina estadística" (presentadas por Emanuel Goldberg en los años 1920 y 1930) que buscaba documentos almacenados en películas. [8] La primera descripción de un ordenador que buscaba información fue descrita por Holmstrom en 1948, [9] detallando una mención temprana del ordenador Univac . Los sistemas automatizados de recuperación de información se introdujeron en la década de 1950: uno incluso apareció en la comedia romántica de 1957, Desk Set . En la década de 1960, Gerard Salton formó el primer gran grupo de investigación de recuperación de información en Cornell. En la década de 1970, se había demostrado que varias técnicas de recuperación diferentes funcionaban bien en pequeños corpus de texto, como la colección Cranfield (varios miles de documentos). [7] Los sistemas de recuperación a gran escala, como el sistema Lockheed Dialog, comenzaron a utilizarse a principios de la década de 1970.
En 1992, el Departamento de Defensa de los Estados Unidos, junto con el Instituto Nacional de Estándares y Tecnología (NIST), copatrocinó la Conferencia de Recuperación de Textos (TREC) como parte del programa de texto TIPSTER. El objetivo de esta conferencia era estudiar la comunidad de recuperación de información proporcionando la infraestructura necesaria para la evaluación de metodologías de recuperación de textos en una colección de textos muy grande. Esto catalizó la investigación sobre métodos que se pueden escalar a corpus enormes. La introducción de los motores de búsqueda web ha impulsado aún más la necesidad de sistemas de recuperación a gran escala.
Aplicaciones
Las áreas en las que se emplean técnicas de recuperación de información incluyen (las entradas están en orden alfabético dentro de cada categoría):
Para recuperar eficazmente documentos relevantes mediante estrategias de recuperación de documentos, los documentos se transforman normalmente en una representación adecuada. Cada estrategia de recuperación incorpora un modelo específico para sus fines de representación de documentos. La imagen de la derecha ilustra la relación de algunos modelos comunes. En la imagen, los modelos se clasifican según dos dimensiones: la base matemática y las propiedades del modelo.
Primera dimensión: base matemática
Los modelos de teoría de conjuntos representan documentos como conjuntos de palabras o frases. Las similitudes suelen derivarse de operaciones de teoría de conjuntos sobre esos conjuntos. Los modelos más comunes son:
Los modelos algebraicos representan documentos y consultas generalmente como vectores, matrices o tuplas. La similitud entre el vector de consulta y el vector de documento se representa como un valor escalar.
Los modelos probabilísticos tratan el proceso de recuperación de documentos como una inferencia probabilística. Las similitudes se calculan como probabilidades de que un documento sea relevante para una consulta determinada. En estos modelos se utilizan a menudo teoremas probabilísticos como el teorema de Bayes .
Los modelos de recuperación basados en características consideran los documentos como vectores de valores de funciones de características (o simplemente características ) y buscan la mejor manera de combinar estas características en una única puntuación de relevancia, generalmente aprendiendo a clasificar los métodos. Las funciones de características son funciones arbitrarias del documento y la consulta y, como tales, pueden incorporar fácilmente casi cualquier otro modelo de recuperación como una característica más.
Segunda dimensión: propiedades del modelo
Los modelos sin interdependencias entre términos tratan los distintos términos o palabras como independientes. Este hecho suele representarse en los modelos de espacio vectorial mediante el supuesto de ortogonalidad de los vectores de términos o en los modelos probabilísticos mediante un supuesto de independencia para las variables de términos.
Los modelos con interdependencias inmanentes entre términos permiten representar las interdependencias entre términos. Sin embargo, el grado de interdependencia entre dos términos lo define el propio modelo. Generalmente se deriva directa o indirectamente (por ejemplo, mediante reducción dimensional ) de la coocurrencia de esos términos en todo el conjunto de documentos.
Los modelos con interdependencias trascendentes entre términos permiten representar las interdependencias entre términos, pero no indican cómo se define la interdependencia entre dos términos. Se basan en una fuente externa para determinar el grado de interdependencia entre dos términos (por ejemplo, un ser humano o algoritmos sofisticados).
Medidas de rendimiento y corrección
La evaluación de un sistema de recuperación de información es el proceso de evaluar qué tan bien un sistema satisface las necesidades de información de sus usuarios. En general, la medición considera una colección de documentos que se buscarán y una consulta de búsqueda. Las métricas de evaluación tradicionales, diseñadas para la recuperación booleana [ aclaración necesaria ] o la recuperación top-k, incluyen precisión y recuperación . Todas las mediciones suponen una noción de verdad fundamental de relevancia: se sabe que cada documento es relevante o no relevante para una consulta en particular. En la práctica, las consultas pueden estar mal planteadas y puede haber diferentes matices de relevancia.
Cronología
Antes de 1900
1801 : Joseph Marie Jacquard inventa el telar Jacquard , la primera máquina que utiliza tarjetas perforadas para controlar una secuencia de operaciones.
Década de 1880 : Herman Hollerith inventa un tabulador de datos electromecánico que utiliza tarjetas perforadas como medio legible por máquina.
Emanuel Goldberg presenta patentes para su "Máquina Estadística", un motor de búsqueda de documentos que utiliza células fotoeléctricas y reconocimiento de patrones para buscar metadatos en rollos de documentos microfilmados.
Década de 1940-1950
Finales de la década de 1940 : el ejército estadounidense se enfrentó a problemas de indexación y recuperación de documentos de investigación científica de tiempos de guerra capturados a los alemanes.
1947 : Hans Peter Luhn (ingeniero de investigación en IBM desde 1941) comenzó a trabajar en un sistema mecanizado basado en tarjetas perforadas para buscar compuestos químicos.
Década de 1950 : La creciente preocupación en los EE. UU. por una "brecha científica" con la URSS motivó, alentó la financiación y proporcionó un telón de fondo para los sistemas mecanizados de búsqueda bibliográfica ( Allen Kent et al. ) y la invención del índice de citas por Eugene Garfield .
1950 : Calvin Mooers acuñó el término "recuperación de información" . [10]
1951 : Philip Bagley realizó el primer experimento de recuperación de documentos computarizados en una tesis de maestría en el MIT . [11]
1955 : Allen Kent se incorporó a la Universidad Case Western Reserve y, con el tiempo, se convirtió en director asociado del Centro de Documentación e Investigación de las Comunicaciones. Ese mismo año, Kent y sus colegas publicaron un artículo en American Documentation en el que describían las medidas de precisión y recuperación, y detallaban un "marco" propuesto para evaluar un sistema de recuperación de documentos que incluía métodos de muestreo estadístico para determinar la cantidad de documentos relevantes no recuperados. [12]
1958 : La Conferencia Internacional sobre Información Científica celebrada en Washington DC incluyó la consideración de los sistemas de infrarrojos como solución a los problemas identificados. Véase: Actas de la Conferencia Internacional sobre Información Científica, 1958 (Academia Nacional de Ciencias, Washington, DC, 1959)
1959 : Hans Peter Luhn publica "Autocodificación de documentos para recuperación de información".
Años 1960 :
Principios de la década de 1960 : Gerard Salton comenzó a trabajar en IR en Harvard y luego se trasladó a Cornell.
1960 : Melvin Earl Maron y John Lary Kuhns [13] publicaron "Sobre relevancia, indexación probabilística y recuperación de información" en el Journal of the ACM 7(3):216–244, julio de 1960.
1962 :
Cyril W. Cleverdon publicó los primeros hallazgos de los estudios de Cranfield y desarrolló un modelo para la evaluación de sistemas IR. Véase: Cyril W. Cleverdon, "Informe sobre las pruebas y análisis de una investigación sobre la eficiencia comparativa de los sistemas de indexación". Colección Cranfield de Aeronáutica, Cranfield, Inglaterra, 1962.
Kent publicó Análisis y recuperación de información .
1963 :
El informe de Weinberg "Ciencia, gobierno e información" articuló plenamente la idea de una "crisis de la información científica". El informe lleva el nombre del Dr. Alvin Weinberg .
Joseph Becker y Robert M. Hayes publicaron un texto sobre recuperación de información. Becker, Joseph; Hayes, Robert Mayo. Almacenamiento y recuperación de información: herramientas, elementos, teorías . Nueva York, Wiley (1963).
La Oficina Nacional de Normas patrocinó un simposio titulado "Métodos de asociación estadística para documentación mecanizada". Se publicaron varios artículos de gran importancia, incluida la primera referencia publicada (creemos) de G. Salton al sistema SMART .
mediados de la década de 1960 :
La Biblioteca Nacional de Medicina desarrolló el Sistema de Análisis y Recuperación de Literatura Médica MEDLARS , la primera base de datos legible por máquina y sistema de recuperación por lotes importante.
Proyecto Intrex en el MIT.
1965 : JCR Licklider publicó Bibliotecas del futuro .
1966 : Don Swanson participó en estudios en la Universidad de Chicago sobre los requisitos para futuros catálogos.
Finales de la década de 1960 : F. Wilfrid Lancaster completó estudios de evaluación del sistema MEDLARS y publicó la primera edición de su texto sobre recuperación de información.
1968 :
Gerard Salton publicó Organización y recuperación automática de información .
El informe RADC Tech de John W. Sammon, Jr. "Algunas matemáticas del almacenamiento y recuperación de información..." describió el modelo vectorial.
1969 : "Un mapeo no lineal para el análisis de estructuras de datos" de Sammon (IEEE Transactions on Computers) fue la primera propuesta para una interfaz de visualización para un sistema IR.
Década de 1970
principios de la década de 1970 :
Primeros sistemas en línea: AIM-TWX de NLM, MEDLINE, Dialog de Lockheed y ORBIT de SDC.
1971 : Nicholas Jardine y Cornelis J. van Rijsbergen publicaron "El uso de la agrupación jerárquica en la recuperación de información", que articuló la "hipótesis de la agrupación". [14]
1975 : Tres publicaciones muy influyentes de Salton articularon completamente su marco de procesamiento vectorial y su modelo de discriminación de términos :
Una teoría de la indexación (Sociedad de Matemáticas Industriales y Aplicadas)
Una teoría sobre la importancia de los términos en el análisis automático de textos ( JASIS v. 26)
Un modelo de espacio vectorial para indexación automática ( CACM 18:11)
1979 : CJ van Rijsbergen publicó Information Retrieval (Butterworths), con gran énfasis en los modelos probabilísticos.
1979 : Tamas Doszkocs implementó la interfaz de usuario de lenguaje natural CITE para MEDLINE en la Biblioteca Nacional de Medicina. El sistema CITE admitía la entrada de consultas en formato libre, la salida clasificada y la retroalimentación de relevancia. [15]
Década de 1980
1980 : Primera conferencia internacional ACM SIGIR, conjunta con el grupo IR de la British Computer Society en Cambridge.
1982 : Nicholas J. Belkin , Robert N. Oddy y Helen M. Brooks propusieron el punto de vista ASK (estado anómalo del conocimiento) para la recuperación de información. Se trataba de un concepto importante, aunque su herramienta de análisis automatizado resultó finalmente decepcionante.
1983 : Salton (y Michael J. McGill) publicaron Introducción a la recuperación de información moderna (McGraw-Hill), con gran énfasis en los modelos vectoriales.
1985 : David Blair y Bill Maron publican: Una evaluación de la eficacia de la recuperación para un sistema de recuperación de documentos de texto completo
Mediados de la década de 1980 : esfuerzos para desarrollar versiones para el usuario final de sistemas IR comerciales.
1985–1993 : Artículos clave sobre sistemas experimentales y para interfaces de visualización.
Trabajo de Donald B. Crouch, Robert R. Korfhage , Matthew Chalmers, Anselm Spoerri y otros.
1997 : Publicación de Almacenamiento y recuperación de información de Korfhage [16] con énfasis en la visualización y los sistemas de puntos de referencia múltiples.
1999 : Publicación de Modern Information Retrieval de Ricardo Baeza-Yates y Berthier Ribeiro-Neto por Addison Wesley, el primer libro que intenta cubrir todas las RI.
Finales de los años 1990 : los motores de búsqueda web implementan muchas funciones que antes sólo se encontraban en sistemas IR experimentales. Los motores de búsqueda se convierten en la instancia más común y quizás la mejor de los modelos IR.
Conferencias importantes
SIGIR: Conferencia sobre investigación y desarrollo en recuperación de información
Escuela Europea de Verano en Recuperación de Información – ESSIR promueve la investigación, la innovación y el desarrollo de sistemas de acceso a la información educando a investigadores jóvenes y experimentados, estudiantes, profesionales y desarrolladores sobre los últimos avances en este campo, tanto metodológicos como tecnológicos.Páginas que muestran descripciones de wikidata como alternativa
Búsqueda de información social : campo de investigación que implica el estudio de situaciones, motivaciones y métodos de las personas que buscan y comparten información en sitios sociales participativos en línea.Páginas que muestran descripciones de wikidata como alternativa
Visualización del conocimiento : conjunto de técnicas para crear imágenes, diagramas o animaciones para comunicar un mensaje.Páginas que muestran descripciones breves de los objetivos de redireccionamiento
tf–idf – Estimación de la importancia de una palabra en un documento
Recuperación XML : recuperación de documentos XML basada en contenido
Minería web : proceso de extracción y descubrimiento de patrones en grandes conjuntos de datosPáginas que muestran descripciones breves de los objetivos de redireccionamiento
Referencias
^ Luk, RWP (2022). "¿Por qué la recuperación de información es una disciplina científica?". Fundamentos de la ciencia . 27 (2): 427–453. doi :10.1007/s10699-020-09685-x. hdl : 10397/94873 . S2CID 220506422.
^ Jansen, BJ y Rieh, S. (2010) Los diecisiete constructos teóricos de la búsqueda y recuperación de información Archivado el 4 de marzo de 2016 en Wayback Machine . Revista de la Sociedad Estadounidense de Ciencias de la Información y Tecnología. 61(8), 1517–1534.
^ Goodrum, Abby A. (2000). "Recuperación de información de imágenes: una descripción general de la investigación actual". Informing Science . 3 (2).
^ Foote, Jonathan (1999). "Una visión general de la recuperación de información de audio". Multimedia Systems . 7 : 2–10. CiteSeerX 10.1.1.39.6339 . doi :10.1007/s005300050106. S2CID 2000641.
^ Beel, Jöran; Gipp, Bela; Stiller, Jan-Olaf (2009). Recuperación de información en mapas mentales: ¿para qué podría ser útil?. Actas de la 5.ª Conferencia internacional sobre informática colaborativa: redes, aplicaciones y compartición de trabajo (CollaborateCom'09). Washington, DC: IEEE. Archivado desde el original el 13 de mayo de 2011. Consultado el 13 de marzo de 2012 .
^ Frakes, William B.; Baeza-Yates, Ricardo (1992). Estructuras y algoritmos de recuperación de información. Prentice-Hall, Inc. ISBN978-0-13-463837-9. Archivado desde el original el 28 de septiembre de 2013.
^ ab Singhal, Amit (2001). "Recuperación de información moderna: una breve descripción general" (PDF) . Boletín del Comité Técnico de Ingeniería de Datos de la IEEE Computer Society . 24 (4): 35–43.
^ Mark Sanderson y W. Bruce Croft (2012). "La historia de la investigación en recuperación de información". Actas del IEEE . 100 : 1444–1451. doi : 10.1109/jproc.2012.2189916 .
^ JE Holmstrom (1948). "Sección III. Sesión plenaria de apertura". Conferencia de información científica de la Royal Society, 21 de junio-2 de julio de 1948: Informe y artículos presentados : 85.
^ Mooers, Calvin N.; La teoría del manejo digital de información no numérica y sus implicaciones para la economía de las máquinas (Boletín técnico Zator n.º 48), citado en Fairthorne, RA (1958). "Recuperación automática de información registrada". The Computer Journal . 1 (1): 37. doi : 10.1093/comjnl/1.1.36 .
^ Doyle, Lauren; Becker, Joseph (1975). Recuperación y procesamiento de información . Melville. pp. 410 pp. ISBN978-0-471-22151-7.
^ Perry, James W.; Kent, Allen; Berry, Madeline M. (1955). "Búsqueda de literatura de máquinas X. Lenguaje de máquina; factores subyacentes a su diseño y desarrollo". American Documentation . 6 (4): 242–254. doi :10.1002/asi.5090060411.
^ Maron, Melvin E. (2008). "Una nota histórica sobre los orígenes de la indexación probabilística" (PDF) . Procesamiento y gestión de la información . 44 (2): 971–972. doi :10.1016/j.ipm.2007.02.012.
^ N. Jardine, CJ van Rijsbergen (diciembre de 1971). "El uso de agrupamiento jerárquico en la recuperación de información". Almacenamiento y recuperación de información . 7 (5): 217–240. doi :10.1016/0020-0271(71)90051-9.
^ Doszkocs, TE y Rapp, BA (1979). "Búsqueda en MEDLINE en inglés: un prototipo de interfaz de usuario con consulta en lenguaje natural, resultados clasificados y retroalimentación de relevancia", en: Actas de la Reunión Anual de ASIS, 16: 131–139.
^ Korfhage, Robert R. (1997). Almacenamiento y recuperación de información . Wiley. pp. 368 pp. ISBN978-0-471-14338-3.
Lectura adicional
Ricardo Baeza-Yates, Berthier Ribeiro-Neto. Modern Information Retrieval: The Concepts and Technology behind Search (segunda edición) Archivado el 18 de septiembre de 2017 en Wayback Machine . Addison-Wesley, Reino Unido, 2011.
Stefan Büttcher, Charles LA Clarke y Gordon V. Cormack. Recuperación de información: implementación y evaluación de motores de búsqueda Archivado el 5 de octubre de 2020 en Wayback Machine . MIT Press, Cambridge, Massachusetts, 2010.
«Sistema de recuperación de información». Library & Information Science Network . 24 de abril de 2015. Archivado desde el original el 11 de mayo de 2020. Consultado el 3 de mayo de 2020 .
Christopher D. Manning, Prabhakar Raghavan y Hinrich Schütze. Introducción a la recuperación de información. Prensa de la Universidad de Cambridge, 2008.
Yeo, ShinJoung. (2023) Detrás del cuadro de búsqueda: Google y la industria global de Internet (U of Illinois Press, 2023) ISBN 10:0252087127 en línea
Enlaces externos
Wikiquote tiene citas relacionadas con Recuperación de información .
Wikimedia Commons tiene medios relacionados con Recuperación de información .
ACM SIGIR: Grupo de Interés Especial en Recuperación de Información
BCS IRSG: British Computer Society – Grupo de especialistas en recuperación de información
Conferencia sobre recuperación de textos (TREC)
Foro para la evaluación de la recuperación de información (FIRE)