stringtranslate.com

Recuperación de información

La recuperación de información ( IR ) en informática y ciencias de la información es la tarea de identificar y recuperar recursos de sistemas de información que sean relevantes para una necesidad de información . La necesidad de información se puede especificar en forma de una consulta de búsqueda. En el caso de la recuperación de documentos, las consultas pueden basarse en la indexación de texto completo u otra indexación basada en contenido. La recuperación de información es la ciencia [1] de buscar información en un documento, buscar los documentos en sí mismos y también buscar los metadatos que describen los datos y bases de datos de textos, imágenes o sonidos.

Los sistemas de recuperación de información automática se utilizan para reducir lo que se ha denominado sobrecarga de información . Un sistema de recuperación de información automática es un sistema de software que proporciona acceso a libros, revistas y otros documentos; también almacena y administra esos documentos. Los motores de búsqueda web son las aplicaciones de recuperación de información más visibles.

Descripción general

Un proceso de recuperación de información comienza cuando un usuario introduce una consulta en el sistema. Las consultas son enunciados formales de necesidades de información, por ejemplo, cadenas de búsqueda en motores de búsqueda web. En la recuperación de información, una consulta no identifica de forma única un único objeto de la colección, sino que varios objetos pueden coincidir con la consulta, quizás con diferentes grados de relevancia .

Un objeto es una entidad que está representada por información en una colección de contenido o base de datos . Las consultas de los usuarios se comparan con la información de la base de datos. Sin embargo, a diferencia de las consultas SQL clásicas de una base de datos, en la recuperación de información los resultados devueltos pueden coincidir o no con la consulta, por lo que los resultados suelen clasificarse. Esta clasificación de los resultados es una diferencia clave entre la búsqueda de recuperación de información y la búsqueda en bases de datos. [2]

Dependiendo de la aplicación, los objetos de datos pueden ser, por ejemplo, documentos de texto, imágenes, [3] audio, [4] mapas mentales [5] o vídeos. A menudo, los documentos en sí no se guardan ni se almacenan directamente en el sistema IR, sino que se representan en el sistema mediante sustitutos de documentos o metadatos .

La mayoría de los sistemas IR calculan una puntuación numérica sobre la correspondencia entre cada objeto de la base de datos y la consulta, y clasifican los objetos según este valor. Los objetos mejor clasificados se muestran al usuario. El proceso puede repetirse si el usuario desea refinar la consulta. [6]

Historia

Existe una máquina llamada Univac que codifica letras y cifras en forma de puntos magnéticos sobre una cinta de acero de gran tamaño. De esta manera, se puede registrar el texto de un documento, precedido por el símbolo de código de tema... La máquina selecciona y escribe automáticamente las referencias que se han codificado de cualquier forma deseada a una velocidad de 120 palabras por minuto.

—  JE Holmström, 1948

La idea de utilizar ordenadores para buscar piezas de información relevantes se popularizó en el artículo As We May Think de Vannevar Bush en 1945. [7] Parece que Bush se inspiró en las patentes de una "máquina estadística" (presentadas por Emanuel Goldberg en los años 1920 y 1930) que buscaba documentos almacenados en películas. [8] La primera descripción de un ordenador que buscaba información fue descrita por Holmstrom en 1948, [9] detallando una mención temprana del ordenador Univac . Los sistemas automatizados de recuperación de información se introdujeron en la década de 1950: uno incluso apareció en la comedia romántica de 1957, Desk Set . En la década de 1960, Gerard Salton formó el primer gran grupo de investigación de recuperación de información en Cornell. En la década de 1970, se había demostrado que varias técnicas de recuperación diferentes funcionaban bien en pequeños corpus de texto, como la colección Cranfield (varios miles de documentos). [7] Los sistemas de recuperación a gran escala, como el sistema Lockheed Dialog, comenzaron a utilizarse a principios de la década de 1970.

En 1992, el Departamento de Defensa de los Estados Unidos, junto con el Instituto Nacional de Estándares y Tecnología (NIST), copatrocinó la Conferencia de Recuperación de Textos (TREC) como parte del programa de texto TIPSTER. El objetivo de esta conferencia era estudiar la comunidad de recuperación de información proporcionando la infraestructura necesaria para la evaluación de metodologías de recuperación de textos en una colección de textos muy grande. Esto catalizó la investigación sobre métodos que se pueden escalar a corpus enormes. La introducción de los motores de búsqueda web ha impulsado aún más la necesidad de sistemas de recuperación a gran escala.

Aplicaciones

Las áreas en las que se emplean técnicas de recuperación de información incluyen (las entradas están en orden alfabético dentro de cada categoría):

Aplicaciones generales

Aplicaciones específicas del dominio

Otros métodos de recuperación

Los métodos/técnicas en los que se emplean técnicas de recuperación de información incluyen:

Tipos de modelos

Categorización de los modelos IR (traducido de la entrada en alemán, fuente original Dominik Kuropka)

Para recuperar eficazmente documentos relevantes mediante estrategias de recuperación de documentos, los documentos suelen transformarse en una representación adecuada. Cada estrategia de recuperación incorpora un modelo específico para sus fines de representación de documentos. La imagen de la derecha ilustra la relación de algunos modelos comunes. En la imagen, los modelos se clasifican según dos dimensiones: la base matemática y las propiedades del modelo.

Primera dimensión: base matemática

Segunda dimensión: propiedades del modelo

Medidas de rendimiento y corrección

La evaluación de un sistema de recuperación de información es el proceso de evaluar qué tan bien un sistema satisface las necesidades de información de sus usuarios. En general, la medición considera una colección de documentos que se buscarán y una consulta de búsqueda. Las métricas de evaluación tradicionales, diseñadas para la recuperación booleana [ aclaración necesaria ] o la recuperación top-k, incluyen precisión y recuperación . Todas las mediciones suponen una noción de verdad fundamental de relevancia: se sabe que cada documento es relevante o no relevante para una consulta en particular. En la práctica, las consultas pueden estar mal planteadas y puede haber diferentes matices de relevancia.

Cronología

Conferencias importantes

Premios en el campo

Véase también

Referencias

  1. ^ Luk, RWP (2022). "¿Por qué la recuperación de información es una disciplina científica?". Fundamentos de la ciencia . 27 (2): 427–453. doi :10.1007/s10699-020-09685-x. hdl : 10397/94873 . S2CID  220506422.
  2. ^ Jansen, BJ y Rieh, S. (2010) Los diecisiete constructos teóricos de la búsqueda y recuperación de información Archivado el 4 de marzo de 2016 en Wayback Machine . Revista de la Sociedad Estadounidense de Ciencias de la Información y Tecnología. 61(8), 1517-1534.
  3. ^ Goodrum, Abby A. (2000). "Recuperación de información de imágenes: una descripción general de la investigación actual". Informing Science . 3 (2).
  4. ^ Foote, Jonathan (1999). "Una visión general de la recuperación de información de audio". Multimedia Systems . 7 : 2–10. CiteSeerX 10.1.1.39.6339 . doi :10.1007/s005300050106. S2CID  2000641. 
  5. ^ Beel, Jöran; Gipp, Bela; Stiller, Jan-Olaf (2009). Recuperación de información en mapas mentales: ¿para qué podría ser útil?. Actas de la 5.ª Conferencia internacional sobre informática colaborativa: redes, aplicaciones y compartición de trabajo (CollaborateCom'09). Washington, DC: IEEE. Archivado desde el original el 13 de mayo de 2011. Consultado el 13 de marzo de 2012 .
  6. ^ Frakes, William B.; Baeza-Yates, Ricardo (1992). Estructuras y algoritmos de recuperación de información. Prentice-Hall, Inc. ISBN 978-0-13-463837-9. Archivado desde el original el 28 de septiembre de 2013.
  7. ^ ab Singhal, Amit (2001). "Recuperación de información moderna: una breve descripción general" (PDF) . Boletín del Comité Técnico de Ingeniería de Datos de la IEEE Computer Society . 24 (4): 35–43.
  8. ^ Mark Sanderson y W. Bruce Croft (2012). "La historia de la investigación en recuperación de información". Actas del IEEE . 100 : 1444–1451. doi : 10.1109/jproc.2012.2189916 .
  9. ^ JE Holmstrom (1948). "Sección III. Sesión plenaria de apertura". Conferencia de información científica de la Royal Society, 21 de junio-2 de julio de 1948: Informe y artículos presentados : 85.
  10. ^ Mooers, Calvin N.; La teoría del manejo digital de información no numérica y sus implicaciones para la economía de las máquinas (Boletín técnico Zator n.º 48), citado en Fairthorne, RA (1958). "Recuperación automática de información registrada". The Computer Journal . 1 (1): 37. doi : 10.1093/comjnl/1.1.36 .
  11. ^ Doyle, Lauren; Becker, Joseph (1975). Recuperación y procesamiento de información . Melville. pp. 410 pp. ISBN 978-0-471-22151-7.
  12. ^ Perry, James W.; Kent, Allen; Berry, Madeline M. (1955). "Búsqueda de literatura de máquinas X. Lenguaje de máquina; factores subyacentes a su diseño y desarrollo". American Documentation . 6 (4): 242–254. doi :10.1002/asi.5090060411.
  13. ^ Maron, Melvin E. (2008). "Una nota histórica sobre los orígenes de la indexación probabilística" (PDF) . Procesamiento y gestión de la información . 44 (2): 971–972. doi :10.1016/j.ipm.2007.02.012.
  14. ^ N. Jardine, CJ van Rijsbergen (diciembre de 1971). "El uso de agrupamiento jerárquico en la recuperación de información". Almacenamiento y recuperación de información . 7 (5): 217–240. doi :10.1016/0020-0271(71)90051-9.
  15. ^ Doszkocs, TE y Rapp, BA (1979). "Búsqueda en MEDLINE en inglés: un prototipo de interfaz de usuario con consulta en lenguaje natural, resultados clasificados y retroalimentación de relevancia", en: Actas de la Reunión Anual de ASIS, 16: 131-139.
  16. ^ Korfhage, Robert R. (1997). Almacenamiento y recuperación de información . Wiley. pp. 368 pp. ISBN 978-0-471-14338-3.

Lectura adicional

Enlaces externos