Sistema de recuperación de información SMART

El sistema de recuperación de información SMART (Sistema para el análisis mecánico y recuperación de texto) es un sistema de recuperación de información desarrollado en la Universidad de Cornell en la década de 1960. ^[1] Muchos conceptos importantes en recuperación de información se desarrollaron como parte de la investigación sobre el sistema SMART, incluido el modelo de espacio vectorial , la retroalimentación de relevancia y la clasificación de Rocchio .

Gerard Salton dirigió el grupo que desarrolló SMART. Entre otros colaboradores se encontraba Mike Lesk .

El sistema SMART también proporciona un conjunto de corpus, consultas y clasificaciones de referencias, extraídos de diferentes temas, en particular:

ADI : publicaciones de revistas de ciencias de la información
Ciencias de la Computación
Colección Cranfield : publicaciones de revistas aeronáuticas
Ciencia forense : bibliotecología
Colección MEDLARS : publicaciones de revistas médicas
Colección de la revista Time : archivos de la revista generalista Time en 1963

Al legado del sistema SMART pertenece la denominada notación triple SMART, un esquema mnemotécnico para denotar variantes de ponderación tf-idf en el modelo de espacio vectorial. El mnemotécnico para representar una combinación de ponderaciones adopta la forma ddd.qqq, donde las primeras tres letras representan la ponderación del término del vector de documento de colección y las segundas tres letras representan la ponderación del término para el vector de documento de consulta. Por ejemplo, ltc.lnnrepresenta la ltcponderación aplicada a un documento de colección y la lnnponderación aplicada a un documento de consulta.

Las siguientes tablas establecen la notación SMART: ^[2]

Las letras grises en la primera, quinta y novena columnas son el esquema utilizado por Salton y Buckley en su artículo de 1988. ^[4] Las letras en negrita en la segunda, sexta y décima columnas son el esquema utilizado en los experimentos informados posteriormente.

Referencias

^ Salton, G, Lesk, ME (junio de 1965). "Los sistemas de recuperación automática de documentos SMART: una ilustración". Comunicaciones de la ACM . 8 (6): 391–398. doi : 10.1145/364955.364990 .{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Palchowdhury, Sauparna (2016). "Sobre la procedencia de tf-idf". sauparna.sdf.org . Consultado el 29 de julio de 2019 .
^ abcd Singhal, A., Buckley, C. y Mitra, M. (1996). Normalización de la longitud de documentos pivotados. SIGIR Forum, 51 , 176-184.
^ Salton, G. y Buckley, C. (1988). Enfoques de ponderación de términos en la recuperación automática de texto. Inf. Process. Manage., 24 , 513-523.

Enlaces externos

Colecciones de software y pruebas ^{[ enlace inactivo ]} (FTP en la Universidad de Cornell )
Tutorial interactivo SMART