Relevancia (recuperación de información)

En ciencias de la información y recuperación de información , la relevancia denota qué tan bien un documento o conjunto de documentos recuperados satisface las necesidades de información del usuario. La relevancia puede incluir preocupaciones tales como la puntualidad, la autoridad o la novedad del resultado.

Historia

La preocupación por el problema de encontrar información relevante se remonta al menos a las primeras publicaciones de revistas científicas en el siglo XVII. ^{[ cita necesaria ]}

El estudio formal de la relevancia se inició en el siglo XX con el estudio de lo que luego se llamaría bibliometría . En las décadas de 1930 y 1940, SC Bradford utilizó el término "relevante" para caracterizar artículos relevantes para un tema (cf., ley de Bradford ). En la década de 1950, surgieron los primeros sistemas de recuperación de información y los investigadores señalaron que la recuperación de artículos irrelevantes era una preocupación importante. En 1958, BC Vickery hizo explícito el concepto de relevancia en un discurso en la Conferencia Internacional sobre Información Científica. ^[1]

Desde 1958, los científicos de la información han explorado y debatido definiciones de relevancia. Un foco particular del debate fue la distinción entre "relevancia para un tema" o "relevancia de actualidad" y "relevancia para el usuario". ^[1]

Evaluación

La comunidad de recuperación de información ha enfatizado el uso de colecciones de pruebas y tareas de referencia para medir la relevancia del tema, comenzando con los Experimentos de Cranfield de principios de la década de 1960 y culminando con las evaluaciones TREC que continúan hasta el día de hoy como el principal marco de evaluación para la investigación de recuperación de información. ^[2]

Para evaluar qué tan bien un sistema de recuperación de información recuperó resultados relevantes por tema, se debe cuantificar la relevancia de los resultados recuperados. En las evaluaciones de estilo Cranfield , esto normalmente implica asignar un nivel de relevancia a cada resultado obtenido, un proceso conocido como evaluación de relevancia . Los niveles de relevancia pueden ser binarios (que indican que un resultado es relevante o no), o graduados (que indican que los resultados tienen un grado variable de coincidencia entre el tema del resultado y la necesidad de información). Una vez que se han asignado los niveles de relevancia a los resultados recuperados, se pueden utilizar medidas de rendimiento de recuperación de información para evaluar la calidad de los resultados de un sistema de recuperación.

En contraste con este enfoque únicamente en la relevancia del tema, la comunidad de ciencias de la información ha enfatizado los estudios de usuarios que consideran la relevancia del usuario. ^[3] Estos estudios a menudo se centran en aspectos de la interacción persona-computadora (ver también recuperación de información persona-computadora ).

Agrupación y relevancia

La hipótesis del cluster , propuesta por CJ van Rijsbergen en 1979, afirma que dos documentos similares tienen una alta probabilidad de ser relevantes para la misma necesidad de información. Con respecto al espacio de similitud de incrustación, la hipótesis del grupo se puede interpretar global o localmente. ^[4] La interpretación global supone que existe un conjunto fijo de temas subyacentes derivados de la similitud entre documentos. Estos grupos globales o sus representantes pueden luego usarse para relacionar la relevancia de dos documentos (por ejemplo, dos documentos en el mismo grupo deben ser ambos relevantes para la misma solicitud). Los métodos con este espíritu incluyen:

recuperación de información basada en clústeres ^[5]^[6]
expansión de documentos basada en clústeres, como el análisis semántico latente o sus equivalentes de modelado de lenguaje. ^[7] Es importante garantizar que los grupos, ya sea de forma aislada o en combinación, modelen con éxito el conjunto de posibles documentos relevantes.

Una segunda interpretación, propuesta sobre todo por Ellen Voorhees , ^[8] se centra en las relaciones locales entre documentos. La interpretación local evita tener que modelar el número o tamaño de los conglomerados en la colección y permite la relevancia en múltiples escalas. Los métodos con este espíritu incluyen:

recuperación de múltiples grupos ^[6]^[8]
métodos de activación de difusión ^[9] y propagación de relevancia ^[10]
expansión de documentos locales ^[11]
regularización de puntuación ^[12]

Los métodos locales requieren una medida de similitud de documentos precisa y adecuada .

Problemas y alternativas

Los documentos más relevantes no son necesariamente aquellos que resultan más útiles para mostrar en la primera página de resultados de búsqueda. Por ejemplo, dos documentos duplicados pueden considerarse individualmente bastante relevantes, pero sólo es útil mostrar uno de ellos. Se ha propuesto una medida denominada "relevancia marginal máxima" (MMR) para gestionar esta deficiencia. Considera la relevancia de cada documento sólo en términos de cuánta información nueva aporta dados los resultados anteriores. ^[13]

En algunos casos, una consulta puede tener una interpretación ambigua o una variedad de posibles respuestas. Proporcionar una diversidad de resultados puede ser una consideración al evaluar la utilidad de un conjunto de resultados. ^[14]

Ver también

Referencias

^ ab Mizzaro, Stefano (1997). "Relevancia: Toda la historia" (PDF) . Revista de la Sociedad Estadounidense de Ciencias de la Información . 48 (9): 810–832. doi :10.1002/(SICI)1097-4571(199709)48:9<810::AID-ASI6>3.0.CO;2-U.
^ Sanderson, P. Clough, M. (15 de junio de 2013). "Evaluación del rendimiento de los sistemas de recuperación de información mediante colecciones de prueba". información.net . Consultado el 28 de mayo de 2020 .{{cite web}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
^ Yunjie, Xu (2006). "Juicio de relevancia: ¿Qué consideran los usuarios de la información más allá de la actualidad?". Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información . 57 (7): 961–973. doi :10.1002/asi.20361.
^ F. Diaz, Autocorrelación y regularización de puntuaciones de recuperación basadas en consultas. Tesis doctoral, Universidad de Massachusetts Amherst, Amherst, MA, febrero de 2008, Capítulo 3.
^ Croft, W. Bruce (1980). "Un modelo de búsqueda de conglomerados basado en clasificación". Sistemas de información . 5 (3): 189-195. doi :10.1016/0306-4379(80)90010-1.
^ ab Griffiths, Alan; Luckhurst, H. Claire; Willett, Peter (1986). "Uso de información de similitud entre documentos en sistemas de recuperación de documentos" (PDF) . Revista de la Sociedad Estadounidense de Ciencias de la Información . 37 : 3–11. doi :10.1002/(SICI)1097-4571(198601)37:1<3::AID-ASI1>3.0.CO;2-O.
^ X. Liu y WB Croft, “Recuperación basada en clústeres utilizando modelos lingüísticos”, en SIGIR '04: Actas de la 27ª conferencia internacional anual sobre investigación y desarrollo en recuperación de información, (Nueva York, NY, EE. UU.), págs.186 –193, Prensa ACM, 2004.
^ ab EM Voorhees , "La hipótesis del clúster revisada", en SIGIR '85: Actas de la octava conferencia internacional anual ACM SIGIR sobre investigación y desarrollo en recuperación de información, (Nueva York, NY, EE. UU.), págs. 188-196, ACM Prensa, 1985.
^ S. Preece, Un modelo de red de activación en expansión para la recuperación de información. Tesis doctoral, Universidad de Illinois, Urbana-Champaign, 1981.
^ T. Qin, T.-Y. Liu, X.-D. Zhang, Z. Chen y W.-Y. Ma, “Un estudio de propagación de relevancia para la búsqueda web”, en SIGIR '05: Actas de la 28ª conferencia internacional anual ACM SIGIR sobre investigación y desarrollo en recuperación de información, (Nueva York, NY, EE. UU.), págs. Prensa ACM, 2005.
^ A. Singhal y F. Pereira, “Expansión de documentos para la recuperación de voz”, en SIGIR '99: Actas de la 22ª conferencia internacional anual ACM SIGIR sobre investigación y desarrollo en recuperación de información, (Nueva York, NY, EE. UU.), págs. 34–41, Prensa ACM, 1999.
^ Qin, Tao; Liu, Tie-Yan; Zhang, Xu-Dong; Chen, Zheng; Ma, Wei-Ying (2005). "Un estudio de propagación de relevancia para búsquedas web" (PDF) . Actas de la 28ª Conferencia Internacional Anual ACM SIGIR sobre Investigación y Desarrollo en Recuperación de Información . pag. 408. doi :10.1145/1076034.1076105. ISBN 1595930345. S2CID 15310025.
^ Carbonell, Jaime; Goldstein, Jade (1998). "El uso de MMR, reclasificación basada en la diversidad para reordenar documentos y producir resúmenes". Actas de la 21ª Conferencia Anual Internacional ACM SIGIR sobre Investigación y Desarrollo en Recuperación de Información . págs. 335–336. CiteSeerX 10.1.1.50.2490 . doi :10.1145/290941.291025. ISBN 978-1581130157. S2CID 6334682.
^ "Diversidad en la recuperación de documentos (DDR) 2012".

Otras lecturas

Hjørland, Birger (2010). «El fundamento del concepto de relevancia» (PDF) . Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información . 61 (2): 217–237. doi :10.1002/asi.21261.
Relevancia: comunicación y cognición. por Dan Sperber; Deirdre Wilson. 2da ed. Oxford; Cambridge, MA: Blackwell Publishers, 2001. ISBN 978-0-631-19878-9
Saracevic, Tefko (1975). "RELEVANCIA: Una revisión y un marco para el pensamiento sobre la noción en ciencias de la información" (PDF) . Revista de la Sociedad Estadounidense de Ciencias de la Información . 26 (6): 321–343. doi :10.1002/asi.4630260604.
Saracevic, Tefko (2007). "Relevancia: una revisión de la literatura y un marco para pensar sobre la noción en ciencias de la información. Parte II: Naturaleza y manifestaciones de relevancia" (PDF) . Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información . 58 (13): 1915-1933. doi :10.1002/asi.20682. Archivado desde el original (PDF) el 21 de febrero de 2008.
Saracevic, Tefko (2007). "Relevancia: Una revisión de la literatura y un marco para pensar sobre la noción en ciencias de la información. Parte III: Comportamiento y efectos de la relevancia" (PDF) . Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información . 58 (13): 2126–2144. doi :10.1002/asi.20681. Archivado desde el original (PDF) el 21 de febrero de 2008.
Saracevic, T. (2007). Relevancia en las ciencias de la información. Conferencia anual invitada en memoria de Thomson Scientific Lazerow en la Facultad de Ciencias de la Información de la Universidad de Tennessee. 19 de septiembre de 2007. (vídeo)
Introducción a la recuperación de información: evaluación. Stanford. (presentación en PDF)