Relevancia (recuperación de información)

En la ciencia de la información y la recuperación de información , la relevancia indica en qué medida un documento o un conjunto de documentos recuperados satisfacen las necesidades de información del usuario. La relevancia puede incluir aspectos como la actualidad, la autoridad o la novedad del resultado.

Historia

La preocupación por el problema de encontrar información relevante se remonta al menos a la primera publicación de revistas científicas en el siglo XVII. ^{[ cita requerida ]}

El estudio formal de la relevancia comenzó en el siglo XX con el estudio de lo que más tarde se llamaría bibliometría . En las décadas de 1930 y 1940, SC Bradford utilizó el término "relevante" para caracterizar los artículos relevantes para un tema (cf., ley de Bradford ). En la década de 1950, surgieron los primeros sistemas de recuperación de información y los investigadores notaron que la recuperación de artículos irrelevantes era una preocupación importante. En 1958, BC Vickery hizo explícito el concepto de relevancia en un discurso en la Conferencia Internacional sobre Información Científica. ^[1]

Desde 1958, los científicos de la información han explorado y debatido las definiciones de relevancia. Un tema central del debate fue la distinción entre "relevancia para un tema" o "relevancia temática" y "relevancia para el usuario". ^[1]

Evaluación

La comunidad de recuperación de información ha enfatizado el uso de colecciones de pruebas y tareas de referencia para medir la relevancia temática, comenzando con los Experimentos Cranfield de principios de los años 1960 y culminando con las evaluaciones TREC que continúan hasta el día de hoy como el principal marco de evaluación para la investigación de recuperación de información. ^[2]

Para evaluar la eficacia con la que un sistema de recuperación de información recupera resultados relevantes desde un punto de vista temático, es necesario cuantificar la relevancia de los resultados recuperados. En las evaluaciones de estilo Cranfield , esto suele implicar la asignación de un nivel de relevancia a cada resultado recuperado, un proceso conocido como evaluación de la relevancia . Los niveles de relevancia pueden ser binarios (que indican que un resultado es relevante o que no lo es) o graduados (que indican que los resultados tienen un grado variable de coincidencia entre el tema del resultado y la necesidad de información). Una vez que se han asignado niveles de relevancia a los resultados recuperados, se pueden utilizar medidas de rendimiento de la recuperación de información para evaluar la calidad de la salida de un sistema de recuperación.

En contraste con este enfoque únicamente en la relevancia temática, la comunidad de ciencias de la información ha enfatizado los estudios de usuarios que consideran la relevancia del usuario. ^[3] Estos estudios a menudo se centran en aspectos de la interacción humano-computadora (ver también recuperación de información humano-computadora ).

Agrupamiento y relevancia

La hipótesis de agrupamiento , propuesta por CJ van Rijsbergen en 1979, afirma que dos documentos que son similares entre sí tienen una alta probabilidad de ser relevantes para la misma necesidad de información. Con respecto al espacio de similitud de incrustación, la hipótesis de agrupamiento se puede interpretar global o localmente. ^[4] La interpretación global supone que existe un conjunto fijo de temas subyacentes derivados de la similitud entre documentos. Estos agrupamientos globales o sus representantes se pueden utilizar para relacionar la relevancia de dos documentos (por ejemplo, dos documentos en el mismo agrupamiento deberían ser relevantes para la misma solicitud). Los métodos en este sentido incluyen:

Recuperación de información basada en clústeres ^[5]^[6]
expansión de documentos basada en clústeres, como el análisis semántico latente o sus equivalentes de modelado del lenguaje. ^[7] Es importante garantizar que los clústeres, ya sea de forma aislada o combinada, modelen con éxito el conjunto de posibles documentos relevantes.

Una segunda interpretación, propuesta principalmente por Ellen Voorhees ^[8] , se centra en las relaciones locales entre documentos. La interpretación local evita tener que modelar el número o el tamaño de los grupos en la colección y permite la relevancia en múltiples escalas. Los métodos en este sentido incluyen:

Recuperación de múltiples clústeres ^[6]^[8]
Métodos de activación por propagación ^[9] y propagación de relevancia ^[10].
Expansión de documentos locales ^[11]
regularización de puntuaciones ^[12]

Los métodos locales requieren una medida de similitud de documentos precisa y apropiada .

Problemas y alternativas

Los documentos más relevantes no son necesariamente aquellos que son más útiles para mostrar en la primera página de resultados de búsqueda. Por ejemplo, dos documentos duplicados pueden considerarse individualmente bastante relevantes, pero sólo es útil mostrar uno de ellos. Se ha propuesto una medida llamada "relevancia marginal máxima" (MMR) para solucionar esta deficiencia. Considera la relevancia de cada documento sólo en términos de cuánta información nueva aporta en relación con los resultados anteriores. ^[13]

En algunos casos, una consulta puede tener una interpretación ambigua o una variedad de posibles respuestas. Proporcionar una diversidad de resultados puede ser un factor a tener en cuenta al evaluar la utilidad de un conjunto de resultados. ^[14]

Véase también

Referencias

^ ab Mizzaro, Stefano (1997). "Relevancia: toda la historia" (PDF) . Revista de la Sociedad Americana de Ciencias de la Información . 48 (9): 810–832. doi :10.1002/(SICI)1097-4571(199709)48:9<810::AID-ASI6>3.0.CO;2-U.
^ Sanderson, P. Clough, M. (15 de junio de 2013). "Evaluación del rendimiento de los sistemas de recuperación de información mediante colecciones de prueba". informationr.net . Consultado el 28 de mayo de 2020 .{{cite web}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Yunjie, Xu (2006). "Juicio de relevancia: ¿Qué consideran los usuarios de la información más allá de la actualidad?". Journal of the American Society for Information Science and Technology . 57 (7): 961–973. doi :10.1002/asi.20361.
^ F. Díaz, Autocorrelación y regularización de puntuaciones de recuperación basadas en consultas. Tesis doctoral, Universidad de Massachusetts Amherst, Amherst, MA, febrero de 2008, Capítulo 3.
^ Croft, W. Bruce (1980). "Un modelo de búsqueda de conglomerados basado en la clasificación". Sistemas de información . 5 (3): 189–195. doi :10.1016/0306-4379(80)90010-1.
^ ab Griffiths, Alan; Luckhurst, H. Claire; Willett, Peter (1986). "Uso de información de similitud entre documentos en sistemas de recuperación de documentos" (PDF) . Revista de la Sociedad Americana de Ciencias de la Información . 37 : 3–11. doi :10.1002/(SICI)1097-4571(198601)37:1<3::AID-ASI1>3.0.CO;2-O.
^ X. Liu y WB Croft, “Recuperación basada en clústeres utilizando modelos de lenguaje”, en SIGIR '04: Actas de la 27.ª conferencia internacional anual sobre investigación y desarrollo en recuperación de información, (Nueva York, NY, EE. UU.), págs. 186-193, ACM Press, 2004.
^ ab EM Voorhees , “La hipótesis de cluster revisitada”, en SIGIR '85: Actas de la octava conferencia anual internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información, (Nueva York, NY, EE. UU.), págs. 188-196, ACM Press, 1985.
^ S. Preece, Un modelo de red de activación en expansión para la recuperación de información. Tesis doctoral, Universidad de Illinois, Urbana-Champaign, 1981.
^ T. Qin, T.-Y. Liu, X.-D. Zhang, Z. Chen y W.-Y. Ma, “Un estudio de propagación de relevancia para búsquedas web”, en SIGIR '05: Actas de la 28.ª conferencia anual internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información (Nueva York, NY, EE. UU.), págs. 408-415, ACM Press, 2005.
^ A. Singhal y F. Pereira, “Expansión de documentos para recuperación de voz”, en SIGIR '99: Actas de la 22.ª conferencia anual internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información (Nueva York, NY, EE. UU.), págs. 34-41, ACM Press, 1999.
^ Qin, Tao; Liu, Tie-Yan; Zhang, Xu-Dong; Chen, Zheng; Ma, Wei-Ying (2005). "Un estudio de propagación de relevancia para búsquedas web" (PDF) . Actas de la 28.ª Conferencia Anual Internacional ACM SIGIR sobre Investigación y Desarrollo en Recuperación de Información . p. 408. doi :10.1145/1076034.1076105. ISBN 1595930345. Número de identificación del sujeto 15310025.
^ Carbonell, Jaime; Goldstein, Jade (1998). "El uso de MMR, reclasificación basada en diversidad para reordenar documentos y producir resúmenes". Actas de la 21.ª Conferencia Anual Internacional ACM SIGIR sobre Investigación y Desarrollo en Recuperación de Información . pp. 335–336. CiteSeerX 10.1.1.50.2490 . doi :10.1145/290941.291025. ISBN . 978-1581130157.S2CID6334682 .
^ "Diversidad en la recuperación de documentos (DDR) 2012".

Lectura adicional

Hjørland, Birger (2010). "El fundamento del concepto de relevancia" (PDF) . Revista de la Sociedad Americana de Ciencias de la Información y Tecnología . 61 (2): 217–237. doi :10.1002/asi.21261.
Relevancia: comunicación y cognición. Dan Sperber; Deirdre Wilson. 2.ª ed. Oxford; Cambridge, MA: Blackwell Publishers, 2001. ISBN 978-0-631-19878-9
Saracevic, Tefko (1975). "RELEVANCE: Una revisión y un marco para el pensamiento sobre el concepto en la ciencia de la información" (PDF) . Revista de la Sociedad Americana de Ciencias de la Información . 26 (6): 321–343. doi :10.1002/asi.4630260604.
Saracevic, Tefko (2007). "Relevancia: una revisión de la literatura y un marco para pensar sobre el concepto en la ciencia de la información. Parte II: Naturaleza y manifestaciones de la relevancia" (PDF) . Revista de la Sociedad Estadounidense de Ciencias de la Información y Tecnología . 58 (13): 1915–1933. doi :10.1002/asi.20682. Archivado desde el original (PDF) el 21 de febrero de 2008.
Saracevic, Tefko (2007). "Relevancia: una revisión de la literatura y un marco para pensar sobre el concepto en la ciencia de la información. Parte III: Comportamiento y efectos de la relevancia" (PDF) . Revista de la Sociedad Estadounidense de Ciencias de la Información y Tecnología . 58 (13): 2126–2144. doi :10.1002/asi.20681. Archivado desde el original (PDF) el 21 de febrero de 2008.
Saracevic, T. (2007). Relevancia en la ciencia de la información. Conferencia anual conmemorativa de Thomson Scientific Lazerow por invitación en la Facultad de Ciencias de la Información de la Universidad de Tennessee. 19 de septiembre de 2007. (video)
Introducción a la recuperación de información: evaluación. Stanford. (presentación en PDF)