Medidas de evaluación (recuperación de información)

Las medidas de evaluación de un sistema de recuperación de información (IR) evalúan la eficacia con la que un índice, motor de búsqueda o base de datos devuelve resultados de una colección de recursos que satisfacen la consulta de un usuario. Por lo tanto, son fundamentales para el éxito de los sistemas de información y las plataformas digitales.

El factor más importante para determinar la eficacia de un sistema para los usuarios es la relevancia general de los resultados obtenidos en respuesta a una consulta. ^[1] El éxito de un sistema IR puede juzgarse mediante una serie de criterios, entre ellos la relevancia, la velocidad, la satisfacción del usuario, la facilidad de uso, la eficiencia y la fiabilidad. ^[2] Las medidas de evaluación pueden clasificarse de diversas formas, como en línea o fuera de línea, basadas en el usuario o basadas en el sistema, e incluyen métodos como el comportamiento observado del usuario, las colecciones de pruebas, la precisión y la recuperación, y las puntuaciones de los conjuntos de pruebas de referencia preparados.

La evaluación de un sistema de recuperación de información también debe incluir una validación de las medidas utilizadas, es decir, una evaluación de qué tan bien miden lo que pretenden medir y qué tan bien el sistema se ajusta al caso de uso previsto. ^[3] Las medidas se utilizan generalmente en dos entornos: la experimentación en línea, que evalúa las interacciones de los usuarios con el sistema de búsqueda, y la evaluación fuera de línea, que mide la eficacia de un sistema de recuperación de información en una colección estática fuera de línea.

Fondo

Los métodos de indexación y clasificación para ayudar a la recuperación de información tienen una larga historia que se remonta a las primeras bibliotecas y colecciones; sin embargo, la evaluación sistemática de su eficacia comenzó en serio en la década de 1950 con la rápida expansión de la producción de investigaciones en los ámbitos militar, gubernamental y educativo y la introducción de catálogos informáticos. En ese momento, existían varios sistemas de indexación, clasificación y catalogación diferentes que eran costosos de producir y no estaba claro cuál era el más eficaz. ^[4]

Cyril Cleverdon , bibliotecario de la Facultad de Aeronáutica de Cranfield (Inglaterra), inició una serie de experimentos sobre métodos de indexación y recuperación de documentos impresos en lo que se conoce como el paradigma de Cranfield o pruebas de Cranfield, que establecieron el estándar para las medidas de evaluación de IR durante muchos años. ^[4] Cleverdon desarrolló una prueba llamada «búsqueda de elementos conocidos» para comprobar si un sistema de IR devolvía los documentos que se sabía que eran relevantes o correctos para una búsqueda determinada. Los experimentos de Cleverdon establecieron una serie de aspectos clave necesarios para la evaluación de IR: una colección de prueba, un conjunto de consultas y un conjunto de elementos relevantes predeterminados que combinados determinarían la precisión y la recuperación.

El enfoque de Cleverdon sirvió de modelo para la exitosa serie de conferencias sobre recuperación de texto que comenzó en 1992.

Aplicaciones

La evaluación de los sistemas IR es fundamental para el éxito de cualquier motor de búsqueda, incluidas las búsquedas en Internet, las búsquedas en sitios web, las bases de datos y los catálogos de bibliotecas. Las medidas de evaluación se utilizan en estudios de comportamiento de la información , pruebas de usabilidad , costos comerciales y evaluaciones de eficiencia. La medición de la efectividad de los sistemas IR ha sido el principal foco de la investigación IR, basada en colecciones de prueba combinadas con medidas de evaluación. ^[5] Se han establecido varias conferencias académicas que se centran específicamente en las medidas de evaluación, incluidas la Text Retrieval Conference (TREC), Conference and Labs of the Evaluation Forum (CLEF) y NTCIR.

Medidas en línea

Las métricas en línea generalmente se crean a partir de registros de búsqueda y se utilizan a menudo para determinar el éxito de una prueba A/B .

Tasa de abandono de sesión

La tasa de abandono de sesión es una proporción de sesiones de búsqueda que no resultan en un clic.

Tasa de clics

La tasa de clics (CTR) es la relación entre los usuarios que hacen clic en un enlace específico y el número total de usuarios que ven una página, un correo electrónico o un anuncio. Se utiliza habitualmente para medir el éxito de una campaña publicitaria en línea para un sitio web en particular, así como la eficacia de las campañas por correo electrónico. ^[6]

Tasa de éxito de la sesión

La tasa de éxito de la sesión mide la proporción de sesiones de usuario que conducen a un resultado exitoso. La definición de "éxito" suele depender del contexto, pero en el caso de las búsquedas, un resultado exitoso suele medirse utilizando el tiempo de permanencia como factor principal junto con la interacción secundaria del usuario; por ejemplo, el usuario que copia la URL del resultado se considera un resultado exitoso, al igual que copiar y pegar desde el fragmento.

Tasa de resultados cero

La tasa de resultados cero ( ZRR ) es la proporción de páginas de resultados de motores de búsqueda (SERP) que arrojaron cero resultados. La métrica indica un problema de recuperación o que la información que se busca no está en el índice.

Métricas sin conexión

Las métricas offline generalmente se crean a partir de sesiones de juicio de relevancia donde los jueces califican la calidad de los resultados de búsqueda. Se pueden usar escalas binarias (relevante/no relevante) y multinivel (por ejemplo, relevancia de 0 a 5) para calificar cada documento devuelto en respuesta a una consulta. En la práctica, las consultas pueden estar mal planteadas y puede haber diferentes matices de relevancia. Por ejemplo, hay ambigüedad en la consulta "marte": el juez no sabe si el usuario está buscando el planeta Marte , la barra de chocolate Marte , el cantante Bruno Mars o la deidad romana Marte .

Precisión

La precisión es la fracción de los documentos recuperados que son relevantes para la necesidad de información del usuario.

{\mbox{precisión}}={\frac {|\{{\mbox{documentos relevantes}}\}\cap \{{\mbox{documentos recuperados}}\}|}{|\{{\mbox{documentos recuperados}}\}|}}

En la clasificación binaria , la precisión es análoga al valor predictivo positivo . La precisión tiene en cuenta todos los documentos recuperados. También se puede evaluar considerando solo los resultados más importantes devueltos por el sistema utilizando Precision@k.

Téngase en cuenta que el significado y el uso de "precisión" en el campo de la recuperación de información difieren de la definición de exactitud y precisión dentro de otras ramas de la ciencia y la estadística .

Recordar

La recuperación es la fracción de los documentos relevantes para la consulta que se recuperan con éxito.

{\mbox{recuperación}}={\frac {|\{{\mbox{documentos relevantes}}\}\cap \{{\mbox{documentos recuperados}}\}|}{|\{{\mbox{documentos relevantes}}\}|}}

En la clasificación binaria, la recuperación suele denominarse sensibilidad . Por lo tanto, puede considerarse como la probabilidad de que la consulta recupere un documento relevante .

Es fácil lograr una recuperación del 100 % devolviendo todos los documentos en respuesta a cualquier consulta. Por lo tanto, la recuperación por sí sola no es suficiente, sino que también es necesario medir la cantidad de documentos no relevantes, por ejemplo, calculando la precisión.

Polvillo radiactivo

La proporción de documentos no relevantes que se recuperan, de todos los documentos no relevantes disponibles:

{\mbox{fall-out}}={\frac {|\{{\mbox{documentos no relevantes}}\}\cap \{{\mbox{documentos recuperados}}\}|}{|\{{\mbox{documentos no relevantes}}\}|}}

En la clasificación binaria, la probabilidad de que se recupere un documento no relevante es lo opuesto a la especificidad y es igual a . $(1-{\mbox{especificidad}})$

Es trivial lograr una caída del 0% al devolver cero documentos en respuesta a cualquier consulta.

Puntuación F / Medida F

La media armónica ponderada de precisión y recuperación, la medida F tradicional o puntuación F equilibrada es:

F={\frac {2\cdot \mathrm {precisión} \cdot \mathrm {recuperación} }{(\mathrm {precisión} +\mathrm {recuperación} )}}

Esto también se conoce como la medida, porque la recuperación y la precisión tienen el mismo peso. $Estilo de visualización F_{1}$

La fórmula general para números reales no negativos es: ${\estilo de visualización \beta}$

F_{\beta }={\frac {(1+\beta ^{2})\cdot (\mathrm {precisión} \cdot \mathrm {recuperación} )}{(\beta ^{2}\cdot \mathrm {precisión} +\mathrm {recuperación} )}}\,

Otras dos medidas F comúnmente utilizadas son la medida, que pondera la recuperación dos veces más que la precisión, y la medida, que pondera la precisión dos veces más que la recuperación. $Estilo de visualización F_{2}$ $Estilo de visualización F_{0,5}$

La medida F fue derivada por van Rijsbergen (1979) de modo que "mide la efectividad de la recuperación con respecto a un usuario que otorga tanta importancia a la recuperación como a la precisión". Se basa en la medida de efectividad de van Rijsbergen . Su relación es: $F_{\beta}$ ${\estilo de visualización \beta}$ $E=1-{\frac {1}{{\frac {\alpha }{P}}+{\frac {1-\alpha }{R}}}}$

F_{\beta }=1-E

dónde

\alpha ={\frac {1}{1+\beta ^{2}}}

Dado que la medida F combina información tanto de precisión como de recuperación, es una forma de representar el rendimiento general sin presentar dos números.

Precisión media

La precisión y la recuperación son métricas de un solo valor basadas en la lista completa de documentos devueltos por el sistema. Para los sistemas que devuelven una secuencia clasificada de documentos, es conveniente considerar también el orden en el que se presentan los documentos devueltos. Al calcular una precisión y una recuperación en cada posición en la secuencia clasificada de documentos, se puede trazar una curva de precisión-recuperación, trazando la precisión como una función de la recuperación . La precisión promedio calcula el valor promedio de en el intervalo de a : ^[7] $p(r)$ ${\estilo de visualización r}$ $p(r)$ $r=0$ $r=1$

\operatorname {AveP} =\int _{0}^{1}p(r)dr

Esa es el área bajo la curva de precisión-recuperación. En la práctica, esta integral se reemplaza por una suma finita sobre cada posición en la secuencia clasificada de documentos:

\operatorname {AveP} =\sum _{k=1}^{n}P(k)\Delta r(k)

donde es el rango en la secuencia de documentos recuperados, es el número de documentos recuperados, es la precisión en el punto de corte en la lista y es el cambio en la recuperación de elementos a . ^[7] $k$ $n$ $P(k)$ $k$ $\Delta r(k)$ $k-1$ $k$

Esta suma finita es equivalente a:

\operatorname {AveP} ={\frac {\sum _{k=1}^{n}P(k)\times \operatorname {rel} (k)}{\mbox{total number of relevant documents}}}\!

donde es una función indicadora que es igual a 1 si el elemento en el rango es un documento relevante, cero en caso contrario. ^[8] Nótese que el promedio es sobre los documentos relevantes en los k documentos recuperados principales y los documentos relevantes no recuperados obtienen una puntuación de precisión de cero. $\operatorname {rel} (k)$ $k$

Algunos autores optan por interpolar la función para reducir el impacto de los "sacudidas" en la curva. ^[9]^[10] Por ejemplo, el desafío PASCAL Visual Object Classes (un punto de referencia para la detección de objetos mediante visión artificial) hasta 2010 ^[11] calculaba la precisión promedio promediando la precisión sobre un conjunto de niveles de recuperación espaciados uniformemente {0, 0,1, 0,2, ... 1,0}: ^[9]^[10] $p(r)$

\operatorname {AveP} ={\frac {1}{11}}\sum _{r\in \{0,0.1,\ldots ,1.0\}}p_{\operatorname {interp} }(r)

donde es una precisión interpolada que toma la precisión máxima sobre todas las recuperaciones mayores que : $p_{\operatorname {interp} }(r)$ $r$

p_{\operatorname {interp} }(r)=\operatorname {max} _{{\tilde {r}}:{\tilde {r}}\geq r}p({\tilde {r}})

Una alternativa es derivar una función analítica suponiendo una distribución paramétrica particular para los valores de decisión subyacentes. Por ejemplo, se puede obtener una curva de precisión-recuperación binormal suponiendo que los valores de decisión en ambas clases siguen una distribución gaussiana. ^[12] $p(r)$

El AveP mínimo alcanzable para una tarea de clasificación dada viene dado por:

${\frac {1}{n_{pos}}}\sum _{k=1}^{n_{pos}}{\frac {k}{k+n_{neg}}}$ ^[13]

Precisión en k

Para la recuperación de información moderna (a escala web), la recuperación ya no es una métrica significativa, ya que muchas consultas tienen miles de documentos relevantes y pocos usuarios estarán interesados en leerlos todos. La precisión en k documentos (P@k) sigue siendo una métrica útil (por ejemplo, P@10 o "Precisión en 10" corresponde al número de resultados relevantes entre los 10 documentos recuperados más importantes), pero no tiene en cuenta las posiciones de los documentos relevantes entre los k principales. ^[14] Otra deficiencia es que en una consulta con menos resultados relevantes que k, incluso un sistema perfecto tendrá una puntuación inferior a 1. ^[15] Es más fácil puntuar manualmente, ya que solo es necesario examinar los k resultados principales para determinar si son relevantes o no.

R-precisión

La precisión R requiere conocer todos los documentos que son relevantes para una consulta. La cantidad de documentos relevantes, , se utiliza como punto de corte para el cálculo, y esto varía de una consulta a otra. Por ejemplo, si hay 15 documentos relevantes para "rojo" en un corpus (R=15), la precisión R para "rojo" analiza los 15 documentos principales devueltos, cuenta la cantidad que es relevante y la convierte en una fracción de relevancia: . ^[16] $R$ $r$ $r/R=r/15$

Tenga en cuenta que la R-Precisión es equivalente tanto a la precisión en la posición -ésima (P@ ) como a la recuperación en la posición -ésima. ^[15] $R$ $R$ $R$

Empíricamente, esta medida suele estar altamente correlacionada con la precisión promedio. ^[15]

Precisión media promedio

La precisión promedio media (MAP) para un conjunto de consultas es la media de las puntuaciones de precisión promedio para cada consulta.

\operatorname {MAP} ={\frac {\sum _{q=1}^{Q}\operatorname {AveP(q)} }{Q}}\!

donde Q es el número de consultas.

Ganancia acumulada descontada

DCG utiliza una escala de relevancia graduada de los documentos del conjunto de resultados para evaluar la utilidad o la utilidad de un documento en función de su posición en la lista de resultados. La premisa de DCG es que los documentos muy relevantes que aparecen más abajo en una lista de resultados de búsqueda deben ser penalizados, ya que el valor de relevancia graduada se reduce de forma logarítmica proporcional a la posición del resultado.

El DCG acumulado en una posición de rango particular se define como: $p$

\mathrm {DCG_{p}} =\sum _{i=1}^{p}{\frac {rel_{i}}{\log _{2}(i+1)}}.

Dado que el conjunto de resultados puede variar en tamaño entre distintas consultas o sistemas, para comparar los resultados, la versión normalizada de DCG utiliza un DCG ideal. Para ello, ordena los documentos de una lista de resultados por relevancia, lo que produce un DCG ideal en la posición p ( ), que normaliza la puntuación: $IDCG_{p}$

\mathrm {nDCG_{p}} ={\frac {DCG_{p}}{IDCG{p}}}.

Los valores nDCG de todas las consultas se pueden promediar para obtener una medida del rendimiento promedio de un algoritmo de clasificación. Tenga en cuenta que en un algoritmo de clasificación perfecto, será igual que producir un nDCG de 1,0. Todos los cálculos nDCG son entonces valores relativos en el intervalo de 0,0 a 1,0 y, por lo tanto, son comparables entre consultas. $DCG_{p}$ $IDCG_{p}$

Otras medidas

Rango recíproco medio
bpref - una medida basada en la suma de cuántos documentos relevantes se clasifican antes que los documentos irrelevantes ^[16]
GMAP - media geométrica de la precisión promedio (por tema) ^[16]
Medidas basadas en la relevancia marginal y la diversidad de documentos: véase Relevancia (recuperación de información) § Problemas y alternativas
Medidas tanto de relevancia como de credibilidad (para noticias falsas en los resultados de búsqueda) ^[17]
Tasa de aciertos

Visualización

Las visualizaciones del rendimiento de recuperación de información incluyen:

Gráficos que representan la precisión en un eje y la recuperación en el otro ^[16]
Histogramas de precisión promedio sobre varios temas ^[16]
Curva ROC ( característica operativa del receptor )
Matriz de confusión

Medidas que no son relevantes

Consultas por tiempo

La medición de la cantidad de consultas que se realizan en el sistema de búsqueda por (mes/día/hora/minuto/seg) permite realizar un seguimiento de la utilización del sistema de búsqueda. Se puede utilizar para realizar diagnósticos a fin de indicar un aumento inesperado en las consultas o simplemente como una línea de base para comparar con otras métricas, como la latencia de las consultas. Por ejemplo, un aumento en el tráfico de consultas se puede utilizar para explicar un aumento en la latencia de las consultas.

Véase también

Aprendiendo a clasificar

Referencias

^ Carterette, Ben; Voorhees, Ellen M. (2011), Lupu, Mihai; Mayer, Katja; Tait, John; Trippe, Anthony J. (eds.), "Descripción general de la evaluación de la recuperación de información", Desafíos actuales en la recuperación de información de patentes , Berlín, Heidelberg: Springer, págs. 69–85, doi :10.1007/978-3-642-19231-9_3, ISBN 978-3-642-19231-9, consultado el 9 de diciembre de 2022
^ Clough, P.; Sanderson, M. (15 de junio de 2013). "Evaluación del rendimiento de los sistemas de recuperación de información mediante colecciones de prueba". Investigación de la información . Consultado el 9 de diciembre de 2022 .
^ Karlgren, Jussi (2019). "Adopción de parámetros de evaluación sistemática en entornos operativos" (PDF) . Recuperación de información en un mundo cambiante . Consultado el 27 de junio de 2022 .
^ ab Harman, Donna (2011). Evaluación de la recuperación de información. Síntesis de conferencias sobre conceptos, recuperación y servicios de información. Cham, Suiza: Springer. doi :10.1007/978-3-031-02276-0. ISBN 978-3-031-02276-0. Número de identificación del sujeto 207318946.
^ Sanderson, Mark (2010). "Evaluación de sistemas de recuperación de información basada en recopilación de pruebas". Fundamentos y tendencias en recuperación de información . 4 (4): 247–375. doi :10.1561/1500000009. ISSN 1554-0669.
^ Diccionario de la Asociación Estadounidense de Marketing . [1] Consultado el 2 de noviembre de 2012. La Junta de Normas de Responsabilidad de Marketing (MASB) respalda esta definición como parte de su Proyecto de Lenguaje Común en Marketing en curso Archivado el 5 de abril de 2019 en Wayback Machine .
^ ab Zhu, Mu (2004). "Recall, Precision and Average Precision" (PDF) . Archivado desde el original (PDF) el 4 de mayo de 2011. {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Turpin, Andrew; Scholer, Falk (2006). "Rendimiento del usuario frente a medidas de precisión para tareas de búsqueda sencillas" . Actas de la 29.ª conferencia anual internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información . Nueva York, NY: ACM. pp. 11–18. CiteSeerX 10.1.1.533.4100 . doi :10.1145/1148170.1148176. ISBN . 978-1-59593-369-0.S2CID 9810253 .
^ ab Everingham, Mark; Van Gool, Luc; Williams, Christopher KI; Winn, John; Zisserman, Andrew (junio de 2010). "El desafío de las clases de objetos visuales (VOC) de PASCAL" (PDF) . Revista internacional de visión por computadora . 88 (2): 303–338. doi :10.1007/s11263-009-0275-4. hdl : 20.500.11820/88a29de3-6220-442b-ab2d-284210cf72d6 . S2CID 4246903. Archivado desde el original (PDF) el 20 de noviembre de 2011 . Consultado el 29 de agosto de 2011 .
^ ab Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich (2008). Introducción a la recuperación de información. Prensa de la Universidad de Cambridge.
^ "El kit de desarrollo del PASCAL Visual Object Classes Challenge 2012 (VOC2012)". host.robots.ox.ac.uk . Consultado el 23 de marzo de 2019 .
^ KH Brodersen, CS Ong, KE Stephan, JM Buhmann (2010). El supuesto binormal en las curvas de precisión-recuperación Archivado el 8 de diciembre de 2012 en Wayback Machine . Actas de la 20.ª Conferencia Internacional sobre Reconocimiento de Patrones , 4263-4266.
^ Boyd, K., Davis, J., Page, D. y Costa, VS (2012). Región inalcanzable en el espacio de precisión-recuperación y su efecto en la evaluación empírica. Actas de la... Conferencia internacional sobre aprendizaje automático. Conferencia internacional sobre aprendizaje automático, 2012, 349 .
^ Kalervo, J~irvelin (2017). "Métodos de evaluación IR para recuperar documentos altamente relevantes" (PDF) . Foro ACM SIGIR . 51, 2 : 243–250.
^ a b C Christopher D. Manning; Prabhakar Raghavan y Hinrich Schütze (2009). «Capítulo 8: Evaluación en la recuperación de información» (PDF) . Consultado el 14 de junio de 2015 . Parte de Introducción a la recuperación de información [2]
^ abcde http://trec.nist.gov/pubs/trec15/appendices/CE.MEASURES06.pdf ^{[ URL básica PDF ]}
^ C. Lioma; JG Simonsen; B. Larsen (2017). "Medidas de evaluación de relevancia y credibilidad en listas clasificadas" (PDF) . Actas de la Conferencia internacional ACM SIGIR sobre teoría de recuperación de información , 91-98.