Las medidas de evaluación de un sistema de recuperación de información (IR) evalúan la eficacia con la que un índice, motor de búsqueda o base de datos devuelve resultados de una colección de recursos que satisfacen la consulta de un usuario. Por lo tanto, son fundamentales para el éxito de los sistemas de información y las plataformas digitales.
El factor más importante para determinar la eficacia de un sistema para los usuarios es la relevancia general de los resultados obtenidos en respuesta a una consulta. [1] El éxito de un sistema IR puede juzgarse mediante una serie de criterios, entre ellos la relevancia, la velocidad, la satisfacción del usuario, la facilidad de uso, la eficiencia y la fiabilidad. [2] Las medidas de evaluación pueden clasificarse de diversas formas, como en línea o fuera de línea, basadas en el usuario o basadas en el sistema, e incluyen métodos como el comportamiento observado del usuario, las colecciones de pruebas, la precisión y la recuperación, y las puntuaciones de los conjuntos de pruebas de referencia preparados.
La evaluación de un sistema de recuperación de información también debe incluir una validación de las medidas utilizadas, es decir, una evaluación de qué tan bien miden lo que pretenden medir y qué tan bien el sistema se ajusta al caso de uso previsto. [3] Las medidas se utilizan generalmente en dos entornos: la experimentación en línea, que evalúa las interacciones de los usuarios con el sistema de búsqueda, y la evaluación fuera de línea, que mide la eficacia de un sistema de recuperación de información en una colección estática fuera de línea.
Los métodos de indexación y clasificación para ayudar a la recuperación de información tienen una larga historia que se remonta a las primeras bibliotecas y colecciones; sin embargo, la evaluación sistemática de su eficacia comenzó en serio en la década de 1950 con la rápida expansión de la producción de investigaciones en los ámbitos militar, gubernamental y educativo y la introducción de catálogos informáticos. En ese momento, existían varios sistemas de indexación, clasificación y catalogación diferentes que eran costosos de producir y no estaba claro cuál era el más eficaz. [4]
Cyril Cleverdon , bibliotecario de la Facultad de Aeronáutica de Cranfield (Inglaterra), inició una serie de experimentos sobre métodos de indexación y recuperación de documentos impresos en lo que se conoce como el paradigma de Cranfield o pruebas de Cranfield, que establecieron el estándar para las medidas de evaluación de IR durante muchos años. [4] Cleverdon desarrolló una prueba llamada «búsqueda de elementos conocidos» para comprobar si un sistema de IR devolvía los documentos que se sabía que eran relevantes o correctos para una búsqueda determinada. Los experimentos de Cleverdon establecieron una serie de aspectos clave necesarios para la evaluación de IR: una colección de prueba, un conjunto de consultas y un conjunto de elementos relevantes predeterminados que combinados determinarían la precisión y la recuperación.
El enfoque de Cleverdon sirvió de modelo para la exitosa serie de conferencias sobre recuperación de texto que comenzó en 1992.
La evaluación de los sistemas IR es fundamental para el éxito de cualquier motor de búsqueda, incluidas las búsquedas en Internet, las búsquedas en sitios web, las bases de datos y los catálogos de bibliotecas. Las medidas de evaluación se utilizan en estudios de comportamiento de la información , pruebas de usabilidad , costos comerciales y evaluaciones de eficiencia. La medición de la efectividad de los sistemas IR ha sido el principal foco de la investigación IR, basada en colecciones de prueba combinadas con medidas de evaluación. [5] Se han establecido varias conferencias académicas que se centran específicamente en las medidas de evaluación, incluidas la Text Retrieval Conference (TREC), Conference and Labs of the Evaluation Forum (CLEF) y NTCIR.
Las métricas en línea generalmente se crean a partir de registros de búsqueda y se utilizan a menudo para determinar el éxito de una prueba A/B .
La tasa de abandono de sesión es una proporción de sesiones de búsqueda que no resultan en un clic.
La tasa de clics (CTR) es la relación entre los usuarios que hacen clic en un enlace específico y el número total de usuarios que ven una página, un correo electrónico o un anuncio. Se utiliza habitualmente para medir el éxito de una campaña publicitaria en línea para un sitio web en particular, así como la eficacia de las campañas por correo electrónico. [6]
La tasa de éxito de la sesión mide la proporción de sesiones de usuario que conducen a un resultado exitoso. La definición de "éxito" suele depender del contexto, pero en el caso de las búsquedas, un resultado exitoso suele medirse utilizando el tiempo de permanencia como factor principal junto con la interacción secundaria del usuario; por ejemplo, el usuario que copia la URL del resultado se considera un resultado exitoso, al igual que copiar y pegar desde el fragmento.
La tasa de resultados cero ( ZRR ) es la proporción de páginas de resultados de motores de búsqueda (SERP) que arrojaron cero resultados. La métrica indica un problema de recuperación o que la información que se busca no está en el índice.
Las métricas offline generalmente se crean a partir de sesiones de juicio de relevancia donde los jueces califican la calidad de los resultados de búsqueda. Se pueden usar escalas binarias (relevante/no relevante) y multinivel (por ejemplo, relevancia de 0 a 5) para calificar cada documento devuelto en respuesta a una consulta. En la práctica, las consultas pueden estar mal planteadas y puede haber diferentes matices de relevancia. Por ejemplo, hay ambigüedad en la consulta "marte": el juez no sabe si el usuario está buscando el planeta Marte , la barra de chocolate Marte , el cantante Bruno Mars o la deidad romana Marte .
La precisión es la fracción de los documentos recuperados que son relevantes para la necesidad de información del usuario.
En la clasificación binaria , la precisión es análoga al valor predictivo positivo . La precisión tiene en cuenta todos los documentos recuperados. También se puede evaluar considerando solo los resultados más importantes devueltos por el sistema utilizando Precision@k.
Téngase en cuenta que el significado y el uso de "precisión" en el campo de la recuperación de información difieren de la definición de exactitud y precisión dentro de otras ramas de la ciencia y la estadística .
La recuperación es la fracción de los documentos relevantes para la consulta que se recuperan con éxito.
En la clasificación binaria, la recuperación suele denominarse sensibilidad . Por lo tanto, puede considerarse como la probabilidad de que la consulta recupere un documento relevante .
Es fácil lograr una recuperación del 100 % devolviendo todos los documentos en respuesta a cualquier consulta. Por lo tanto, la recuperación por sí sola no es suficiente, sino que también es necesario medir la cantidad de documentos no relevantes, por ejemplo, calculando la precisión.
La proporción de documentos no relevantes que se recuperan, de todos los documentos no relevantes disponibles:
En la clasificación binaria, la probabilidad de que se recupere un documento no relevante es lo opuesto a la especificidad y es igual a .
Es trivial lograr una caída del 0% al devolver cero documentos en respuesta a cualquier consulta.
La media armónica ponderada de precisión y recuperación, la medida F tradicional o puntuación F equilibrada es:
Esto también se conoce como la medida, porque la recuperación y la precisión tienen el mismo peso.
La fórmula general para números reales no negativos es:
Otras dos medidas F comúnmente utilizadas son la medida, que pondera la recuperación dos veces más que la precisión, y la medida, que pondera la precisión dos veces más que la recuperación.
La medida F fue derivada por van Rijsbergen (1979) de modo que "mide la efectividad de la recuperación con respecto a un usuario que otorga tanta importancia a la recuperación como a la precisión". Se basa en la medida de efectividad de van Rijsbergen . Su relación es:
Dado que la medida F combina información tanto de precisión como de recuperación, es una forma de representar el rendimiento general sin presentar dos números.
La precisión y la recuperación son métricas de un solo valor basadas en la lista completa de documentos devueltos por el sistema. Para los sistemas que devuelven una secuencia clasificada de documentos, es conveniente considerar también el orden en el que se presentan los documentos devueltos. Al calcular una precisión y una recuperación en cada posición en la secuencia clasificada de documentos, se puede trazar una curva de precisión-recuperación, trazando la precisión como una función de la recuperación . La precisión promedio calcula el valor promedio de en el intervalo de a : [7]
Esa es el área bajo la curva de precisión-recuperación. En la práctica, esta integral se reemplaza por una suma finita sobre cada posición en la secuencia clasificada de documentos:
donde es el rango en la secuencia de documentos recuperados, es el número de documentos recuperados, es la precisión en el punto de corte en la lista y es el cambio en la recuperación de elementos a . [7]
Esta suma finita es equivalente a:
donde es una función indicadora que es igual a 1 si el elemento en el rango es un documento relevante, cero en caso contrario. [8] Nótese que el promedio es sobre los documentos relevantes en los k documentos recuperados principales y los documentos relevantes no recuperados obtienen una puntuación de precisión de cero.
Algunos autores optan por interpolar la función para reducir el impacto de los "sacudidas" en la curva. [9] [10] Por ejemplo, el desafío PASCAL Visual Object Classes (un punto de referencia para la detección de objetos mediante visión artificial) hasta 2010 [11] calculaba la precisión promedio promediando la precisión sobre un conjunto de niveles de recuperación espaciados uniformemente {0, 0,1, 0,2, ... 1,0}: [9] [10]
donde es una precisión interpolada que toma la precisión máxima sobre todas las recuperaciones mayores que :
Una alternativa es derivar una función analítica suponiendo una distribución paramétrica particular para los valores de decisión subyacentes. Por ejemplo, se puede obtener una curva de precisión-recuperación binormal suponiendo que los valores de decisión en ambas clases siguen una distribución gaussiana. [12]
El AveP mínimo alcanzable para una tarea de clasificación dada viene dado por:
[13]
Para la recuperación de información moderna (a escala web), la recuperación ya no es una métrica significativa, ya que muchas consultas tienen miles de documentos relevantes y pocos usuarios estarán interesados en leerlos todos. La precisión en k documentos (P@k) sigue siendo una métrica útil (por ejemplo, P@10 o "Precisión en 10" corresponde al número de resultados relevantes entre los 10 documentos recuperados más importantes), pero no tiene en cuenta las posiciones de los documentos relevantes entre los k principales. [14] Otra deficiencia es que en una consulta con menos resultados relevantes que k, incluso un sistema perfecto tendrá una puntuación inferior a 1. [15] Es más fácil puntuar manualmente, ya que solo es necesario examinar los k resultados principales para determinar si son relevantes o no.
La precisión R requiere conocer todos los documentos que son relevantes para una consulta. La cantidad de documentos relevantes, , se utiliza como punto de corte para el cálculo, y esto varía de una consulta a otra. Por ejemplo, si hay 15 documentos relevantes para "rojo" en un corpus (R=15), la precisión R para "rojo" analiza los 15 documentos principales devueltos, cuenta la cantidad que es relevante y la convierte en una fracción de relevancia: . [16]
Tenga en cuenta que la R-Precisión es equivalente tanto a la precisión en la posición -ésima (P@ ) como a la recuperación en la posición -ésima. [15]
Empíricamente, esta medida suele estar altamente correlacionada con la precisión promedio. [15]
La precisión promedio media (MAP) para un conjunto de consultas es la media de las puntuaciones de precisión promedio para cada consulta.
donde Q es el número de consultas.
DCG utiliza una escala de relevancia graduada de los documentos del conjunto de resultados para evaluar la utilidad o la utilidad de un documento en función de su posición en la lista de resultados. La premisa de DCG es que los documentos muy relevantes que aparecen más abajo en una lista de resultados de búsqueda deben ser penalizados, ya que el valor de relevancia graduada se reduce de forma logarítmica proporcional a la posición del resultado.
El DCG acumulado en una posición de rango particular se define como:
Dado que el conjunto de resultados puede variar en tamaño entre distintas consultas o sistemas, para comparar los resultados, la versión normalizada de DCG utiliza un DCG ideal. Para ello, ordena los documentos de una lista de resultados por relevancia, lo que produce un DCG ideal en la posición p ( ), que normaliza la puntuación:
Los valores nDCG de todas las consultas se pueden promediar para obtener una medida del rendimiento promedio de un algoritmo de clasificación. Tenga en cuenta que en un algoritmo de clasificación perfecto, será igual que producir un nDCG de 1,0. Todos los cálculos nDCG son entonces valores relativos en el intervalo de 0,0 a 1,0 y, por lo tanto, son comparables entre consultas.
Las visualizaciones del rendimiento de recuperación de información incluyen:
La medición de la cantidad de consultas que se realizan en el sistema de búsqueda por (mes/día/hora/minuto/seg) permite realizar un seguimiento de la utilización del sistema de búsqueda. Se puede utilizar para realizar diagnósticos a fin de indicar un aumento inesperado en las consultas o simplemente como una línea de base para comparar con otras métricas, como la latencia de las consultas. Por ejemplo, un aumento en el tráfico de consultas se puede utilizar para explicar un aumento en la latencia de las consultas.
{{cite journal}}
: Requiere citar revista |journal=
( ayuda )