stringtranslate.com

Precisión y recuperación

Precisión y recuperación

En el reconocimiento de patrones , la recuperación de información , la detección y clasificación de objetos (aprendizaje automático) , la precisión y la recuperación son métricas de rendimiento que se aplican a los datos recuperados de una colección , un corpus o un espacio muestral .

La precisión (también llamada valor predictivo positivo ) es la fracción de instancias relevantes entre las instancias recuperadas. Escrita como una fórmula:

La recuperación (también conocida como sensibilidad ) es la fracción de instancias relevantes que se recuperaron. Escrita como una fórmula:

Por lo tanto, tanto la precisión como la recuperación se basan en la relevancia .

Consideremos un programa informático para reconocer perros (el elemento relevante ) en una fotografía digital. Al procesar una imagen que contiene diez gatos y doce perros, el programa identifica ocho perros. De los ocho elementos identificados como perros, solo cinco son realmente perros ( verdaderos positivos ), mientras que los otros tres son gatos ( falsos positivos ). Se pasaron por alto siete perros ( falsos negativos ) y se excluyeron correctamente siete gatos ( verdaderos negativos ). La precisión del programa es entonces de 5/8 (verdaderos positivos/elementos seleccionados) mientras que su recuperación es de 5/12 (verdaderos positivos/elementos relevantes).

Adoptando un enfoque de prueba de hipótesis , donde en este caso la hipótesis nula es que un elemento dado es irrelevante (no es un perro), la ausencia de errores de tipo I y tipo II ( especificidad y sensibilidad perfectas ) corresponde respectivamente a una precisión perfecta (sin falsos positivos) y un recuerdo perfecto (sin falsos negativos).

En términos más generales, el recuerdo es simplemente el complemento de la tasa de error de tipo II (es decir, uno menos la tasa de error de tipo II). La precisión está relacionada con la tasa de error de tipo I, pero de una manera un poco más complicada, ya que también depende de la distribución previa de ver un elemento relevante frente a uno irrelevante.

El ejemplo del gato y el perro anterior contenía 8 − 5 = 3 errores de tipo I (falsos positivos) de un total de 10 gatos (verdaderos negativos), para una tasa de error de tipo I de 3/10, y 12 − 5 = 7 errores de tipo II (falsos negativos), para una tasa de error de tipo II de 7/12. La precisión puede considerarse una medida de calidad y la recuperación como una medida de cantidad. Una mayor precisión significa que un algoritmo devuelve más resultados relevantes que irrelevantes, y una recuperación alta significa que un algoritmo devuelve la mayoría de los resultados relevantes (independientemente de que se devuelvan también los irrelevantes o no).

Introducción

En una tarea de clasificación , la precisión para una clase es el número de verdaderos positivos (es decir, el número de elementos etiquetados correctamente como pertenecientes a la clase positiva) dividido por el número total de elementos etiquetados como pertenecientes a la clase positiva (es decir, la suma de verdaderos positivos y falsos positivos , que son elementos etiquetados incorrectamente como pertenecientes a la clase). La recuperación en este contexto se define como el número de verdaderos positivos dividido por el número total de elementos que realmente pertenecen a la clase positiva (es decir, la suma de verdaderos positivos y falsos negativos , que son elementos que no fueron etiquetados como pertenecientes a la clase positiva pero deberían haberlo sido).

La precisión y la recuperación no son métricas particularmente útiles cuando se utilizan de forma aislada. Por ejemplo, es posible lograr una recuperación perfecta simplemente recuperando cada elemento. Del mismo modo, es posible lograr una precisión perfecta seleccionando solo un número muy pequeño de elementos extremadamente probables.

En una tarea de clasificación, una puntuación de precisión de 1,0 para una clase C significa que cada elemento etiquetado como perteneciente a la clase C pertenece de hecho a la clase C (pero no dice nada sobre la cantidad de elementos de la clase C que no fueron etiquetados correctamente), mientras que una recuperación de 1,0 significa que cada elemento de la clase C fue etiquetado como perteneciente a la clase C (pero no dice nada sobre cuántos elementos de otras clases también fueron etiquetados incorrectamente como pertenecientes a la clase C).

A menudo, existe una relación inversa entre precisión y recuperación, donde es posible aumentar una a costa de reducir la otra, pero el contexto puede dictar si una es más valorada en una situación determinada:

Un detector de humo está diseñado generalmente para cometer muchos errores de Tipo I (para alertar en muchas situaciones en las que no hay peligro), porque el costo de un error de Tipo II (no hacer sonar una alarma durante un incendio importante) es prohibitivamente alto. Por ello, los detectores de humo están diseñados teniendo en cuenta la capacidad de recordar la alarma (para detectar todo peligro real), aunque se le da poco peso a las pérdidas de precisión (y se producen muchas falsas alarmas). En la otra dirección, la razón de Blackstone , "es mejor que diez personas culpables escapen a que un inocente sufra", enfatiza los costos de un error de Tipo I (condenar a una persona inocente). Por ello, el sistema de justicia penal está orientado a la precisión (no a condenar a inocentes), incluso a costa de pérdidas en la capacidad de recordar la alarma (dejar que más personas culpables salgan libres).

Un neurocirujano que extirpa un tumor canceroso del cerebro de un paciente también ilustra las ventajas y desventajas: el cirujano debe extirpar todas las células tumorales, ya que cualquier célula cancerosa restante regenerará el tumor. Por el contrario, el cirujano no debe extirpar células cerebrales sanas, ya que eso dejaría al paciente con una función cerebral deteriorada. El cirujano puede ser más liberal en el área del cerebro que extirpa para asegurarse de haber extraído todas las células cancerosas. Esta decisión aumenta la memoria pero reduce la precisión. Por otro lado, el cirujano puede ser más conservador en las células cerebrales que extirpa para asegurarse de extraer solo células cancerosas. Esta decisión aumenta la precisión pero reduce la memoria. Es decir, una mayor memoria aumenta las posibilidades de eliminar células sanas (resultado negativo) y aumenta las posibilidades de eliminar todas las células cancerosas (resultado positivo). Una mayor precisión disminuye las posibilidades de eliminar células sanas (resultado positivo), pero también disminuye las posibilidades de eliminar todas las células cancerosas (resultado negativo).

Por lo general, las puntuaciones de precisión y recuperación no se analizan de forma aislada. Una curva de precisión-recuperación traza la precisión como una función de la recuperación; por lo general, la precisión disminuirá a medida que aumenta la recuperación. Alternativamente, los valores de una medida se pueden comparar para un nivel fijo en la otra medida (por ejemplo, precisión en un nivel de recuperación de 0,75 ) o ambos se combinan en una sola medida. Ejemplos de medidas que son una combinación de precisión y recuperación son la medida F (la media armónica ponderada de precisión y recuperación), o el coeficiente de correlación de Matthews , que es una media geométrica de las variantes corregidas por el azar: los coeficientes de regresión Informedness (DeltaP') y Markedness (DeltaP). [1] [2] La exactitud es una media aritmética ponderada de la precisión y la precisión inversa (ponderada por el sesgo), así como una media aritmética ponderada del recuerdo y el recuerdo inverso (ponderado por la prevalencia). [1] La precisión inversa y la recuperación inversa son simplemente la precisión y la recuperación del problema inverso donde se intercambian las etiquetas positivas y negativas (tanto para las clases reales como para las etiquetas de predicción). La tasa de positivos verdaderos y la tasa de positivos falsos , o equivalentemente la recuperación y 1 - recuperación inversa, se representan con frecuencia entre sí como curvas ROC y proporcionan un mecanismo basado en principios para explorar las compensaciones del punto de operación. Fuera de la recuperación de información, se argumenta que la aplicación de la recuperación, la precisión y la medida F son defectuosas ya que ignoran la celda negativa verdadera de la tabla de contingencia y se manipulan fácilmente sesgando las predicciones. [1] El primer problema se "resuelve" utilizando la precisión y el segundo problema se "resuelve" descontando el componente de probabilidad y renormalizando a kappa de Cohen , pero esto ya no brinda la oportunidad de explorar las compensaciones gráficamente. Sin embargo, la información y la marcación son renormalizaciones de tipo Kappa de la recuperación y la precisión, [3] y su coeficiente de correlación de Matthews de media geométrica actúa así como una medida F desviada.

Definición

En las tareas de clasificación, los términos verdaderos positivos , verdaderos negativos , falsos positivos y falsos negativos comparan los resultados del clasificador bajo prueba con juicios externos confiables. Los términos positivo y negativo se refieren a la predicción del clasificador (a veces conocida como expectativa ), y los términos verdadero y falso se refieren a si esa predicción corresponde al juicio externo (a veces conocido como observación ).

Definamos un experimento a partir de P casos positivos y N casos negativos para alguna condición. Los cuatro resultados se pueden formular en una tabla de contingencia o matriz de confusión de 2×2 , de la siguiente manera:

  1. ^ el número de casos positivos reales en los datos
  2. ^ Un resultado de prueba que indica correctamente la presencia de una condición o característica
  3. ^ Error tipo II: Un resultado de prueba que indica erróneamente que una condición o atributo particular está ausente
  4. ^ el número de casos negativos reales en los datos
  5. ^ Un resultado de prueba que indica correctamente la ausencia de una condición o característica
  6. ^ Error tipo I: Un resultado de prueba que indica erróneamente que está presente una condición o atributo particular


La precisión y la recuperación se definen entonces como: [12]

En este contexto, la recuperación también se conoce como la tasa de verdaderos positivos o sensibilidad , y la precisión también se conoce como valor predictivo positivo (VPP); otras medidas relacionadas que se utilizan en la clasificación incluyen la tasa de verdaderos negativos y la precisión . [12] La tasa de verdaderos negativos también se denomina especificidad .

Precisión vs. recuperación

Tanto la precisión como la recuperación pueden ser útiles en casos en los que hay desequilibrios en los datos. Sin embargo, puede ser valioso priorizar una sobre la otra en casos en los que el resultado de un falso positivo o un falso negativo sea costoso. Por ejemplo, en el diagnóstico médico, una prueba con un falso positivo puede dar lugar a tratamientos y gastos innecesarios. En esta situación, es útil valorar la precisión sobre la recuperación. En otros casos, el coste de un falso negativo es alto. Por ejemplo, el coste de un falso negativo en la detección de fraudes es alto, ya que no detectar una transacción fraudulenta puede dar lugar a una pérdida financiera significativa. [13]

Definición probabilística

La precisión y la recuperación se pueden interpretar como probabilidades condicionales (estimadas) : [14] La precisión está dada por mientras que la recuperación está dada por , [15] donde es la clase predicha y es la clase real (es decir, significa que la clase real es positiva). Ambas cantidades están, por lo tanto, conectadas por el teorema de Bayes .

Clasificadores sin habilidades

La interpretación probabilística permite derivar fácilmente cómo se comportaría un clasificador sin habilidad. Un clasificador sin habilidad se define por la propiedad de que la probabilidad conjunta es simplemente el producto de las probabilidades incondicionales, ya que la clasificación y la presencia de la clase son independientes .

Por ejemplo, la precisión de un clasificador sin habilidad es simplemente una constante, es decir, está determinada por la probabilidad/frecuencia con la que ocurre la clase P.

Se puede hacer un argumento similar en cuanto al recall: que es la probabilidad de una clasificación positiva.

Datos desequilibrados

La precisión puede ser una métrica engañosa para conjuntos de datos desequilibrados. Considere una muestra con 95 valores negativos y 5 positivos. Clasificar todos los valores como negativos en este caso da una puntuación de precisión de 0,95. Hay muchas métricas que no sufren este problema. Por ejemplo, la precisión equilibrada [16] (bACC) normaliza las predicciones positivas y negativas verdaderas por el número de muestras positivas y negativas, respectivamente, y divide su suma por dos:

En el ejemplo anterior (95 muestras negativas y 5 positivas), clasificar todas como negativas da como resultado una puntuación de precisión equilibrada de 0,5 (la puntuación máxima de bACC es uno), que es equivalente al valor esperado de una suposición aleatoria en un conjunto de datos equilibrados. La precisión equilibrada puede servir como una métrica de rendimiento general para un modelo, independientemente de si las etiquetas verdaderas están desequilibradas o no en los datos, suponiendo que el costo de FN es el mismo que el de FP.

El TPR y el FPR son una propiedad de un clasificador determinado que opera en un umbral específico. Sin embargo, el número total de TP, FP, etc. depende del desequilibrio de clase en los datos a través de la relación de clase . Como la recuperación (o TPR) depende solo de los casos positivos, no se ve afectada por , pero la precisión sí. Tenemos que

Por lo tanto, la precisión tiene una dependencia explícita de . [17] Comenzando con clases balanceadas en y disminuyendo gradualmente , la precisión correspondiente disminuirá, porque el denominador aumenta.

Otra métrica es la tasa de condición positiva prevista (PPCR), que identifica el porcentaje de la población total que está marcada. Por ejemplo, para un motor de búsqueda que devuelve 30 resultados (documentos recuperados) de 1.000.000 de documentos, la PPCR es del 0,003 %.

Según Saito y Rehmsmeier, los gráficos de precisión-recuperación son más informativos que los gráficos ROC a la hora de evaluar clasificadores binarios en datos desequilibrados. En tales escenarios, los gráficos ROC pueden ser visualmente engañosos con respecto a las conclusiones sobre la fiabilidad del rendimiento de la clasificación. [18]

A diferencia de los enfoques anteriores, si se aplica una escala de desequilibrio directamente ponderando los elementos de la matriz de confusión, las definiciones de métricas estándar aún se aplican incluso en el caso de conjuntos de datos desequilibrados. [19] El procedimiento de ponderación relaciona los elementos de la matriz de confusión con el conjunto de soporte de cada clase considerada.

Medida F

Una medida que combina precisión y recuperación es la media armónica de precisión y recuperación, la medida F tradicional o puntuación F equilibrada:

Esta medida es aproximadamente el promedio de los dos cuando están cerca, y es más generalmente la media armónica , que, para el caso de dos números, coincide con el cuadrado de la media geométrica dividido por la media aritmética . Hay varias razones por las que el F-score puede ser criticado, en circunstancias particulares, debido a su sesgo como métrica de evaluación. [1] Esto también se conoce como la medida, porque la recuperación y la precisión tienen un peso uniforme.

Es un caso especial de la medida general (para valores reales no negativos de  ):

Otras dos medidas comúnmente utilizadas son la medida, que pondera la recuperación más que la precisión, y la medida, que pone más énfasis en la precisión que en la recuperación.

La medida F fue derivada por van Rijsbergen (1979) de modo que "mide la efectividad de la recuperación con respecto a un usuario que otorga tanta importancia a la recuperación como a la precisión". Se basa en la medida de efectividad de van Rijsbergen , siendo el segundo término la media armónica ponderada de la precisión y la recuperación con pesos . Su relación es donde .

Limitaciones como metas

Existen otros parámetros y estrategias para medir el rendimiento del sistema de recuperación de información, como el área bajo la curva ROC (AUC) [20] o el pseudo-R-cuadrado .

Evaluación multiclase

Los valores de precisión y recuperación también se pueden calcular para problemas de clasificación con más de dos clases. [21] Para obtener la precisión para una clase dada, dividimos el número de verdaderos positivos por el sesgo del clasificador hacia esta clase (número de veces que el clasificador ha predicho la clase). Para calcular la recuperación para una clase dada, dividimos el número de verdaderos positivos por la prevalencia de esta clase (número de veces que la clase aparece en la muestra de datos).

Los valores de precisión y recuperación por clase se pueden combinar luego en un puntaje de evaluación general de múltiples clases, por ejemplo, utilizando la métrica macro F1 .

Véase también

Referencias

  1. ^ abcd Powers, David MW (2011). "Evaluación: de precisión, recuperación y medida F a ROC, información, marcación y correlación" (PDF) . Journal of Machine Learning Technologies . 2 (1): 37–63. Archivado desde el original (PDF) el 14 de noviembre de 2019.
  2. ^ Perruchet, P.; Peereman, R. (2004). "La explotación de la información distributiva en el procesamiento de sílabas". J. Neurolinguistics . 17 (2–3): 97–119. doi :10.1016/s0911-6044(03)00059-9. S2CID  17104364.
  3. ^ Powers, David MW (2012). "El problema con Kappa". Conferencia del Capítulo Europeo de la Asociación de Lingüística Computacional (EACL2012) Taller conjunto ROBUS-UNSUP .
  4. ^ Fawcett, Tom (2006). "Introducción al análisis ROC" (PDF) . Pattern Recognition Letters . 27 (8): 861–874. doi :10.1016/j.patrec.2005.10.010. S2CID  2027090.
  5. ^ Provost, Foster; Tom Fawcett (1 de agosto de 2013). "Ciencia de datos para empresas: lo que necesita saber sobre minería de datos y pensamiento analítico de datos". O'Reilly Media, Inc.
  6. ^ Powers, David MW (2011). "Evaluación: desde precisión, recuperación y medida F hasta ROC, información, marcación y correlación". Revista de tecnologías de aprendizaje automático . 2 (1): 37–63.
  7. ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Enciclopedia del aprendizaje automático . Springer. doi :10.1007/978-0-387-30164-8. ISBN. 978-0-387-30164-8.
  8. ^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (26 de enero de 2015). "Grupo de trabajo conjunto WWRP/WGNE sobre investigación de verificación de pronósticos". Colaboración para la investigación meteorológica y climática australiana . Organización Meteorológica Mundial . Consultado el 17 de julio de 2019 .
  9. ^ Chicco D, Jurman G (enero de 2020). "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de la clasificación binaria". BMC Genomics . 21 (1): 6-1–6-13. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID  31898477. 
  10. ^ Chicco D, Toetsch N, Jurman G (febrero de 2021). "El coeficiente de correlación de Matthews (MCC) es más confiable que la precisión equilibrada, la información de la casa de apuestas y la marcación en la evaluación de la matriz de confusión de dos clases". Minería de datos biológicos . 14 (13): 13. doi : 10.1186/s13040-021-00244-z . PMC 7863449 . PMID  33541410. 
  11. ^ Tharwat A. (agosto de 2018). "Métodos de evaluación de la clasificación". Computación e informática aplicada . 17 : 168–192. doi : 10.1016/j.aci.2018.08.003 .
  12. ^ ab Olson, David L.; y Delen, Dursun (2008); Advanced Data Mining Techniques , Springer, 1.ª edición (1 de febrero de 2008), página 138, ISBN 3-540-76916-1 
  13. ^ "Precisión vs. recuperación: diferencias, casos de uso y evaluación".
  14. ^ Fatih Cakir, Kun He, Xide Xia, Brian Kulis, Stan Sclaroff, Aprendizaje métrico profundo para clasificar, en Proc. Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR), 2019.
  15. ^ Roelleke, Thomas (31 de mayo de 2022). Modelos de recuperación de información: fundamentos y relaciones. Springer Nature. ISBN 978-3-031-02328-6.
  16. ^ Mower, Jeffrey P. (12 de abril de 2005). "PREP-Mt: editor predictivo de ARN para genes mitocondriales de plantas". BMC Bioinformatics . 6 : 96. doi : 10.1186/1471-2105-6-96 . ISSN  1471-2105. PMC 1087475 . PMID  15826309. 
  17. ^ Williams, Christopher KI (1 de abril de 2021). "El efecto del desequilibrio de clases en las curvas de precisión-recuperación". Computación neuronal . 33 (4): 853–857. arXiv : 2007.01905 . doi :10.1162/neco_a_01362. hdl :20.500.11820/8a709831-cbfe-4c8e-a65b-aee5429e5b9b. ISSN  0899-7667.
  18. ^ Saito, Takaya; Rehmsmeier, Marc (4 de marzo de 2015). Brock, Guy (ed.). "El gráfico de precisión-recuperación es más informativo que el gráfico ROC al evaluar clasificadores binarios en conjuntos de datos desequilibrados". PLOS ONE . ​​10 (3): e0118432. Bibcode :2015PLoSO..1018432S. doi : 10.1371/journal.pone.0118432 . ISSN  1932-6203. PMC 4349800 . PMID  25738806. 
    • Suzanne Ekelund (marzo de 2017). "Curvas de precisión-recuperación: ¿qué son y cómo se utilizan?". Pruebas de cuidados intensivos .
  19. ^ Tripicchio, Paolo; Camacho-Gonzalez, Gerardo; D'Avella, Salvatore (2020). "Detección de defectos de soldadura: cómo lidiar con los artefactos en la línea de producción". Revista internacional de tecnología de fabricación avanzada . 111 (5): 1659–1669. doi :10.1007/s00170-020-06146-4. S2CID  225136860.
  20. ^ Zygmunt Zając. Lo que querías saber sobre la AUC. http://fastml.com/what-you-wanted-to-know-about-auc/
  21. ^ Opitz, Juri (2024). "Una mirada más cercana a las métricas de evaluación de clasificación y una reflexión crítica de la práctica de evaluación común". Transacciones de la Asociación de Lingüística Computacional . 12 : 820–836. arXiv : 2404.16958 . doi :10.1162/tacl_a_00675.

Enlaces externos