El área bajo la curva ROC (AUC) [1] [2] se utiliza a menudo para resumir en un único número la capacidad diagnóstica del clasificador. El AUC se define simplemente como el área del espacio ROC que se encuentra por debajo de la curva ROC.
Sin embargo, en el espacio ROC hay regiones donde los valores de FPR o TPR son inaceptables o no son viables en la práctica. Por ejemplo, la región donde FPR es mayor que 0,8 implica que más del 80% de los sujetos negativos se clasifican incorrectamente como positivos: esto es inaceptable en muchos casos reales. Como consecuencia, el AUC calculado en todo el espacio ROC (es decir, con FPR y TPR en un rango de 0 a 1) puede proporcionar indicaciones engañosas.
Para superar esta limitación del AUC, se propuso [3] calcular el área bajo la curva ROC en el área del espacio ROC que corresponde a valores interesantes (es decir, prácticamente viables o aceptables) de FPR y TPR.
Concepto básico
En el espacio ROC, donde x=FPR (tasa de falsos positivos) e y=ROC(x)=TPR (tasa de verdaderos positivos), es
El AUC se utiliza ampliamente, especialmente para comparar el rendimiento de dos (o más) clasificadores binarios: se considera que el clasificador que logra el AUC más alto es el mejor. Sin embargo, al comparar dos clasificadores y , son posibles tres situaciones:
La curva ROC de nunca está por encima de la curva ROC de
La curva ROC de nunca está por debajo de la curva ROC de
Las curvas ROC de los clasificadores se cruzan entre sí.
Existe un consenso general de que en el caso 1 es preferible el clasificador y en el caso 2 es preferible el clasificador. En cambio, en el caso 3) hay regiones del espacio ROC donde es preferible y otras regiones donde es preferible. Esta observación llevó a evaluar la precisión de las clasificaciones mediante el cálculo de métricas de rendimiento que consideran solo una región de interés (RoI) específica en el espacio ROC, en lugar de todo el espacio. Estas métricas de rendimiento se conocen comúnmente como "AUC parcial" (pAUC): el pAUC es el área de la región seleccionada del espacio ROC que se encuentra debajo de la curva ROC.
AUC parcial obtenida restringiendo FPR
La idea del AUC parcial se propuso originalmente [3] con el objetivo de restringir la evaluación de determinadas curvas ROC en el rango de tasas de falsos positivos que se consideran interesantes para fines diagnósticos. Por lo tanto, el AUC parcial se calculó como el área bajo la curva ROC en la banda vertical del espacio ROC donde la FPR está en el rango [ , ].
El pAUC calculado mediante la restricción de FPR ayuda a comparar dos áreas parciales. No obstante, tiene algunas limitaciones:
El RoI debe ser una banda vertical del espacio ROC;
No se dan criterios para identificar el RoI: se espera que algún experto sea capaz de identificar y ;
Al comparar dos clasificadores a través de las curvas ROC asociadas, un cambio relativamente pequeño en la selección del RoI puede llevar a conclusiones diferentes: en el ejemplo anterior, considerar la banda donde lleva a concluir que es mejor, mientras que considerar la banda donde lleva a concluir que es mejor.
AUC parcial obtenida restringiendo TPR
Otro tipo de AUC parcial se obtiene limitando la tasa de positivos verdaderos, en lugar de la tasa de positivos falsos. Es decir, el AUC parcial es el área bajo la curva ROC y por encima de la línea horizontal . [4]
En otras palabras, el pAUC se calcula en la parte del espacio ROC donde la tasa de positivos verdaderos es mayor que un umbral determinado (no se utiliza ningún límite superior, ya que no tendría sentido limitar el número de positivos verdaderos).
Esta propuesta también tiene algunas limitaciones:
Al limitar la tasa de verdaderos positivos, también se establece implícitamente un límite a la tasa de falsos positivos;
No se dan criterios para identificar el ROI: se espera que los expertos puedan identificar la tasa mínima aceptable de verdaderos positivos;
Al comparar dos clasificadores a través de las curvas ROC asociadas, un cambio relativamente pequeño en la selección del RoI puede llevar a conclusiones diferentes: esto sucede cuando está cerca del punto donde las curvas ROC dadas se cruzan entre sí.
AUC parcial obtenida restringiendo tanto FPR como TPR
Se definió un pAUC “bidireccional” restringiendo tanto las tasas de verdaderos positivos como de falsos negativos. [5] Se especifica un valor mínimo para TPR y se establece un valor máximo para FPR, por lo que el RoI es el rectángulo superior izquierdo con vértices en los puntos ( , ), ( , 1), (0, 1) y (0, ). El pAUC bidireccional es el área bajo la curva ROC que pertenece a dicho rectángulo.
El pAUC bidireccional es claramente más flexible que el pAUC definido restringiendo únicamente la FPR o la TPR. En realidad, los dos últimos tipos de pAUC pueden considerarse casos especiales del pAUC bidireccional.
Al igual que con el pAUC descrito anteriormente, al comparar dos clasificadores a través de las curvas ROC asociadas, un cambio relativamente pequeño en la selección del RoI puede llevar a conclusiones diferentes. Este es un tema particularmente delicado, ya que no se dan criterios para identificar el RoI (al igual que con el otro pAUC mencionado, se espera que los expertos puedan identificar y ).
AUC parcial obtenida mediante la aplicación de restricciones objetivas a la región de interés
Se definieron algunos criterios objetivos y sólidos para definir el RoI. [6] [7] Específicamente, el cálculo del pAUC se puede restringir a la región donde
Los clasificadores considerados son mejores (según alguna métrica de rendimiento elegida) que la clasificación aleatoria;
Los clasificadores considerados alcanzan al menos un valor mínimo de algunas métricas de rendimiento elegidas;
El coste debido a clasificaciones erróneas por parte de los clasificadores considerados es aceptable.
Definición del RoI en función del rendimiento de la clasificación aleatoria
Una forma posible de definir la región donde se calcula el pAUC consiste en excluir las regiones del espacio ROC que representan rendimientos peores que el rendimiento logrado por la clasificación aleatoria.
La clasificación aleatoria evalúa un elemento dado como positivo con probabilidad y negativo con probabilidad (1- ). En un conjunto de datos de n elementos, de los cuales AP son realmente positivos, la mejor estimación se obtiene estableciendo ( también se conoce como la "prevalencia" de los positivos en el conjunto de datos).
Se demostró que la clasificación aleatoria con logra , , y , en promedio. [6] Por lo tanto, si las métricas de rendimiento de elección son TPR, FPR y precisión, el RoI debe limitarse a la porción del espacio ROC donde , , y . Se demostró que esta región es el rectángulo que tiene vértices en (0,0), (0,1), ( , 1) y ( , ). [6]
Esta técnica resuelve los problemas de restricción de TPR y FPR cuando se debe calcular pAUC bidireccional: .
El indicador de Relación de Áreas Relevantes (RRA)
Para calcular el pAUC es necesario definir primero un RoI. Por ejemplo, cuando se requiere una mayor precisión que la clasificación aleatoria media, el RoI es el rectángulo que tiene vértices en (0,0), (0,1), ( , 1) y ( , ). Esto implica que el tamaño del RoI varía en función de . Además, el ROC perfecto, es decir, el que pasa por el punto (0,1), tiene un pAUC= (1- ).
Para obtener un indicador basado en pAUC que tenga en cuenta y oscile en [0,1], se propuso RRA: [6]
RRA=1 indica una precisión perfecta, mientras que RRA=0 indica que el área bajo la curva ROC perteneciente al RoI es nula; por lo tanto, la precisión no es mejor que la de la clasificación aleatoria.
Definición del RoI en función de algún umbral de métrica de rendimiento
Existen varias métricas de desempeño disponibles para clasificadores binarios. Una de las más populares es el coeficiente Phi [8] (también conocido como Coeficiente de Correlación de Matthews [9] ). Phi mide qué tan mejor (o peor) es una clasificación, con respecto a la clasificación aleatoria, que se caracteriza por Phi = 0. De acuerdo con los valores de referencia sugeridos por Cohen, [8] se puede tomar Phi = 0.35 como un nivel mínimo aceptable de Phi para una clasificación. En el espacio ROC, Phi igual a una constante no nula corresponde al arco de una elipse, mientras que Phi = 0 corresponde a la diagonal, es decir, a los puntos donde FPR=TPR. Entonces, considerar la porción del ROC donde Phi>0.35 corresponde a definir el RoI como la porción del espacio ROC por encima de la elipse. El pAUC es el área por encima de la elipse y por debajo de la curva ROC.
Definición del ROI en función del coste de las clasificaciones erróneas
La mayoría de los clasificadores binarios producen clasificaciones erróneas, que implican algún costo.
El costo C de las clasificaciones erróneas se define como , donde es el costo unitario de un falso negativo, es el costo unitario de un falso positivo, y FN y FP son, respectivamente, el número de falsos negativos y falsos positivos.
El coste normalizado NC [10] se define como .
Al establecer , obtenemos
El NC promedio obtenido a través de la clasificación aleatoria es [6]
Para evaluar un clasificador excluyendo los desempeños cuyo costo es mayor que , es posible definir el RoI donde el costo normalizado es menor que : dicha región está por encima de la línea
También es posible definir el RoI donde NC es menor que una fracción de . En tal caso, el límite inferior del RoI es la línea
Diferentes valores definen el RoI de la misma manera que algunas de las métricas de rendimiento más conocidas:
equivale a utilizar FPR para delimitar el RoI
equivale a utilizar precisión para delimitar el RoI
equivale a utilizar la puntuación F-1 [11] para delimitar el RoI
equivale a utilizar TPR para delimitar el RoI
Por lo tanto, elegir una métrica de desempeño equivale a elegir un valor específico del costo relativo de los falsos positivos con respecto a los falsos negativos. En el espacio ROC, la pendiente de la línea que representa el costo normalizado constante (por lo tanto, el costo total constante) depende de , o, equivalentemente, de las métricas de desempeño que se utilicen.
Es una práctica común [12] [13] seleccionar como mejor clasificación el punto de la curva ROC con el valor más alto de J de Youden = TPR − FPR. [14] Al considerar el costo asociado con las clasificaciones erróneas, esta práctica corresponde a hacer una hipótesis sobre el costo relativo de los falsos positivos y falsos negativos, que rara vez es correcta. [7]
Cómo calcular pAUC y RRA
Hay bibliotecas de software disponibles para Python y R para calcular pAUC y RRA . [15]
Referencias
^ Van der Schouw, YT; Verbeek, A.; Ruijs, JH (1992). "Curvas ROC para la evaluación inicial de nuevas pruebas diagnósticas". Práctica familiar . 9 (4): 506–511. doi :10.1093/fampra/9.4.506. ISSN 0263-2136. PMID 1490547.
^ Bradley, Andrew P. (1997). "El uso del área bajo la curva ROC en la evaluación de algoritmos de aprendizaje automático". Reconocimiento de patrones . 30 (7): 1145–1159. Bibcode :1997PatRe..30.1145B. doi :10.1016/S0031-3203(96)00142-2. ISSN 0031-3203. S2CID 13806304.
^ ab McClish, DK (1989). "Análisis de una porción de la curva ROC". Toma de decisiones médicas . 9 (3): 190–195. doi :10.1177/0272989X8900900307. ISSN 0272-989X. PMID 2668680. S2CID 24442201.
^ Jiang, Y; Metz, CE; Nishikawa, RM (1996). "Un índice de área parcial de la característica operativa del receptor para pruebas diagnósticas de alta sensibilidad". Radiología . 201 (3): 745–750. doi :10.1148/radiology.201.3.8939225. ISSN 0033-8419. PMID 8939225.
^ Yang, Hanfang; Lu, Kun; Lyu, Xiang; Hu, Feifang (14 de julio de 2017). "AUC parcial bidireccional y sus propiedades". Métodos estadísticos en investigación médica . 28 (1): 184–195. arXiv : 1508.00298 . doi :10.1177/0962280217718866. ISSN 0962-2802. PMID 28707503. S2CID 10666428.
^ abcde Morasca, Sandro; Lavazza, Luigi (19 de agosto de 2020). "Sobre la evaluación de modelos de predicción de defectos de software mediante curvas ROC". Ingeniería de software empírica . 25 (5): 3977–4019. doi : 10.1007/s10664-020-09861-4 . ISSN 1382-3256. S2CID 221167342.
^ ab Lavazza, Luigi; Morasca, Sandro (2021-12-20). "Consideraciones sobre la región de interés en el espacio ROC". Métodos estadísticos en investigación médica . 31 (3): 419–437. doi :10.1177/09622802211060515. ISSN 0962-2802. PMID 34928729. S2CID 245354164.
^ ab Cohen, Jacob (1988). Análisis de potencia estadística para las ciencias del comportamiento, 2.ª edición . Lawrence Earlbaum Associates. ISBN9780203771587.
^ Matthews, BW (1975). "Comparación de la estructura secundaria predicha y observada de la lisozima del fago T4". Biochimica et Biophysica Acta (BBA) - Estructura de proteínas . 405 (2): 442–451. doi :10.1016/0005-2795(75)90109-9. ISSN 0005-2795. PMID 1180967.
^ Cahill, Jaspar; Hogan, James M.; Thomas, Richard (2013). "Predicción de módulos de software propensos a fallas con clasificación de suma de rangos". 22.ª Conferencia Australiana de Ingeniería de Software de 2013. IEEE. págs. 211–219. doi :10.1109/aswec.2013.33. ISBN .978-0-7695-4995-8. Número de identificación del sujeto 302819.
^ van Rijsbergen, CJ (1979). Recuperación de información . Butterworth.
^ Perkins, NJ; Schisterman, EF (2006). "La inconsistencia de los puntos de corte "óptimos" obtenidos utilizando dos criterios basados en la curva característica operativa del receptor". American Journal of Epidemiology . 163 (7): 670–675. doi : 10.1093/aje/kwj063 . PMC 1444894 . PMID 16410346.
^ Akobeng, AK (2007). "Comprensión de las pruebas diagnósticas: curvas de características operativas del receptor". Acta Paediatrica . 95 (5): 644–647. doi :10.1111/j.1651-2227.2006.00178.x. PMID 17376185. S2CID 25035474.
^ Youden, WJ (1950). "Índice para la calificación de pruebas diagnósticas". Cáncer . 3 (1): 32–35. doi : 10.1002/1097-0142(1950)3:1<32::aid-cncr2820030106>3.0.co;2-3 . ISSN 0008-543X. PMID 15405679. S2CID 43532502.
^ Descarga de la biblioteca Python, descarga de la biblioteca R en el sitio web de la Universidad de Insubria . También está disponible una breve descripción de las bibliotecas.