Área parcial bajo la curva ROC

El área parcial bajo la curva ROC (pAUC) es una métrica para el rendimiento del clasificador binario.

Se calcula a partir de la curva ROC (característica operativa del receptor) que ilustra la capacidad de diagnóstico de un sistema de clasificación binaria determinado a medida que varía su umbral de discriminación. La curva ROC se crea trazando la tasa de verdaderos positivos (TPR) frente a la tasa de falsos positivos (FPR) en varios ajustes de umbral.

El área bajo la curva ROC (AUC) ^[1]^[2] se utiliza a menudo para resumir en un único número la capacidad diagnóstica del clasificador. El AUC se define simplemente como el área del espacio ROC que se encuentra por debajo de la curva ROC.

Sin embargo, en el espacio ROC hay regiones donde los valores de FPR o TPR son inaceptables o no son viables en la práctica. Por ejemplo, la región donde FPR es mayor que 0,8 implica que más del 80% de los sujetos negativos se clasifican incorrectamente como positivos: esto es inaceptable en muchos casos reales. Como consecuencia, el AUC calculado en todo el espacio ROC (es decir, con FPR y TPR en un rango de 0 a 1) puede proporcionar indicaciones engañosas.

Para superar esta limitación del AUC, se propuso ^[3] calcular el área bajo la curva ROC en el área del espacio ROC que corresponde a valores interesantes (es decir, prácticamente viables o aceptables) de FPR y TPR.

Concepto básico

En el espacio ROC, donde x=FPR (tasa de falsos positivos) e y=ROC(x)=TPR (tasa de verdaderos positivos), es

$AUC=\int _{x=0}^{1}ROC(x)\ dx$

El AUC se utiliza ampliamente, especialmente para comparar el rendimiento de dos (o más) clasificadores binarios: se considera que el clasificador que logra el AUC más alto es el mejor. Sin embargo, al comparar dos clasificadores y , son posibles tres situaciones: $Estilo de visualización C_{a}}$ $Estilo de visualización C_{b}$

La curva ROC de nunca está por encima de la curva ROC de $Estilo de visualización C_{a}}$ $Estilo de visualización C_{b}$
La curva ROC de nunca está por debajo de la curva ROC de $Estilo de visualización C_{a}}$ $Estilo de visualización C_{b}$
Las curvas ROC de los clasificadores se cruzan entre sí.

Existe un consenso general de que en el caso 1 es preferible el clasificador y en el caso 2 es preferible el clasificador. En cambio, en el caso 3) hay regiones del espacio ROC donde es preferible y otras regiones donde es preferible. Esta observación llevó a evaluar la precisión de las clasificaciones mediante el cálculo de métricas de rendimiento que consideran solo una región de interés (RoI) específica en el espacio ROC, en lugar de todo el espacio. Estas métricas de rendimiento se conocen comúnmente como "AUC parcial" (pAUC): el pAUC es el área de la región seleccionada del espacio ROC que se encuentra debajo de la curva ROC. $Estilo de visualización C_{b}$ $Estilo de visualización C_{a}}$ $Estilo de visualización C_{a}}$ $Estilo de visualización C_{b}$

AUC parcial obtenida restringiendo FPR

La idea del AUC parcial se propuso originalmente ^[3] con el objetivo de restringir la evaluación de determinadas curvas ROC en el rango de tasas de falsos positivos que se consideran interesantes para fines diagnósticos. Por lo tanto, el AUC parcial se calculó como el área bajo la curva ROC en la banda vertical del espacio ROC donde la FPR está en el rango [ , ]. $FPR_{bajo}$ $FPR_{alto}$

El pAUC calculado mediante la restricción de FPR ayuda a comparar dos áreas parciales. No obstante, tiene algunas limitaciones:

El RoI debe ser una banda vertical del espacio ROC;
No se dan criterios para identificar el RoI: se espera que algún experto sea capaz de identificar y ; $FPR_{bajo}$ $FPR_{alto}$
Al comparar dos clasificadores a través de las curvas ROC asociadas, un cambio relativamente pequeño en la selección del RoI puede llevar a conclusiones diferentes: en el ejemplo anterior, considerar la banda donde lleva a concluir que es mejor, mientras que considerar la banda donde lleva a concluir que es mejor. $0,1\leq FPR\leq 0,3$ $Estilo de visualización C_{b}$ $0,2\leq FPR\leq 0,4$ $Estilo de visualización C_{a}}$

AUC parcial obtenida restringiendo TPR

Otro tipo de AUC parcial se obtiene limitando la tasa de positivos verdaderos, en lugar de la tasa de positivos falsos. Es decir, el AUC parcial es el área bajo la curva ROC y por encima de la línea horizontal . ^[4] $TPR=TPR_{0}$

AUC parcial calculada como el área bajo la curva ROC y por encima $Estilo de visualización TPR_{0}$

En otras palabras, el pAUC se calcula en la parte del espacio ROC donde la tasa de positivos verdaderos es mayor que un umbral determinado (no se utiliza ningún límite superior, ya que no tendría sentido limitar el número de positivos verdaderos). $Estilo de visualización TPR_{0}$

Esta propuesta también tiene algunas limitaciones:

Al limitar la tasa de verdaderos positivos, también se establece implícitamente un límite a la tasa de falsos positivos;
No se dan criterios para identificar el ROI: se espera que los expertos puedan identificar la tasa mínima aceptable de verdaderos positivos;
Al comparar dos clasificadores a través de las curvas ROC asociadas, un cambio relativamente pequeño en la selección del RoI puede llevar a conclusiones diferentes: esto sucede cuando está cerca del punto donde las curvas ROC dadas se cruzan entre sí. $Estilo de visualización TPR_{0}$

AUC parcial obtenida restringiendo tanto FPR como TPR

Se definió un pAUC “bidireccional” restringiendo tanto las tasas de verdaderos positivos como de falsos negativos. ^[5] Se especifica un valor mínimo para TPR y se establece un valor máximo para FPR, por lo que el RoI es el rectángulo superior izquierdo con vértices en los puntos ( , ), ( , 1), (0, 1) y (0, ). El pAUC bidireccional es el área bajo la curva ROC que pertenece a dicho rectángulo. $Estilo de visualización TPR_{0}$ $Estilo de visualización FPR_{0}$ $Estilo de visualización FPR_{0}$ $Estilo de visualización TPR_{0}$ $Estilo de visualización FPR_{0}$ $Estilo de visualización TPR_{0}$

El pAUC bidireccional es claramente más flexible que el pAUC definido restringiendo únicamente la FPR o la TPR. En realidad, los dos últimos tipos de pAUC pueden considerarse casos especiales del pAUC bidireccional.

Al igual que con el pAUC descrito anteriormente, al comparar dos clasificadores a través de las curvas ROC asociadas, un cambio relativamente pequeño en la selección del RoI puede llevar a conclusiones diferentes. Este es un tema particularmente delicado, ya que no se dan criterios para identificar el RoI (al igual que con el otro pAUC mencionado, se espera que los expertos puedan identificar y ). $Estilo de visualización TPR_{0}$ $Estilo de visualización FPR_{0}$

AUC parcial obtenida mediante la aplicación de restricciones objetivas a la región de interés

Se definieron algunos criterios objetivos y sólidos para definir el RoI. ^[6]^[7] Específicamente, el cálculo del pAUC se puede restringir a la región donde

Los clasificadores considerados son mejores (según alguna métrica de rendimiento elegida) que la clasificación aleatoria;
Los clasificadores considerados alcanzan al menos un valor mínimo de algunas métricas de rendimiento elegidas;
El coste debido a clasificaciones erróneas por parte de los clasificadores considerados es aceptable.

Definición del RoI en función del rendimiento de la clasificación aleatoria

Una forma posible de definir la región donde se calcula el pAUC consiste en excluir las regiones del espacio ROC que representan rendimientos peores que el rendimiento logrado por la clasificación aleatoria.

La clasificación aleatoria evalúa un elemento dado como positivo con probabilidad y negativo con probabilidad (1- ). En un conjunto de datos de n elementos, de los cuales AP son realmente positivos, la mejor estimación se obtiene estableciendo ( también se conoce como la "prevalencia" de los positivos en el conjunto de datos). ${\estilo de visualización \rho}$ ${\estilo de visualización \rho}$ $\rho ={\frac {AP}{n}}$ ${\estilo de visualización \rho}$

Se demostró que la clasificación aleatoria con logra , , y , en promedio. ^[6] Por lo tanto, si las métricas de rendimiento de elección son TPR, FPR y precisión, el RoI debe limitarse a la porción del espacio ROC donde , , y . Se demostró que esta región es el rectángulo que tiene vértices en (0,0), (0,1), ( , 1) y ( , ). ^[6] $\rho ={\frac {AP}{n}}$ $TPR=\rho$ $precisión=\rho$ $FPR=\rho$ $TPR>\rho$ $FPR<\rho$ $precisión>\rho$ ${\estilo de visualización \rho}$ ${\estilo de visualización \rho}$ ${\estilo de visualización \rho}$

Esta técnica resuelve los problemas de restricción de TPR y FPR cuando se debe calcular pAUC bidireccional: . $FPR_{0}=TPR_{0}=\rho$

El indicador de Relación de Áreas Relevantes (RRA)

Para calcular el pAUC es necesario definir primero un RoI. Por ejemplo, cuando se requiere una mayor precisión que la clasificación aleatoria media, el RoI es el rectángulo que tiene vértices en (0,0), (0,1), ( , 1) y ( , ). Esto implica que el tamaño del RoI varía en función de . Además, el ROC perfecto, es decir, el que pasa por el punto (0,1), tiene un pAUC= (1- ). ${\estilo de visualización \rho}$ ${\estilo de visualización \rho}$ ${\estilo de visualización \rho}$ ${\estilo de visualización \rho}$ ${\estilo de visualización \rho}$ ${\estilo de visualización \rho}$

Para obtener un indicador basado en pAUC que tenga en cuenta y oscile en [0,1], se propuso RRA: ^[6] ${\estilo de visualización \rho}$

$RRA={pAUC sobre el área del RoI}$

RRA=1 indica una precisión perfecta, mientras que RRA=0 indica que el área bajo la curva ROC perteneciente al RoI es nula; por lo tanto, la precisión no es mejor que la de la clasificación aleatoria.

Definición del RoI en función de algún umbral de métrica de rendimiento

Existen varias métricas de desempeño disponibles para clasificadores binarios. Una de las más populares es el coeficiente Phi ^[8] (también conocido como Coeficiente de Correlación de Matthews ^[9] ). Phi mide qué tan mejor (o peor) es una clasificación, con respecto a la clasificación aleatoria, que se caracteriza por Phi = 0. De acuerdo con los valores de referencia sugeridos por Cohen, ^[8] se puede tomar Phi = 0.35 como un nivel mínimo aceptable de Phi para una clasificación. En el espacio ROC, Phi igual a una constante no nula corresponde al arco de una elipse, mientras que Phi = 0 corresponde a la diagonal, es decir, a los puntos donde FPR=TPR. Entonces, considerar la porción del ROC donde Phi>0.35 corresponde a definir el RoI como la porción del espacio ROC por encima de la elipse. El pAUC es el área por encima de la elipse y por debajo de la curva ROC.

Definición del ROI en función del coste de las clasificaciones erróneas

La mayoría de los clasificadores binarios producen clasificaciones erróneas, que implican algún costo.

El costo C de las clasificaciones erróneas se define como , donde es el costo unitario de un falso negativo, es el costo unitario de un falso positivo, y FN y FP son, respectivamente, el número de falsos negativos y falsos positivos. $C=c_{FN}FN+c_{FP}FP$ $Estilo de visualización c_ {FN}}$ $Estilo de visualización c_ {FP}}$

El coste normalizado NC ^[10] se define como . $NC={\frac {C}{n(c_{FN}+c_{FP})}}$

Al establecer , obtenemos $\lambda ={\frac {c_{FN}}{c_{FP}+c_{FN}}}$ $NC=\lambda \rho (1-TPR)+(1-\lambda )(1-\rho )FPR$

El NC promedio obtenido a través de la clasificación aleatoria es ^[6] $NC_{rnd}={\frac {AP\cdot AN}{n^{2}}}$

Para evaluar un clasificador excluyendo los desempeños cuyo costo es mayor que , es posible definir el RoI donde el costo normalizado es menor que : dicha región está por encima de la línea $Estilo de visualización: NC_ {rnd}$ $Estilo de visualización: NC_ {rnd}$

${\frac {AP\cdot AN}{n^{2}}}=\lambda \rho (1-TPR)(1-\lambda )(1-\rho )FPR$

También es posible definir el RoI donde NC es menor que una fracción de . En tal caso, el límite inferior del RoI es la línea ${\estilo de visualización \mu}$ $Estilo de visualización: NC_ {rnd}$

$TPR={\frac {1-\lambda }{\lambda }}{\frac {1-\rho }{\rho }}(FPR-\mu \rho )+1-\mu (1-\rho )$

Diferentes valores definen el RoI de la misma manera que algunas de las métricas de rendimiento más conocidas: ${\estilo de visualización \lambda}$

$\lambda = 0$ equivale a utilizar FPR para delimitar el RoI
$\lambda =1-\rho$ equivale a utilizar precisión para delimitar el RoI
$\lambda =1-{\frac {\rho }{2}}$ equivale a utilizar la puntuación F-1 ^[11] para delimitar el RoI
$\lambda = 1$ equivale a utilizar TPR para delimitar el RoI

Por lo tanto, elegir una métrica de desempeño equivale a elegir un valor específico del costo relativo de los falsos positivos con respecto a los falsos negativos. En el espacio ROC, la pendiente de la línea que representa el costo normalizado constante (por lo tanto, el costo total constante) depende de , o, equivalentemente, de las métricas de desempeño que se utilicen. ${\estilo de visualización \lambda}$

Es una práctica común ^[12]^[13] seleccionar como mejor clasificación el punto de la curva ROC con el valor más alto de J de Youden = TPR − FPR. ^[14] Al considerar el costo asociado con las clasificaciones erróneas, esta práctica corresponde a hacer una hipótesis sobre el costo relativo de los falsos positivos y falsos negativos, que rara vez es correcta. ^[7]

Cómo calcular pAUC y RRA

Hay bibliotecas de software disponibles para Python y R para calcular pAUC y RRA . ^[15]

Referencias

^ Van der Schouw, YT; Verbeek, A.; Ruijs, JH (1992). "Curvas ROC para la evaluación inicial de nuevas pruebas diagnósticas". Práctica familiar . 9 (4): 506–511. doi :10.1093/fampra/9.4.506. ISSN 0263-2136. PMID 1490547.
^ Bradley, Andrew P. (1997). "El uso del área bajo la curva ROC en la evaluación de algoritmos de aprendizaje automático". Reconocimiento de patrones . 30 (7): 1145–1159. Bibcode :1997PatRe..30.1145B. doi :10.1016/S0031-3203(96)00142-2. ISSN 0031-3203. S2CID 13806304.
^ ab McClish, DK (1989). "Análisis de una porción de la curva ROC". Toma de decisiones médicas . 9 (3): 190–195. doi :10.1177/0272989X8900900307. ISSN 0272-989X. PMID 2668680. S2CID 24442201.
^ Jiang, Y; Metz, CE; Nishikawa, RM (1996). "Un índice de área parcial de la característica operativa del receptor para pruebas diagnósticas de alta sensibilidad". Radiología . 201 (3): 745–750. doi :10.1148/radiology.201.3.8939225. ISSN 0033-8419. PMID 8939225.
^ Yang, Hanfang; Lu, Kun; Lyu, Xiang; Hu, Feifang (14 de julio de 2017). "AUC parcial bidireccional y sus propiedades". Métodos estadísticos en investigación médica . 28 (1): 184–195. arXiv : 1508.00298 . doi :10.1177/0962280217718866. ISSN 0962-2802. PMID 28707503. S2CID 10666428.
^ abcde Morasca, Sandro; Lavazza, Luigi (19 de agosto de 2020). "Sobre la evaluación de modelos de predicción de defectos de software mediante curvas ROC". Ingeniería de software empírica . 25 (5): 3977–4019. doi : 10.1007/s10664-020-09861-4 . ISSN 1382-3256. S2CID 221167342.
^ ab Lavazza, Luigi; Morasca, Sandro (2021-12-20). "Consideraciones sobre la región de interés en el espacio ROC". Métodos estadísticos en investigación médica . 31 (3): 419–437. doi :10.1177/09622802211060515. ISSN 0962-2802. PMID 34928729. S2CID 245354164.
^ ab Cohen, Jacob (1988). Análisis de potencia estadística para las ciencias del comportamiento, 2.ª edición . Lawrence Earlbaum Associates. ISBN 9780203771587.
^ Matthews, BW (1975). "Comparación de la estructura secundaria predicha y observada de la lisozima del fago T4". Biochimica et Biophysica Acta (BBA) - Estructura de proteínas . 405 (2): 442–451. doi :10.1016/0005-2795(75)90109-9. ISSN 0005-2795. PMID 1180967.
^ Cahill, Jaspar; Hogan, James M.; Thomas, Richard (2013). "Predicción de módulos de software propensos a fallas con clasificación de suma de rangos". 22.ª Conferencia Australiana de Ingeniería de Software de 2013. IEEE. págs. 211–219. doi :10.1109/aswec.2013.33. ISBN . 978-0-7695-4995-8. Número de identificación del sujeto 302819.
^ van Rijsbergen, CJ (1979). Recuperación de información . Butterworth.
^ Perkins, NJ; Schisterman, EF (2006). "La inconsistencia de los puntos de corte "óptimos" obtenidos utilizando dos criterios basados en la curva característica operativa del receptor". American Journal of Epidemiology . 163 (7): 670–675. doi : 10.1093/aje/kwj063 . PMC 1444894 . PMID 16410346.
^ Akobeng, AK (2007). "Comprensión de las pruebas diagnósticas: curvas de características operativas del receptor". Acta Paediatrica . 95 (5): 644–647. doi :10.1111/j.1651-2227.2006.00178.x. PMID 17376185. S2CID 25035474.
^ Youden, WJ (1950). "Índice para la calificación de pruebas diagnósticas". Cáncer . 3 (1): 32–35. doi : 10.1002/1097-0142(1950)3:1<32::aid-cncr2820030106>3.0.co;2-3 . ISSN 0008-543X. PMID 15405679. S2CID 43532502.
^ Descarga de la biblioteca Python, descarga de la biblioteca R en el sitio web de la Universidad de Insubria . También está disponible una breve descripción de las bibliotecas.