stringtranslate.com

Área parcial bajo la curva ROC

El área parcial bajo la curva ROC (pAUC) es una métrica para el rendimiento del clasificador binario.

Se calcula a partir de la curva ROC (característica operativa del receptor) que ilustra la capacidad de diagnóstico de un sistema de clasificación binaria determinado a medida que varía su umbral de discriminación. La curva ROC se crea trazando la tasa de verdaderos positivos (TPR) frente a la tasa de falsos positivos (FPR) en varios ajustes de umbral.

Un ejemplo de curva ROC y el área bajo la curva (AUC).

El área bajo la curva ROC (AUC) [1] [2] se utiliza a menudo para resumir en un único número la capacidad diagnóstica del clasificador. El AUC se define simplemente como el área del espacio ROC que se encuentra por debajo de la curva ROC.

Sin embargo, en el espacio ROC hay regiones donde los valores de FPR o TPR son inaceptables o no son viables en la práctica. Por ejemplo, la región donde FPR es mayor que 0,8 implica que más del 80% de los sujetos negativos se clasifican incorrectamente como positivos: esto es inaceptable en muchos casos reales. Como consecuencia, el AUC calculado en todo el espacio ROC (es decir, con FPR y TPR en un rango de 0 a 1) puede proporcionar indicaciones engañosas.

Para superar esta limitación del AUC, se propuso [3] calcular el área bajo la curva ROC en el área del espacio ROC que corresponde a valores interesantes (es decir, prácticamente viables o aceptables) de FPR y TPR.

Concepto básico

En el espacio ROC, donde x=FPR (tasa de falsos positivos) e y=ROC(x)=TPR (tasa de verdaderos positivos), es

Las curvas ROC se originaron con los clasificadores binarios Ca y Cb. El área verde oscuro se encuentra debajo de ambas curvas. El área verde claro se encuentra debajo del área Cb pero no debajo del área Ca. El área azul se encuentra debajo del área Ca pero no debajo del área Cb.

El AUC se utiliza ampliamente, especialmente para comparar el rendimiento de dos (o más) clasificadores binarios: se considera que el clasificador que logra el AUC más alto es el mejor. Sin embargo, al comparar dos clasificadores y , son posibles tres situaciones:

  1. La curva ROC de nunca está por encima de la curva ROC de
  2. La curva ROC de nunca está por debajo de la curva ROC de
  3. Las curvas ROC de los clasificadores se cruzan entre sí.

Existe un consenso general de que en el caso 1 es preferible el clasificador y en el caso 2 es preferible el clasificador. En cambio, en el caso 3) hay regiones del espacio ROC donde es preferible y otras regiones donde es preferible. Esta observación llevó a evaluar la precisión de las clasificaciones mediante el cálculo de métricas de rendimiento que consideran solo una región de interés (RoI) específica en el espacio ROC, en lugar de todo el espacio. Estas métricas de rendimiento se conocen comúnmente como "AUC parcial" (pAUC): el pAUC es el área de la región seleccionada del espacio ROC que se encuentra debajo de la curva ROC.

AUC parcial obtenida restringiendo FPR

La idea del AUC parcial se propuso originalmente [3] con el objetivo de restringir la evaluación de determinadas curvas ROC en el rango de tasas de falsos positivos que se consideran interesantes para fines diagnósticos. Por lo tanto, el AUC parcial se calculó como el área bajo la curva ROC en la banda vertical del espacio ROC donde la FPR está en el rango [ , ].

El pAUC calculado mediante la restricción de FPR ayuda a comparar dos áreas parciales. No obstante, tiene algunas limitaciones:

AUC parcial obtenida restringiendo TPR

Otro tipo de AUC parcial se obtiene limitando la tasa de positivos verdaderos, en lugar de la tasa de positivos falsos. Es decir, el AUC parcial es el área bajo la curva ROC y por encima de la línea horizontal . [4]

AUC parcial calculada como el área bajo la curva ROC y por encima

En otras palabras, el pAUC se calcula en la parte del espacio ROC donde la tasa de positivos verdaderos es mayor que un umbral determinado (no se utiliza ningún límite superior, ya que no tendría sentido limitar el número de positivos verdaderos).

Esta propuesta también tiene algunas limitaciones:

AUC parcial obtenida restringiendo tanto FPR como TPR

Se definió un pAUC “bidireccional” restringiendo tanto las tasas de verdaderos positivos como de falsos negativos. [5] Se especifica un valor mínimo para TPR y se establece un valor máximo para FPR, por lo que el RoI es el rectángulo superior izquierdo con vértices en los puntos ( , ), ( , 1), (0, 1) y (0, ). El pAUC bidireccional es el área bajo la curva ROC que pertenece a dicho rectángulo.

El pAUC bidireccional es claramente más flexible que el pAUC definido restringiendo únicamente la FPR o la TPR. En realidad, los dos últimos tipos de pAUC pueden considerarse casos especiales del pAUC bidireccional.

AUC parcial calculada donde y .

Al igual que con el pAUC descrito anteriormente, al comparar dos clasificadores a través de las curvas ROC asociadas, un cambio relativamente pequeño en la selección del RoI puede llevar a conclusiones diferentes. Este es un tema particularmente delicado, ya que no se dan criterios para identificar el RoI (al igual que con el otro pAUC mencionado, se espera que los expertos puedan identificar y ).

AUC parcial obtenida mediante la aplicación de restricciones objetivas a la región de interés

Se definieron algunos criterios objetivos y sólidos para definir el RoI. [6] [7] Específicamente, el cálculo del pAUC se puede restringir a la región donde

Definición del RoI en función del rendimiento de la clasificación aleatoria

Una forma posible de definir la región donde se calcula el pAUC consiste en excluir las regiones del espacio ROC que representan rendimientos peores que el rendimiento logrado por la clasificación aleatoria.

La clasificación aleatoria evalúa un elemento dado como positivo con probabilidad y negativo con probabilidad (1- ). En un conjunto de datos de n elementos, de los cuales AP son realmente positivos, la mejor estimación se obtiene estableciendo ( también se conoce como la "prevalencia" de los positivos en el conjunto de datos).

pAUC calculado en la región donde TPR, FPR y la precisión son mejores que las clasificaciones aleatorias promedio.

Se demostró que la clasificación aleatoria con logra , , y , en promedio. [6] Por lo tanto, si las métricas de rendimiento de elección son TPR, FPR y precisión, el RoI debe limitarse a la porción del espacio ROC donde , , y . Se demostró que esta región es el rectángulo que tiene vértices en (0,0), (0,1), ( , 1) y ( , ). [6]

Esta técnica resuelve los problemas de restricción de TPR y FPR cuando se debe calcular pAUC bidireccional: .

El indicador de Relación de Áreas Relevantes (RRA)

Para calcular el pAUC es necesario definir primero un RoI. Por ejemplo, cuando se requiere una mayor precisión que la clasificación aleatoria media, el RoI es el rectángulo que tiene vértices en (0,0), (0,1), ( , 1) y ( , ). Esto implica que el tamaño del RoI varía en función de . Además, el ROC perfecto, es decir, el que pasa por el punto (0,1), tiene un pAUC= (1- ).

Para obtener un indicador basado en pAUC que tenga en cuenta y oscile en [0,1], se propuso RRA: [6]

RRA=1 indica una precisión perfecta, mientras que RRA=0 indica que el área bajo la curva ROC perteneciente al RoI es nula; por lo tanto, la precisión no es mejor que la de la clasificación aleatoria.

Definición del RoI en función de algún umbral de métrica de rendimiento

pAUC calculado en la región donde Phi > 0,35

Existen varias métricas de desempeño disponibles para clasificadores binarios. Una de las más populares es el coeficiente Phi [8] (también conocido como Coeficiente de Correlación de Matthews [9] ). Phi mide qué tan mejor (o peor) es una clasificación, con respecto a la clasificación aleatoria, que se caracteriza por Phi = 0. De acuerdo con los valores de referencia sugeridos por Cohen, [8] se puede tomar Phi = 0.35 como un nivel mínimo aceptable de Phi para una clasificación. En el espacio ROC, Phi igual a una constante no nula corresponde al arco de una elipse, mientras que Phi = 0 corresponde a la diagonal, es decir, a los puntos donde FPR=TPR. Entonces, considerar la porción del ROC donde Phi>0.35 corresponde a definir el RoI como la porción del espacio ROC por encima de la elipse. El pAUC es el área por encima de la elipse y por debajo de la curva ROC.

Definición del ROI en función del coste de las clasificaciones erróneas

La mayoría de los clasificadores binarios producen clasificaciones erróneas, que implican algún costo.

El costo C de las clasificaciones erróneas se define como , donde es el costo unitario de un falso negativo, es el costo unitario de un falso positivo, y FN y FP son, respectivamente, el número de falsos negativos y falsos positivos.

El coste normalizado NC [10] se define como .

Al establecer , obtenemos

El NC promedio obtenido a través de la clasificación aleatoria es [6]

Para evaluar un clasificador excluyendo los desempeños cuyo costo es mayor que , es posible definir el RoI donde el costo normalizado es menor que : dicha región está por encima de la línea

pAUC calculado en el RoI donde , cuando

También es posible definir el RoI donde NC es menor que una fracción de . En tal caso, el límite inferior del RoI es la línea

Diferentes valores definen el RoI de la misma manera que algunas de las métricas de rendimiento más conocidas:

Por lo tanto, elegir una métrica de desempeño equivale a elegir un valor específico del costo relativo de los falsos positivos con respecto a los falsos negativos. En el espacio ROC, la pendiente de la línea que representa el costo normalizado constante (por lo tanto, el costo total constante) depende de , o, equivalentemente, de las métricas de desempeño que se utilicen.

Es una práctica común [12] [13] seleccionar como mejor clasificación el punto de la curva ROC con el valor más alto de J de Youden = TPR − FPR. [14] Al considerar el costo asociado con las clasificaciones erróneas, esta práctica corresponde a hacer una hipótesis sobre el costo relativo de los falsos positivos y falsos negativos, que rara vez es correcta. [7]

Cómo calcular pAUC y RRA

Hay bibliotecas de software disponibles para Python y R para calcular pAUC y RRA . [15]

Referencias

  1. ^ Van der Schouw, YT; Verbeek, A.; Ruijs, JH (1992). "Curvas ROC para la evaluación inicial de nuevas pruebas diagnósticas". Práctica familiar . 9 (4): 506–511. doi :10.1093/fampra/9.4.506. ISSN  0263-2136. PMID  1490547.
  2. ^ Bradley, Andrew P. (1997). "El uso del área bajo la curva ROC en la evaluación de algoritmos de aprendizaje automático". Reconocimiento de patrones . 30 (7): 1145–1159. Bibcode :1997PatRe..30.1145B. doi :10.1016/S0031-3203(96)00142-2. ISSN  0031-3203. S2CID  13806304.
  3. ^ ab McClish, DK (1989). "Análisis de una porción de la curva ROC". Toma de decisiones médicas . 9 (3): 190–195. doi :10.1177/0272989X8900900307. ISSN  0272-989X. PMID  2668680. S2CID  24442201.
  4. ^ Jiang, Y; Metz, CE; Nishikawa, RM (1996). "Un índice de área parcial de la característica operativa del receptor para pruebas diagnósticas de alta sensibilidad". Radiología . 201 (3): 745–750. doi :10.1148/radiology.201.3.8939225. ISSN  0033-8419. PMID  8939225.
  5. ^ Yang, Hanfang; Lu, Kun; Lyu, Xiang; Hu, Feifang (14 de julio de 2017). "AUC parcial bidireccional y sus propiedades". Métodos estadísticos en investigación médica . 28 (1): 184–195. arXiv : 1508.00298 . doi :10.1177/0962280217718866. ISSN  0962-2802. PMID  28707503. S2CID  10666428.
  6. ^ abcde Morasca, Sandro; Lavazza, Luigi (19 de agosto de 2020). "Sobre la evaluación de modelos de predicción de defectos de software mediante curvas ROC". Ingeniería de software empírica . 25 (5): 3977–4019. doi : 10.1007/s10664-020-09861-4 . ISSN  1382-3256. S2CID  221167342.
  7. ^ ab Lavazza, Luigi; Morasca, Sandro (2021-12-20). "Consideraciones sobre la región de interés en el espacio ROC". Métodos estadísticos en investigación médica . 31 (3): 419–437. doi :10.1177/09622802211060515. ISSN  0962-2802. PMID  34928729. S2CID  245354164.
  8. ^ ab Cohen, Jacob (1988). Análisis de potencia estadística para las ciencias del comportamiento, 2.ª edición . Lawrence Earlbaum Associates. ISBN 9780203771587.
  9. ^ Matthews, BW (1975). "Comparación de la estructura secundaria predicha y observada de la lisozima del fago T4". Biochimica et Biophysica Acta (BBA) - Estructura de proteínas . 405 (2): 442–451. doi :10.1016/0005-2795(75)90109-9. ISSN  0005-2795. PMID  1180967.
  10. ^ Cahill, Jaspar; Hogan, James M.; Thomas, Richard (2013). "Predicción de módulos de software propensos a fallas con clasificación de suma de rangos". 22.ª Conferencia Australiana de Ingeniería de Software de 2013. IEEE. págs. 211–219. doi :10.1109/aswec.2013.33. ISBN . 978-0-7695-4995-8. Número de identificación del sujeto  302819.
  11. ^ van Rijsbergen, CJ (1979). Recuperación de información . Butterworth.
  12. ^ Perkins, NJ; Schisterman, EF (2006). "La inconsistencia de los puntos de corte "óptimos" obtenidos utilizando dos criterios basados ​​en la curva característica operativa del receptor". American Journal of Epidemiology . 163 (7): 670–675. doi : 10.1093/aje/kwj063 . PMC 1444894 . PMID  16410346. 
  13. ^ Akobeng, AK (2007). "Comprensión de las pruebas diagnósticas: curvas de características operativas del receptor". Acta Paediatrica . 95 (5): 644–647. doi :10.1111/j.1651-2227.2006.00178.x. PMID  17376185. S2CID  25035474.
  14. ^ Youden, WJ (1950). "Índice para la calificación de pruebas diagnósticas". Cáncer . 3 (1): 32–35. doi : 10.1002/1097-0142(1950)3:1<32::aid-cncr2820030106>3.0.co;2-3 . ISSN  0008-543X. PMID  15405679. S2CID  43532502.
  15. ^ Descarga de la biblioteca Python, descarga de la biblioteca R en el sitio web de la Universidad de Insubria . También está disponible una breve descripción de las bibliotecas.