stringtranslate.com

Característica de funcionamiento del receptor

"Curva ROC de tres predictores de escisión de péptidos en el proteosoma ".

Una curva característica operativa del receptor , o curva ROC , es un gráfico que ilustra el rendimiento de un modelo de clasificador binario (también se puede utilizar para clasificación de clases múltiples) en valores de umbral variables.

La curva ROC es la gráfica de la tasa de verdaderos positivos (TPR) frente a la tasa de falsos positivos (FPR) en cada configuración de umbral.

La República de China también se puede considerar como una gráfica del poder estadístico en función del error tipo I de la regla de decisión (cuando el desempeño se calcula a partir de solo una muestra de la población, se puede considerar como estimadores de estas cantidades). ). La curva ROC es, por tanto, la sensibilidad o recuperación en función de la tasa de falsos positivos .

Dado que se conocen las distribuciones de probabilidad tanto para los verdaderos positivos como para los falsos positivos, la curva ROC se obtiene como la función de distribución acumulada (CDF, ​​área bajo la distribución de probabilidad desde hasta el umbral de discriminación) de la probabilidad de detección en el eje y versus la CDF. de la probabilidad de falso positivo en el eje x.

El análisis ROC proporciona herramientas para seleccionar modelos posiblemente óptimos y descartar los subóptimos independientemente (y antes de especificar) el contexto de costos o la distribución de clases. El análisis ROC se relaciona de forma directa y natural con el análisis coste/beneficio de la toma de decisiones diagnósticas .

Terminología

La tasa de verdaderos positivos también se conoce como sensibilidad , recuperación o probabilidad de detección . [1] La tasa de falsos positivos también se conoce como probabilidad de falsa alarma [1] y es igual a (1 − especificidad ). La ROC también se conoce como curva característica operativa relativa, porque es una comparación de dos características operativas (TPR y FPR) a medida que cambia el criterio. [2]

Historia

La curva ROC fue desarrollada por primera vez por ingenieros eléctricos y de radar durante la Segunda Guerra Mundial para detectar objetos enemigos en los campos de batalla, a partir de 1941, lo que dio lugar a su nombre ("característica operativa del receptor"). [3]

Pronto se introdujo en la psicología para dar cuenta de la detección perceptual de estímulos. El análisis ROC se ha utilizado en medicina , radiología , biometría , pronóstico de peligros naturales , [4] meteorología , [5] evaluación del desempeño de modelos, [6] y otras áreas durante muchas décadas y se usa cada vez más en el aprendizaje automático y la investigación de minería de datos .

Concepto básico

Un modelo de clasificación ( clasificador o diagnóstico [7] ) es un mapeo de instancias entre ciertas clases/grupos. Debido a que el resultado del clasificador o del diagnóstico puede ser un valor real arbitrario (salida continua), el límite del clasificador entre clases debe determinarse mediante un valor umbral (por ejemplo, para determinar si una persona tiene hipertensión basándose en una medida de presión arterial ). O puede ser una etiqueta de clase discreta , que indica una de las clases.

Considere un problema de predicción de dos clases ( clasificación binaria ), en el que los resultados se etiquetan como positivos ( p ) o negativos ( n ). Hay cuatro resultados posibles de un clasificador binario. Si el resultado de una predicción es p y el valor real también es p , entonces se llama verdadero positivo (TP); sin embargo, si el valor real es n , se dice que es un falso positivo (FP). Por el contrario, se ha producido un verdadero negativo (TN) cuando tanto el resultado de la predicción como el valor real son n , y un falso negativo (FN) se produce cuando el resultado de la predicción es n mientras que el valor real es p .

Para obtener un ejemplo apropiado de un problema del mundo real, consideremos una prueba de diagnóstico que busca determinar si una persona tiene una determinada enfermedad. Un falso positivo en este caso ocurre cuando la persona da positivo, pero en realidad no tiene la enfermedad. Un falso negativo, por otro lado, ocurre cuando la persona da negativo, lo que sugiere que está sana, cuando en realidad tiene la enfermedad.

Considere un experimento de P casos positivos y N casos negativos para alguna condición. Los cuatro resultados se pueden formular en una tabla de contingencia o matriz de confusión de 2×2 , de la siguiente manera:

  1. ^ el número de casos positivos reales en los datos
  2. ^ Un resultado de prueba que indica correctamente la presencia de una condición o característica.
  3. ^ Error de tipo II: resultado de una prueba que indica erróneamente que una condición o atributo particular está ausente
  4. ^ el número de casos negativos reales en los datos
  5. ^ Un resultado de prueba que indica correctamente la ausencia de una condición o característica.
  6. ^ Error de tipo I: resultado de una prueba que indica erróneamente que está presente una condición o atributo particular


espacio de la República de China

El espacio ROC y los gráficos de los cuatro ejemplos de predicción.
El espacio de la República de China para un clasificador "mejor" y "peor".

La tabla de contingencia puede derivar varias "métricas" de evaluación (ver cuadro de información). Para dibujar una curva ROC, solo se necesitan la tasa de verdaderos positivos (TPR) y la tasa de falsos positivos (FPR) (como funciones de algún parámetro clasificador). El TPR define cuántos resultados positivos correctos ocurren entre todas las muestras positivas disponibles durante la prueba. FPR, por otro lado, define cuántos resultados positivos incorrectos ocurren entre todas las muestras negativas disponibles durante la prueba.

Un espacio ROC está definido por FPR y TPR como ejes xey , respectivamente, lo que representa compensaciones relativas entre verdaderos positivos (beneficios) y falsos positivos (costos). Dado que TPR es equivalente a sensibilidad y FPR es igual a 1 - especificidad, el gráfico ROC a veces se denomina gráfico de sensibilidad versus (1 - especificidad). Cada resultado de predicción o instancia de una matriz de confusión representa un punto en el espacio ROC.

El mejor método de predicción posible produciría un punto en la esquina superior izquierda o coordenada (0,1) del espacio ROC, que representa el 100 % de sensibilidad (sin falsos negativos) y el 100 % de especificidad (sin falsos positivos). El punto (0,1) también se llama clasificación perfecta . Una suposición aleatoria daría un punto a lo largo de una línea diagonal (la llamada línea de no discriminación ) desde las esquinas inferior izquierda hasta la superior derecha (independientemente de los tipos base positivos y negativos ). [16] Un ejemplo intuitivo de adivinación aleatoria es una decisión lanzando monedas. A medida que aumenta el tamaño de la muestra, el punto ROC de un clasificador aleatorio tiende hacia la línea diagonal. En el caso de una moneda equilibrada, tenderá al punto (0,5, 0,5).

La diagonal divide el espacio de la República de China. Los puntos por encima de la diagonal representan buenos resultados de clasificación (mejores que los aleatorios); Los puntos debajo de la línea representan malos resultados (peores que aleatorios). Tenga en cuenta que el resultado de un predictor consistentemente malo podría simplemente invertirse para obtener un buen predictor.

Considere cuatro resultados de predicción de 100 casos positivos y 100 negativos:

En la figura se muestran los gráficos de los cuatro resultados anteriores en el espacio de la República de China. El resultado del método A muestra claramente el mejor poder predictivo entre A , B y C. El resultado de B se encuentra en la línea de conjetura aleatoria (la línea diagonal) y en la tabla se puede ver que la precisión de B es del 50%. Sin embargo, cuando C se refleja a través del punto central (0.5,0.5), el método resultante C′ es incluso mejor que A. Este método reflejado simplemente invierte las predicciones de cualquier método o prueba que haya producido la tabla de contingencia C. Aunque el método C original tiene poder predictivo negativo, simplemente revertir sus decisiones conduce a un nuevo método predictivo C′ que tiene poder predictivo positivo. Cuando el método C predice p o n , el método C′ predeciría n o p , respectivamente. De esta manera, la prueba C′ tendría el mejor rendimiento. Cuanto más cerca esté el resultado de una tabla de contingencia de la esquina superior izquierda, mejor predice, pero la distancia desde la línea de conjetura aleatoria en cualquier dirección es el mejor indicador de cuánto poder predictivo tiene un método. Si el resultado está por debajo de la línea (es decir, el método es peor que una suposición aleatoria), todas las predicciones del método deben revertirse para utilizar su poder, moviendo así el resultado por encima de la línea de suposición aleatoria.

Curvas en el espacio ROC

En la clasificación binaria, la predicción de clase para cada instancia a menudo se realiza basándose en una variable aleatoria continua , que es una "puntuación" calculada para la instancia (por ejemplo, la probabilidad estimada en regresión logística). Dado un parámetro de umbral , la instancia se clasifica como "positiva" si y "negativa" en caso contrario. sigue una densidad de probabilidad si la instancia realmente pertenece a la clase "positiva", y en caso contrario. Por lo tanto, la tasa de verdaderos positivos está dada por y la tasa de falsos positivos está dada por . La curva ROC se traza paramétricamente versus con como parámetro variable.

Por ejemplo, imagine que los niveles de proteína en sangre en personas enfermas y personas sanas se distribuyen normalmente con medias de 2 g / dL y 1 g/dL respectivamente. Una prueba médica puede medir el nivel de una determinada proteína en una muestra de sangre y clasificar cualquier número por encima de cierto umbral como indicativo de enfermedad. El experimentador puede ajustar el umbral (línea vertical verde en la figura), lo que a su vez cambiará la tasa de falsos positivos. Aumentar el umbral daría como resultado menos falsos positivos (y más falsos negativos), lo que correspondería a un movimiento hacia la izquierda en la curva. La forma real de la curva está determinada por el grado de superposición que tienen las dos distribuciones.

Críticas

Ejemplo de curva de característica operativa del receptor (ROC) que resalta la subárea del área bajo la curva (AUC) con baja sensibilidad y baja especificidad en rojo y la subárea con sensibilidad y especificidad alta o suficiente en verde. [17]

Varios estudios critican determinadas aplicaciones de la curva ROC y su área bajo la curva como medidas para evaluar clasificaciones binarias cuando no capturan la información relevante para la aplicación. [18] [17] [19] [20] [21]

La principal crítica a la curva ROC descrita en estos estudios se refiere a la incorporación de áreas con baja sensibilidad y baja especificidad (ambas inferiores a 0,5) para el cálculo del área total bajo la curva (AUC), [19] como se describe en el trama de la derecha.

Según los autores de estos estudios, esa porción del área bajo la curva (con baja sensibilidad y baja especificidad) se refiere a matrices de confusión donde las predicciones binarias obtienen malos resultados y, por lo tanto, no debe incluirse en la evaluación del desempeño general. Además, esa parte del AUC indica un espacio con un umbral de matriz de confusión alto o bajo que rara vez es de interés para los científicos que realizan una clasificación binaria en cualquier campo. [19]

Otra crítica a la República de China y su área bajo la curva es que no dicen nada sobre la precisión y el valor predictivo negativo. [17]

Un AUC de ROC alto, como 0,9 por ejemplo, podría corresponder a valores bajos de precisión y valor predictivo negativo, como 0,2 y 0,1 en el rango [0, 1]. Si uno realizara una clasificación binaria, obtuviera un AUC ROC de 0,9 y decidiera centrarse solo en esta métrica, podría creer de manera demasiado optimista que su prueba binaria fue excelente. Sin embargo, si esta persona observara los valores de precisión y valor predictivo negativo, podría descubrir que sus valores son bajos.

El AUC de la República de China resume la sensibilidad y la especificidad, pero no informa sobre la precisión y el valor predictivo negativo. [17]

Otras interpretaciones

A veces, la República de China se utiliza para generar una estadística resumida. Las versiones comunes son:

Sin embargo, cualquier intento de resumir la curva ROC en un solo número pierde información sobre el patrón de compensaciones del algoritmo discriminador particular.

Interpretación probabilística

El área bajo la curva (a menudo denominada simplemente AUC) es igual a la probabilidad de que un clasificador clasifique una instancia positiva elegida al azar por encima de una negativa elegida al azar (suponiendo que "positivo" tenga una clasificación más alta que "negativa"). [26] En otras palabras, cuando se le da una instancia positiva seleccionada al azar y una instancia negativa seleccionada al azar, AUC es la probabilidad de que el clasificador pueda decir cuál es cuál.

Esto se puede ver de la siguiente manera: el área bajo la curva está dada por (los límites integrales se invierten ya que el umbral grande tiene un valor más bajo en el eje x)

donde es la puntuación de una instancia positiva y es la puntuación de una instancia negativa, y son densidades de probabilidad definidas en la sección anterior.

Área bajo la curva

Se puede demostrar que el AUC está estrechamente relacionado con la U de Mann-Whitney , [27] [28] que prueba si los positivos se clasifican por encima de los negativos. Para un predictor , un estimador insesgado de su AUC se puede expresar mediante el siguiente estadístico de Wilcoxon-Mann-Whitney : [29]

donde denota una función indicadora que devuelve 1 en caso contrario devuelve 0; es el conjunto de ejemplos negativos y es el conjunto de ejemplos positivos.

En el contexto de la calificación crediticia , a menudo se utiliza una versión reescalada de AUC:

.

Se le conoce como índice de Gini o coeficiente de Gini, [30] pero no debe confundirse con la medida de dispersión estadística que también se llama coeficiente de Gini . es un caso especial de la D de Somers .

También es común calcular el área bajo el casco convexo de la República de China (ROC AUCH = ROCH AUC), ya que cualquier punto en el segmento de línea entre dos resultados de predicción se puede lograr usando aleatoriamente uno u otro sistema con probabilidades proporcionales a la longitud relativa de el componente opuesto del segmento. [31] También es posible invertir las concavidades, tal como en la figura la peor solución puede reflejarse para convertirse en una mejor solución; Las concavidades pueden reflejarse en cualquier segmento de línea, pero es mucho más probable que esta forma más extrema de fusión se ajuste demasiado a los datos. [32]

La comunidad de aprendizaje automático utiliza con mayor frecuencia la estadística ROC AUC para comparar modelos. [33] Esta práctica ha sido cuestionada porque las estimaciones del AUC son bastante ruidosas y adolecen de otros problemas. [34] [35] [36] No obstante, la coherencia del AUC como medida del desempeño de la clasificación agregada ha sido reivindicada, en términos de una distribución de tasas uniforme, [37] y el AUC se ha vinculado a una serie de otras métricas de desempeño, como como la puntuación de Brier . [38]

Otro problema con ROC AUC es que reducir la curva ROC a un solo número ignora el hecho de que se trata de las compensaciones entre los diferentes sistemas o puntos de rendimiento trazados y no del rendimiento de un sistema individual, además de ignorar la posibilidad de reparación de la concavidad. , por lo que se recomiendan medidas alternativas relacionadas, como la información [ cita necesaria ] o DeltaP. [23] [39] Estas medidas son esencialmente equivalentes al Gini para un único punto de predicción con DeltaP' = Información = 2AUC-1, mientras que DeltaP = Marcación representa el dual (es decir, predecir la predicción a partir de la clase real) y su geometría. La media es el coeficiente de correlación de Matthews . [ cita necesaria ]

Mientras que el AUC de la República de China varía entre 0 y 1, con un clasificador no informativo que arroja 0,5, las medidas alternativas conocidas como Información , [ cita necesaria ] Certeza [23] y Coeficiente de Gini (en el caso de parametrización única o sistema único) [ cita necesaria ] todas tienen la ventaja de que 0 representa un desempeño aleatorio, mientras que 1 representa un desempeño perfecto, y −1 representa el caso "perverso" de plena información que siempre da la respuesta incorrecta. [40] Llevar el rendimiento de probabilidad a 0 permite que estas escalas alternativas se interpreten como estadísticas Kappa. Se ha demostrado que la información tiene características deseables para el aprendizaje automático frente a otras definiciones comunes de Kappa, como Cohen Kappa y Fleiss Kappa . [ cita necesaria ] [41]

A veces puede resultar más útil observar una región específica de la curva ROC que toda la curva. Es posible calcular el AUC parcial . [42] Por ejemplo, uno podría centrarse en la región de la curva con una baja tasa de falsos positivos, que a menudo es de gran interés para las pruebas de detección de la población. [43] Otro enfoque común para los problemas de clasificación en los que P ≪ N (común en aplicaciones bioinformáticas) es utilizar una escala logarítmica para el eje x. [44]

El área ROC bajo la curva también se llama estadístico c o estadístico c . [45]

Otras medidas

Curva TOC

La característica operativa total (TOC) también caracteriza la capacidad de diagnóstico y revela más información que la ROC. Para cada umbral, la República de China revela dos proporciones, TP/(TP + FN) y FP/(FP + TN). En otras palabras, la República de China revela y . Por otro lado, TOC muestra la información total en la tabla de contingencia para cada umbral. [46] El método TOC revela toda la información que proporciona el método ROC, además de información adicional importante que ROC no revela, es decir, el tamaño de cada entrada en la tabla de contingencia para cada umbral. TOC también proporciona las populares AUC de la República de China. [47]

Curva ROC

Estas cifras son las curvas TOC y ROC que utilizan los mismos datos y umbrales. Considere el punto que corresponde a un umbral de 74. La curva TOC muestra el número de aciertos, que es 3, y por tanto el número de fallos, que es 7. Además, la curva TOC muestra que el número de falsas alarmas es 4 y el número de rechazos correctos es 16. En cualquier punto dado de la curva ROC, es posible obtener valores para las proporciones de y . Por ejemplo, en el umbral 74, es evidente que la coordenada x es 0,2 y la coordenada y es 0,3. Sin embargo, estos dos valores son insuficientes para construir todas las entradas de la tabla de contingencia subyacente de dos por dos.

Gráfico de compensación de errores de detección

Ejemplo de gráfico DET

Una alternativa a la curva ROC es el gráfico de compensación de errores de detección (DET), que traza la tasa de falsos negativos (detecciones perdidas) frente a la tasa de falsos positivos (falsas alarmas) en los ejes x e y transformados no linealmente. La función de transformación es la función cuantil de la distribución normal, es decir, la inversa de la distribución normal acumulativa. De hecho, es la misma transformación que zROC, a continuación, excepto que se utiliza el complemento de la tasa de aciertos, la tasa de errores o la tasa de falsos negativos. Esta alternativa dedica más área del gráfico a la región de interés. La mayor parte del área de la República de China es de poco interés; uno se preocupa principalmente por la región estrecha contra el eje y y la esquina superior izquierda, que, debido al uso de la tasa de fallos en lugar de su complemento, la tasa de aciertos, es la esquina inferior izquierda en un gráfico DET. Además, los gráficos DET tienen la útil propiedad de linealidad y un comportamiento de umbral lineal para distribuciones normales. [48] ​​El gráfico DET se utiliza ampliamente en la comunidad de reconocimiento automático de hablantes , donde se utilizó por primera vez el nombre DET. El análisis del desempeño de la República de China en gráficos con esta deformación de los ejes fue utilizado por los psicólogos en estudios de percepción a mediados del siglo XX, [ cita necesaria ] donde se lo denominó "artículo de doble probabilidad". [49]

puntuación Z

Si se aplica una puntuación estándar a la curva ROC, la curva se transformará en una línea recta. [50] Esta puntuación z se basa en una distribución normal con una media de cero y una desviación estándar de uno. En la teoría de la fuerza de la memoria , se debe suponer que el zROC no solo es lineal, sino que tiene una pendiente de 1,0. La distribución normal de objetivos (objetos estudiados que los sujetos necesitan recordar) y señuelos (objetos no estudiados que los sujetos intentan recordar) es el factor que hace que el zROC sea lineal.

La linealidad de la curva zROC depende de las desviaciones estándar de las distribuciones de fuerza del objetivo y del señuelo. Si las desviaciones estándar son iguales, la pendiente será 1,0. Si la desviación estándar de la distribución de la fuerza del objetivo es mayor que la desviación estándar de la distribución de la fuerza del señuelo, entonces la pendiente será menor que 1,0. En la mayoría de los estudios, se ha descubierto que las pendientes de la curva zROC caen constantemente por debajo de 1, normalmente entre 0,5 y 0,9. [51] Muchos experimentos arrojaron una pendiente zROC de 0,8. Una pendiente de 0,8 implica que la variabilidad de la distribución de la fuerza del objetivo es un 25% mayor que la variabilidad de la distribución de la fuerza del señuelo. [52]

Otra variable utilizada es  d' (d prima) (analizada anteriormente en "Otras medidas"), que se puede expresar fácilmente en términos de valores z. Aunque d ' es un parámetro comúnmente utilizado, debe reconocerse que sólo es relevante cuando se adhiere estrictamente a los supuestos muy sólidos de la teoría de la resistencia formulados anteriormente. [53]

La puntuación z de una curva ROC siempre es lineal, como se supone, excepto en situaciones especiales. El modelo de familiaridad-recuerdo de Yonelinas es un relato bidimensional de la memoria de reconocimiento. En lugar de que el sujeto simplemente responda sí o no a una entrada específica, el sujeto le da a la entrada una sensación de familiaridad, que funciona como la curva ROC original. Sin embargo, lo que cambia es un parámetro para Recuerdo (R). Se supone que el recuerdo es todo o nada y triunfa sobre la familiaridad. Si no hubiera un componente de recolección, zROC tendría una pendiente prevista de 1. Sin embargo, al agregar el componente de recolección, la curva de zROC será cóncava hacia arriba, con una pendiente disminuida. Esta diferencia en forma y pendiente resulta de un elemento añadido de variabilidad debido a la recolección de algunos elementos. Los pacientes con amnesia anterógrada no pueden recordar, por lo que su curva zROC de Yonelinas tendría una pendiente cercana a 1,0. [54]

Historia

La curva ROC se utilizó por primera vez durante la Segunda Guerra Mundial para el análisis de señales de radar antes de ser empleada en la teoría de detección de señales . [55] Tras el ataque a Pearl Harbor en 1941, el ejército de los Estados Unidos comenzó una nueva investigación para aumentar la predicción de aviones japoneses correctamente detectados a partir de sus señales de radar. Para estos fines midieron la capacidad del operador de un receptor de radar para hacer estas importantes distinciones, lo que se denominó Característica Operativa del Receptor. [56]

En la década de 1950, las curvas ROC se empleaban en psicofísica para evaluar la detección de señales débiles en humanos (y ocasionalmente en animales no humanos). [55] En medicina , el análisis ROC se ha utilizado ampliamente en la evaluación de pruebas de diagnóstico . [57] [58] Las curvas ROC también se utilizan ampliamente en epidemiología e investigación médica y se mencionan con frecuencia junto con la medicina basada en evidencia . En radiología , el análisis ROC es una técnica común para evaluar nuevas técnicas de radiología. [59] En las ciencias sociales, el análisis ROC a menudo se denomina índice de precisión de la ROC, una técnica común para juzgar la precisión de los modelos de probabilidad de incumplimiento. Las curvas ROC se utilizan ampliamente en medicina de laboratorio para evaluar la precisión diagnóstica de una prueba, elegir el punto de corte óptimo de una prueba y comparar la precisión diagnóstica de varias pruebas.

Las curvas ROC también resultaron útiles para la evaluación de técnicas de aprendizaje automático . La primera aplicación de ROC en el aprendizaje automático fue la de Spackman, quien demostró el valor de las curvas ROC al comparar y evaluar diferentes algoritmos de clasificación . [60]

Las curvas ROC también se utilizan en la verificación de pronósticos en meteorología. [61]

Radares en detalle

Como se mencionó, las curvas ROC son fundamentales para la teoría y el funcionamiento del radar . Las señales recibidas en una estación receptora, reflejadas por un objetivo, suelen tener muy poca energía, en comparación con el ruido de fondo . La relación entre señal y ruido es una métrica importante a la hora de determinar si se detectará un objetivo. Esta relación señal-ruido está directamente correlacionada con las características operativas del receptor de todo el sistema de radar, que se utiliza para cuantificar la capacidad de un sistema de radar.

Consideremos el desarrollo de un sistema de radar. Se puede proporcionar una especificación de las capacidades del sistema en términos de probabilidad de detección, con una cierta tolerancia a falsas alarmas . Se puede calcular una aproximación simplificada de la relación señal-ruido requerida en la estación receptora resolviendo [62]

para la relación señal/ruido . Aquí, no está en decibeles , como es habitual en muchas aplicaciones de radar. La conversión a decibelios se realiza mediante . A partir de esta figura, se pueden resolver las entradas comunes en la ecuación de alcance del radar (con factores de ruido) para estimar la potencia radiada efectiva requerida .

Curvas ROC más allá de la clasificación binaria

La extensión de las curvas ROC para problemas de clasificación con más de dos clases es engorrosa. Dos enfoques comunes cuando hay varias clases son (1) promediar todos los valores AUC por pares [63] y (2) calcular el volumen bajo la superficie (VUS). [64] [65] Para promediar todas las clases por pares, se calcula el AUC para cada par de clases, utilizando solo los ejemplos de esas dos clases como si no hubiera otras clases, y luego se promedian estos valores de AUC sobre todos los pares posibles. Cuando haya c clases, habrá c ( c − 1) / 2 posibles pares de clases.

El enfoque de volumen bajo la superficie consiste en trazar una hipersuperficie en lugar de una curva y luego medir el hipervolumen debajo de esa hipersuperficie. Cada posible regla de decisión que uno podría usar para un clasificador para c clases puede describirse en términos de sus tasas positivas verdaderas (TPR 1 ,..., TPR c ) . Es este conjunto de tasas el que define un punto, y el conjunto de todas las reglas de decisión posibles produce una nube de puntos que definen la hipersuperficie. Con esta definición, la VUS es la probabilidad de que el clasificador pueda etiquetar correctamente todos los c ejemplos cuando se le proporciona un conjunto que tiene un ejemplo seleccionado aleatoriamente de cada clase. La implementación de un clasificador que sabe que su conjunto de entrada consta de un ejemplo de cada clase podría primero calcular una puntuación de bondad de ajuste para cada uno de los c 2 posibles emparejamientos de un ejemplo con una clase, y luego emplear el algoritmo húngaro para maximizar la suma de las c puntuaciones seleccionadas sobre todo c ! posibles formas de asignar exactamente un ejemplo a cada clase.

Dado el éxito de las curvas ROC para la evaluación de modelos de clasificación, también se ha investigado la extensión de las curvas ROC para otras tareas supervisadas. Propuestas notables para problemas de regresión son las llamadas curvas de característica de error de regresión (REC) [66] y las curvas de regresión ROC (RROC). [67] En este último, las curvas RROC se vuelven extremadamente similares a las curvas ROC para la clasificación, con las nociones de asimetría, dominancia y casco convexo. Además, el área bajo las curvas RROC es proporcional a la varianza del error del modelo de regresión.

Ver también

Referencias

  1. ^ ab "Análisis del rendimiento del detector mediante curvas ROC: ejemplo de MATLAB y Simulink". www.mathworks.com . Consultado el 11 de agosto de 2016 .
  2. ^ Dulces, John A.; Teoría de la detección de señales y análisis de la República de China en psicología y diagnóstico: artículos recopilados, Lawrence Erlbaum Associates, Mahwah, Nueva Jersey, 1996
  3. ^ Junge, señor; Dettori, JR (3 de mayo de 2024). "ROC Solid: curvas características del operador del receptor (ROC) como base para mejores pruebas de diagnóstico". Revista global de columna vertebral . 8 (4): 424–429. doi :10.1177/2192568218778294. PMC 6022965 . PMID  29977728. 
  4. ^ Peres, DJ; Cancelliere, A. (8 de diciembre de 2014). "Derivación y evaluación de umbrales desencadenantes de deslizamientos de tierra mediante un enfoque de Monte Carlo". Hidrol. Sistema Tierra. Ciencia . 18 (12): 4913–4931. Código Bib : 2014HESS...18.4913P. doi : 10.5194/hess-18-4913-2014 . ISSN  1607-7938.
  5. ^ Murphy, Allan H. (1 de marzo de 1996). "El asunto Finley: un evento señalado en la historia de la verificación de pronósticos". Meteorología y previsión . 11 (1): 3–20. Código Bib : 1996WtFor..11....3M. doi : 10.1175/1520-0434(1996)011<0003:tfaase>2.0.co;2 . ISSN  0882-8156.
  6. ^ Peres, DJ; Iuppa, C.; Cavallaro, L.; Cancelliere, A.; Foti, E. (1 de octubre de 2015). "Extensión significativa del registro de altura de las olas mediante redes neuronales y reanálisis de datos del viento". Modelado oceánico . 94 : 128-140. Código Bib : 2015OcMod..94..128P. doi :10.1016/j.ocemod.2015.08.002.
  7. ^ Sushkova, Olga; Morozov, Alexéi; Gabova, Alexandra; Karabanov, Alexei; Illarioshkin, Sergey (2021). "Un método estadístico para el análisis de datos exploratorios basado en diagramas de áreas bajo curvas 2D y 3D: investigación de la enfermedad de Parkinson". Sensores . 21 (14): 4700. Código Bib : 2021Senso..21.4700S. doi : 10.3390/s21144700 . PMC 8309570 . PMID  34300440. 
  8. ^ Fawcett, Tom (2006). "Una introducción al análisis de la República de China" (PDF) . Letras de reconocimiento de patrones . 27 (8): 861–874. doi :10.1016/j.patrec.2005.10.010. S2CID  2027090.
  9. ^ Preboste, Foster; Tom Fawcett (1 de agosto de 2013). "Ciencia de datos para empresas: lo que necesita saber sobre la minería de datos y el pensamiento analítico de datos". O'Reilly Media, Inc.
  10. ^ Poderes, David MW (2011). "Evaluación: de la precisión, la recuperación y la medida F a la República de China, la información, el marcado y la correlación". Revista de tecnologías de aprendizaje automático . 2 (1): 37–63.
  11. ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Enciclopedia de aprendizaje automático . Saltador. doi :10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
  12. ^ Brooks, Harold; Marrón, púa; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Pablo; Stephenson, David (26 de enero de 2015). "Grupo de trabajo conjunto PMIM/WGNE sobre investigación de verificación de pronósticos". Colaboración para la investigación meteorológica y climática de Australia . Organización Meteorológica Mundial . Consultado el 17 de julio de 2019 .
  13. ^ Chicco D, Jurman G (enero de 2020). "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de la clasificación binaria". Genómica BMC . 21 (1): 6-1–6-13. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID  31898477. 
  14. ^ Chicco D, Toetsch N, Jurman G (febrero de 2021). "El coeficiente de correlación de Matthews (MCC) es más confiable que la precisión equilibrada, la información de las casas de apuestas y la marcación en la evaluación de la matriz de confusión de dos clases". Minería de biodatos . 14 (13): 13. doi : 10.1186/s13040-021-00244-z . PMC 7863449 . PMID  33541410. 
  15. ^ Tharwat A. (agosto de 2018). "Métodos de evaluación de clasificación". Computación e Informática Aplicada . 17 : 168-192. doi : 10.1016/j.aci.2018.08.003 .
  16. ^ "clasificación - AUC-ROC de un clasificador aleatorio". Intercambio de pilas de ciencia de datos . Consultado el 30 de noviembre de 2020 .
  17. ^ abcd Chicco, Davide; Jurman, Giuseppe (17 de febrero de 2023). "El coeficiente de correlación de Matthews (MCC) debería reemplazar al ROC AUC como métrica estándar para evaluar la clasificación binaria". Minería de biodatos . 16 (1). Springer Science and Business Media LLC: 4. doi : 10.1186/s13040-023-00322-4 . hdl : 10281/430042 . ISSN  1756-0381. PMC 9938573 . PMID  36800973. 
  18. ^ Muschelli, John (23 de diciembre de 2019). "ROC y AUC con un predictor binario: una métrica potencialmente engañosa". Revista de Clasificación . 37 (3). Springer Science y Business Media LLC: 696–708. doi :10.1007/s00357-019-09345-1. ISSN  0176-4268. PMC 7695228 . PMID  33250548. 
  19. ^ abc Lobo, Jorge M.; Jiménez-Valverde, Alberto; Real, Raimundo (2008). "AUC: una medida engañosa del rendimiento de los modelos de distribución predictivos". Ecología Global y Biogeografía . 17 (2). Wiley: 145-151. doi :10.1111/j.1466-8238.2007.00358.x. ISSN  1466-822X.
  20. ^ Halligan, Steve; Altman, Douglas G.; Mallett, Susan (20 de enero de 2015). "Desventajas de utilizar el área bajo la curva característica operativa del receptor para evaluar pruebas de imagen: una discusión y propuesta de un enfoque alternativo". Radiología Europea . 25 (4). Springer Science y Business Media LLC: 932–939. doi : 10.1007/s00330-014-3487-0 . ISSN  0938-7994. PMC 4356897 . PMID  25599932. 
  21. ^ Berrar, D.; Flach, P. (21 de marzo de 2011). "Advertencias y peligros del análisis ROC en la investigación clínica de microarrays (y cómo evitarlos)". Sesiones informativas en Bioinformática . 13 (1). Prensa de la Universidad de Oxford (OUP): 83–97. doi : 10.1093/bib/bbr008 . ISSN  1467-5463.
  22. ^ Řezáč, M., Řezáč, F. (2011). "Cómo medir la calidad de los modelos de calificación crediticia". Revista Checa de Economía y Finanzas (Finance a úvěr) . 61 (5). Universidad Carolina de Praga, Facultad de Ciencias Sociales: 486–507.
  23. ^ poderes abc, David MW (2012). "ROC-ConCert: medición de coherencia y certeza basada en la República de China" (PDF) . Congreso de Primavera de Ingeniería y Tecnología (SCET) . vol. 2. IEEE. págs. 238-241.[ enlace muerto ]
  24. ^ Fogarty, James; Panadero, Ryan S.; Hudson, Scott E. (2005). "Estudios de caso sobre el uso del análisis de curvas ROC para estimaciones basadas en sensores en la interacción persona-computadora". Serie de actas de conferencias internacionales de ACM, Actas de la interfaz gráfica 2005 . Waterloo, ON: Sociedad Canadiense de Comunicaciones Humano-Computadora.
  25. ^ Hastie, Trevor ; Tibshirani, Robert ; Friedman, Jerome H. (2009). Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción (2ª ed.).
  26. ^ Fawcett, Tom (2006); Una introducción al análisis ROC , Pattern Recognition Letters, 27, 861–874.
  27. ^ Hanley, James A.; McNeil, Barbara J. (1982). "El significado y uso del área bajo una curva de característica operativa del receptor (ROC)". Radiología . 143 (1): 29–36. doi :10.1148/radiología.143.1.7063747. PMID  7063747. S2CID  10511727.
  28. ^ Masón, Simón J.; Graham, Nicolás E. (2002). "Áreas debajo de las curvas de características operativas relativas (ROC) y niveles operativos relativos (ROL): importancia estadística e interpretación" (PDF) . Revista trimestral de la Real Sociedad Meteorológica . 128 (584): 2145–2166. Código Bib : 2002QJRMS.128.2145M. CiteSeerX 10.1.1.458.8392 . doi :10.1256/003590002320603584. S2CID  121841664. Archivado desde el original (PDF) el 20 de noviembre de 2008. 
  29. ^ Calders, dibujo animado; Jaroszewicz, Szymon (2007). "Optimización eficiente de AUC para la clasificación". En Kok, Joost N.; Koronacki, Jacek; López de Mantarás, Ramón; Matwin, Stan; Mladenič, Dunja; Skowron, Andrzej (eds.). Descubrimiento de conocimientos en bases de datos: PKDD 2007 . Apuntes de conferencias sobre informática. vol. 4702. Berlín, Heidelberg: Springer. págs. 42–53. doi : 10.1007/978-3-540-74976-9_8 . ISBN 978-3-540-74976-9.
  30. ^ Mano, David J.; y hasta, Robert J. (2001); Una generalización simple del área bajo la curva ROC para problemas de clasificación de clases múltiples , Machine Learning, 45, 171–186.
  31. ^ Preboste, F.; Fawcett, T. (2001). "Clasificación robusta para entornos imprecisos". Aprendizaje automático . 42 (3): 203–231. arXiv : cs/0009007 . doi :10.1023/a:1007601015854. S2CID  5415722.
  32. ^ Flach, Pensilvania; Wu, S. (2005). "Reparación de concavidades en curvas ROC". (PDF) . XIX Conferencia Internacional Conjunta sobre Inteligencia Artificial (IJCAI'05) . págs. 702–707.
  33. ^ Hanley, James A.; McNeil, Barbara J. (1 de septiembre de 1983). "Un método para comparar las áreas bajo las curvas características operativas del receptor derivadas de los mismos casos". Radiología . 148 (3): 839–843. doi : 10.1148/radiología.148.3.6878708 . PMID  6878708.
  34. ^ Hanczar, Blaise; Hua, Jianping; Sima, Chao; Weinstein, Juan; Bittner, Michael; Dougherty, Edward R (2010). "Precisión de muestras pequeñas de estimaciones relacionadas con la República de China". Bioinformática . 26 (6): 822–830. doi : 10.1093/bioinformática/btq037 . PMID  20130029.
  35. ^ Lobo, Jorge M.; Jiménez-Valverde, Alberto; Real, Raimundo (2008). "AUC: una medida engañosa del rendimiento de los modelos de distribución predictivos". Ecología Global y Biogeografía . 17 (2): 145-151. doi :10.1111/j.1466-8238.2007.00358.x. S2CID  15206363.
  36. ^ Mano, David J (2009). "Medición del rendimiento del clasificador: una alternativa coherente al área bajo la curva ROC". Aprendizaje automático . 77 : 103–123. doi : 10.1007/s10994-009-5119-5 . hdl : 10044/1/18420 .
  37. ^ Flach, Pensilvania; Hernández-Orallo, J.; Ferri, C. (2011). "Una interpretación coherente del AUC como medida del rendimiento de clasificación agregado". (PDF) . Actas de la 28.ª Conferencia Internacional sobre Aprendizaje Automático (ICML-11) . págs. 657–664.
  38. ^ Hernández-Orallo, J.; Flach, Pensilvania; Ferri, C. (2012). "Una vista unificada de las métricas de rendimiento: traducir la elección del umbral en pérdida de clasificación esperada" (PDF) . Revista de investigación sobre aprendizaje automático . 13 : 2813–2869.
  39. ^ Poderes, David MW (2012). "El problema del área bajo la curva". Conferencia Internacional sobre Ciencia y Tecnología de la Información .
  40. ^ Poderes, David MW (2003). "Recuerdo y precisión frente a la casa de apuestas" (PDF) . Actas de la Conferencia Internacional sobre Ciencias Cognitivas (ICSC-2003), Sydney Australia, 2003, págs. 529–534 .
  41. ^ Poderes, David MW (2012). "El problema con Kappa" (PDF) . Conferencia del Capítulo Europeo de la Asociación de Lingüística Computacional (EACL2012) Taller conjunto ROBUS-UNSUP . Archivado desde el original (PDF) el 18 de mayo de 2016 . Consultado el 20 de julio de 2012 .
  42. ^ McClish, Donna Katzman (1 de agosto de 1989). "Análisis de una parte de la curva ROC". Toma de decisiones médicas . 9 (3): 190-195. doi :10.1177/0272989X8900900307. PMID  2668680. S2CID  24442201.
  43. ^ Dodd, Lori E.; Pepe, Margarita S. (2003). "Estimación y regresión parcial del AUC". Biometría . 59 (3): 614–623. doi : 10.1111/1541-0420.00071 . PMID  14601762. S2CID  23054670.
  44. ^ Karplus, Kevin (2011); Mejor que el azar: la importancia de los modelos nulos, Universidad de California, Santa Cruz, en Actas del primer taller internacional sobre reconocimiento de patrones en proteómica, biología estructural y bioinformática (PR PS BB 2011)
  45. ^ "Estadística C: definición, ejemplos, ponderación y significado". Estadísticas Cómo . 28 de agosto de 2016.
  46. ^ Poncio, Robert Gilmore; Parmentier, Benoît (2014). "Recomendaciones para el uso de la característica operativa relativa (ROC)". Ecología del Paisaje . 29 (3): 367–382. doi :10.1007/s10980-013-9984-8. S2CID  15924380.
  47. ^ Poncio, Robert Gilmore; Sí, Kangping (2014). "La característica operativa total para medir la capacidad de diagnóstico para múltiples umbrales". Revista Internacional de Ciencia de la Información Geográfica . 28 (3): 570–583. doi :10.1080/13658816.2013.862623. S2CID  29204880.
  48. ^ Navratil, J.; Klusacek, D. (1 de abril de 2007). "Sobre DET lineales". 2007 Conferencia internacional IEEE sobre acústica, habla y procesamiento de señales - ICASSP '07 . vol. 4. págs. IV–229–IV–232. doi :10.1109/ICASSP.2007.367205. ISBN 978-1-4244-0727-9. S2CID  18173315.
  49. ^ Dev P. Chakraborty (14 de diciembre de 2017). "doble+probabilidad+papel"&pg=PT214 Métodos de rendimiento del observador para diagnóstico por imágenes: fundamentos, modelado y aplicaciones con ejemplos basados ​​en R. Prensa CRC. pag. 214.ISBN 9781351230711. Consultado el 11 de julio de 2019 .
  50. ^ MacMillan, Neil A.; Creelman, C. Douglas (2005). Teoría de la detección: una guía del usuario (2ª ed.). Mahwah, Nueva Jersey: Lawrence Erlbaum Associates. ISBN 978-1-4106-1114-7.
  51. ^ Glanzer, Murray; Kisok, Kim; Hilford, Andy; Adams, John K. (1999). "Pendiente de la característica operativa del receptor en la memoria de reconocimiento". Revista de psicología experimental: aprendizaje, memoria y cognición . 25 (2): 500–513. doi :10.1037/0278-7393.25.2.500.
  52. ^ Ratcliff, Roger; McCoon, Gail; Tindall, Michael (1994). "Generalidad empírica de los datos de las funciones ROC de la memoria de reconocimiento e implicaciones para los GMM". Revista de psicología experimental: aprendizaje, memoria y cognición . 20 (4): 763–785. CiteSeerX 10.1.1.410.2114 . doi :10.1037/0278-7393.20.4.763. PMID  8064246. 
  53. ^ Zhang, junio; Mueller, Shane T. (2005). "Una nota sobre el análisis ROC y la estimación no paramétrica de la sensibilidad". Psicometrika . 70 : 203–212. CiteSeerX 10.1.1.162.1515 . doi :10.1007/s11336-003-1119-8. S2CID  122355230. 
  54. ^ Yonelinas, Andrew P.; Kroll, Neal EA; Dobbins, Ian G.; Lazzara, Michele; Caballero, Robert T. (1998). "Déficits de recuerdo y familiaridad en la amnesia: convergencia de recordar-saber, disociación de procesos y datos de características operativas del receptor". Neuropsicología . 12 (3): 323–339. doi :10.1037/0894-4105.12.3.323. PMID  9673991.
  55. ^ ab Verde, David M.; Swets, John A. (1966). Teoría de la detección de señales y psicofísica . Nueva York, Nueva York: John Wiley and Sons Inc. ISBN 978-0-471-32420-1.
  56. ^ "Uso de la curva de característica operativa del receptor (ROC) para analizar un modelo de clasificación: una nota final de interés histórico" (PDF) . Departamento de Matemáticas, Universidad de Utah . Archivado (PDF) desde el original el 22 de agosto de 2020 . Consultado el 25 de mayo de 2017 .
  57. ^ Zweig, Mark H.; Campbell, Gregorio (1993). "Gráficos de características operativas del receptor (ROC): una herramienta de evaluación fundamental en medicina clínica" (PDF) . Química Clínica . 39 (8): 561–577. doi : 10.1093/clinchem/39.4.561 . PMID  8472349.
  58. ^ Pepe, Margaret S. (2003). La evaluación estadística de pruebas médicas para su clasificación y predicción . Nueva York, Nueva York: Oxford. ISBN 978-0-19-856582-6.
  59. ^ Obuchowski, Nancy A. (2003). "Curvas características operativas del receptor y su uso en radiología". Radiología . 229 (1): 3–8. doi :10.1148/radiol.2291010898. PMID  14519861.
  60. ^ Spackman, Kent A. (1989). "Teoría de la detección de señales: herramientas valiosas para evaluar el aprendizaje inductivo". Actas del Sexto Taller Internacional sobre Aprendizaje Automático . San Mateo, California: Morgan Kaufmann . págs. 160-163.
  61. ^ Kharin, Viatcheslav (2003). "Sobre la puntuación de pronósticos de probabilidad de la República de China". Revista de Clima . 16 (24): 4145–4150. Código Bib : 2003JCli...16.4145K. doi : 10.1175/1520-0442(2003)016<4145:OTRSOP>2.0.CO;2 .
  62. ^ "Fundamentos del radar", Técnicas de procesamiento de señales digitales y aplicaciones en el procesamiento de imágenes de radar , Hoboken, Nueva Jersey, EE. UU.: John Wiley & Sons, Inc., págs. 93–115, 29 de enero de 2008, doi :10.1002/9780470377765. capítulo 4, ISBN 9780470377765, recuperado el 20 de mayo de 2023
  63. ^ Hasta, DJ; Mano, RJ (2001). "Una generalización simple del área bajo la curva ROC para problemas de clasificación de clases múltiples". Aprendizaje automático . 45 (2): 171–186. doi : 10.1023/A:1010920819831 .
  64. ^ Mossman, D. (1999). "República de China de tres vías". Toma de decisiones médicas . 19 (1): 78–89. doi :10.1177/0272989x9901900110. PMID  9917023. S2CID  24623127.
  65. ^ Ferri, C.; Hernández-Orallo, J.; Salido, MA (2003). "Volumen bajo la superficie de la República de China para problemas de clases múltiples". Aprendizaje automático: ECML 2003 . págs. 108-120.
  66. ^ Bi, J.; Bennett, KP (2003). «Curvas características del error de regresión» (PDF) . Vigésima Conferencia Internacional sobre Aprendizaje Automático (ICML-2003). Washington, DC .
  67. ^ Hernández-Orallo, J. (2013). "Curvas ROC para regresión". Reconocimiento de patrones . 46 (12): 3395–3411. Código Bib : 2013PatRe..46.3395H. doi :10.1016/j.patcog.2013.06.014. hdl : 10251/40252 . S2CID  15651724.

Enlaces externos

Lectura adicional