stringtranslate.com

P4-métrico

La métrica P 4 [1] [2] permite evaluar el rendimiento del clasificador binario . Se calcula a partir de la precisión , la recuperación , la especificidad y el VPN (valor predictivo negativo). P 4 está diseñada de manera similar a la métrica F 1 , pero aborda las críticas formuladas contra F 1. Puede percibirse como una extensión de esta última.

Al igual que las otras métricas conocidas, P 4 es una función de: TP (verdaderos positivos), TN (verdaderos negativos), FP ( falsos positivos ), FN ( falsos negativos ).

Justificación

El concepto clave de P 4 es aprovechar las cuatro probabilidades condicionales clave:

- la probabilidad de que la muestra sea positiva, siempre que el resultado del clasificador haya sido positivo.
- la probabilidad de que el resultado del clasificador sea positivo, siempre que la muestra sea positiva.
- la probabilidad de que el resultado del clasificador sea negativo, siempre que la muestra sea negativa.
- la probabilidad de que la muestra sea negativa, siempre que el resultado del clasificador sea negativo.

El supuesto principal detrás de esta métrica es que un clasificador binario correctamente diseñado debe dar resultados para los cuales todas las probabilidades mencionadas anteriormente sean cercanas a 1. P 4 está diseñado de tal manera que requiere que todas las probabilidades sean iguales a 1. También tiende a cero cuando cualquiera de estas probabilidades tiende a cero.

Definición

P 4 se define como una media armónica de cuatro probabilidades condicionales clave:

En términos de TP, TN, FP, FN se puede calcular de la siguiente manera:

Evaluación del desempeño del clasificador binario

La evaluación del rendimiento de un clasificador binario es un concepto multidisciplinario. Abarca desde la evaluación de pruebas médicas y psiquiátricas hasta clasificadores de aprendizaje automático de diversos campos. Por ello, muchas métricas en uso existen bajo varios nombres, algunos de los cuales se definen de forma independiente.

  1. ^ el número de casos positivos reales en los datos
  2. ^ Un resultado de prueba que indica correctamente la presencia de una condición o característica
  3. ^ Error tipo II: Un resultado de prueba que indica erróneamente que una condición o atributo particular está ausente
  4. ^ el número de casos negativos reales en los datos
  5. ^ Un resultado de prueba que indica correctamente la ausencia de una condición o característica
  6. ^ Error tipo I: Un resultado de prueba que indica erróneamente que está presente una condición o atributo particular


Propiedades de P4métrico

Ejemplos, comparando con otras métricas

Tabla de dependencia para métricas seleccionadas ("verdadero" significa que depende, "falso" significa que no depende):

Las métricas que no dependen de una probabilidad dada son propensas a tergiversaciones cuando se acercan a 0.

Ejemplo 1: Prueba de detección de enfermedades raras

Consideremos una prueba médica destinada a detectar un tipo de enfermedad rara. El tamaño de la población es de 100 000, mientras que el 0,05% de la población está infectada. Rendimiento de la prueba: el 95% de todos los individuos positivos se clasifican correctamente ( TPR = 0,95) y el 95% de todos los individuos negativos se clasifican correctamente ( TNR = 0,95). En tal caso, debido al alto desequilibrio de la población, a pesar de tener una alta precisión de la prueba (0,95), la probabilidad de que un individuo que ha sido clasificado como positivo sea de hecho positivo es muy baja:

Y ahora podemos observar cómo esta baja probabilidad se refleja en algunas de las métricas:

Ejemplo 2: Reconocimiento de imágenes: gatos y perros

Estamos entrenando un clasificador de imágenes basado en una red neuronal. Estamos considerando solo dos tipos de imágenes: las que contienen perros (etiquetadas como 0) y las que contienen gatos (etiquetadas como 1). Por lo tanto, nuestro objetivo es distinguir entre gatos y perros. El clasificador sobrepredice a favor de los gatos (muestras "positivas"): el 99,99 % de los gatos se clasifican correctamente y solo el 1 % de los perros se clasifican correctamente. El conjunto de datos de imágenes consta de 100 000 imágenes, el 90 % de las cuales son imágenes de gatos y el 10 % son imágenes de perros. En tal situación, la probabilidad de que la imagen que contiene perros se clasifique correctamente es bastante baja:

No todas las métricas detectan esta baja probabilidad:

Véase también

Referencias

  1. ^ Sitarz, Mikolaj (2022). "Extensión de la métrica F1, enfoque probabilístico". arXiv : 2210.11997 [cs.LG].
  2. ^ "Métrica P4, una nueva forma de evaluar clasificadores binarios".
  3. ^ Fawcett, Tom (2006). "Introducción al análisis ROC" (PDF) . Pattern Recognition Letters . 27 (8): 861–874. doi :10.1016/j.patrec.2005.10.010. S2CID  2027090.
  4. ^ Provost, Foster; Tom Fawcett (1 de agosto de 2013). "Ciencia de datos para empresas: lo que necesita saber sobre minería de datos y pensamiento analítico de datos". O'Reilly Media, Inc.
  5. ^ Powers, David MW (2011). "Evaluación: desde precisión, recuperación y medida F hasta ROC, información, marcación y correlación". Revista de tecnologías de aprendizaje automático . 2 (1): 37–63.
  6. ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Enciclopedia del aprendizaje automático . Springer. doi :10.1007/978-0-387-30164-8. ISBN. 978-0-387-30164-8.
  7. ^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (26 de enero de 2015). "Grupo de trabajo conjunto WWRP/WGNE sobre investigación de verificación de pronósticos". Colaboración para la investigación meteorológica y climática australiana . Organización Meteorológica Mundial . Consultado el 17 de julio de 2019 .
  8. ^ Chicco D, Jurman G (enero de 2020). "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de la clasificación binaria". BMC Genomics . 21 (1): 6-1–6-13. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID  31898477. 
  9. ^ Chicco D, Toetsch N, Jurman G (febrero de 2021). "El coeficiente de correlación de Matthews (MCC) es más confiable que la precisión equilibrada, la información de la casa de apuestas y la marcación en la evaluación de la matriz de confusión de dos clases". Minería de datos biológicos . 14 (13): 13. doi : 10.1186/s13040-021-00244-z . PMC 7863449 . PMID  33541410. 
  10. ^ Tharwat A. (agosto de 2018). "Métodos de evaluación de la clasificación". Computación e informática aplicada . 17 : 168–192. doi : 10.1016/j.aci.2018.08.003 .