stringtranslate.com

coeficiente phi

En estadística , el coeficiente phi (o coeficiente de contingencia cuadrático medio y denotado por φ o r φ ) es una medida de asociación para dos variables binarias .

En el aprendizaje automático , se lo conoce como coeficiente de correlación de Matthews (MCC) y se utiliza como medida de la calidad de las clasificaciones binarias (de dos clases) , introducidas por el bioquímico Brian W. Matthews en 1975. [1]

Introducida por Karl Pearson , [2] y también conocida como coeficiente phi de Yule desde su introducción por Udny Yule en 1912 [3], esta medida es similar al coeficiente de correlación de Pearson en su interpretación.

Definición

Un coeficiente de correlación de Pearson estimado para dos variables binarias arrojará el coeficiente phi. [4]

Dos variables binarias se consideran asociadas positivamente si la mayoría de los datos se encuentran en las celdas diagonales. Por el contrario, dos variables binarias se consideran asociadas negativamente si la mayoría de los datos se salen de la diagonal.

Si tenemos una tabla de 2×2 para dos variables  aleatorias xey

donde n 11 , n 10 , n 01 , n 00 , son recuentos no negativos de números de observaciones que suman  n , el número total de observaciones. El coeficiente phi que describe la asociación de x e y es

Phi está relacionado con el coeficiente de correlación biserial puntual y la d de Cohen y estima el alcance de la relación entre dos variables (2 × 2). [5]

El coeficiente phi también se puede expresar usando solo , , y , como

Valores máximos

Aunque computacionalmente el coeficiente de correlación de Pearson se reduce al coeficiente phi en el caso de 2 × 2, en general no son lo mismo. El coeficiente de correlación de Pearson varía de −1 a +1, donde ±1 indica perfecto acuerdo o desacuerdo y 0 indica ninguna relación. El coeficiente phi tiene un valor máximo que está determinado por la distribución de las dos variables si una o ambas variables pueden tomar más de dos valores. [ Se necesita más explicación ] Véase Davenport y El-Sanhury (1991) [6] para una discusión detallada.

Aprendizaje automático

El MCC se define de manera idéntica al coeficiente phi, introducido por Karl Pearson , [2] [7] también conocido como coeficiente phi de Yule desde su introducción por Udny Yule en 1912. [3] A pesar de estos antecedentes que son anteriores al uso de Matthews por varias décadas, El término MCC se utiliza ampliamente en el campo de la bioinformática y el aprendizaje automático.

El coeficiente tiene en cuenta los verdaderos y falsos positivos y negativos y generalmente se considera una medida equilibrada que puede utilizarse incluso si las clases son de tamaños muy diferentes. [8] El MCC es en esencia un coeficiente de correlación entre las clasificaciones binarias observadas y predichas; devuelve un valor entre −1 y +1. Un coeficiente de +1 representa una predicción perfecta, 0 no es mejor que una predicción aleatoria y −1 indica un desacuerdo total entre la predicción y la observación. Sin embargo, si MCC no es igual a −1, 0 o +1, no es un indicador confiable de qué tan similar es un predictor a la adivinación aleatoria porque MCC depende del conjunto de datos. [9] MCC está estrechamente relacionado con el estadístico chi-cuadrado para una tabla de contingencia 2×2.

donde n es el número total de observaciones.

Si bien no existe una manera perfecta de describir la matriz de confusión de verdaderos y falsos positivos y negativos mediante un solo número, el coeficiente de correlación de Matthews generalmente se considera una de las mejores medidas de este tipo. [10] Otras medidas, como la proporción de predicciones correctas (también denominada precisión ), no son útiles cuando las dos clases son de tamaños muy diferentes. Por ejemplo, asignar cada objeto al conjunto más grande logra una alta proporción de predicciones correctas, pero generalmente no es una clasificación útil.

El MCC se puede calcular directamente a partir de la matriz de confusión mediante la fórmula:

En esta ecuación, TP es el número de verdaderos positivos , TN el número de verdaderos negativos , FP el número de falsos positivos y FN el número de falsos negativos . Si exactamente una de las cuatro sumas del denominador es cero, el denominador se puede establecer arbitrariamente en uno; esto da como resultado un coeficiente de correlación de Matthews de cero, que se puede demostrar que es el valor límite correcto. En caso de que dos o más sumas sean cero (por ejemplo, tanto las etiquetas como las predicciones del modelo son todas positivas o negativas), el límite no existe.

El MCC se puede calcular con la fórmula:

utilizando el valor predictivo positivo, la tasa de verdaderos positivos, la tasa de verdaderos negativos, el valor predictivo negativo, la tasa de falsos descubrimientos, la tasa de falsos negativos, la tasa de falsos positivos y la tasa de falsas omisiones.

La fórmula original dada por Matthews fue: [1]

Esto es igual a la fórmula dada anteriormente. Como coeficiente de correlación , el coeficiente de correlación de Matthews es la media geométrica de los coeficientes de regresión del problema y su dual . Los coeficientes de regresión componentes del coeficiente de correlación de Matthews son la Marcación (Δp) y el estadístico J de Youden ( Información o Δp'). [10] [11] La marca y la información corresponden a diferentes direcciones del flujo de información y generalizan el estadístico J de Youden , el estadístico p, mientras que su media geométrica generaliza el coeficiente de correlación de Matthews a más de dos clases. [10]

Algunos científicos afirman que el coeficiente de correlación de Matthews es la puntuación única más informativa para establecer la calidad de la predicción de un clasificador binario en un contexto de matriz de confusión. [12] [13]

Ejemplo

Dada una muestra de 12 imágenes, 8 de gatos y 4 de perros, donde los gatos pertenecen a la clase 1 y los perros pertenecen a la clase 0,

real = [1,1,1,1,1,1,1,1,0,0,0,0],

Supongamos que se entrena un clasificador que distingue entre gatos y perros, tomamos las 12 imágenes y las pasamos por el clasificador, y el clasificador hace 9 predicciones precisas y falla 3: 2 gatos predichos erróneamente como perros (primeras 2 predicciones) y 1 perro predicho erróneamente como gato (última predicción).

predicción = [0,0, 1 , 1 , 1 , 1 , 1 , 1 , 0 , 0 , 0,1 ]

Con estos dos conjuntos etiquetados (real y predicciones) podemos crear una matriz de confusión que resumirá los resultados de probar el clasificador:

En esta matriz de confusión, de las 8 imágenes de gatos, el sistema juzgó que 2 eran perros, y de las 4 imágenes de perros, predijo que 1 era un gato. Todas las predicciones correctas se encuentran en la diagonal de la tabla (resaltadas en negrita), por lo que es fácil inspeccionar visualmente la tabla en busca de errores de predicción, ya que estarán representados por valores fuera de la diagonal.

En términos abstractos, la matriz de confusión es la siguiente:

donde P = Positivo; N = Negativo; TP = Verdadero Positivo; FP = Falso Positivo; TN = Verdadero Negativo; FN = Falso Negativo.

Sustituyendo los números de la fórmula:

Matriz de confusión

Definamos un experimento a partir de P casos positivos y N casos negativos para alguna condición. Los cuatro resultados se pueden formular en una tabla de contingencia o matriz de confusión de 2×2 , de la siguiente manera:

  1. ^ el número de casos positivos reales en los datos
  2. ^ Un resultado de prueba que indica correctamente la presencia de una condición o característica.
  3. ^ Error de tipo II: resultado de una prueba que indica erróneamente que una condición o atributo particular está ausente
  4. ^ el número de casos negativos reales en los datos
  5. ^ Un resultado de prueba que indica correctamente la ausencia de una condición o característica.
  6. ^ Error de tipo I: resultado de una prueba que indica erróneamente que está presente una condición o atributo particular


Caso multiclase

El coeficiente de correlación de Matthews se ha generalizado al caso multiclase. La generalización denominada estadística (para K clases diferentes) se definió en términos de una matriz de confusión [22] . [23]

Cuando hay más de dos etiquetas, el MCC ya no oscilará entre −1 y +1. En cambio, el valor mínimo estará entre −1 y 0 dependiendo de la distribución real. El valor máximo es siempre +1.


Esta fórmula se puede entender más fácilmente definiendo variables intermedias: [24]

Usando la fórmula anterior para calcular la medida de MCC para el ejemplo de perro y gato discutido anteriormente, donde la matriz de confusión se trata como un ejemplo multiclase 2 ×:

Powers [10] dio una generalización alternativa del coeficiente de correlación de Matthews a más de dos clases mediante la definición de correlación como la media geométrica de la información y la marca .

P Stoica y P Babu [25] han presentado varias generalizaciones del coeficiente de correlación de Matthews a más de dos clases junto con nuevas métricas de correlación multivariada para la clasificación multinaria .

Ventajas sobre la precisión y la puntuación F1

Como lo explica Davide Chicco en su artículo "Diez consejos rápidos para el aprendizaje automático en biología computacional " [12] ( BioData Mining , 2017) y "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de la clasificación binaria". [26] ( BMC Genomics , 2020), el coeficiente de correlación de Matthews es más informativo que la puntuación F1 y la precisión en la evaluación de problemas de clasificación binaria, porque tiene en cuenta los ratios de equilibrio de las cuatro categorías de la matriz de confusión (verdaderos positivos, verdaderos negativos, falsos). positivos, falsos negativos). [12] [26]

El artículo anterior explica, para el Consejo 8 : [ cita excesiva ]

Para tener una comprensión general de su predicción, decide aprovechar las puntuaciones estadísticas comunes, como la precisión y la puntuación F1.

(Ecuación 1, precisión: peor valor = 0; mejor valor = 1)

(Ecuación 2, puntuación F1: peor valor = 0; mejor valor = 1)

Sin embargo, incluso si la precisión y la puntuación F1 se emplean ampliamente en estadística, ambas pueden ser engañosas, ya que no consideran completamente el tamaño de las cuatro clases de la matriz de confusión en su cálculo de puntuación final.

Supongamos, por ejemplo, que tiene un conjunto de validación muy desequilibrado compuesto por 100 elementos, 95 de los cuales son elementos positivos y solo 5 son elementos negativos (como se explica en el Consejo 5). Y supongamos que también cometió algunos errores al diseñar y entrenar su clasificador de aprendizaje automático y ahora tiene un algoritmo que siempre predice positivo. Imagínese que no es consciente de este problema.

Por lo tanto, al aplicar su único predictor positivo a su conjunto de validación desequilibrado, obtiene valores para las categorías de la matriz de confusión:

TP = 95, FP = 5; TN = 0, FN = 0.

Estos valores conducen a las siguientes puntuaciones de rendimiento: precisión = 95 % y puntuación F1 = 97,44 %. Al leer estos puntajes demasiado optimistas, estará muy feliz y pensará que su algoritmo de aprendizaje automático está haciendo un excelente trabajo. Evidentemente, estaría en el camino equivocado.

Por el contrario, para evitar estas peligrosas ilusiones engañosas, existe otra puntuación de rendimiento que se puede explotar: el coeficiente de correlación de Matthews [40] (MCC).

(Ecuación 3, MCC: peor valor = −1; mejor valor = +1).

Al considerar la proporción de cada clase de la matriz de confusión en su fórmula, su puntuación es alta sólo si a su clasificador le va bien tanto en los elementos negativos como en los positivos.

En el ejemplo anterior, la puntuación de MCC no estaría definida (dado que TN y FN serían 0, el denominador de la Ecuación 3 sería 0). Al verificar este valor, en lugar de la precisión y la puntuación F1, podrá notar que su clasificador va en la dirección equivocada y se dará cuenta de que hay problemas que debe resolver antes de continuar.

Consideremos este otro ejemplo. Ejecutó una clasificación en el mismo conjunto de datos que generó los siguientes valores para las categorías de la matriz de confusión:

TP = 90, FP = 4; TN = 1, FN = 5.

En este ejemplo, el clasificador funcionó bien al clasificar instancias positivas, pero no pudo reconocer correctamente los elementos de datos negativos. Nuevamente, la puntuación F1 y las puntuaciones de precisión resultantes serían extremadamente altas: precisión = 91% y puntuación F1 = 95,24%. De manera similar al caso anterior, si un investigador analizara solo estos dos indicadores de puntuación, sin considerar el MCC, pensaría erróneamente que el algoritmo está funcionando bastante bien en su tarea y tendría la ilusión de tener éxito.

Por otro lado, comprobar el coeficiente de correlación de Matthews volvería a ser fundamental. En este ejemplo, el valor de MCC sería 0,14 (Ecuación 3), lo que indica que el algoritmo funciona de manera similar a la adivinación aleatoria. Actuando como una alarma, el MCC podría informar al practicante de minería de datos que el modelo estadístico está funcionando mal.

Por estas razones, recomendamos encarecidamente evaluar el desempeño de cada prueba a través del coeficiente de correlación de Matthews (MCC), en lugar de la precisión y la puntuación F1, para cualquier problema de clasificación binaria.

—  Davide Chicco, Diez consejos rápidos para el aprendizaje automático en biología computacional [12]

Se podría leer que el pasaje de Chicco respalda la puntuación del MCC en casos con conjuntos de datos desequilibrados. Esto, sin embargo, es discutido; en particular, Zhu (2020) ofrece una fuerte refutación. [27]

Tenga en cuenta que la puntuación F1 depende de qué clase se define como clase positiva. En el primer ejemplo anterior, la puntuación F1 es alta porque la clase mayoritaria se define como la clase positiva. Invertir las clases positivas y negativas da como resultado la siguiente matriz de confusión:

TP = 0, FP = 0; TN = 5, FN = 95

Esto da una puntuación F1 = 0%.

El MCC no depende de qué clase es la positiva, lo que tiene la ventaja sobre la puntuación F1 de evitar definir incorrectamente la clase positiva.

Ver también

Referencias

  1. ^ ab Matthews, BW (1975). "Comparación de la estructura secundaria predicha y observada de la lisozima del fago T4". Biochimica et Biophysica Acta (BBA) - Estructura de las proteínas . 405 (2): 442–451. doi :10.1016/0005-2795(75)90109-9. PMID  1180967.
  2. ^ ab Cramer, H. (1946). Métodos matemáticos de estadística . Princeton: Prensa de la Universidad de Princeton, pág. 282 (segundo párrafo). ISBN 0-691-08004-6 https://archive.org/details/in.ernet.dli.2015.223699 
  3. ^ ab Yule, G. Udny (1912). "Sobre los métodos de medición de la asociación entre dos atributos". Revista de la Real Sociedad de Estadística . 75 (6): 579–652. doi :10.2307/2340126. JSTOR  2340126.
  4. ^ Guilford, J. (1936). Métodos Psicométricos . Nueva York: McGraw-Hill Book Company, Inc.
  5. ^ Aaron, B., Kromrey, JD y Ferron, JM (noviembre de 1998). Equiparación de índices de tamaño del efecto basados ​​en r y basados ​​en d: problemas con una fórmula comúnmente recomendada. Trabajo presentado en la reunión anual de la Asociación de Investigación Educativa de Florida, Orlando, FL. (Servicio de reproducción de documentos ERIC No. ED433353)
  6. ^ Davenport, E. y El-Sanhury, N. (1991). Phi/Phimax: revisión y síntesis. Medición educativa y psicológica, 51, 821–828.
  7. ^ Fecha poco clara, pero anterior a su muerte en 1936.
  8. ^ Boughorbel, SB (2017). "Clasificador óptimo para datos desequilibrados utilizando la métrica del coeficiente de correlación de Matthews". MÁS UNO . 12 (6): e0177678. Código Bib : 2017PLoSO..1277678B. doi : 10.1371/journal.pone.0177678 . PMC 5456046 . PMID  28574989. 
  9. ^ Chicco, D.; Tötsch, N.; Jurman, G. (2021). "El coeficiente de correlación de Matthews (MCC) es más confiable que la precisión equilibrada, la información de las casas de apuestas y la marcación en la evaluación de la matriz de confusión de dos clases". Minería de biodatos . 14 (1): 13. doi : 10.1186/s13040-021-00244-z . PMC 7863449 . PMID  33541410. 
  10. ^ abcd Powers, David MW (10 de octubre de 2020). "Evaluación: de la precisión, el recuerdo y la medida F a la República de China, la información, el marcado y la correlación". arXiv : 2010.16061 [cs.LG].
  11. ^ Perruchet, P.; Peereman, R. (2004). "La explotación de la información distributiva en el procesamiento de sílabas". J. Neurolingüística . 17 (2–3): 97–119. doi :10.1016/s0911-6044(03)00059-9. S2CID  17104364.
  12. ^ abcd Chicco D (diciembre de 2017). "Diez consejos rápidos para el aprendizaje automático en biología computacional". Minería de biodatos . 10 (35): 35. doi : 10.1186/s13040-017-0155-3 . PMC 5721660 . PMID  29234465. 
  13. ^ Chicco D, Jurman G. El coeficiente de correlación de Matthews (MCC) debería reemplazar el AUC de la República de China como métrica estándar para evaluar la clasificación binaria. Biodatos mín. 17 de febrero de 2023; 16 (1): 4. doi: 10.1186/s13040-023-00322-4. PMID: 36800973; PMCID: PMC9938573. https://biodatamining.biomedcentral.com/articles/10.1186/s13040-023-00322-4
  14. ^ Fawcett, Tom (2006). "Una introducción al análisis de la República de China" (PDF) . Letras de reconocimiento de patrones . 27 (8): 861–874. doi :10.1016/j.patrec.2005.10.010. S2CID  2027090.
  15. ^ Preboste, Foster; Tom Fawcett (1 de agosto de 2013). "Ciencia de datos para empresas: lo que necesita saber sobre la minería de datos y el pensamiento analítico de datos". O'Reilly Media, Inc.
  16. ^ Poderes, David MW (2011). "Evaluación: de la precisión, la recuperación y la medida F a la República de China, la información, el marcado y la correlación". Revista de tecnologías de aprendizaje automático . 2 (1): 37–63.
  17. ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Enciclopedia de aprendizaje automático . Saltador. doi :10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
  18. ^ Brooks, Harold; Marrón, púa; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Pablo; Stephenson, David (26 de enero de 2015). "Grupo de trabajo conjunto PMIM/WGNE sobre investigación de verificación de pronósticos". Colaboración para la investigación meteorológica y climática de Australia . Organización Meteorológica Mundial . Consultado el 17 de julio de 2019 .
  19. ^ Chicco D, Jurman G (enero de 2020). "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de la clasificación binaria". Genómica BMC . 21 (1): 6-1–6-13. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID  31898477. 
  20. ^ Chicco D, Toetsch N, Jurman G (febrero de 2021). "El coeficiente de correlación de Matthews (MCC) es más confiable que la precisión equilibrada, la información de las casas de apuestas y la marcación en la evaluación de la matriz de confusión de dos clases". Minería de biodatos . 14 (13): 13. doi : 10.1186/s13040-021-00244-z . PMC 7863449 . PMID  33541410. 
  21. ^ Tharwat A. (agosto de 2018). "Métodos de evaluación de clasificación". Computación e Informática Aplicada . 17 : 168-192. doi : 10.1016/j.aci.2018.08.003 .
  22. ^ Gorodkin, enero (2004). "Comparación de dos asignaciones de categoría K mediante un coeficiente de correlación de categoría K". Biología y Química Computacional . 28 (5): 367–374. doi :10.1016/j.compbiolchem.2004.09.006. PMID  15556477.
  23. ^ Gorodkin, enero. "La página Rk". La página de Rk . Consultado el 28 de diciembre de 2016 .
  24. ^ "Coeficiente de correlación de Matthew". scikit-learn.org .
  25. ^ Stoica P y Babu P (2024), Coeficientes de correlación de Pearson-Matthews para clasificación binaria y multinaria, Elsevier Signal Processing, 222, 109511, doi = https://doi.org/10.1016/j.sigpro.2024.109511
  26. ^ ab Chicco D, Jurman G (enero de 2020). "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de la clasificación binaria". Genómica BMC . 21 (1): 6-1–6-13. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID  31898477. 
  27. ^ Zhu, Qiuming (1 de agosto de 2020). "Sobre el rendimiento del coeficiente de correlación de Matthews (MCC) para conjuntos de datos desequilibrados". Letras de reconocimiento de patrones . 136 : 71–80. Código Bib : 2020PaReL.136...71Z. doi :10.1016/j.patrec.2020.03.030. ISSN  0167-8655. S2CID  219762950.