stringtranslate.com

Coeficiente phi

En estadística , el coeficiente phi (o coeficiente de contingencia cuadrático medio y denotado por φ o r φ ) es una medida de asociación para dos variables binarias .

En el aprendizaje automático , se conoce como coeficiente de correlación de Matthews (MCC) y se utiliza como medida de la calidad de las clasificaciones binarias (de dos clases) , introducidas por el bioquímico Brian W. Matthews en 1975. [1]

Introducido por Karl Pearson , [2] y también conocido como coeficiente phi de Yule desde su introducción por Udny Yule en 1912 [3], esta medida es similar al coeficiente de correlación de Pearson en su interpretación.

Definición

Un coeficiente de correlación de Pearson estimado para dos variables binarias devolverá el coeficiente phi. [4]

Se considera que dos variables binarias tienen una asociación positiva si la mayoría de los datos se encuentran a lo largo de las celdas diagonales. Por el contrario, se considera que dos variables binarias tienen una asociación negativa si la mayoría de los datos se encuentran fuera de la diagonal.

Si tenemos una tabla 2×2 para dos variables aleatorias xy

donde n 11 , n 10 , n 01 , n 00 , son recuentos no negativos de números de observaciones que suman  n , el número total de observaciones. El coeficiente phi que describe la asociación de x e y es

Phi está relacionado con el coeficiente de correlación biserial puntual y la d de Cohen y estima el grado de relación entre dos variables (2×2). [5]

El coeficiente phi también se puede expresar utilizando solo , , , y , como

Valores máximos

Aunque computacionalmente el coeficiente de correlación de Pearson se reduce al coeficiente phi en el caso 2×2, en general no son lo mismo. El coeficiente de correlación de Pearson varía de −1 a +1, donde ±1 indica acuerdo o desacuerdo perfecto y 0 indica que no hay relación. El coeficiente phi tiene un valor máximo que está determinado por la distribución de las dos variables si una o ambas variables pueden tomar más de dos valores. [ se necesita más explicación ] Véase Davenport y El-Sanhury (1991) [6] para una discusión detallada.

Aprendizaje automático

El MCC se define de manera idéntica al coeficiente phi, introducido por Karl Pearson , [2] [7] también conocido como el coeficiente phi de Yule desde su introducción por Udny Yule en 1912. [3] A pesar de estos antecedentes que anteceden al uso de Matthews por varias décadas, el término MCC se utiliza ampliamente en el campo de la bioinformática y el aprendizaje automático.

El coeficiente tiene en cuenta los verdaderos y falsos positivos y negativos y generalmente se considera una medida equilibrada que se puede utilizar incluso si las clases son de tamaños muy diferentes. [8] El MCC es en esencia un coeficiente de correlación entre las clasificaciones binarias observadas y predichas; devuelve un valor entre −1 y +1. Un coeficiente de +1 representa una predicción perfecta, 0 no es mejor que una predicción aleatoria y −1 indica un desacuerdo total entre la predicción y la observación. Sin embargo, si el MCC no es igual a −1, 0 o +1, no es un indicador fiable de lo similar que es un predictor a una suposición aleatoria porque el MCC depende del conjunto de datos. [9] El MCC está estrechamente relacionado con la estadística de chi-cuadrado para una tabla de contingencia 2×2.

donde n es el número total de observaciones.

Si bien no existe una forma perfecta de describir la matriz de confusión de verdaderos y falsos positivos y negativos con un solo número, el coeficiente de correlación de Matthews generalmente se considera una de las mejores medidas de este tipo. [10] Otras medidas, como la proporción de predicciones correctas (también denominada precisión ), no son útiles cuando las dos clases son de tamaños muy diferentes. Por ejemplo, asignar cada objeto al conjunto más grande logra una alta proporción de predicciones correctas, pero generalmente no es una clasificación útil.

El MCC se puede calcular directamente a partir de la matriz de confusión utilizando la fórmula:

En esta ecuación, TP es el número de verdaderos positivos , TN el número de verdaderos negativos , FP el número de falsos positivos y FN el número de falsos negativos . Si exactamente una de las cuatro sumas en el denominador es cero, el denominador se puede establecer arbitrariamente en uno; esto da como resultado un coeficiente de correlación de Matthews de cero, que se puede demostrar que es el valor límite correcto. En caso de que dos o más sumas sean cero (por ejemplo, tanto las etiquetas como las predicciones del modelo son todas positivas o negativas), el límite no existe.

El MCC se puede calcular con la fórmula:

utilizando el valor predictivo positivo, la tasa de verdaderos positivos, la tasa de verdaderos negativos, el valor predictivo negativo, la tasa de falsos descubrimientos, la tasa de falsos negativos, la tasa de falsos positivos y la tasa de falsas omisiones.

La fórmula original dada por Matthews fue: [1]

Esto es igual a la fórmula dada anteriormente. Como coeficiente de correlación , el coeficiente de correlación de Matthews es la media geométrica de los coeficientes de regresión del problema y su dual . Los coeficientes de regresión componentes del coeficiente de correlación de Matthews son la marcación (Δp) y la estadística J de Youden ( información o Δp'). [10] [11] La marcación y la información corresponden a diferentes direcciones del flujo de información y generalizan la estadística J de Youden , la estadística p, mientras que su media geométrica generaliza el coeficiente de correlación de Matthews a más de dos clases. [10]

Algunos científicos afirman que el coeficiente de correlación de Matthews es la puntuación individual más informativa para establecer la calidad de una predicción de clasificador binario en un contexto de matriz de confusión. [12] [13]

Ejemplo

Dada una muestra de 12 imágenes, 8 de gatos y 4 de perros, donde los gatos pertenecen a la clase 1 y los perros a la clase 0,

real = [1,1,1,1,1,1,1,1,0,0,0,0],

Supongamos que un clasificador que distingue entre gatos y perros está entrenado, y tomamos las 12 imágenes y las pasamos por el clasificador, y el clasificador hace 9 predicciones precisas y falla 3: 2 gatos predichos erróneamente como perros (primeras 2 predicciones) y 1 perro predicho erróneamente como gato (última predicción).

predicción = [0,0, 1 , 1 , 1 , 1 , 1 , 1 , 0 , 0 , 0,1 ]

Con estos dos conjuntos etiquetados (real y predicciones) podemos crear una matriz de confusión que resumirá los resultados de probar el clasificador:

En esta matriz de confusión, de las 8 imágenes de gatos, el sistema juzgó que 2 eran perros y, de las 4 imágenes de perros, predijo que 1 era un gato. Todas las predicciones correctas se encuentran en la diagonal de la tabla (resaltadas en negrita), por lo que es fácil inspeccionar visualmente la tabla para detectar errores de predicción, ya que estarán representados por valores fuera de la diagonal.

En términos abstractos, la matriz de confusión es la siguiente:

donde P = Positivo; N = Negativo; TP = Verdadero Positivo; FP = Falso Positivo; TN = Verdadero Negativo; FN = Falso Negativo.

Conectando los números de la fórmula:

Matriz de confusión

Definamos un experimento a partir de P casos positivos y N casos negativos para alguna condición. Los cuatro resultados se pueden formular en una tabla de contingencia o matriz de confusión de 2×2 , de la siguiente manera:

  1. ^ el número de casos positivos reales en los datos
  2. ^ Un resultado de prueba que indica correctamente la presencia de una condición o característica
  3. ^ Error tipo II: Un resultado de prueba que indica erróneamente que una condición o atributo particular está ausente
  4. ^ el número de casos negativos reales en los datos
  5. ^ Un resultado de prueba que indica correctamente la ausencia de una condición o característica
  6. ^ Error tipo I: Un resultado de prueba que indica erróneamente que está presente una condición o atributo particular


Caso multiclase

El coeficiente de correlación de Matthews se ha generalizado al caso multiclase. La generalización denominada estadística (para K clases diferentes) se definió en términos de una matriz de confusión [22] . [23]

Cuando hay más de dos etiquetas, el MCC ya no oscilará entre −1 y +1. En su lugar, el valor mínimo estará entre −1 y 0, dependiendo de la distribución real. El valor máximo siempre es +1.


Esta fórmula se puede entender más fácilmente definiendo variables intermedias: [24]

Utilizando la fórmula anterior para calcular la medida MCC para el ejemplo del perro y el gato analizado anteriormente, donde la matriz de confusión se trata como un ejemplo multiclase 2 ×:

Powers [10] dio una generalización alternativa del coeficiente de correlación de Matthews a más de dos clases mediante la definición de correlación como la media geométrica de la información y la marcación .

P Stoica y P Babu [25] han presentado varias generalizaciones del coeficiente de correlación de Matthews a más de dos clases junto con nuevas métricas de correlación multivariada para la clasificación multinaria .

Ventajas sobre la precisión y la puntuación F1

Como explica Davide Chicco en su artículo "Diez consejos rápidos para el aprendizaje automático en biología computacional " [12] ( BioData Mining , 2017) y "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de la clasificación binaria" [26] ( BMC Genomics , 2020), el coeficiente de correlación de Matthews es más informativo que la puntuación F1 y la precisión en la evaluación de problemas de clasificación binaria, porque tiene en cuenta las relaciones de equilibrio de las cuatro categorías de la matriz de confusión (verdaderos positivos, verdaderos negativos, falsos positivos, falsos negativos). [12] [26]

El artículo anterior explica, para el Consejo 8 : [ cita excesiva ]

Para tener una comprensión general de su predicción, decide aprovechar las puntuaciones estadísticas comunes, como la precisión y la puntuación F1.

(Ecuación 1, precisión: peor valor = 0; mejor valor = 1)

(Ecuación 2, puntuación F1: peor valor = 0; mejor valor = 1)

Sin embargo, incluso si la precisión y la puntuación F1 se emplean ampliamente en estadística, ambas pueden ser engañosas, ya que no consideran completamente el tamaño de las cuatro clases de la matriz de confusión en su cálculo de puntuación final.

Supongamos, por ejemplo, que tiene un conjunto de validación muy desequilibrado formado por 100 elementos, 95 de los cuales son positivos y solo 5 son negativos (como se explica en el consejo 5). Y supongamos también que cometió algunos errores al diseñar y entrenar su clasificador de aprendizaje automático, y ahora tiene un algoritmo que siempre predice resultados positivos. Imagine que no es consciente de este problema.

Por lo tanto, al aplicar su único predictor positivo a su conjunto de validación desequilibrado, obtendrá valores para las categorías de la matriz de confusión:

TP = 95, FP = 5; TN = 0, FN = 0.

Estos valores dan como resultado las siguientes puntuaciones de rendimiento: precisión = 95 % y puntuación F1 = 97,44 %. Si lee estas puntuaciones demasiado optimistas, se sentirá muy satisfecho y pensará que su algoritmo de aprendizaje automático está haciendo un excelente trabajo. Obviamente, estaría en el camino equivocado.

Por el contrario, para evitar estas peligrosas ilusiones engañosas, existe otro índice de rendimiento que se puede aprovechar: el coeficiente de correlación de Matthews [40] (MCC).

(Ecuación 3, MCC: peor valor = −1; mejor valor = +1).

Al considerar la proporción de cada clase de la matriz de confusión en su fórmula, su puntaje es alto solo si su clasificador funciona bien tanto en los elementos negativos como en los positivos.

En el ejemplo anterior, la puntuación MCC no estaría definida (dado que TN y FN serían 0, por lo tanto, el denominador de la ecuación 3 sería 0). Al verificar este valor, en lugar de la precisión y la puntuación F1, podrá notar que su clasificador va en la dirección equivocada y se dará cuenta de que hay problemas que debe resolver antes de continuar.

Considere este otro ejemplo. Ejecutó una clasificación en el mismo conjunto de datos que generó los siguientes valores para las categorías de la matriz de confusión:

TP = 90, FP = 4; TN = 1, FN = 5.

En este ejemplo, el clasificador ha tenido un buen desempeño al clasificar instancias positivas, pero no pudo reconocer correctamente elementos de datos negativos. Nuevamente, la puntuación F1 y las puntuaciones de precisión resultantes serían extremadamente altas: precisión = 91% y puntuación F1 = 95,24%. De manera similar al caso anterior, si un investigador analizara solo estos dos indicadores de puntuación, sin considerar el MCC, pensaría erróneamente que el algoritmo está funcionando bastante bien en su tarea y tendría la ilusión de tener éxito.

Por otra parte, comprobar el coeficiente de correlación de Matthews sería fundamental una vez más. En este ejemplo, el valor del MCC sería 0,14 (ecuación 3), lo que indica que el algoritmo funciona de manera similar a una suposición aleatoria. Actuando como una alarma, el MCC podría informar al profesional de minería de datos que el modelo estadístico funciona mal.

Por estas razones, recomendamos encarecidamente evaluar el desempeño de cada prueba a través del coeficiente de correlación de Matthews (MCC), en lugar de la precisión y la puntuación F1, para cualquier problema de clasificación binaria.

—  Davide Chicco, Diez consejos rápidos para el aprendizaje automático en biología computacional [12]

El pasaje de Chicco podría interpretarse como un respaldo a la puntuación MCC en casos con conjuntos de datos desequilibrados. Sin embargo, esto es objeto de controversia; en particular, Zhu (2020) ofrece una refutación contundente. [27]

Tenga en cuenta que la puntuación F1 depende de qué clase se define como la clase positiva. En el primer ejemplo anterior, la puntuación F1 es alta porque la clase mayoritaria se define como la clase positiva. Al invertir las clases positiva y negativa, se obtiene la siguiente matriz de confusión:

TP = 0, FP = 0; TN = 5, FN = 95

Esto da una puntuación F1 = 0%.

El MCC no depende de cuál clase es la positiva, lo que tiene la ventaja sobre la puntuación F1 de evitar definir incorrectamente la clase positiva.

Véase también

Referencias

  1. ^ ab Matthews, BW (1975). "Comparación de la estructura secundaria prevista y observada de la lisozima del fago T4". Biochimica et Biophysica Acta (BBA) - Estructura de proteínas . 405 (2): 442–451. doi :10.1016/0005-2795(75)90109-9. PMID  1180967.
  2. ^ ab Cramer, H. (1946). Métodos matemáticos de estadística . Princeton: Princeton University Press, pág. 282 (segundo párrafo). ISBN 0-691-08004-6 https://archive.org/details/in.ernet.dli.2015.223699 
  3. ^ ab Yule, G. Udny (1912). "Sobre los métodos de medición de la asociación entre dos atributos". Revista de la Royal Statistical Society . 75 (6): 579–652. doi :10.2307/2340126. JSTOR  2340126.
  4. ^ Guilford, J. (1936). Métodos psicométricos . Nueva York: McGraw–Hill Book Company, Inc.
  5. ^ Aaron, B., Kromrey, JD, y Ferron, JM (noviembre de 1998). Igualación de los índices de tamaño del efecto basados ​​en r y d: problemas con una fórmula comúnmente recomendada. Documento presentado en la reunión anual de la Asociación de Investigación Educativa de Florida, Orlando, FL. (Servicio de Reproducción de Documentos ERIC N.º ED433353)
  6. ^ Davenport, E.; El-Sanhury, N. (1991). "Phi/Phimax: revisión y síntesis". Medición educativa y psicológica . 51 (4): 821–8. doi :10.1177/0013164491051004.
  7. ^ Fecha no clara, pero anterior a su muerte en 1936.
  8. ^ Boughorbel, SB (2017). "Clasificador óptimo para datos desequilibrados utilizando la métrica del coeficiente de correlación de Matthews". PLOS ONE . ​​12 (6): e0177678. Bibcode :2017PLoSO..1277678B. doi : 10.1371/journal.pone.0177678 . PMC 5456046 . PMID  28574989. 
  9. ^ Chicco, D.; Tötsch, N.; Jurman, G. (2021). "El coeficiente de correlación de Matthews (MCC) es más confiable que la precisión equilibrada, la información de la casa de apuestas y la marcación en la evaluación de la matriz de confusión de dos clases". Minería de datos biológicos . 14 (1): 13. doi : 10.1186/s13040-021-00244-z . PMC 7863449 . PMID  33541410. 
  10. ^ abcd Powers, David MW (10 de octubre de 2020). «Evaluación: desde la precisión, la recuperación y la medida F hasta el ROC, la información, la marcación y la correlación». arXiv : 2010.16061 [cs.LG].
  11. ^ Perruchet, P.; Peereman, R. (2004). "La explotación de la información distributiva en el procesamiento de sílabas". J. Neurolinguistics . 17 (2–3): 97–119. doi :10.1016/s0911-6044(03)00059-9. S2CID  17104364.
  12. ^ abcd Chicco D (diciembre de 2017). "Diez consejos rápidos para el aprendizaje automático en biología computacional". BioData Mining . 10 (35): 35. doi : 10.1186/s13040-017-0155-3 . PMC 5721660 . PMID  29234465. 
  13. ^ Chicco D, Jurman G (febrero de 2023). "El coeficiente de correlación de Matthews (MCC) debería reemplazar el AUC ROC como métrica estándar para evaluar la clasificación binaria". BioData Min . 16 (1): 4. doi : 10.1186/s13040-023-00322-4 . PMC 9938573 . PMID  36800973. 
  14. ^ Fawcett, Tom (2006). "Introducción al análisis ROC" (PDF) . Pattern Recognition Letters . 27 (8): 861–874. doi :10.1016/j.patrec.2005.10.010. S2CID  2027090.
  15. ^ Provost, Foster; Tom Fawcett (1 de agosto de 2013). "Ciencia de datos para empresas: lo que necesita saber sobre minería de datos y pensamiento analítico de datos". O'Reilly Media, Inc.
  16. ^ Powers, David MW (2011). "Evaluación: desde precisión, recuperación y medida F hasta ROC, información, marcación y correlación". Revista de tecnologías de aprendizaje automático . 2 (1): 37–63.
  17. ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Enciclopedia del aprendizaje automático . Springer. doi :10.1007/978-0-387-30164-8. ISBN. 978-0-387-30164-8.
  18. ^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (26 de enero de 2015). "Grupo de trabajo conjunto WWRP/WGNE sobre investigación de verificación de pronósticos". Colaboración para la investigación meteorológica y climática australiana . Organización Meteorológica Mundial . Consultado el 17 de julio de 2019 .
  19. ^ Chicco D, Jurman G (enero de 2020). "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de la clasificación binaria". BMC Genomics . 21 (1): 6-1–6-13. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID  31898477. 
  20. ^ Chicco D, Toetsch N, Jurman G (febrero de 2021). "El coeficiente de correlación de Matthews (MCC) es más confiable que la precisión equilibrada, la información de la casa de apuestas y la marcación en la evaluación de la matriz de confusión de dos clases". Minería de datos biológicos . 14 (13): 13. doi : 10.1186/s13040-021-00244-z . PMC 7863449 . PMID  33541410. 
  21. ^ Tharwat A. (agosto de 2018). "Métodos de evaluación de la clasificación". Computación e informática aplicada . 17 : 168–192. doi : 10.1016/j.aci.2018.08.003 .
  22. ^ Gorodkin, Jan (2004). "Comparación de dos asignaciones de categorías K mediante un coeficiente de correlación de categorías K". Biología computacional y química . 28 (5): 367–374. doi :10.1016/j.compbiolchem.2004.09.006. PMID  15556477.
  23. ^ Gorodkin, Jan. "La página de Rk". La página de Rk . Consultado el 28 de diciembre de 2016 .
  24. ^ "Coeficiente de correlación de Matthew". scikit-learn.org .
  25. ^ Stoica P y Babu P (2024), Coeficientes de correlación de Pearson-Matthews para clasificación binaria y multinaria, Elsevier Signal Processing, 222, 109511, doi = https://doi.org/10.1016/j.sigpro.2024.109511
  26. ^ ab Chicco D, Jurman G (enero de 2020). "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de la clasificación binaria". BMC Genomics . 21 (1): 6-1–6-13. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID  31898477. 
  27. ^ Zhu, Qiuming (1 de agosto de 2020). "Sobre el rendimiento del coeficiente de correlación de Matthews (MCC) para conjuntos de datos desequilibrados". Pattern Recognition Letters . 136 : 71–80. Código Bibliográfico :2020PaReL.136...71Z. doi :10.1016/j.patrec.2020.03.030. ISSN  0167-8655. S2CID  219762950.