En estadística , el coeficiente phi (o coeficiente de contingencia cuadrático medio y denotado por φ o r φ ) es una medida de asociación para dos variables binarias .
En el aprendizaje automático , se conoce como coeficiente de correlación de Matthews (MCC) y se utiliza como medida de la calidad de las clasificaciones binarias (de dos clases) , introducidas por el bioquímico Brian W. Matthews en 1975. [1]
Introducido por Karl Pearson , [2] y también conocido como el coeficiente phi de Yule desde su introducción por Udny Yule en 1912 [3] esta medida es similar al coeficiente de correlación de Pearson en su interpretación.
Un coeficiente de correlación de Pearson estimado para dos variables binarias devolverá el coeficiente phi. [4]
Se considera que dos variables binarias tienen una asociación positiva si la mayoría de los datos se encuentran a lo largo de las celdas diagonales. Por el contrario, se considera que dos variables binarias tienen una asociación negativa si la mayoría de los datos se encuentran fuera de la diagonal.
Si tenemos una tabla 2×2 para dos variables aleatorias x e y
donde n 11 , n 10 , n 01 , n 00 , son recuentos no negativos de números de observaciones que suman n , el número total de observaciones. El coeficiente phi que describe la asociación de x e y es
Phi está relacionado con el coeficiente de correlación biserial puntual y la d de Cohen y estima el grado de relación entre dos variables (2×2). [5]
El coeficiente phi también se puede expresar utilizando solo , , , y , como
Aunque computacionalmente el coeficiente de correlación de Pearson se reduce al coeficiente phi en el caso 2×2, en general no son lo mismo. El coeficiente de correlación de Pearson varía de −1 a +1, donde ±1 indica acuerdo o desacuerdo perfecto y 0 indica que no hay relación. El coeficiente phi tiene un valor máximo que está determinado por la distribución de las dos variables si una o ambas variables pueden tomar más de dos valores. [ se necesita más explicación ] Véase Davenport y El-Sanhury (1991) [6] para una discusión detallada.
El MCC se define de forma idéntica al coeficiente phi, introducido por Karl Pearson , [2] [7] también conocido como el coeficiente phi de Yule desde su introducción por Udny Yule en 1912. [3] A pesar de estos antecedentes que anteceden al uso de Matthews por varias décadas, el término MCC se utiliza ampliamente en el campo de la bioinformática y el aprendizaje automático.
El coeficiente tiene en cuenta los verdaderos y falsos positivos y negativos y generalmente se considera una medida equilibrada que se puede utilizar incluso si las clases son de tamaños muy diferentes. [8] El MCC es en esencia un coeficiente de correlación entre las clasificaciones binarias observadas y predichas; devuelve un valor entre −1 y +1. Un coeficiente de +1 representa una predicción perfecta, 0 no es mejor que una predicción aleatoria y −1 indica un desacuerdo total entre la predicción y la observación. Sin embargo, si el MCC no es igual a −1, 0 o +1, no es un indicador fiable de lo similar que es un predictor a una suposición aleatoria porque el MCC depende del conjunto de datos. [9] El MCC está estrechamente relacionado con la estadística de chi-cuadrado para una tabla de contingencia 2×2.
donde n es el número total de observaciones.
Si bien no existe una forma perfecta de describir la matriz de confusión de verdaderos y falsos positivos y negativos con un solo número, el coeficiente de correlación de Matthews generalmente se considera una de las mejores medidas de este tipo. [10] Otras medidas, como la proporción de predicciones correctas (también denominada precisión ), no son útiles cuando las dos clases son de tamaños muy diferentes. Por ejemplo, asignar cada objeto al conjunto más grande logra una alta proporción de predicciones correctas, pero generalmente no es una clasificación útil.
El MCC se puede calcular directamente a partir de la matriz de confusión utilizando la fórmula:
En esta ecuación, TP es el número de verdaderos positivos , TN el número de verdaderos negativos , FP el número de falsos positivos y FN el número de falsos negativos . Si exactamente una de las cuatro sumas en el denominador es cero, el denominador se puede establecer arbitrariamente en uno; esto da como resultado un coeficiente de correlación de Matthews de cero, que se puede demostrar que es el valor límite correcto. En caso de que dos o más sumas sean cero (por ejemplo, tanto las etiquetas como las predicciones del modelo son todas positivas o negativas), el límite no existe.
El MCC se puede calcular con la fórmula:
utilizando el valor predictivo positivo, la tasa de verdaderos positivos, la tasa de verdaderos negativos, el valor predictivo negativo, la tasa de falsos descubrimientos, la tasa de falsos negativos, la tasa de falsos positivos y la tasa de falsas omisiones.
La fórmula original dada por Matthews fue: [1]
Esto es igual a la fórmula dada anteriormente. Como coeficiente de correlación , el coeficiente de correlación de Matthews es la media geométrica de los coeficientes de regresión del problema y su dual . Los coeficientes de regresión componentes del coeficiente de correlación de Matthews son la marcación (Δp) y la estadística J de Youden ( información o Δp'). [10] [11] La marcación y la información corresponden a diferentes direcciones del flujo de información y generalizan la estadística J de Youden , la estadística p, mientras que su media geométrica generaliza el coeficiente de correlación de Matthews a más de dos clases. [10]
Algunos científicos afirman que el coeficiente de correlación de Matthews es la puntuación individual más informativa para establecer la calidad de una predicción de clasificador binario en un contexto de matriz de confusión. [12] [13]
Dada una muestra de 12 imágenes, 8 de gatos y 4 de perros, donde los gatos pertenecen a la clase 1 y los perros a la clase 0,
Supongamos que un clasificador que distingue entre gatos y perros está entrenado, y tomamos las 12 imágenes y las pasamos por el clasificador, y el clasificador hace 9 predicciones precisas y falla 3: 2 gatos predichos erróneamente como perros (primeras 2 predicciones) y 1 perro predicho erróneamente como gato (última predicción).
Con estos dos conjuntos etiquetados (real y predicciones) podemos crear una matriz de confusión que resumirá los resultados de probar el clasificador:
En esta matriz de confusión, de las 8 imágenes de gatos, el sistema juzgó que 2 eran perros y, de las 4 imágenes de perros, predijo que 1 era un gato. Todas las predicciones correctas se encuentran en la diagonal de la tabla (resaltadas en negrita), por lo que es fácil inspeccionar visualmente la tabla para detectar errores de predicción, ya que estarán representados por valores fuera de la diagonal.
En términos abstractos, la matriz de confusión es la siguiente:
donde P = Positivo; N = Negativo; TP = Verdadero Positivo; FP = Falso Positivo; TN = Verdadero Negativo; FN = Falso Negativo.
Conectando los números de la fórmula:
Definamos un experimento a partir de P casos positivos y N casos negativos para alguna condición. Los cuatro resultados se pueden formular en una tabla de contingencia o matriz de confusión de 2×2 , de la siguiente manera:
El coeficiente de correlación de Matthews se ha generalizado al caso de clases múltiples. La generalización, denominada estadística (para K clases diferentes), se definió en términos de una matriz de confusión [22] . [23]
Cuando hay más de dos etiquetas, el MCC ya no oscilará entre −1 y +1. En su lugar, el valor mínimo estará entre −1 y 0, dependiendo de la distribución real. El valor máximo siempre es +1.
Esta fórmula se puede entender más fácilmente definiendo variables intermedias: [24]
Utilizando la fórmula anterior para calcular la medida MCC para el ejemplo del perro y el gato analizados anteriormente, donde la matriz de confusión se trata como un ejemplo multiclase 2 ×:
Powers [10] dio una generalización alternativa del coeficiente de correlación de Matthews a más de dos clases mediante la definición de correlación como la media geométrica de la información y la marcación .
P Stoica y P Babu [25] han presentado varias generalizaciones del coeficiente de correlación de Matthews a más de dos clases junto con nuevas métricas de correlación multivariada para la clasificación multinaria .
Como explica Davide Chicco en su artículo "Diez consejos rápidos para el aprendizaje automático en biología computacional " [12] ( BioData Mining , 2017) y "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de la clasificación binaria" [26] ( BMC Genomics , 2020), el coeficiente de correlación de Matthews es más informativo que la puntuación F1 y la precisión en la evaluación de problemas de clasificación binaria, porque tiene en cuenta las relaciones de equilibrio de las cuatro categorías de la matriz de confusión (verdaderos positivos, verdaderos negativos, falsos positivos, falsos negativos). [12] [26]
El artículo anterior explica, para el Consejo 8 : [ cita excesiva ]
Para tener una comprensión general de su predicción, decide aprovechar las puntuaciones estadísticas comunes, como la precisión y la puntuación F1.
(Ecuación 1, precisión: peor valor = 0; mejor valor = 1)
(Ecuación 2, puntuación F1: peor valor = 0; mejor valor = 1)
Sin embargo, incluso si la precisión y la puntuación F1 se emplean ampliamente en estadística, ambas pueden ser engañosas, ya que no consideran completamente el tamaño de las cuatro clases de la matriz de confusión en su cálculo de puntuación final.
Supongamos, por ejemplo, que tiene un conjunto de validación muy desequilibrado formado por 100 elementos, 95 de los cuales son positivos y solo 5 son negativos (como se explica en el consejo 5). Y supongamos también que cometió algunos errores al diseñar y entrenar su clasificador de aprendizaje automático, y ahora tiene un algoritmo que siempre predice resultados positivos. Imagine que no es consciente de este problema.
Por lo tanto, al aplicar su único predictor positivo a su conjunto de validación desequilibrado, obtendrá valores para las categorías de la matriz de confusión:
- TP = 95, FP = 5; TN = 0, FN = 0.
Estos valores dan como resultado las siguientes puntuaciones de rendimiento: precisión = 95 % y puntuación F1 = 97,44 %. Si lee estas puntuaciones demasiado optimistas, se sentirá muy satisfecho y pensará que su algoritmo de aprendizaje automático está haciendo un excelente trabajo. Obviamente, estaría en el camino equivocado.
Por el contrario, para evitar estas peligrosas ilusiones engañosas, existe otro índice de rendimiento que se puede aprovechar: el coeficiente de correlación de Matthews [40] (MCC).
(Ecuación 3, MCC: peor valor = −1; mejor valor = +1).
Al considerar la proporción de cada clase de la matriz de confusión en su fórmula, su puntaje es alto solo si su clasificador funciona bien tanto en los elementos negativos como en los positivos.
En el ejemplo anterior, la puntuación MCC no estaría definida (dado que TN y FN serían 0, por lo tanto, el denominador de la ecuación 3 sería 0). Al verificar este valor, en lugar de la precisión y la puntuación F1, podrá notar que su clasificador va en la dirección equivocada y se dará cuenta de que hay problemas que debe resolver antes de continuar.
Considere este otro ejemplo. Ejecutó una clasificación en el mismo conjunto de datos que generó los siguientes valores para las categorías de la matriz de confusión:
- TP = 90, FP = 4; TN = 1, FN = 5.
En este ejemplo, el clasificador ha tenido un buen desempeño al clasificar instancias positivas, pero no pudo reconocer correctamente elementos de datos negativos. Nuevamente, la puntuación F1 y las puntuaciones de precisión resultantes serían extremadamente altas: precisión = 91% y puntuación F1 = 95,24%. De manera similar al caso anterior, si un investigador analizara solo estos dos indicadores de puntuación, sin considerar el MCC, pensaría erróneamente que el algoritmo está funcionando bastante bien en su tarea y tendría la ilusión de tener éxito.
Por otra parte, comprobar el coeficiente de correlación de Matthews sería fundamental una vez más. En este ejemplo, el valor del MCC sería 0,14 (ecuación 3), lo que indica que el algoritmo funciona de manera similar a una suposición aleatoria. Actuando como una alarma, el MCC podría informar al profesional de minería de datos que el modelo estadístico funciona mal.
Por estas razones, recomendamos encarecidamente evaluar el desempeño de cada prueba a través del coeficiente de correlación de Matthews (MCC), en lugar de la precisión y la puntuación F1, para cualquier problema de clasificación binaria.
— Davide Chicco, Diez consejos rápidos para el aprendizaje automático en biología computacional [12]
El pasaje de Chicco podría interpretarse como un respaldo a la puntuación MCC en casos con conjuntos de datos desequilibrados. Sin embargo, esto es objeto de controversia; en particular, Zhu (2020) ofrece una refutación contundente. [27]
Tenga en cuenta que la puntuación F1 depende de qué clase se define como la clase positiva. En el primer ejemplo anterior, la puntuación F1 es alta porque la clase mayoritaria se define como la clase positiva. Al invertir las clases positiva y negativa, se obtiene la siguiente matriz de confusión:
Esto da una puntuación F1 = 0%.
El MCC no depende de cuál clase es la positiva, lo que tiene la ventaja sobre la puntuación F1 de evitar definir incorrectamente la clase positiva.