Matriz de confusión

En el campo del aprendizaje automático y específicamente en el problema de la clasificación estadística , una matriz de confusión , también conocida como matriz de error , ^{[1] es un diseño}de tabla específico que permite visualizar el rendimiento de un algoritmo, típicamente uno de aprendizaje supervisado ; en el aprendizaje no supervisado se le suele llamar matriz de emparejamiento .

Cada fila de la matriz representa las instancias de una clase real, mientras que cada columna representa las instancias de una clase predicha, o viceversa; ambas variantes se encuentran en la literatura. ^[2] Por lo tanto, la diagonal de la matriz representa todas las instancias que se predicen correctamente. ^[3] El nombre se debe al hecho de que facilita ver si el sistema está confundiendo dos clases (es decir, comúnmente etiquetando incorrectamente una como otra).

Es un tipo especial de tabla de contingencia , con dos dimensiones ("real" y "prevista") y conjuntos idénticos de "clases" en ambas dimensiones (cada combinación de dimensión y clase es una variable en la tabla de contingencia).

Ejemplo

Dada una muestra de 12 individuos, 8 a los que se les ha diagnosticado cáncer y 4 que están libres de cáncer, donde los individuos con cáncer pertenecen a la clase 1 (positivos) y los individuos sin cáncer pertenecen a la clase 0 (negativos), podemos mostrar esos datos de la siguiente manera:

Supongamos que tenemos un clasificador que distingue entre individuos con y sin cáncer de alguna manera. Podemos tomar los 12 individuos y pasarlos por el clasificador. El clasificador entonces hace 9 predicciones precisas y falla en 3: 2 individuos con cáncer que se predijo erróneamente que no tendrían cáncer (muestra 1 y 2) y 1 persona sin cáncer que se predijo erróneamente que tendría cáncer (muestra 9).

Tenga en cuenta que, si comparamos el conjunto de clasificación real con el conjunto de clasificación previsto, hay 4 resultados diferentes que podrían resultar en cualquier columna en particular. Uno, si la clasificación real es positiva y la clasificación prevista es positiva (1,1), esto se llama un resultado positivo verdadero porque la muestra positiva fue identificada correctamente por el clasificador. Dos, si la clasificación real es positiva y la clasificación prevista es negativa (1,0), esto se llama un resultado negativo falso porque la muestra positiva es identificada incorrectamente por el clasificador como negativa. Tercero, si la clasificación real es negativa y la clasificación prevista es positiva (0,1), esto se llama un resultado positivo falso porque la muestra negativa es identificada incorrectamente por el clasificador como positiva. Cuarto, si la clasificación real es negativa y la clasificación prevista es negativa (0,0), esto se llama un resultado negativo verdadero porque la muestra negativa es identificada correctamente por el clasificador.

Luego podemos realizar la comparación entre las clasificaciones reales y previstas y agregar esta información a la tabla, haciendo que los resultados correctos aparezcan en verde para que sean más fácilmente identificables.

La plantilla para cualquier matriz de confusión binaria utiliza los cuatro tipos de resultados analizados anteriormente (verdaderos positivos, falsos negativos, falsos positivos y verdaderos negativos) junto con las clasificaciones positivas y negativas. Los cuatro resultados se pueden formular en una matriz de confusión 2×2 , de la siguiente manera:

La convención de color de las tres tablas de datos anteriores se eligió para que coincidiera con esta matriz de confusión, a fin de diferenciar fácilmente los datos.

Ahora, podemos simplemente sumar cada tipo de resultado, sustituirlo en la plantilla y crear una matriz de confusión que resumirá de manera concisa los resultados de la prueba del clasificador:

En esta matriz de confusión, de las 8 muestras con cáncer, el sistema juzgó que 2 estaban libres de cáncer y, de las 4 muestras sin cáncer, predijo que 1 sí tenía cáncer. Todas las predicciones correctas se encuentran en la diagonal de la tabla (resaltadas en verde), por lo que es fácil inspeccionar visualmente la tabla para detectar errores de predicción, ya que los valores fuera de la diagonal los representarán. Al sumar las 2 filas de la matriz de confusión, también se puede deducir el número total de muestras positivas (P) y negativas (N) en el conjunto de datos original, es decir, y . $P=TP+FN$ $N=FP+TN$

Tabla de confusión

En el análisis predictivo , una tabla de confusión (a veces también llamada matriz de confusión ) es una tabla con dos filas y dos columnas que informa la cantidad de verdaderos positivos , falsos negativos , falsos positivos y verdaderos negativos . Esto permite un análisis más detallado que simplemente observar la proporción de clasificaciones correctas (precisión). La precisión producirá resultados engañosos si el conjunto de datos no está equilibrado; es decir, cuando la cantidad de observaciones en diferentes clases varía en gran medida.

Por ejemplo, si hubiera 95 muestras de cáncer y solo 5 muestras no cancerosas en los datos, un clasificador particular podría clasificar todas las observaciones como cancerosas. La precisión general sería del 95%, pero con más detalle, el clasificador tendría una tasa de reconocimiento del 100% ( sensibilidad ) para la clase de cáncer, pero una tasa de reconocimiento del 0% para la clase de no cáncer. La puntuación F1 es aún menos confiable en tales casos, y aquí arrojaría más del 97,4%, mientras que la información elimina dicho sesgo y arroja 0 como la probabilidad de una decisión informada para cualquier forma de adivinación (aquí siempre adivinando cáncer).

Según Davide Chicco y Giuseppe Jurman, la métrica más informativa para evaluar una matriz de confusión es el coeficiente de correlación de Matthews (MCC) . ^[11]

Se pueden incluir otras métricas en una matriz de confusión, cada una de ellas teniendo su significado y uso.

^ el número de casos positivos reales en los datos
^ Un resultado de prueba que indica correctamente la presencia de una condición o característica
^ Error tipo II: Un resultado de prueba que indica erróneamente que una condición o atributo particular está ausente
^ el número de casos negativos reales en los datos
^ Un resultado de prueba que indica correctamente la ausencia de una condición o característica
^ Error tipo I: Un resultado de prueba que indica erróneamente que está presente una condición o atributo particular

Matrices de confusión con más de dos categorías

La matriz de confusión no se limita a la clasificación binaria y también se puede utilizar en clasificadores multiclase. Las matrices de confusión analizadas anteriormente tienen solo dos condiciones: positiva y negativa. Por ejemplo, la tabla siguiente resume la comunicación de un lenguaje silbado entre dos hablantes, omitiendo los valores cero para mayor claridad. ^[20]

Véase también

Valores predictivos positivos y negativos

Referencias

^ Stehman, Stephen V. (1997). "Selección e interpretación de medidas de precisión de clasificación temática". Teledetección del medio ambiente . 62 (1): 77–89. Bibcode :1997RSEnv..62...77S. doi :10.1016/S0034-4257(97)00083-7.
^ Powers, David MW (2011). "Evaluación: desde precisión, recuperación y medida F hasta ROC, información, marcación y correlación". Revista de tecnologías de aprendizaje automático . 2 (1): 37–63. S2CID 55767944.
^ Opitz, Juri (2024). "Una mirada más cercana a las métricas de evaluación de clasificación y una reflexión crítica de la práctica de evaluación común". Transacciones de la Asociación de Lingüística Computacional . 12 : 820–836. arXiv : 2404.16958 . doi :10.1162/tacl_a_00675.
^ Provost, Foster; Fawcett, Tom (2013). Ciencia de datos para empresas: lo que necesita saber sobre minería de datos y pensamiento analítico de datos (1.ª ed., 2.ª edición). Pekín, Colonia: O'Reilly. ISBN 978-1-4493-6132-7.
^ Fawcett, Tom (2006). "Introducción al análisis ROC" (PDF) . Pattern Recognition Letters . 27 (8): 861–874. Código Bibliográfico :2006PaReL..27..861F. doi :10.1016/j.patrec.2005.10.010. S2CID 2027090.
^ Powers, David MW (2011). "Evaluación: desde precisión, recuperación y medida F hasta ROC, información, marcación y correlación". Revista de tecnologías de aprendizaje automático . 2 (1): 37–63.
^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Enciclopedia del aprendizaje automático . Springer. doi :10.1007/978-0-387-30164-8. ISBN. 978-0-387-30164-8.
^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (26 de enero de 2015). "Grupo de trabajo conjunto WWRP/WGNE sobre investigación de verificación de pronósticos". Colaboración para la investigación meteorológica y climática australiana . Organización Meteorológica Mundial . Consultado el 17 de julio de 2019 .
^ Chicco D, Jurman G (enero de 2020). "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de la clasificación binaria". BMC Genomics . 21 (1): 6-1–6-13. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID 31898477.
^ Tharwat A. (agosto de 2018). "Métodos de evaluación de la clasificación". Computación e informática aplicada . 17 : 168–192. doi : 10.1016/j.aci.2018.08.003 .
^ Chicco D, Jurman G (enero de 2020). "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de la clasificación binaria". BMC Genomics . 21 (1): 6-1–6-13. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID 31898477.
^ Fawcett, Tom (2006). "Introducción al análisis ROC" (PDF) . Pattern Recognition Letters . 27 (8): 861–874. doi :10.1016/j.patrec.2005.10.010. S2CID 2027090.
^ Provost, Foster; Tom Fawcett (1 de agosto de 2013). "Ciencia de datos para empresas: lo que necesita saber sobre minería de datos y pensamiento analítico de datos". O'Reilly Media, Inc.
^ Powers, David MW (2011). "Evaluación: desde precisión, recuperación y medida F hasta ROC, información, marcación y correlación". Revista de tecnologías de aprendizaje automático . 2 (1): 37–63.
^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Enciclopedia del aprendizaje automático . Springer. doi :10.1007/978-0-387-30164-8. ISBN. 978-0-387-30164-8.
^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (26 de enero de 2015). "Grupo de trabajo conjunto WWRP/WGNE sobre investigación de verificación de pronósticos". Colaboración para la investigación meteorológica y climática australiana . Organización Meteorológica Mundial . Consultado el 17 de julio de 2019 .
^ Chicco D, Jurman G (enero de 2020). "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de la clasificación binaria". BMC Genomics . 21 (1): 6-1–6-13. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID 31898477.
^ Chicco D, Toetsch N, Jurman G (febrero de 2021). "El coeficiente de correlación de Matthews (MCC) es más confiable que la precisión equilibrada, la información de la casa de apuestas y la marcación en la evaluación de la matriz de confusión de dos clases". Minería de datos biológicos . 14 (13): 13. doi : 10.1186/s13040-021-00244-z . PMC 7863449 . PMID 33541410.
^ Tharwat A. (agosto de 2018). "Métodos de evaluación de la clasificación". Computación e informática aplicada . 17 : 168–192. doi : 10.1016/j.aci.2018.08.003 .
^ Rialland, Annie (agosto de 2005). "Aspectos fonológicos y fonéticos de las lenguas silbadas". Fonología . 22 (2): 237–271. CiteSeerX 10.1.1.484.4384 . doi :10.1017/S0952675705000552. S2CID 18615779.