stringtranslate.com

Evaluación de clasificadores binarios.

De la matriz de confusión se pueden derivar cuatro medidas básicas.

La evaluación de clasificadores binarios compara dos métodos para asignar un atributo binario, uno de los cuales suele ser un método estándar y el otro está en investigación. Hay muchas métricas que se pueden utilizar para medir el rendimiento de un clasificador o predictor; Diferentes campos tienen diferentes preferencias para métricas específicas debido a diferentes objetivos. Por ejemplo, en medicina se utilizan a menudo la sensibilidad y la especificidad , mientras que en informática se prefiere la precisión y la memoria . Una distinción importante es entre métricas que son independientes de la prevalencia (con qué frecuencia ocurre cada categoría en la población) y métricas que dependen de la prevalencia; ambos tipos son útiles, pero tienen propiedades muy diferentes.

Los modelos de clasificación probabilística van más allá de proporcionar resultados binarios y, en cambio, producen puntuaciones de probabilidad para cada clase. Estos modelos están diseñados para evaluar la probabilidad de que una instancia pertenezca a diferentes clases. En el contexto de la evaluación de clasificadores probabilísticos, se han desarrollado métricas de evaluación alternativas para evaluar adecuadamente el desempeño de estos modelos. Estas métricas tienen en cuenta la naturaleza probabilística de la salida del clasificador y proporcionan una evaluación más completa de su eficacia a la hora de asignar probabilidades precisas a diferentes clases. Estas métricas de evaluación tienen como objetivo capturar el grado de calibración, discriminación y precisión general de las predicciones del clasificador probabilístico.

Mesa de contingencia

Dado un conjunto de datos, una clasificación (la salida de un clasificador en ese conjunto) da dos números: el número de positivos y el número de negativos, que suman el tamaño total del conjunto. Para evaluar un clasificador, se compara su resultado con otra clasificación de referencia (idealmente una clasificación perfecta, pero en la práctica el resultado de otra prueba estándar de oro ) y se tabulan los datos en una tabla de contingencia de 2×2 , comparando las dos clasificaciones. Luego se evalúa el clasificador en relación con el estándar de oro calculando estadísticas resumidas de estos 4 números. Generalmente, estas estadísticas serán invariantes de escala (escalar todos los números por el mismo factor no cambia la salida), para hacerlas independientes del tamaño de la población, lo que se logra mediante el uso de proporciones de funciones homogéneas , más simplemente funciones lineales homogéneas o cuadráticas homogéneas.

Digamos que examinamos a algunas personas para detectar la presencia de una enfermedad. Algunas de estas personas padecen la enfermedad y nuestra prueba dice correctamente que son positivas. Se llaman verdaderos positivos (TP). Algunos tienen la enfermedad, pero la prueba afirma incorrectamente que no la tienen. Se llaman falsos negativos (FN). Algunos no tienen la enfermedad y la prueba dice que no la tienen: verdaderos negativos (TN). Por último, puede haber personas sanas que tengan un resultado positivo en la prueba: falsos positivos (FP). Estos se pueden organizar en una tabla de contingencia de 2 × 2 ( matriz de confusión ), convencionalmente con el resultado de la prueba en el eje vertical y la condición real en el eje horizontal.

Luego, estos números se pueden sumar, lo que da como resultado un total general y totales marginales . Sumando toda la tabla, el número de verdaderos positivos, falsos negativos, verdaderos negativos y falsos positivos suman el 100% del conjunto. Totalizando las columnas (sumando verticalmente) el número de verdaderos positivos y falsos positivos suman el 100% de los resultados positivos, y lo mismo ocurre con los negativos. Sumando las filas (sumadas horizontalmente), el número de verdaderos positivos y falsos negativos suman el 100% de las condiciones positivas (a la inversa, para los negativos). Las estadísticas básicas de razones marginales se obtienen dividiendo los valores de 2×2=4 en la tabla por los totales marginales (ya sea filas o columnas), lo que produce 2 tablas auxiliares de 2×2, para un total de 8 razones. Estas razones vienen en 4 pares complementarios, cada par suma 1, por lo que cada una de estas tablas derivadas de 2 × 2 se puede resumir como un par de 2 números, junto con sus complementos. Se pueden obtener más estadísticas tomando razones de estas razones, razones de razones o funciones más complicadas.

La tabla de contingencia y los ratios derivados más comunes se resumen a continuación; ver secuela para más detalles.

  1. ^ el número de casos positivos reales en los datos
  2. ^ Un resultado de prueba que indica correctamente la presencia de una condición o característica.
  3. ^ Error de tipo II: resultado de una prueba que indica erróneamente que una condición o atributo particular está ausente
  4. ^ el número de casos negativos reales en los datos
  5. ^ Un resultado de prueba que indica correctamente la ausencia de una condición o característica.
  6. ^ Error de tipo I: resultado de una prueba que indica erróneamente que está presente una condición o atributo particular


Tenga en cuenta que las filas corresponden a la condición que realmente es positiva o negativa (o clasificada como tal según el estándar de oro), como lo indica el código de colores, y las estadísticas asociadas son independientes de la prevalencia, mientras que las columnas corresponden a la prueba que es positiva. o negativas, y las estadísticas asociadas dependen de la prevalencia. Existen índices de probabilidad análogos para los valores de predicción, pero se usan con menos frecuencia y no se describen arriba.

Sensibilidad y especificidad

Las estadísticas fundamentales independientes de la prevalencia son la sensibilidad y la especificidad .

La sensibilidad o Tasa de Verdaderos Positivos (TPR), también conocida como recuerdo , es la proporción de personas que dieron positivo y son positivas (Verdadero Positivo, TP) de todas las personas que realmente son positivas (Condición Positiva, CP = TP + FN). Puede verse como la probabilidad de que la prueba sea positiva dado que el paciente está enfermo . Con una mayor sensibilidad, menos casos reales de enfermedades pasan desapercibidos (o, en el caso del control de calidad de fábrica, salen al mercado menos productos defectuosos).

La especificidad (SPC) o tasa de verdaderos negativos (TNR) es la proporción de personas que dieron negativo y son negativas (Verdadero negativo, TN) de todas las personas que realmente son negativas (Condición negativa, CN = TN + FP). Al igual que con la sensibilidad, puede considerarse como la probabilidad de que el resultado de la prueba sea negativo dado que el paciente no está enfermo . Con una mayor especificidad, menos personas sanas son etiquetadas como enfermas (o, en el caso de las fábricas, se descartan menos productos buenos).

La relación entre sensibilidad y especificidad, así como el rendimiento del clasificador, se puede visualizar y estudiar utilizando la curva Característica Operativa del Receptor (ROC).

En teoría, la sensibilidad y la especificidad son independientes en el sentido de que es posible alcanzar el 100% en ambas (como en el ejemplo de la bola roja/azul dado anteriormente). Sin embargo, en casos más prácticos y menos artificiales, suele haber una compensación, de modo que, hasta cierto punto, son inversamente proporcionales entre sí. Esto se debe a que rara vez medimos lo que nos gustaría clasificar; más bien, generalmente medimos un indicador de lo que nos gustaría clasificar, denominado marcador sustituto . La razón por la que se puede lograr el 100% en el ejemplo de la pelota es porque el enrojecimiento y el azul se determinan detectando directamente el enrojecimiento y el azul. Sin embargo, los indicadores a veces se ven comprometidos, como cuando los no indicadores imitan a los indicadores o cuando los indicadores dependen del tiempo y solo se vuelven evidentes después de un cierto retraso. El siguiente ejemplo de prueba de embarazo utilizará dicho indicador.

Las pruebas de embarazo modernas no utilizan el embarazo en sí para determinar el estado del embarazo; más bien, se utiliza la gonadotropina coriónica humana , o hCG, presente en la orina de mujeres grávidas , como marcador sustituto para indicar que una mujer está embarazada. Dado que la hCG también puede ser producida por un tumor , la especificidad de las pruebas de embarazo modernas no puede ser del 100% (porque es posible obtener falsos positivos). Además, debido a que la hCG está presente en la orina en concentraciones tan pequeñas después de la fertilización y la embriogénesis temprana , la sensibilidad de las pruebas de embarazo modernas no puede ser del 100% (porque es posible obtener falsos negativos).

Razones de probabilidad

Valores predictivos positivos y negativos.

Además de la sensibilidad y la especificidad, el rendimiento de una prueba de clasificación binaria se puede medir con un valor predictivo positivo (VPP), también conocido como precisión , y un valor predictivo negativo (VPN). El valor de predicción positivo responde a la pregunta "Si el resultado de la prueba es positivo , ¿qué tan bien predice la presencia real de la enfermedad?". Se calcula como TP/(TP + FP); es decir, es la proporción de verdaderos positivos entre todos los resultados positivos. El valor de predicción negativo es el mismo, pero para los negativos, naturalmente.

Impacto de la prevalencia en los valores de predicción.

La prevalencia tiene un impacto significativo en los valores de predicción. Como ejemplo, supongamos que hay una prueba para una enfermedad con un 99% de sensibilidad y un 99% de especificidad. Si se hacen las pruebas a 2000 personas y la prevalencia (en la muestra) es del 50%, 1000 de ellas están enfermas y 1000 están sanas. Por lo tanto, son probables alrededor de 990 verdaderos positivos y 990 verdaderos negativos, con 10 falsos positivos y 10 falsos negativos. Los valores de predicción positivos y negativos serían del 99%, por lo que puede haber una alta confianza en el resultado.

Sin embargo, si la prevalencia es sólo del 5%, es decir, de 2.000 personas, sólo 100 están realmente enfermas, entonces los valores de predicción cambian significativamente. El resultado probable es 99 verdaderos positivos, 1 falso negativo, 1881 verdaderos negativos y 19 falsos positivos. De las 19+99 personas que dieron positivo, sólo 99 realmente tienen la enfermedad; eso significa, intuitivamente, que dado que el resultado de la prueba de un paciente es positivo, solo hay un 84% de posibilidades de que realmente tenga la enfermedad. Por otro lado, dado que el resultado de la prueba del paciente es negativo, hay sólo 1 probabilidad entre 1882, o 0,05% de probabilidad, de que el paciente tenga la enfermedad a pesar del resultado de la prueba.

Razones de probabilidad

Precisión y recuperación

La precisión y la recuperación se pueden interpretar como probabilidades condicionales (estimadas): la precisión está dada por, mientras que la recuperación está dada por , [10] donde es la clase predicha y es la clase real. Por tanto, ambas cantidades están relacionadas por el teorema de Bayes .

Relaciones

Existen varias relaciones entre estas proporciones.

Si se conocen la prevalencia, sensibilidad y especificidad, el valor predictivo positivo se puede obtener a partir de la siguiente identidad:

Si se conocen la prevalencia, sensibilidad y especificidad, el valor predictivo negativo se puede obtener a partir de la siguiente identidad:

Métricas individuales

Además de las métricas emparejadas, también existen métricas únicas que dan un único número para evaluar la prueba.

Quizás la estadística más simple sea la precisión o fracción correcta (FC), que mide la fracción de todos los casos que están categorizados correctamente; es la relación entre el número de clasificaciones correctas y el número total de clasificaciones correctas o incorrectas: (TP + TN)/población total = (TP + TN)/(TP + TN + FP + FN). Como tal, compara estimaciones de probabilidad previa y posterior a la prueba . En total ignorancia, se puede comparar una regla con lanzar una moneda al aire (p0=0,5). Esta medida depende de la prevalencia . Si el 90% de las personas con síntomas de COVID no tienen COVID, la probabilidad previa P(-) es 0,9 y la regla simple "Clasifique a todos esos pacientes como libres de COVID". sería 90% exacto. El diagnóstico debería ser mejor que eso. Se puede construir una "prueba z de una proporción" con p0 como max(priors) = max(P(-),P(+)) para un método de diagnóstico con la esperanza de superar una regla simple utilizando el resultado más probable. Aquí, las hipótesis son "Ho: p ≤ 0,9 vs. Ha: p > 0,9", rechazando Ho para valores grandes de z. Una regla de diagnóstico podría compararse con otra si se conoce la precisión de la otra y se sustituye p0 al calcular el estadístico z. Si no se conoce y se calcula a partir de los datos, se podría realizar una prueba de comparación de precisión utilizando la "prueba z de dos proporciones, agrupada para Ho: p1 = p2" .

No se utiliza mucho el estadístico complementario, la fracción incorrecta (FiC): FC + FiC = 1, o (FP + FN)/(TP + TN + FP + FN): esta es la suma de la antidiagonal , dividida por población total. Las fracciones ponderadas de costos incorrectas podrían comparar los costos esperados de una clasificación errónea para diferentes métodos.

El odds ratio de diagnóstico (DOR) puede ser una métrica general más útil, que puede definirse directamente como (TP×TN)/(FP×FN) = (TP/FN)/(FP/TN), o indirectamente como una relación. de razón de razones (razón de razones de verosimilitud, que son en sí mismas razones de tasas verdaderas o valores de predicción). Esto tiene una interpretación útil (como odds ratio ) y es independiente de la prevalencia. Generalmente se considera que la razón de probabilidad es independiente de la prevalencia y se interpreta fácilmente como el multiplicador que convierte las probabilidades anteriores en probabilidades posteriores . Otra medida única útil es el "área bajo la curva ROC", AUC .

Métricas alternativas

Una puntuación F es una combinación de precisión y recuperación , que proporciona una puntuación única. Existe una familia de estadísticas de un parámetro, con parámetro β, que determina los pesos relativos de precisión y recuperación. La puntuación F tradicional o equilibrada ( puntuación F1 ) es la media armónica de precisión y recuperación:

.

Las puntuaciones F no tienen en cuenta la tasa de verdaderos negativos y, por lo tanto, son más adecuadas para la recuperación y evaluación de la extracción de información donde los verdaderos negativos son innumerables. En cambio, medidas como el coeficiente phi , el coeficiente de correlación de Matthews , la información o el kappa de Cohen pueden ser preferibles para evaluar el rendimiento de un clasificador binario. [11] [12] Como coeficiente de correlación , el coeficiente de correlación de Matthews es la media geométrica de los coeficientes de regresión del problema y su dual . Los coeficientes de regresión componentes del coeficiente de correlación de Matthews son el marcado (deltap) y el conocimiento ( estadístico J de Youden o deltap). [13]

Ver también

Referencias

  1. ^ Balayla, Jacques (2020). "Umbral de prevalencia (ϕe) y geometría de las curvas de detección". MÁS UNO . 15 (10): e0240215. doi : 10.1371/journal.pone.0240215 . PMID  33027310.
  2. ^ Fawcett, Tom (2006). "Una introducción al análisis de la República de China" (PDF) . Letras de reconocimiento de patrones . 27 (8): 861–874. doi :10.1016/j.patrec.2005.10.010. S2CID  2027090.
  3. ^ Piryonesi S. Madeh; El-Diraby Tamer E. (1 de marzo de 2020). "Análisis de datos en la gestión de activos: predicción rentable del índice de condición del pavimento". Revista de sistemas de infraestructura . 26 (1): 04019036. doi :10.1061/(ASCE)IS.1943-555X.0000512. S2CID  213782055.
  4. ^ Poderes, David MW (2011). "Evaluación: de la precisión, la recuperación y la medida F a la República de China, la información, el marcado y la correlación". Revista de tecnologías de aprendizaje automático . 2 (1): 37–63.
  5. ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Enciclopedia de aprendizaje automático . Saltador. doi :10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
  6. ^ Brooks, Harold; Marrón, púa; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Pablo; Stephenson, David (26 de enero de 2015). "Grupo de trabajo conjunto PMIM/WGNE sobre investigación de verificación de pronósticos". Colaboración para la investigación meteorológica y climática de Australia . Organización Meteorológica Mundial . Consultado el 17 de julio de 2019 .
  7. ^ Chicco D, Jurman G (enero de 2020). "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de la clasificación binaria". Genómica BMC . 21 (1): 6-1–6-13. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID  31898477. 
  8. ^ Chicco D, Toetsch N, Jurman G (febrero de 2021). "El coeficiente de correlación de Matthews (MCC) es más confiable que la precisión equilibrada, la información de las casas de apuestas y la marcación en la evaluación de la matriz de confusión de dos clases". Minería de biodatos . 14 (13): 13. doi : 10.1186/s13040-021-00244-z . PMC 7863449 . PMID  33541410. 
  9. ^ Tharwat A. (agosto de 2018). "Métodos de evaluación de clasificación". Computación e Informática Aplicada . 17 : 168-192. doi : 10.1016/j.aci.2018.08.003 .
  10. ^ Roelleke, Thomas (31 de mayo de 2022). Modelos de recuperación de información: fundamentos y relaciones. Naturaleza Springer. ISBN 978-3-031-02328-6.
  11. ^ Poderes, David MW (2011). "Evaluación: de la precisión, la recuperación y la puntuación F a la República de China, la información, la marca y la correlación". Revista de tecnologías de aprendizaje automático . 2 (1): 37–63. hdl :2328/27165.
  12. ^ Poderes, David MW (2012). "El problema con Kappa" (PDF) . Conferencia del Capítulo Europeo de la Asociación de Lingüística Computacional (EACL2012) Taller conjunto ROBUS-UNSUP . Archivado desde el original (PDF) el 18 de mayo de 2016 . Consultado el 20 de julio de 2012 .
  13. ^ Perruchet, P.; Peereman, R. (2004). "La explotación de la información distributiva en el procesamiento de sílabas". J. Neurolingüística . 17 (2–3): 97–119. doi :10.1016/S0911-6044(03)00059-9. S2CID  17104364.

enlaces externos