stringtranslate.com

Puntuación F

Precisión y recuperación

En el análisis estadístico de los sistemas de recuperación de información y clasificación binaria , la puntuación F o medida F es una medida del rendimiento predictivo. Se calcula a partir de la precisión y la recuperación de la prueba, donde la precisión es el número de resultados positivos verdaderos dividido por el número de todas las muestras predichas como positivas, incluidas las que no se identificaron correctamente, y la recuperación es el número de resultados positivos verdaderos dividido por el número de todas las muestras que deberían haberse identificado como positivas. La precisión también se conoce como valor predictivo positivo y la recuperación también se conoce como sensibilidad en la clasificación binaria diagnóstica.

La puntuación F 1 es la media armónica de la precisión y la recuperación. Por lo tanto, representa simétricamente tanto la precisión como la recuperación en una métrica. La puntuación más genérica aplica ponderaciones adicionales, valorando una de las dos, la precisión o la recuperación, más que la otra.

El valor más alto posible de una puntuación F es 1,0, lo que indica precisión y recuperación perfectas, y el valor más bajo posible es 0, si la precisión y la recuperación son cero.

Etimología

Se cree que el nombre F-measure proviene de una función F diferente en el libro de Van Rijsbergen, cuando se presentó en la Cuarta Conferencia sobre Comprensión de Mensajes (MUC-4, 1992). [1]

Definición

La medida F tradicional o puntuación F equilibrada ( puntuación F 1 ) es la media armónica de precisión y recuperación: [2]

.

Fβpuntaje

Una puntuación F más general, , que utiliza un factor real positivo , donde se elige de manera que la recuperación se considera 10 veces tan importante como la precisión, es:

.

En términos de errores tipo I y tipo II esto se convierte en:

.

Dos valores comúnmente utilizados son 2, que pondera la recuperación más que la precisión, y 0,5, que pondera la recuperación menos que la precisión.

La medida F se derivó de modo que "mide la efectividad de la recuperación con respecto a un usuario que otorga tanta importancia a la recuperación como a la precisión". [3] Se basa en la medida de efectividad de Van Rijsbergen .

.

Su relación está donde .

Pruebas de diagnóstico

Esto está relacionado con el campo de la clasificación binaria , donde la recuperación a menudo se denomina "sensibilidad".

  1. ^ el número de casos positivos reales en los datos
  2. ^ Un resultado de prueba que indica correctamente la presencia de una condición o característica
  3. ^ Error tipo II: Un resultado de prueba que indica erróneamente que una condición o atributo particular está ausente
  4. ^ el número de casos negativos reales en los datos
  5. ^ Un resultado de prueba que indica correctamente la ausencia de una condición o característica
  6. ^ Error tipo I: Un resultado de prueba que indica erróneamente que está presente una condición o atributo particular
Gráfico de media armónica normalizada donde x es la precisión, y es la recuperación y el eje vertical es la puntuación F 1 , en puntos porcentuales
Curva de precisión-recuperación: los puntos de diferentes umbrales están codificados por colores, el punto con puntuación F óptima se resalta en rojo

Dependencia del F-score del desequilibrio de clases

La curva de precisión-recuperación, y por lo tanto la puntuación, depende explícitamente de la proporción de casos de prueba positivos y negativos. [12] Esto significa que la comparación de la puntuación F entre diferentes problemas con diferentes proporciones de clase es problemática. Una forma de abordar esta cuestión (véase, por ejemplo, Siblini et al., 2020 [13] ) es utilizar una proporción de clase estándar al realizar dichas comparaciones.

Aplicaciones

La puntuación F se utiliza a menudo en el campo de la recuperación de información para medir el rendimiento de búsqueda , clasificación de documentos y clasificación de consultas . [14] Es particularmente relevante en aplicaciones que se ocupan principalmente de la clase positiva y donde la clase positiva es rara en relación con la clase negativa.

Los trabajos anteriores se centraban principalmente en la puntuación F 1 , pero con la proliferación de motores de búsqueda a gran escala, los objetivos de rendimiento cambiaron para poner más énfasis en la precisión o la recuperación [15] y, por lo tanto, se ve en una amplia aplicación.

La puntuación F también se utiliza en el aprendizaje automático . [16] Sin embargo, las medidas F no tienen en cuenta los verdaderos negativos, por lo que pueden preferirse medidas como el coeficiente de correlación de Matthews , Informedness o Kappa de Cohen para evaluar el rendimiento de un clasificador binario. [17]

La puntuación F se ha utilizado ampliamente en la literatura sobre procesamiento del lenguaje natural, [18] como en la evaluación del reconocimiento de entidades nombradas y la segmentación de palabras .

Propiedades

La puntuación F 1 es el coeficiente de Dice del conjunto de elementos recuperados y el conjunto de elementos relevantes. [19]

Crítica

David Hand y otros critican el uso generalizado de la puntuación F1, ya que otorga la misma importancia a la precisión y a la recuperación. En la práctica, los distintos tipos de clasificaciones erróneas implican distintos costos. En otras palabras, la importancia relativa de la precisión y la recuperación es un aspecto del problema. [22]

Según Davide Chicco y Giuseppe Jurman, la puntuación F 1 es menos veraz e informativa que el coeficiente de correlación de Matthews (MCC) en la clasificación de evaluación binaria. [23]

David MW Powers ha señalado que F 1 ignora los verdaderos negativos y, por lo tanto, es engañoso para las clases desequilibradas, mientras que las medidas de kappa y correlación son simétricas y evalúan ambas direcciones de predictibilidad (el clasificador predice la clase verdadera y la clase verdadera predice la predicción del clasificador), proponiendo medidas multiclase separadas, Informedness y Markedness, para las dos direcciones, y señalando que su media geométrica es la correlación. [24]

Otra fuente de crítica de F 1 es su falta de simetría. Esto significa que puede cambiar su valor cuando se modifica el etiquetado del conjunto de datos: las muestras "positivas" se denominan "negativas" y viceversa. Esta crítica se resuelve con la definición de la métrica P4 , que a veces se indica como una extensión simétrica de F 1. [25]

Diferencia con el índice de Fowlkes-Mallows

Mientras que la medida F es la media armónica de recuperación y precisión, el índice de Fowlkes-Mallows es su media geométrica . [26]

Extensión a la clasificación multiclase

La puntuación F también se utiliza para evaluar problemas de clasificación con más de dos clases ( clasificación multiclase ). Un método común es promediar la puntuación F para cada clase, con el objetivo de lograr una medición equilibrada del rendimiento. [27]

Macro F1

Macro F1 es una puntuación F1 promediada a nivel macro que apunta a una medición equilibrada del desempeño. Para calcular la macro F1, se han utilizado dos fórmulas de promediado diferentes: la puntuación F1 de precisión y recuperación (aritméticas) por clase o la media aritmética de puntuaciones F1 por clase, donde esta última muestra propiedades más deseables. [28]

Micro F1

Micro F1 es la media armónica de la microprecisión (número de predicciones correctas normalizadas por falsos positivos) y la microrecuperación (número de predicciones correctas normalizadas por falsos negativos). Dado que en la evaluación multiclase la cantidad total de falsos positivos es igual a la cantidad de falsos negativos, micro F1 es equivalente a la precisión . [27]

Véase también

Referencias

  1. ^ Sasaki, Y. (2007). "La verdad de la medida F" (PDF) . Teach tutor mater . Vol. 1, núm. 5. págs. 1–5.
  2. ^ Aziz Taha, Abdel (2015). "Métricas para evaluar la segmentación de imágenes médicas en 3D: análisis, selección y herramientas". BMC Medical Imaging . 15 (29): 1–28. doi : 10.1186/s12880-015-0068-x . PMC 4533825 . PMID  26263899. 
  3. ^ Van Rijsbergen, CJ (1979). Recuperación de información (2ª ed.). Butterworth-Heinemann.
  4. ^ Fawcett, Tom (2006). "Introducción al análisis ROC" (PDF) . Pattern Recognition Letters . 27 (8): 861–874. doi :10.1016/j.patrec.2005.10.010. S2CID  2027090.
  5. ^ Provost, Foster; Tom Fawcett (1 de agosto de 2013). "Ciencia de datos para empresas: lo que necesita saber sobre minería de datos y pensamiento analítico de datos". O'Reilly Media, Inc.
  6. ^ Powers, David MW (2011). "Evaluación: desde precisión, recuperación y medida F hasta ROC, información, marcación y correlación". Revista de tecnologías de aprendizaje automático . 2 (1): 37–63.
  7. ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Enciclopedia del aprendizaje automático . Springer. doi :10.1007/978-0-387-30164-8. ISBN. 978-0-387-30164-8.
  8. ^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (26 de enero de 2015). "Grupo de trabajo conjunto WWRP/WGNE sobre investigación de verificación de pronósticos". Colaboración para la investigación meteorológica y climática australiana . Organización Meteorológica Mundial . Consultado el 17 de julio de 2019 .
  9. ^ Chicco D, Jurman G (enero de 2020). "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de la clasificación binaria". BMC Genomics . 21 (1): 6-1–6-13. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID  31898477. 
  10. ^ Chicco D, Toetsch N, Jurman G (febrero de 2021). "El coeficiente de correlación de Matthews (MCC) es más confiable que la precisión equilibrada, la información de la casa de apuestas y la marcación en la evaluación de la matriz de confusión de dos clases". Minería de datos biológicos . 14 (13): 13. doi : 10.1186/s13040-021-00244-z . PMC 7863449 . PMID  33541410. 
  11. ^ Tharwat A. (agosto de 2018). "Métodos de evaluación de la clasificación". Computación e informática aplicada . 17 : 168–192. doi : 10.1016/j.aci.2018.08.003 .
  12. ^ Brabec, enero; Komárek, Tomaš; Franco, Vojtěch; Machlica, Lukáš (2020). "Sobre la evaluación de modelos bajo un desequilibrio de clases no constante". Congreso Internacional de Ciencias Computacionales . Saltador. págs. 74–87. arXiv : 2001.05571 . doi : 10.1007/978-3-030-50423-6_6 .
  13. ^ Siblini, W.; Fréry, J.; He-Guelton, L.; Oblé, F.; Wang, YQ (2020). "Domine sus métricas con calibración". En M. Berthold; A. Feelders; G. Krempl (eds.). Avances en análisis inteligente de datos XVIII . Springer. págs. 457–469. arXiv : 1909.02827 . doi : 10.1007/978-3-030-44584-3_36 .
  14. ^ Beitzel., Steven M. (2006). On Understanding and Classifying Web Queries (Tesis doctoral). IIT. CiteSeerX 10.1.1.127.634 . 
  15. ^ X. Li; Y.-Y. Wang; A. Acero (julio de 2008). Aprendizaje de la intención de consulta a partir de gráficos de clics regularizados . Actas de la 31.ª Conferencia SIGIR . p. 339. doi :10.1145/1390334.1390393. ISBN. 9781605581644.S2CID8482989  .​
  16. ^ Véase, por ejemplo, la evaluación de [1].
  17. ^ Powers, David M. W (2015). "Lo que la medida F no mide". arXiv : 1503.06410 [cs.IR].
  18. ^ Derczynski, L. (2016). Complementariedad, puntuación F y evaluación de PNL. Actas de la Conferencia internacional sobre recursos lingüísticos y evaluación .
  19. ^ Manning, Christopher (1 de abril de 2009). Introducción a la recuperación de información (PDF) . Ejercicio 8.7: Cambridge University Press. p. 200. Consultado el 18 de julio de 2022 .{{cite book}}: Mantenimiento de CS1: ubicación ( enlace )
  20. ^ "¿Cuál es la base de la puntuación F1 para un clasificador binario?".
  21. ^ Lipton, ZC, Elkan, CP y Narayanaswamy, B. (2014). Umbral óptimo de F1 en el entorno de múltiples etiquetas. ArXiv, abs/1402.1892.
  22. ^ Hand, David. "Una nota sobre el uso de la medida F para evaluar algoritmos de vinculación de registros - Dimensions". app.dimensions.ai . doi :10.1007/s11222-017-9746-6. hdl : 10044/1/46235 . S2CID  38782128 . Consultado el 8 de diciembre de 2018 .
  23. ^ Chicco D, Jurman G (enero de 2020). "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de la clasificación binaria". BMC Genomics . 21 (6): 6. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID  31898477. 
  24. ^ Powers, David MW (2011). "Evaluación: desde precisión, recuperación y puntuación F hasta ROC, información, marcación y correlación". Revista de tecnologías de aprendizaje automático . 2 (1): 37–63. hdl :2328/27165.
  25. ^ Sitarz, Mikolaj (2022). "Extensión de la métrica F1, enfoque probabilístico". arXiv : 2210.11997 [cs.LG].
  26. ^ Tharwat A (agosto de 2018). "Métodos de evaluación de la clasificación". Computación e informática aplicada . 17 : 168–192. doi : 10.1016/j.aci.2018.08.003 .
  27. ^ ab Opitz, Juri (2024). "Una mirada más cercana a las métricas de evaluación de clasificación y una reflexión crítica de la práctica de evaluación común". Transacciones de la Asociación de Lingüística Computacional . 12 : 820–836. arXiv : 2404.16958 . doi :10.1162/tacl_a_00675.
  28. ^ J. Opitz; S. Burst (2019). "Macro F1 y Macro F1". arXiv : 1911.03347 [stat.ML].