puntuación F

En el análisis estadístico de sistemas de recuperación de información y clasificación binaria , la puntuación F o la medida F es una medida del rendimiento predictivo. Se calcula a partir de la precisión y el retiro de la prueba, donde la precisión es el número de resultados positivos verdaderos dividido por el número de todas las muestras que se predice que serán positivas, incluidas aquellas que no se identificaron correctamente, y el retiro es el número de resultados positivos verdaderos. dividido por el número de todas las muestras que deberían haberse identificado como positivas. La precisión también se conoce como valor predictivo positivo y la recuperación también se conoce como sensibilidad en la clasificación binaria de diagnóstico.

La puntuación F ₁ es la media armónica de la precisión y la recuperación. Por lo tanto, representa simétricamente tanto la precisión como la recuperación en una métrica. La puntuación más genérica aplica ponderaciones adicionales, valorando una de precisión o recuperación más que la otra. $F_{\beta }$

El valor más alto posible de una puntuación F es 1,0, lo que indica precisión y recuperación perfectas, y el valor más bajo posible es 0, si la precisión o la recuperación son cero.

Etimología

Se cree que el nombre medida F lleva el nombre de una función F diferente en el libro de Van Rijsbergen, cuando se presentó en la Cuarta Conferencia de Comprensión de Mensajes (MUC-4, 1992). ^[1]

Definición

La medida F tradicional o puntuación F equilibrada ( puntuación F ₁ ) es la media armónica de precisión y recuperación: ^[2]

F_{1}={\frac {2}{\mathrm {recall} ^{-1}+\mathrm {precision} ^{-1}}}=2{\frac {\mathrm {precision} \cdot \mathrm {recall} }{\mathrm {precision} +\mathrm {recall} }}={\frac {2\mathrm {tp} }{2\mathrm {tp} +\mathrm {fp} +\mathrm {fn} }}

Puntuación F β

Una puntuación F más general, que utiliza un factor real positivo , donde se elige de manera que el recuerdo se considere tan importante como la precisión, es: $F_{\beta }$ $\beta$ $\beta$ $\beta$

F_{\beta }=(1+\beta ^{2})\cdot {\frac {\mathrm {precision} \cdot \mathrm {recall} }{(\beta ^{2}\cdot \mathrm {precision} )+\mathrm {recall} }}

En términos de errores de tipo I y tipo II, esto se convierte en:

F_{\beta }={\frac {(1+\beta ^{2})\cdot \mathrm {true\ positive} }{(1+\beta ^{2})\cdot \mathrm {true\ positive} +\beta ^{2}\cdot \mathrm {false\ negative} +\mathrm {false\ positive} }}\,

Dos valores comúnmente utilizados son 2, que pesa la recuperación más que la precisión, y 0,5, que pesa la recuperación menos que la precisión. $\beta$

La medida F se derivó de modo que "mide la eficacia de la recuperación con respecto a un usuario que concede tanta importancia a la recuperación como a la precisión". ^[3] Se basa en la medida de eficacia de Van Rijsbergen. $F_{\beta }$ $\beta$

E=1-\left({\frac {\alpha }{p}}+{\frac {1-\alpha }{r}}\right)^{-1}

Su relación es donde . $F_{\beta }=1-E$ $\alpha ={\frac {1}{1+\beta ^{2}}}$

Pruebas de diagnóstico

Esto está relacionado con el campo de la clasificación binaria , donde el recuerdo a menudo se denomina "sensibilidad".

^ el número de casos positivos reales en los datos
^ Un resultado de prueba que indica correctamente la presencia de una condición o característica.
^ Error de tipo II: resultado de una prueba que indica erróneamente que una condición o atributo particular está ausente
^ el número de casos negativos reales en los datos
^ Un resultado de prueba que indica correctamente la ausencia de una condición o característica.
^ Error de tipo I: resultado de una prueba que indica erróneamente que está presente una condición o atributo particular

Dependencia de la puntuación F del desequilibrio de clases

La curva de recuperación de precisión y, por tanto, la puntuación, dependen explícitamente de la proporción de casos de prueba positivos y negativos. ^[13] Esto significa que la comparación de la puntuación F entre diferentes problemas con diferentes proporciones de clases es problemática. Una forma de abordar este problema (ver, por ejemplo, Siblini et al, 2020 ^[14] ) es utilizar una proporción de clases estándar al realizar tales comparaciones. $F_{\beta }$ $r$ $r_{0}$

Aplicaciones

La puntuación F se utiliza a menudo en el campo de la recuperación de información para medir el rendimiento de la búsqueda , la clasificación de documentos y la clasificación de consultas . ^[15] Es particularmente relevante en aplicaciones que se ocupan principalmente de la clase positiva y donde la clase positiva es rara en relación con la clase negativa.

Los trabajos anteriores se centraron principalmente en la puntuación F ₁ , pero con la proliferación de motores de búsqueda a gran escala, los objetivos de rendimiento cambiaron para poner más énfasis en la precisión o la recuperación ^[16] y, por lo tanto , se observa en una amplia aplicación. $F_{\beta }$

La puntuación F también se utiliza en el aprendizaje automático . ^[17] Sin embargo, las medidas F no tienen en cuenta los verdaderos negativos, por lo que se pueden preferir medidas como el coeficiente de correlación de Matthews , la información o el kappa de Cohen para evaluar el rendimiento de un clasificador binario. ^[18]

La puntuación F se ha utilizado ampliamente en la literatura sobre procesamiento del lenguaje natural, ^[19] como en la evaluación del reconocimiento de entidades nombradas y la segmentación de palabras .

Propiedades

La puntuación F _{1 es el}coeficiente de dados del conjunto de elementos recuperados y del conjunto de elementos relevantes. ^[20]

La puntuación F ₁ de un clasificador que siempre predice la clase positiva converge a 1 a medida que aumenta la probabilidad de la clase positiva.
La puntuación F ₁ de un clasificador que siempre predice la clase positiva es igual a 2 * proporción_de_clase_positiva / ( 1 + proporción_de_clase_positiva ), ya que la recuperación es 1 y la precisión es igual a la proporción de la clase positiva. ^[21]
Si el modelo de puntuación no es informativo (no puede distinguir entre la clase positiva y la negativa), entonces el umbral óptimo es 0 para que siempre se prediga la clase positiva.
La puntuación F ₁ es cóncava en la tasa de verdaderos positivos. ^[22]

Crítica

David Hand y otros critican el uso generalizado de la puntuación F _1, ya que otorga igual importancia a la precisión y el recuerdo. En la práctica, diferentes tipos de clasificaciones erróneas generan costos diferentes. En otras palabras, la importancia relativa de la precisión y el recuerdo es un aspecto del problema. ^[23]

Según Davide Chicco y Giuseppe Jurman, la puntuación F ₁ es menos veraz e informativa que el coeficiente de correlación de Matthews (MCC) en la clasificación de evaluación binaria. ^[24]

David MW Powers ha señalado que F ₁ ignora los verdaderos negativos y, por lo tanto, es engañoso para las clases desequilibradas, mientras que kappa y las medidas de correlación son simétricas y evalúan ambas direcciones de previsibilidad: el clasificador predice la clase verdadera y la clase verdadera predice la predicción del clasificador. proponiendo medidas multiclase separadas de Información y Marcación para las dos direcciones, señalando que su media geométrica es la correlación. ^[25]

Otra fuente de crítica a F ₁ es su falta de simetría. Significa que puede cambiar su valor cuando se cambia el etiquetado del conjunto de datos: las muestras "positivas" se denominan "negativas" y viceversa. Esta crítica se enfrenta a la definición de la métrica P4 , que a veces se indica como una extensión simétrica de _F1 . ^[26]

Diferencia con el índice de Fowlkes-Mallows

Mientras que la medida F es la media armónica de recuerdo y precisión, el índice de Fowlkes-Mallows es su media geométrica . ^[27]

Ampliación a la clasificación multiclase

La puntuación F también se utiliza para evaluar problemas de clasificación con más de dos clases ( clasificación multiclase ). En esta configuración, la puntuación final se obtiene mediante un micropromedio (sesgado por la frecuencia de las clases) o un macropromedio (tomando todas las clases como igualmente importantes). Para el macropromedio, los solicitantes han utilizado dos fórmulas diferentes: la puntuación F de precisión (aritmética) por clase y medias de recuperación o la media aritmética de las puntuaciones F por clase, donde esta última exhibe propiedades más deseables. ^[28]

Ver también

AZUL
Matriz de confusión
Pruebas de hipótesis para verificar la precisión.
METEORITO
NIST (métrico)
Característica Operativa del Receptor
ROJO (métrico)
Coeficiente de incertidumbre , también conocido como Competencia
Tasa de error de palabra
LEPOR

Referencias

^ Sasaki, Y. https://nicolasshu.com/assets/pdf/Sasaki_2007_The%20Truth%20of%20the%20F-measure.pdf. {{cite news}}: Falta o está vacío |title=( ayuda )
^ Aziz Taha, Abdel (2015). "Métricas para evaluar la segmentación de imágenes médicas 3D: análisis, selección y herramienta". BMC Imágenes Médicas . 15 (29): 1–28. doi : 10.1186/s12880-015-0068-x . PMC 4533825 . PMID 26263899.
^ Van Rijsbergen, CJ (1979). Recuperación de información (2ª ed.). Butterworth-Heinemann.
^ Balayla, Jacques (2020). "Umbral de prevalencia (ϕe) y geometría de las curvas de detección". MÁS UNO . 15 (10): e0240215. doi : 10.1371/journal.pone.0240215 . PMID 33027310.
^ Fawcett, Tom (2006). "Una introducción al análisis de la República de China" (PDF) . Letras de reconocimiento de patrones . 27 (8): 861–874. doi :10.1016/j.patrec.2005.10.010. S2CID 2027090.
^ Piryonesi S. Madeh; El-Diraby Tamer E. (1 de marzo de 2020). "Análisis de datos en la gestión de activos: predicción rentable del índice de condición del pavimento". Revista de sistemas de infraestructura . 26 (1): 04019036. doi :10.1061/(ASCE)IS.1943-555X.0000512. S2CID 213782055.
^ Poderes, David MW (2011). "Evaluación: de la precisión, la recuperación y la medida F a la República de China, la información, el marcado y la correlación". Revista de tecnologías de aprendizaje automático . 2 (1): 37–63.
^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Enciclopedia de aprendizaje automático . Saltador. doi :10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
^ Brooks, Harold; Marrón, púa; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Pablo; Stephenson, David (26 de enero de 2015). "Grupo de trabajo conjunto PMIM/WGNE sobre investigación de verificación de pronósticos". Colaboración para la investigación meteorológica y climática de Australia . Organización Meteorológica Mundial . Consultado el 17 de julio de 2019 .
^ Chicco D, Jurman G (enero de 2020). "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de la clasificación binaria". Genómica BMC . 21 (1): 6-1–6-13. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID 31898477.
^ Chicco D, Toetsch N, Jurman G (febrero de 2021). "El coeficiente de correlación de Matthews (MCC) es más confiable que la precisión equilibrada, la información de las casas de apuestas y la marcación en la evaluación de la matriz de confusión de dos clases". Minería de biodatos . 14 (13): 13. doi : 10.1186/s13040-021-00244-z . PMC 7863449 . PMID 33541410.
^ Tharwat A. (agosto de 2018). "Métodos de evaluación de clasificación". Computación e Informática Aplicada . 17 : 168-192. doi : 10.1016/j.aci.2018.08.003 .
^ Brabec, enero; Komárek, Tomaš; Franco, Vojtěch; Machlica, Lukáš (2020). "Sobre la evaluación de modelos bajo un desequilibrio de clases no constante". Congreso Internacional de Ciencias Computacionales . Saltador. págs. 74–87. arXiv : 2001.05571 . doi : 10.1007/978-3-030-50423-6_6 .
^ Siblini, W.; Frery, J.; Él-Guelton, L.; Oblé, F.; Wang, YQ (2020). "Domina tus métricas con calibración". En M. Berthold; A. Sensores; G. Krempl (eds.). Avances en el Análisis Inteligente de Datos XVIII . Saltador. págs. 457–469. arXiv : 1909.02827 . doi : 10.1007/978-3-030-44584-3_36 .
^ Beitzel., Steven M. (2006). Sobre comprensión y clasificación de consultas web (tesis doctoral). IIT. CiteSeerX 10.1.1.127.634 .
^ X.Li; Y.-Y. Wang; A. Acero (julio de 2008). Aprender la intención de la consulta a partir de gráficos de clics regularizados . Actas de la 31ª Conferencia SIGIR . pag. 339. doi :10.1145/1390334.1390393. ISBN 9781605581644. S2CID 8482989.
^ Véase, por ejemplo, la evaluación del [1].
^ Poderes, David MW (2015). "Lo que no mide la medida F". arXiv : 1503.06410 [cs.IR].
^ Derczynski, L. (2016). Complementariedad, F-score y Evaluación de PNL. Actas de la Conferencia Internacional sobre Evaluación y Recursos Lingüísticos .
^ Manning, Christopher (1 de abril de 2009). Introducción a la recuperación de información (PDF) . Ejercicio 8.7: Cambridge University Press. pag. 200 . Consultado el 18 de julio de 2022 .{{cite book}}: CS1 maint: location (link)
^ "¿Cuál es la base de la puntuación F1 para un clasificador binario?".
^ Lipton, ZC, Elkan, CP y Narayanaswamy, B. (2014). F1: Umbral óptimo en la configuración de etiquetas múltiples. ArXiv, abs/1402.1892.
^ Mano, David. "Una nota sobre el uso de la medida F para evaluar algoritmos de vinculación de registros: dimensiones". aplicación.dimensions.ai . doi :10.1007/s11222-017-9746-6. hdl : 10044/1/46235 . S2CID 38782128 . Consultado el 8 de diciembre de 2018 .
^ Chicco D, Jurman G (enero de 2020). "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de la clasificación binaria". Genómica BMC . 21 (6): 6. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID 31898477.
^ Poderes, David MW (2011). "Evaluación: de la precisión, la recuperación y la puntuación F a la República de China, la información, la marca y la correlación". Revista de tecnologías de aprendizaje automático . 2 (1): 37–63. hdl :2328/27165.
^ Sitarz, Mikolaj (2022). "Ampliación del enfoque probabilístico de la métrica F1". arXiv : 2210.11997 [cs.LG].
^ Tharwat A (agosto de 2018). "Métodos de evaluación de clasificación". Computación e Informática Aplicada . 17 : 168-192. doi : 10.1016/j.aci.2018.08.003 .
^ J. Opitz; S. Explosión (2019). "Macro F1 y Macro F1". arXiv : 1911.03347 [estad.ML].