stringtranslate.com

Calibración (estadísticas)

Hay dos usos principales del término calibración en estadística que denotan tipos especiales de problemas de inferencia estadística . La calibración puede significar

  • un proceso inverso a la regresión , donde en lugar de predecir una variable dependiente futura a partir de variables explicativas conocidas, se utiliza una observación conocida de las variables dependientes para predecir una variable explicativa correspondiente; [1]
  • Procedimientos de clasificación estadística para determinar las probabilidades de pertenencia a una clase que evalúan la incertidumbre de una nueva observación dada que pertenece a cada una de las clases ya establecidas.

Además, la calibración se utiliza en estadística con el significado general habitual de calibración . Por ejemplo, la calibración del modelo también se puede utilizar para referirse a la inferencia bayesiana sobre el valor de los parámetros de un modelo, dado algún conjunto de datos, o más generalmente a cualquier tipo de ajuste de un modelo estadístico . Como dice Philip Dawid , "un pronosticador está bien calibrado si, por ejemplo, de aquellos eventos a los que asigna una probabilidad del 30 por ciento, la proporción a largo plazo que realmente ocurre resulta ser del 30 por ciento". [2]

en clasificación

La calibración en la clasificación significa convertir las puntuaciones del clasificador de transformación en probabilidades de pertenencia a una clase . Gebel (2009) ofrece una descripción general de los métodos de calibración para tareas de clasificación de dos clases y de varias clases . [3] Un clasificador puede separar bien las clases, pero estar mal calibrado, lo que significa que las probabilidades de clase estimadas están lejos de las probabilidades de clase reales. En este caso, un paso de calibración puede ayudar a mejorar las probabilidades estimadas. Existe una variedad de métricas que tienen como objetivo medir en qué medida un clasificador produce probabilidades bien calibradas. El trabajo fundamental incluye el error de calibración esperado (ECE). [4] En la década de 2020, las variantes incluyen el error de calibración adaptativo (ACE) y el error de calibración basado en pruebas (TCE), que abordan las limitaciones de la métrica ECE que pueden surgir cuando las puntuaciones del clasificador se concentran en un subconjunto estrecho de [0,1 ] rango. [5] [6]

Un avance de la década de 2020 en la evaluación de la calibración es la introducción del Índice de Calibración Estimado (ECI). [7] La ​​ECI amplía los conceptos de error de calibración esperado (ECE) para proporcionar una medida más matizada de la calibración de un modelo, abordando particularmente las tendencias de exceso y falta de confianza. Originalmente formulado para entornos binarios, el ECI se ha adaptado para entornos multiclase y ofrece información tanto local como global sobre la calibración del modelo. Este marco tiene como objetivo superar algunas de las limitaciones teóricas e interpretativas de las métricas de calibración existentes. A través de una serie de experimentos, Famiglini et al. demostrar la eficacia del marco para brindar una comprensión más precisa de los niveles de calibración del modelo y discutir estrategias para mitigar los sesgos en la evaluación de la calibración. Se ha propuesto una herramienta en línea para calcular tanto ECE como ECI. [8] Existen los siguientes métodos de calibración univariados para transformar las puntuaciones del clasificador en probabilidades de pertenencia a una clase en el caso de dos clases:

En predicción y previsión de probabilidades.

En predicción y pronóstico , a veces se utiliza una puntuación de Brier para evaluar la precisión de la predicción de un conjunto de predicciones, específicamente que la magnitud de las probabilidades asignadas rastrea la frecuencia relativa de los resultados observados. Philip E. Tetlock emplea el término "calibración" en este sentido en su libro Superforecasting de 2015 . [16] Esto difiere de exactitud y precisión . Por ejemplo, como lo expresa Daniel Kahneman , "si le das a todos los eventos que suceden una probabilidad de .6 y a todos los eventos que no suceden una probabilidad de .4, tu calibración es perfecta pero tu discriminación es miserable". [16] En meteorología , en particular, en lo que respecta al pronóstico del tiempo , un modo de evaluación relacionado se conoce como habilidad de pronóstico .

En regresión

El problema de calibración en regresión es el uso de datos conocidos sobre la relación observada entre una variable dependiente y una variable independiente para hacer estimaciones de otros valores de la variable independiente a partir de nuevas observaciones de la variable dependiente. [17] [18] [19] Esto puede conocerse como "regresión inversa"; [20] también existe una regresión inversa cortada . Existen los siguientes métodos de calibración multivariante para transformar las puntuaciones del clasificador en probabilidades de pertenencia a una clase en el caso de que el número de clases sea mayor que dos:

Ejemplo

Un ejemplo es el de la datación de objetos, utilizando pruebas observables como los anillos de los árboles para la dendrocronología o el carbono-14 para la datación radiométrica . La observación se debe a la edad del objeto que se está datando, y no a la inversa, y el objetivo es utilizar el método para estimar fechas basándose en nuevas observaciones. El problema es si el modelo utilizado para relacionar edades conocidas con observaciones debe apuntar a minimizar el error en la observación o minimizar el error en la fecha. Los dos enfoques producirán resultados diferentes, y la diferencia aumentará si luego se utiliza el modelo para la extrapolación a cierta distancia de los resultados conocidos.

Ver también

Referencias

  1. ^ Cocinero, Ian; Upton, Graham (2006). Diccionario Oxford de Estadística . Oxford: Prensa de la Universidad de Oxford. ISBN 978-0-19-954145-4.
  2. ^ Dawid, AP (1982). "El bayesiano bien calibrado". Revista de la Asociación Estadounidense de Estadística . 77 (379): 605–610. doi :10.1080/01621459.1982.10477856.
  3. ^ ab Gebel, Martín (2009). Calibración multivariada de puntuaciones de clasificadores en el espacio de probabilidad (PDF) (tesis doctoral). Universidad de Dortmund.
  4. ^ MP Naeini, G. Cooper y M. Hauskrecht, Obtención de probabilidades bien calibradas mediante agrupación bayesiana. En: Actas de la Conferencia AAAI sobre Inteligencia Artificial, 2015.
  5. ^ J. Nixon, MW Dusenberry, L. Zhang, G. Jerfel y D. Tran. Medición de la calibración en el aprendizaje profundo. En: Talleres CVPR (Vol. 2, No. 7), 2019.
  6. ^ T. Matsubara, N. Tax, R. Mudd y I. Guy. TCE: un enfoque basado en pruebas para medir el error de calibración. En: Actas de la Trigésima Novena Conferencia sobre la Incertidumbre en la Inteligencia Artificial (UAI), PMLR, 2023.
  7. ^ Famiglini, Lorenzo, Andrea Campagner y Federico Cabitza. "Hacia un marco de evaluación de calibración riguroso: avances en métricas, métodos y uso". ECAI 2023. IOS Press, 2023. 645-652. Doi 10.3233/FAIA230327
  8. ^ Famiglini, Lorenzo; Campagner, Andrea; Cabitza, Federico (2023), "Hacia un marco de evaluación de calibración riguroso: avances en métricas, métodos y uso", ECAI 2023 , IOS Press, págs. 645–652, doi :10.3233/faia230327, hdl : 10281/456604 , recuperado 25 de marzo de 2024
  9. ^ UM Garczarek "[1] Archivado el 23 de noviembre de 2004 en Wayback Machine ", Reglas de clasificación en espacios de partición estandarizados, disertación, Universität Dortmund, 2002
  10. ^ PN Bennett, Uso de distribuciones asimétricas para mejorar las estimaciones de probabilidad del clasificador de texto: una comparación de métodos paramétricos nuevos y estándar, Informe técnico CMU-CS-02-126, Carnegie Mellon, Facultad de Ciencias de la Computación, 2002.
  11. ^ B. Zadrozny y C. Elkan, Transformación de puntuaciones de clasificadores en estimaciones precisas de probabilidad multiclase. En: Actas de la Octava Conferencia Internacional sobre Descubrimiento de Conocimiento y Minería de Datos, 694–699, Edmonton, ACM Press, 2002.
  12. ^ DD Lewis y WA Gale, Un algoritmo secuencial para entrenar clasificadores de texto. En: WB Croft y CJ van Rijsbergen (eds.), Actas de la 17ª Conferencia Internacional Anual ACM SIGIR sobre Investigación y Desarrollo en Recuperación de Información (SIGIR '94), 3–12. Nueva York, Springer-Verlag, 1994.
  13. ^ JC Platt, Resultados probabilísticos para máquinas de vectores de soporte y comparaciones con métodos de probabilidad regularizados. En: AJ Smola, P. Bartlett, B. Schölkopf y D. Schuurmans (eds.), Avances en clasificadores de márgenes grandes, 61–74. Cambridge, MIT Press, 1999.
  14. ^ Naeini MP, Cooper GF, Hauskrecht M. Obtención de probabilidades bien calibradas mediante agrupación bayesiana. Actas del . Conferencia AAAI sobre Inteligencia Artificial Conferencia AAAI sobre Inteligencia Artificial. 2015;2015:2901-2907.
  15. ^ Meelis Kull, Telmo Silva Filho, Peter Flach; Actas de la XX Conferencia Internacional sobre Inteligencia Artificial y Estadísticas, PMLR 54:623-631, 2017.
  16. ^ ab "Edge Master Class 2015: un curso breve sobre superpredicción, clase II". borde.org . Fundación Edge. 24 de agosto de 2015 . Consultado el 13 de abril de 2018 . La calibración es cuando digo que hay un 70 por ciento de probabilidad de que algo suceda, las cosas suceden el 70 por ciento de las veces.
  17. ^ Brown, PJ (1994) Medición, regresión y calibración , OUP. ISBN 0-19-852245-2 
  18. ^ Ng, KH, Pooi, AH (2008) "Intervalos de calibración en modelos de regresión lineal", Comunicaciones en estadística: teoría y métodos , 37 (11), 1688-1696. [2]
  19. ^ Hardin, JW, Schmiediche, H., Carroll, RJ (2003) "El método de calibración de regresión para ajustar modelos lineales generalizados con error de medición aditivo", Stata Journal , 3 (4), 361–372. enlace, pdf
  20. ^ Draper, NL, Smith, H. (1998) Análisis de regresión aplicada, tercera edición , Wiley. ISBN 0-471-17082-8 
  21. ^ T. Hastie y R. Tibshirani, "[3]", Clasificación por acoplamiento por pares. En: MI Jordan, MJ Kearns y SA Solla (eds.), Advances in Neural Information Processing Systems, volumen 10, Cambridge, MIT Press, 1998.