stringtranslate.com

Calibración (estadística)

Existen dos usos principales del término calibración en estadística que denotan tipos especiales de problemas de inferencia estadística . Calibración puede significar

  • un proceso inverso a la regresión , donde en lugar de predecir una variable dependiente futura a partir de variables explicativas conocidas, se utiliza una observación conocida de las variables dependientes para predecir una variable explicativa correspondiente; [1]
  • procedimientos de clasificación estadística para determinar probabilidades de pertenencia a clases que evalúan la incertidumbre de una nueva observación dada que pertenece a cada una de las clases ya establecidas.

Además, la calibración se utiliza en estadística con el significado general habitual de calibración . Por ejemplo, la calibración de modelos también se puede utilizar para referirse a la inferencia bayesiana sobre el valor de los parámetros de un modelo, dado un conjunto de datos, o de manera más general a cualquier tipo de ajuste de un modelo estadístico . Como dice Philip Dawid , "un pronosticador está bien calibrado si, por ejemplo, de aquellos eventos a los que asigna una probabilidad del 30 por ciento, la proporción a largo plazo que realmente ocurre resulta ser del 30 por ciento". [2]

En la clasificación

La calibración en la clasificación significa transformar las puntuaciones del clasificador en probabilidades de pertenencia a una clase . Gebel (2009) ofrece una descripción general de los métodos de calibración para tareas de clasificación de dos clases y de múltiples clases . [3] Un clasificador puede separar bien las clases, pero estar mal calibrado, lo que significa que las probabilidades de clase estimadas están lejos de las probabilidades de clase reales. En este caso, un paso de calibración puede ayudar a mejorar las probabilidades estimadas. Existe una variedad de métricas que tienen como objetivo medir el grado en que un clasificador produce probabilidades bien calibradas. El trabajo fundamental incluye el Error de calibración esperado (ECE). [4] En la década de 2020, las variantes incluyen el Error de calibración adaptativo (ACE) y el Error de calibración basado en pruebas (TCE), que abordan las limitaciones de la métrica ECE que pueden surgir cuando las puntuaciones del clasificador se concentran en un subconjunto estrecho del rango [0,1]. [5] [6]

Un avance de la década de 2020 en la evaluación de la calibración es la introducción del Índice de Calibración Estimado (ECI). [7] El ECI extiende los conceptos del Error de Calibración Esperado (ECE) para proporcionar una medida más matizada de la calibración de un modelo, abordando en particular las tendencias de exceso y falta de confianza. Originalmente formulado para configuraciones binarias, el ECI ha sido adaptado para configuraciones multiclase, ofreciendo información tanto local como global sobre la calibración del modelo. Este marco tiene como objetivo superar algunas de las limitaciones teóricas e interpretativas de las métricas de calibración existentes. A través de una serie de experimentos, Famiglini et al. demuestran la eficacia del marco para brindar una comprensión más precisa de los niveles de calibración del modelo y analizan estrategias para mitigar los sesgos en la evaluación de la calibración. Se ha propuesto una herramienta en línea para calcular tanto el ECE como el ECI. [8] Existen los siguientes métodos de calibración univariados para transformar las puntuaciones del clasificador en probabilidades de pertenencia a la clase en el caso de dos clases:

En predicción y pronóstico de probabilidad

En predicción y pronóstico , a veces se utiliza una puntuación Brier para evaluar la precisión de predicción de un conjunto de predicciones, específicamente que la magnitud de las probabilidades asignadas sigue la frecuencia relativa de los resultados observados. Philip E. Tetlock emplea el término "calibración" en este sentido en su libro de 2015 Superforecasting . [16] Esto difiere de exactitud y precisión . Por ejemplo, como lo expresó Daniel Kahneman , "si le das a todos los eventos que suceden una probabilidad de .6 y a todos los eventos que no suceden una probabilidad de .4, tu calibración es perfecta pero tu discriminación es miserable". [16] En meteorología , en particular, en lo que respecta al pronóstico del tiempo , un modo de evaluación relacionado se conoce como habilidad de pronóstico .

En regresión

El problema de calibración en la regresión es el uso de datos conocidos sobre la relación observada entre una variable dependiente y una variable independiente para realizar estimaciones de otros valores de la variable independiente a partir de nuevas observaciones de la variable dependiente. [17] [18] [19] Esto puede conocerse como "regresión inversa"; [20] también existe la regresión inversa por secciones . Existen los siguientes métodos de calibración multivariados para transformar las puntuaciones del clasificador en probabilidades de pertenencia a una clase en el caso de que el número de clases sea mayor que dos:

Ejemplo

Un ejemplo es el de la datación de objetos, utilizando evidencia observable como los anillos de los árboles para la dendrocronología o el carbono-14 para la datación radiométrica . La observación es causada por la edad del objeto que se está datando, en lugar de lo contrario, y el objetivo es utilizar el método para estimar fechas basadas en nuevas observaciones. El problema es si el modelo utilizado para relacionar las edades conocidas con las observaciones debe apuntar a minimizar el error en la observación, o minimizar el error en la fecha. Los dos enfoques producirán resultados diferentes, y la diferencia aumentará si el modelo se utiliza luego para la extrapolación a cierta distancia de los resultados conocidos.

Véase también

Referencias

  1. ^ Cook, Ian; Upton, Graham (2006). Diccionario Oxford de Estadística . Oxford: Oxford University Press. ISBN 978-0-19-954145-4.
  2. ^ Dawid, A. P (1982). "El bayesiano bien calibrado". Revista de la Asociación Estadounidense de Estadística . 77 (379): 605–610. doi :10.1080/01621459.1982.10477856.
  3. ^ ab Gebel, Martin (2009). Calibración multivariante de puntuaciones de clasificadores en el espacio de probabilidad (PDF) (tesis doctoral). Universidad de Dortmund.
  4. ^ MP Naeini, G. Cooper y M. Hauskrecht, Obtención de probabilidades bien calibradas mediante binning bayesiano. En: Actas de la Conferencia AAAI sobre Inteligencia Artificial, 2015.
  5. ^ J. Nixon, MW Dusenberry, L. Zhang, G. Jerfel y D. Tran. Medición de la calibración en el aprendizaje profundo. En: Talleres CVPR (Vol. 2, N.º 7), 2019.
  6. ^ T. Matsubara, N. Tax, R. Mudd y I. Guy. TCE: un enfoque basado en pruebas para medir el error de calibración. En: Actas de la Trigésima Novena Conferencia sobre Incertidumbre en Inteligencia Artificial (UAI), PMLR, 2023.
  7. ^ Famiglini, Lorenzo, Andrea Campagner y Federico Cabitza. "Hacia un marco riguroso de evaluación de la calibración: avances en métricas, métodos y uso". ECAI 2023. IOS Press, 2023. 645-652. Doi 10.3233/FAIA230327
  8. ^ Famiglini, Lorenzo; Campagner, Andrea; Cabitza, Federico (2023), "Hacia un marco de evaluación riguroso de la calibración: avances en métricas, métodos y uso", ECAI 2023 , IOS Press, págs. 645–652, doi :10.3233/faia230327, hdl : 10281/456604 , consultado el 25 de marzo de 2024
  9. ^ UM Garczarek "[1] Archivado el 23 de noviembre de 2004 en Wayback Machine ," Reglas de clasificación en espacios de partición estandarizados, tesis doctoral, Universidad de Dortmund, 2002
  10. ^ PN Bennett, Uso de distribuciones asimétricas para mejorar las estimaciones de probabilidad del clasificador de texto: una comparación de métodos paramétricos nuevos y estándar, Informe técnico CMU-CS-02-126, Carnegie Mellon, Facultad de Ciencias de la Computación, 2002.
  11. ^ B. Zadrozny y C. Elkan, Transformación de las puntuaciones de los clasificadores en estimaciones precisas de probabilidad multiclase. En: Actas de la Octava Conferencia Internacional sobre Descubrimiento de Conocimiento y Minería de Datos, 694–699, Edmonton, ACM Press, 2002.
  12. ^ DD Lewis y WA Gale, Un algoritmo secuencial para entrenar clasificadores de texto. En: WB Croft y CJ van Rijsbergen (eds.), Actas de la 17.ª Conferencia anual internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información (SIGIR '94), 3–12. Nueva York, Springer-Verlag, 1994.
  13. ^ JC Platt, Resultados probabilísticos para máquinas de vectores de soporte y comparaciones con métodos de verosimilitud regularizada. En: AJ Smola, P. Bartlett, B. Schölkopf y D. Schuurmans (eds.), Advances in Large Margin Classiers, 61–74. Cambridge, MIT Press, 1999.
  14. ^ Naeini MP, Cooper GF, Hauskrecht M. Obtención de probabilidades bien calibradas mediante binning bayesiano. Actas de la Conferencia AAAI sobre Inteligencia Artificial Conferencia AAAI sobre Inteligencia Artificial. 2015;2015:2901-2907.
  15. ^ Meelis Kull, Telmo Silva Filho, Peter Flach; Actas de la 20ª Conferencia Internacional sobre Inteligencia Artificial y Estadística, PMLR 54:623-631, 2017.
  16. ^ ab "Edge Master Class 2015: A Short Course in Superforecasting, Class II". edge.org . Edge Foundation. 24 de agosto de 2015 . Consultado el 13 de abril de 2018 . La calibración es cuando digo que hay un 70 por ciento de probabilidad de que algo suceda, las cosas suceden el 70 por ciento del tiempo.
  17. ^ Brown, PJ (1994) Medición, regresión y calibración , OUP. ISBN 0-19-852245-2 
  18. ^ Ng, KH, Pooi, AH (2008) "Intervalos de calibración en modelos de regresión lineal", Comunicaciones en estadística - Teoría y métodos , 37 (11), 1688–1696. [2]
  19. ^ Hardin, JW, Schmiediche, H., Carroll, RJ (2003) "El método de calibración de regresión para ajustar modelos lineales generalizados con error de medición aditivo", Stata Journal , 3 (4), 361–372. enlace, pdf
  20. ^ Draper, NL, Smith, H. (1998) Análisis de regresión aplicada, 3.ª edición , Wiley. ISBN 0-471-17082-8 
  21. ^ T. Hastie y R. Tibshirani, "[3]", Clasificación por acoplamiento por pares. En: MI Jordan, MJ Kearns y SA Solla (eds.), Advances in Neural Information Processing Systems, volumen 10, Cambridge, MIT Press, 1998.