Existen dos usos principales del término calibración en estadística que denotan tipos especiales de problemas de inferencia estadística . Calibración puede significar
Además, la calibración se utiliza en estadística con el significado general habitual de calibración . Por ejemplo, la calibración de modelos también se puede utilizar para referirse a la inferencia bayesiana sobre el valor de los parámetros de un modelo, dado un conjunto de datos, o de manera más general a cualquier tipo de ajuste de un modelo estadístico . Como dice Philip Dawid , "un pronosticador está bien calibrado si, por ejemplo, de aquellos eventos a los que asigna una probabilidad del 30 por ciento, la proporción a largo plazo que realmente ocurre resulta ser del 30 por ciento". [2]
La calibración en la clasificación significa transformar las puntuaciones del clasificador en probabilidades de pertenencia a una clase . Gebel (2009) ofrece una descripción general de los métodos de calibración para tareas de clasificación de dos clases y de múltiples clases . [3] Un clasificador puede separar bien las clases, pero estar mal calibrado, lo que significa que las probabilidades de clase estimadas están lejos de las probabilidades de clase reales. En este caso, un paso de calibración puede ayudar a mejorar las probabilidades estimadas. Existe una variedad de métricas que tienen como objetivo medir el grado en que un clasificador produce probabilidades bien calibradas. El trabajo fundamental incluye el Error de calibración esperado (ECE). [4] En la década de 2020, las variantes incluyen el Error de calibración adaptativo (ACE) y el Error de calibración basado en pruebas (TCE), que abordan las limitaciones de la métrica ECE que pueden surgir cuando las puntuaciones del clasificador se concentran en un subconjunto estrecho del rango [0,1]. [5] [6]
Un avance de la década de 2020 en la evaluación de la calibración es la introducción del Índice de Calibración Estimado (ECI). [7] El ECI extiende los conceptos del Error de Calibración Esperado (ECE) para proporcionar una medida más matizada de la calibración de un modelo, abordando en particular las tendencias de exceso y falta de confianza. Originalmente formulado para configuraciones binarias, el ECI ha sido adaptado para configuraciones multiclase, ofreciendo información tanto local como global sobre la calibración del modelo. Este marco tiene como objetivo superar algunas de las limitaciones teóricas e interpretativas de las métricas de calibración existentes. A través de una serie de experimentos, Famiglini et al. demuestran la eficacia del marco para brindar una comprensión más precisa de los niveles de calibración del modelo y analizan estrategias para mitigar los sesgos en la evaluación de la calibración. Se ha propuesto una herramienta en línea para calcular tanto el ECE como el ECI. [8] Existen los siguientes métodos de calibración univariados para transformar las puntuaciones del clasificador en probabilidades de pertenencia a la clase en el caso de dos clases:
En predicción y pronóstico , a veces se utiliza una puntuación Brier para evaluar la precisión de predicción de un conjunto de predicciones, específicamente que la magnitud de las probabilidades asignadas sigue la frecuencia relativa de los resultados observados. Philip E. Tetlock emplea el término "calibración" en este sentido en su libro de 2015 Superforecasting . [16] Esto difiere de exactitud y precisión . Por ejemplo, como lo expresó Daniel Kahneman , "si le das a todos los eventos que suceden una probabilidad de .6 y a todos los eventos que no suceden una probabilidad de .4, tu calibración es perfecta pero tu discriminación es miserable". [16] En meteorología , en particular, en lo que respecta al pronóstico del tiempo , un modo de evaluación relacionado se conoce como habilidad de pronóstico .
El problema de calibración en la regresión es el uso de datos conocidos sobre la relación observada entre una variable dependiente y una variable independiente para realizar estimaciones de otros valores de la variable independiente a partir de nuevas observaciones de la variable dependiente. [17] [18] [19] Esto puede conocerse como "regresión inversa"; [20] también existe la regresión inversa por secciones . Existen los siguientes métodos de calibración multivariados para transformar las puntuaciones del clasificador en probabilidades de pertenencia a una clase en el caso de que el número de clases sea mayor que dos:
Un ejemplo es el de la datación de objetos, utilizando evidencia observable como los anillos de los árboles para la dendrocronología o el carbono-14 para la datación radiométrica . La observación es causada por la edad del objeto que se está datando, en lugar de lo contrario, y el objetivo es utilizar el método para estimar fechas basadas en nuevas observaciones. El problema es si el modelo utilizado para relacionar las edades conocidas con las observaciones debe apuntar a minimizar el error en la observación, o minimizar el error en la fecha. Los dos enfoques producirán resultados diferentes, y la diferencia aumentará si el modelo se utiliza luego para la extrapolación a cierta distancia de los resultados conocidos.
La calibración es cuando digo que hay un 70 por ciento de probabilidad de que algo suceda, las cosas suceden el 70 por ciento del tiempo.