stringtranslate.com

Puntuación de Brier

La puntuación de Brier es una regla de puntuación estrictamente adecuada que mide la precisión de las predicciones probabilísticas . Para las predicciones unidimensionales, es estrictamente equivalente al error cuadrático medio aplicado a las probabilidades predichas.

La puntuación Brier se aplica a tareas en las que las predicciones deben asignar probabilidades a un conjunto de resultados o clases discretas mutuamente excluyentes . El conjunto de resultados posibles puede ser de naturaleza binaria o categórica, y las probabilidades asignadas a este conjunto de resultados deben sumar uno (donde cada probabilidad individual está en el rango de 0 a 1). Fue propuesta por Glenn W. Brier en 1950. [1]

La puntuación Brier puede considerarse como una función de costo . Más precisamente, en todos los elementos de un conjunto de N predicciones, la puntuación Brier mide la diferencia cuadrática media entre:

Por lo tanto, cuanto menor sea la puntuación Brier para un conjunto de predicciones, mejor calibradas estarán las predicciones. Obsérvese que la puntuación Brier, en su formulación más común, toma un valor entre cero y uno, ya que este es el cuadrado de la mayor diferencia posible entre una probabilidad predicha (que debe estar entre cero y uno) y el resultado real (que puede tomar valores de solo 0 o 1). En la formulación original (1950) de la puntuación Brier, el rango es el doble, de cero a dos.

La puntuación Brier es apropiada para resultados binarios y categóricos que pueden estructurarse como verdaderos o falsos, pero no es apropiada para variables ordinales que pueden tomar tres o más valores.

Definición

La formulación más común de la puntuación Brier es

donde es la probabilidad que se predijo, el resultado real del evento en la instancia ( si no sucede y si sucede) y es el número de instancias de pronóstico. En efecto, es el error cuadrático medio del pronóstico. Esta formulación se utiliza principalmente para eventos binarios (por ejemplo, "lluvia" o "no llueve"). La ecuación anterior es una regla de puntuación adecuada solo para eventos binarios; si se debe evaluar un pronóstico de múltiples categorías, entonces se debe utilizar la definición original dada por Brier a continuación.

Ejemplo

Supongamos que se está pronosticando la probabilidad de que llueva en un día determinado. En ese caso, el puntaje de Brier se calcula de la siguiente manera:

Definición original de Brier

Aunque la formulación anterior es la más utilizada, la definición original de Brier [1] es aplicable a los pronósticos multicategoría y sigue siendo una regla de puntuación adecuada, mientras que la forma binaria (tal como se utiliza en los ejemplos anteriores) solo es adecuada para eventos binarios. Para los pronósticos binarios, la formulación original de la "puntuación de probabilidad" de Brier tiene el doble del valor de la puntuación que actualmente se conoce como puntuación de Brier.

En el que es el número de clases posibles en las que puede caer el evento y el número total de instancias de todas las clases. es la probabilidad predicha para la clase es si es la -ésima clase en la instancia ; , en caso contrario. Para el caso Lluvia / Sin lluvia, , mientras que para el pronóstico Frío / Normal / Cálido, .

Descomposiciones

Hay varias descomposiciones de la puntuación Brier que proporcionan una visión más profunda del comportamiento de un clasificador binario.

Descomposición de 3 componentes

La puntuación Brier se puede descomponer en tres componentes aditivos: incertidumbre, fiabilidad y resolución (Murphy 1973) [2] .

Cada uno de estos componentes se puede descomponer aún más según el número de clases posibles en las que puede caer el evento. Abuso del signo de igualdad:

Siendo el número total de pronósticos emitidos, el número de pronósticos únicos emitidos, la tasa base climatológica observada para que ocurra el evento, el número de pronósticos con la misma categoría de probabilidad y la frecuencia observada, dados los pronósticos de probabilidad . La notación en negrita en la fórmula anterior indica vectores, que es otra forma de denotar la definición original del puntaje y descomponerlo de acuerdo con el número de clases posibles en las que puede caer el evento. Por ejemplo, una probabilidad del 70% de lluvia y una ocurrencia de no lluvia se denotan como y respectivamente. Las operaciones como el cuadrado y la multiplicación en estos vectores se entienden como componentes. El puntaje Brier es entonces la suma del vector resultante en el lado derecho.

Fiabilidad

El término de confiabilidad mide qué tan cerca están las probabilidades pronosticadas de las probabilidades verdaderas, dado ese pronóstico. La confiabilidad se define en la dirección contraria en comparación con el idioma inglés . Si la confiabilidad es 0, el pronóstico es perfectamente confiable. Por ejemplo, si agrupamos todas las instancias de pronóstico en las que se pronosticó un 80% de probabilidad de lluvia, obtenemos una confiabilidad perfecta solo si llovió 4 de cada 5 veces después de que se emitió dicho pronóstico.

Resolución

El término de resolución mide en qué medida las probabilidades condicionales dadas por los diferentes pronósticos difieren de la media climática. Cuanto más alto sea este término, mejor. En el peor de los casos, cuando siempre se pronostica la probabilidad climática, la resolución es cero. En el mejor de los casos, cuando las probabilidades condicionales son cero y uno, la resolución es igual a la incertidumbre.

Incertidumbre

El término de incertidumbre mide la incertidumbre inherente a los resultados del evento. En el caso de los eventos binarios, es máxima cuando cada resultado ocurre el 50 % del tiempo y mínima (cero) si un resultado ocurre siempre o nunca ocurre.

Descomposición de dos componentes

Una descomposición alternativa (y relacionada) genera dos términos en lugar de tres.

El primer término se conoce como calibración (y se puede utilizar como medida de calibración, consulte calibración estadística ) y es igual a confiabilidad. El segundo término se conoce como refinamiento y es una suma de resolución e incertidumbre, y está relacionado con el área bajo la curva ROC .

El Brier Score y la descomposición CAL + REF se pueden representar gráficamente a través de las llamadas Curvas Brier [3] , donde se muestra la pérdida esperada para cada condición de operación. Esto hace del Brier Score una medida del desempeño agregado bajo una distribución uniforme de asimetrías de clase. [4]

Puntuación de habilidad de Brier (BSS)

Una puntuación de habilidad para una puntuación subyacente dada es una variante desplazada y escalada (negativamente) de la puntuación subyacente, de modo que un valor de puntuación de habilidad de cero significa que la puntuación de las predicciones es tan buena como la de un conjunto de predicciones de referencia o de línea base, mientras que un valor de puntuación de habilidad de uno (100 %) representa la mejor puntuación posible. Un valor de puntuación de habilidad menor que cero significa que el desempeño es incluso peor que el de las predicciones de referencia o de línea base. Cuando la puntuación subyacente es la puntuación Brier (BS), la puntuación de habilidad Brier (BSS) se calcula como

donde es la puntuación Brier de las predicciones de referencia o de línea base que buscamos mejorar. Si bien las predicciones de referencia podrían, en principio, proporcionarse mediante cualquier modelo preexistente, por defecto se puede utilizar el modelo ingenuo que predice la proporción o frecuencia general de una clase dada en el conjunto de datos que se está calificando, como la probabilidad constante predicha de que esa clase ocurra en cada instancia en el conjunto de datos. Este modelo de línea base representaría un modelo "sin habilidad" que uno busca mejorar. Las puntuaciones de habilidad se originan en la literatura de predicción meteorológica, donde las predicciones de referencia ingenuas predeterminadas se denominan predicciones de "climatología en la muestra", donde climatología significa un promedio general o de largo plazo de las predicciones meteorológicas y las medias en la muestra calculadas a partir del conjunto de datos actual que se está calificando. [5] [6] En este caso predeterminado, para la clasificación binaria (de dos clases), la puntuación Brier de referencia se proporciona mediante (utilizando la notación de la primera ecuación de este artículo, en la parte superior de la sección de Definición):

donde es simplemente el resultado real promedio, es decir, la proporción general de clase 1 verdadera en el conjunto de datos:

Con una puntuación Brier, cuanto menor sea, mejor (es una función de pérdida), siendo 0 la mejor puntuación posible. Pero con una puntuación de habilidad Brier, cuanto mayor sea, mejor, siendo 1 (100 %) la mejor puntuación posible.

La puntuación de habilidad de Brier puede ser más interpretable que la puntuación de Brier porque la BSS es simplemente la mejora porcentual en la BS en comparación con el modelo de referencia, y una BSS negativa significa que lo está haciendo incluso peor que el modelo de referencia, lo que puede no ser obvio al observar la puntuación de Brier en sí. Sin embargo, normalmente no se debería esperar una BSS cercana al 100% porque esto requeriría que cada predicción de probabilidad fuera casi 0 o 1 (y fuera correcta, por supuesto).

Incluso si la puntuación Brier es una regla de puntuación estrictamente adecuada , la BSS no es estrictamente adecuada: de hecho, las puntuaciones de habilidad generalmente no son adecuadas incluso si la regla de puntuación subyacente es adecuada. [7] Aún así, Murphy (1973) [8] demostró que la BSS es asintóticamente adecuada con una gran cantidad de muestras.

Es posible que notes que el BSS de la clasificación (estimación de probabilidad) es a su BS, como el coeficiente de determinación de la regresión ( ) es a su error cuadrático medio (MSE).

Defectos

La puntuación de Brier resulta inadecuada para eventos muy raros (o muy frecuentes), porque no discrimina suficientemente entre pequeños cambios en el pronóstico que son significativos para eventos raros. [9] Wilks (2010) ha descubierto que "se requieren tamaños de muestra bastante grandes, es decir, n > 1000, para pronósticos de mayor habilidad de eventos relativamente raros, mientras que solo se necesitan tamaños de muestra bastante modestos para pronósticos de baja habilidad de eventos comunes". [10]

Véase también

Referencias

  1. ^ ab Brier (1950). "Verificación de pronósticos expresados ​​en términos de probabilidad" (PDF) . Monthly Weather Review . 78 (1): 1–3. Bibcode :1950MWRv...78....1B. doi :10.1175/1520-0493(1950)078<0001:vofeit>2.0.co;2. S2CID  122906757. Archivado desde el original (PDF) el 23 de octubre de 2017.
  2. ^ Murphy, AH (1973). "Una nueva partición vectorial de la puntuación de probabilidad". Revista de meteorología aplicada . 12 (4): 595–600. Código Bibliográfico :1973JApMe..12..595M. doi : 10.1175/1520-0450(1973)012<0595:ANVPOT>2.0.CO;2 .
  3. ^ Hernandez-Orallo, J.; Flach, PA; Ferri, C. (2011). "Curvas de Brier: una nueva visualización basada en costos del rendimiento del clasificador" (PDF) . Actas de la 28.ª Conferencia Internacional sobre Aprendizaje Automático (ICML-11) . págs. 585–592.
  4. ^ Hernandez-Orallo, J.; Flach, PA; Ferri, C. (2012). "Una visión unificada de las métricas de rendimiento: traducir la elección del umbral en pérdida de clasificación esperada" (PDF) . Journal of Machine Learning Research . 13 : 2813–2869.
  5. ^ Una descomposición corregida por sesgo de la puntuación Brier. (Notas y correspondencia). CAT Ferro y TE Fricker en Quarterly Journal of the Royal Meteorological Society , volumen 138, número 668, octubre de 2012, parte A, páginas 1954-1960 [1]
  6. ^ "Predicción numérica del tiempo: el sistema de predicción por conjuntos de corto alcance MOGREPS: Informe de verificación: Rendimiento de prueba de MOGREPS: enero de 2006 - marzo de 2007. Informe técnico de investigación de pronósticos n.º 503". Neill Bowler, Marie Dando, Sarah Beare y Ken Mylne[2]
  7. ^ Gneiting, Tilmann; Raftery, Adrian E. (2007). "Reglas de puntuación estrictamente adecuadas, predicción y estimación" (PDF) . Revista de la Asociación Estadounidense de Estadística . 102 (447): 359–378. doi :10.1198/016214506000001437. S2CID  1878582.
  8. ^ Murphy, AH (1973). "Cobertura y puntuaciones de habilidad para pronósticos de probabilidad". Journal of Applied Meteorology . 12 : 215–223.
  9. ^ Riccardo Benedetti (1 de enero de 2010). "Reglas de puntuación para la verificación de pronósticos". Monthly Weather Review . 138 (1): 203–211. Bibcode :2010MWRv..138..203B. doi : 10.1175/2009MWR2945.1 .
  10. ^ Wilks, DS (2010). "Distribuciones de muestreo de la puntuación Brier y la puntuación de habilidad Brier bajo dependencia serial". Quarterly Journal of the Royal Meteorological Society . 136 (1): 2109–2118. Bibcode :2010QJRMS.136.2109W. doi :10.1002/qj.709. S2CID  121504347.

Lectura adicional