Regla de puntuación

En la teoría de decisiones , una regla de puntuación ^[1] proporciona métricas de evaluación para predicciones o pronósticos probabilísticos . Mientras que las funciones de pérdida "regulares" (como el error cuadrático medio ) asignan una puntuación de bondad de ajuste a un valor predicho y a un valor observado, las reglas de puntuación asignan dicha puntuación a una distribución de probabilidad predicha y a un valor observado. Por otro lado, una función de puntuación ^[2] proporciona una medida de resumen para la evaluación de predicciones puntuales, es decir, se predice una propiedad o una función , como la expectativa o la mediana . $V(F)$

Las reglas de puntuación responden a la pregunta "¿qué tan buena es una distribución de probabilidad predicha en comparación con una observación?". Se ha demostrado que las reglas de puntuación que son (estrictamente) adecuadas tienen la puntuación esperada más baja si la distribución predicha es igual a la distribución subyacente de la variable objetivo. Aunque esto puede diferir para las observaciones individuales, esto debería dar como resultado una minimización de la puntuación esperada si se predicen las distribuciones "correctas".

Las reglas de puntuación y las funciones de puntuación se utilizan a menudo como "funciones de costo" o " funciones de pérdida " de los modelos de pronóstico probabilísticos. Se evalúan como la media empírica de una muestra dada, la "puntuación". Las puntuaciones de diferentes predicciones o modelos se pueden comparar para concluir qué modelo es mejor. Por ejemplo, considere un modelo que predice (basado en una entrada ) una media y una desviación estándar . Juntas, esas variables definen una distribución gaussiana , en esencia, prediciendo la variable objetivo como una distribución de probabilidad. Una interpretación común de los modelos probabilísticos es que apuntan a cuantificar su propia incertidumbre predictiva. En este ejemplo, una variable objetivo observada se compara con la distribución predicha y se le asigna una puntuación . Al entrenar con una regla de puntuación, debe "enseñar" a un modelo probabilístico a predecir cuándo su incertidumbre es baja y cuándo su incertidumbre es alta, y debe dar como resultado predicciones calibradas , al tiempo que minimiza la incertidumbre predictiva. ${\estilo de visualización x}$ $\mu \in \mathbb {R}$ $\sigma \in \mathbb {R} _{+}$ ${\mathcal {N}}(\mu,\sigma ^{2})$ $y\in \mathbb {R}$ ${\mathcal {N}}(\mu,\sigma ^{2})$ ${\mathcal {L}}({\mathcal {N}}(\mu ,\sigma ^{2}),y)\in \mathbb {R}$

Aunque el ejemplo dado se refiere a la predicción probabilística de una variable objetivo con valor real , se han diseñado diversas reglas de puntuación teniendo en cuenta distintas variables objetivo. Existen reglas de puntuación para la clasificación probabilística binaria y categórica , así como para la regresión probabilística univariante y multivariante .

Definiciones

Consideremos un espacio muestral , una σ-álgebra de subconjuntos de y una clase convexa de medidas de probabilidad en . Una función definida en y que toma valores en la recta real extendida, , es -cuasiintegrable si es medible con respecto a y es cuasiintegrable con respecto a todos los . ${\estilo de visualización \Omega}$ ${\mathcal {A}}$ ${\estilo de visualización \Omega}$ ${\mathcal {F}}$ $(\Omega,{\mathcal {A}})$ ${\estilo de visualización \Omega}$ ${\overline {\mathbb {R}}=[-\infty ,\infty ]$ ${\mathcal {F}}$ ${\mathcal {A}}$ $F\in {\mathcal {F}}$

Pronóstico probabilístico

Un pronóstico probabilístico es cualquier medida de probabilidad , es decir, es una distribución de posibles observaciones futuras. $F\in {\mathcal {F}}$

Regla de puntuación

Una regla de puntuación es cualquier función de valor real extendida tal que sea -cuasi-integrable para todos los . representa la pérdida o penalización cuando se emite el pronóstico y la observación se materializa . $\mathbf {S} :{\mathcal {F}}\times \Omega \rightarrow \mathbb {R}$ $\mathbf {S} (F,\cdot )$ ${\mathcal {F}}$ $F\in {\mathcal {F}}$ $\mathbf {S} (F,y)$ $F\in {\mathcal {F}}$ $y\in \Omega$

Pronóstico puntual

Un pronóstico puntual es una función, es decir, un mapeo potencialmente valorado . $F\rightarrow T(F)\subseteq \Omega$

Función de puntuación

Una función de puntuación es cualquier función de valor real donde representa la pérdida o penalización cuando se emite el pronóstico de puntos y se materializa la observación. $S:\Omega \times \Omega \rightarrow \mathbb {R}$ $S(x,y)$ $x\in \Omega$ $y\in \Omega$

Orientación

Las reglas y funciones de puntuación tienen una orientación negativa (positiva) si los valores más pequeños (más grandes) significan que es mejor. En este caso, nos adherimos a la orientación negativa, de ahí la asociación con "pérdida". $\mathbf {S} (F,y)$ $S(x,y)$

Puntuación esperada

Escribimos para el puntaje esperado de una predicción bajo como el puntaje esperado de la distribución predicha , al muestrear observaciones de la distribución . $F$ $Q\in {\mathcal {F}}$ $F\in {\mathcal {F}}$ $Q$

\mathbb {E} _{Y\sim Q}[S(F,Y)]=\int \mathbf {S} (F,\omega )\mathrm {d} Q(\omega )

Ejemplo de puntuación media

Muchos modelos de pronóstico probabilístico se entrenan a través del puntaje promedio de la muestra, en el que se evalúa un conjunto de distribuciones predichas frente a un conjunto de observaciones . $F_{1},\ldots ,F_{n}\in {\mathcal {F}}$ $y_{1},\ldots ,y_{n}\in \Omega$

{\mathcal {L}}={\frac {1}{n}}\sum _{i=1}^{n}S(F_{i},y_{i})

Propiedad y consistencia

Las reglas de puntuación estrictamente adecuadas y las funciones de puntuación estrictamente consistentes fomentan los pronósticos honestos mediante la maximización de la recompensa esperada: si a un pronosticador se le da una recompensa de si realiza (por ejemplo, ), entonces la recompensa esperada más alta (puntuación más baja) se obtiene al informar la distribución de probabilidad real. ^[1] $-\mathbf {S} (F,y)$ $y$ $y=rain$

Reglas de puntuación adecuadas

Una regla de puntuación es adecuada en relación con si (asumiendo una orientación negativa) su puntuación esperada se minimiza cuando la distribución prevista coincide con la distribución de la observación. $\mathbf {S}$ ${\mathcal {F}}$

\mathbb {E} _{Y\sim Q}[S(Q,Y)]\leq \mathbb {E} _{Y\sim Q}[S(F,Y)]

Para todos .

F,Q\in {\mathcal {F}}

Es estrictamente apropiado si la ecuación anterior se cumple con igualdad si y sólo si . $F=Q$

Funciones de puntuación consistentes

Una función de puntuación es consistente para el funcional en relación con la clase si $S$ $T$ ${\mathcal {F}}$

\mathbb {E} _{Y\sim F}[S(t,Y)]\leq \mathbb {E} _{Y\sim F}[S(x,Y)]

para todos , todos y todas .

F\in {\mathcal {F}}

t\in T(F)

x\in \Omega

Es estrictamente consistente si es consistente y la igualdad en la ecuación anterior implica que . $x\in T(F)$

Ejemplo de aplicación de las reglas de puntuación

Un ejemplo de pronóstico probabilístico es la meteorología, donde un pronosticador del tiempo puede dar la probabilidad de lluvia al día siguiente. Se podría anotar el número de veces que se citó una probabilidad del 25%, durante un largo período, y compararla con la proporción real de veces que cayó lluvia. Si el porcentaje real fue sustancialmente diferente de la probabilidad declarada, decimos que el pronosticador está mal calibrado . Un pronosticador mal calibrado podría verse alentado a hacerlo mejor mediante un sistema de bonificación. Un sistema de bonificación diseñado en torno a una regla de puntuación adecuada incentivará al pronosticador a informar probabilidades iguales a sus creencias personales . ^[3]

Además del caso simple de una decisión binaria , como asignar probabilidades a "lluvia" o "no lluvia", se pueden usar reglas de puntuación para múltiples clases, como "lluvia", "nieve" o "claro", o respuestas continuas como la cantidad de lluvia por día.

La imagen de la derecha muestra un ejemplo de una regla de puntuación, la regla de puntuación logarítmica, en función de la probabilidad informada para el evento que realmente ocurrió. Una forma de utilizar esta regla sería como un costo basado en la probabilidad que asigna un pronosticador o un algoritmo y luego verifica qué evento ocurre realmente.

Ejemplos de reglas de puntuación adecuadas

Existe una cantidad infinita de reglas de puntuación, incluidas familias enteras parametrizadas de reglas de puntuación estrictamente adecuadas. Las que se muestran a continuación son simplemente ejemplos populares.

Variables categóricas

Para una variable de respuesta categórica con eventos mutuamente excluyentes, un pronosticador o algoritmo probabilístico devolverá un vector de probabilidad con una probabilidad para cada uno de los resultados. $m$ $Y\in \Omega =\{1,\ldots ,m\}$ $\mathbf {r}$ $m$

Puntuación logarítmica

Valor esperado de la regla logarítmica, cuando se espera que ocurra el Evento 1 con una probabilidad de 0,8, la línea azul está descrita por la función $0.8\log(x)+(1-0.8)\log(1-x)$

La regla de puntuación logarítmica es una regla de puntuación local estrictamente propia. También es la contraparte de " sorpresa" , que se utiliza comúnmente como criterio de puntuación en la inferencia bayesiana ; el objetivo es minimizar la sorpresa esperada. Esta regla de puntuación tiene fundamentos sólidos en la teoría de la información .

L(\mathbf {r} ,i)=\ln(r_{i})

Aquí, la puntuación se calcula como el logaritmo de la estimación de probabilidad para el resultado real. Es decir, una predicción del 80% que resultó ser correcta recibiría una puntuación de $ln(0,8) = -0,22$ . Esta misma predicción también asigna una probabilidad del 20% al caso opuesto, por lo que si la predicción resulta falsa, recibiría una puntuación basada en el 20%: $ln(0,2) = -1,6$ . El objetivo de un pronosticador es maximizar la puntuación y que esta sea lo más alta posible, y −0,22 es de hecho mayor que −1,6.

Si se considera la verdad o falsedad de la predicción como una variable $x$ con valor 1 o 0 respectivamente, y la probabilidad expresada como $p$ , entonces se puede escribir la regla de puntuación logarítmica como $x ln(p) + (1 - x) ln(1 - p)$ . Nótese que se puede utilizar cualquier base logarítmica, ya que las reglas de puntuación estrictamente adecuadas siguen siendo estrictamente adecuadas bajo una transformación lineal. Es decir:

L(\mathbf {r} ,i)=\log _{b}(r_{i})

es estrictamente apropiado para todos . $b>1$

Puntuación Brier/cuadrática

La regla de puntuación cuadrática es una regla de puntuación estrictamente adecuada

Q(\mathbf {r} ,i)=2r_{i}-\mathbf {r} \cdot \mathbf {r} =2r_{i}-\sum _{j=1}^{C}r_{j}^{2}

donde es la probabilidad asignada a la respuesta correcta y es el número de clases. $r_{i}$ $C$

La puntuación Brier , propuesta originalmente por Glenn W. Brier en 1950, ^[4] se puede obtener mediante una transformación afín de la regla de puntuación cuadrática.

B(\mathbf {r} ,i)=\sum _{j=1}^{C}(y_{j}-r_{j})^{2}

Donde cuando el evento th es correcto y en caso contrario y es el número de clases. $y_{j}=1$ $j$ $y_{j}=0$ $C$

Una diferencia importante entre estas dos reglas es que el pronosticador debe esforzarse por maximizar la puntuación cuadrática y minimizar la puntuación de Brier . Esto se debe a un signo negativo en la transformación lineal entre ellas. $Q$ $B$

Regla de puntuación de Hyvärinen

La función de puntuación de Hyvärinen (de una densidad p) está definida por ^[5]

s(p)=2\Delta _{y}\log p(y)+\|\nabla _{y}\log p(y)\|_{2}^{2}

Donde denota la traza hessiana y denota el gradiente . Esta regla de puntuación se puede utilizar para simplificar computacionalmente la inferencia de parámetros y abordar la comparación de modelos bayesianos con valores previos arbitrariamente vagos. ^[5]^{[6] También se utilizó para introducir nuevas cantidades de teoría de la información más allá de la}teoría de la información existente . ^[7] $\Delta$ $\nabla$

Puntuación esférica

La regla de puntuación esférica también es una regla de puntuación estrictamente adecuada.

S(\mathbf {r} ,i)={\frac {r_{i}}{\lVert \mathbf {r} \rVert }}={\frac {r_{i}}{\sqrt {r_{1}^{2}+\cdots +r_{C}^{2}}}}

Puntuación de probabilidad clasificada

La puntuación de probabilidad clasificada ^[8] (RPS) es una regla de puntuación estrictamente adecuada, que se puede expresar como:

RPS(\mathbf {r} ,i)=\sum _{k=1}^{C-1}\left(\sum _{j=1}^{k}r_{j}-y_{j}\right)^{2}

Donde cuando el evento th es correcto y en caso contrario, y es el número de clases. Aparte de otras reglas de puntuación, la puntuación de probabilidad clasificada considera la distancia entre clases, es decir, las clases 1 y 2 se consideran más cercanas que las clases 1 y 3. La puntuación asigna mejores puntuaciones a los pronósticos probabilísticos con altas probabilidades asignadas a clases cercanas a la clase correcta. Por ejemplo, al considerar los pronósticos probabilísticos y , encontramos que , mientras que , a pesar de que ambos pronósticos probabilísticos asignan una probabilidad idéntica a la clase correcta. $y_{j}=1$ $j$ $y_{j}=0$ $C$ $\mathbf {r} _{1}=(0.5,0.5,0)$ $\mathbf {r} _{2}=(0.5,0,0.5)$ $RPS(\mathbf {r} _{1},1)=0.25$ $RPS(\mathbf {r} _{2},1)=0.5$

Comparación de reglas de puntuación estrictamente propias y categóricas

A continuación, a la izquierda, se muestra una comparación gráfica de las reglas de puntuación logarítmica, cuadrática y esférica para un problema de clasificación binaria. El eje x indica la probabilidad informada del evento que realmente ocurrió.

Es importante señalar que cada una de las puntuaciones tiene magnitudes y ubicaciones diferentes. Sin embargo, las diferencias de magnitud no son relevantes, ya que las puntuaciones siguen siendo adecuadas bajo una transformación afín. Por lo tanto, para comparar diferentes puntuaciones es necesario trasladarlas a una escala común. Una opción razonable de normalización se muestra en la imagen de la derecha, donde todas las puntuaciones intersecan los puntos (0,5, 0) y (1, 1). Esto garantiza que arrojen 0 para una distribución uniforme (dos probabilidades de 0,5 cada una), lo que no refleja ningún coste ni recompensa por informar lo que suele ser la distribución de referencia. Todas las puntuaciones normalizadas que aparecen a continuación también arrojan 1 cuando a la clase real se le asigna una probabilidad de 1.

Variables continuas univariadas

Las reglas de puntuación que se enumeran a continuación tienen como objetivo evaluar las predicciones probabilísticas cuando las distribuciones predichas son distribuciones de probabilidad continuas univariadas , es decir, las distribuciones predichas se definen sobre una variable objetivo univariada y tienen una función de densidad de probabilidad . $X\in \mathbb {R}$ $f:\mathbb {R} \to \mathbb {R} _{+}$

Puntuación logarítmica para variables continuas

La puntuación logarítmica es una regla de puntuación local estrictamente propia. Se define como

L(D,y)=-\ln(f_{D}(y))

donde denota la función de densidad de probabilidad de la distribución predicha . Es una regla de puntuación local estrictamente apropiada. La puntuación logarítmica para variables continuas tiene fuertes vínculos con la estimación de máxima verosimilitud . Sin embargo, en muchas aplicaciones, la puntuación de probabilidad clasificada continua a menudo se prefiere sobre la puntuación logarítmica, ya que la puntuación logarítmica puede verse muy influenciada por ligeras desviaciones en las densidades de cola de las distribuciones pronosticadas. ^[9] $f_{D}$ $D$

Puntuación de probabilidad clasificada continua

La puntuación de probabilidad clasificada continua (CRPS) ^[10] es una regla de puntuación estrictamente adecuada que se utiliza mucho en meteorología. Se define como

CRPS(D,y)=\int _{\mathbb {R} }(F_{D}(x)-H(x\geq y))^{2}dx

donde es la función de distribución acumulativa de la distribución prevista , es la función de paso de Heaviside y es la observación. Para distribuciones con un primer momento finito, la puntuación de probabilidad clasificada continua se puede escribir como: ^[1] $F_{D}$ $D$ $H$ $y\in \mathbb {R}$

CRPS(D,y)=\mathbb {E} _{X\sim D}[|X-y|]-{\frac {1}{2}}\mathbb {E} _{X,X'\sim D}[|X-X'|]

donde y son variables aleatorias independientes, muestreadas de la distribución . Además, cuando la función de probabilidad acumulada es continua, la puntuación de probabilidad clasificada continua también se puede escribir como ^[11] $X$ $X'$ $D$ $F$

CRPS(D,y)=\mathbb {E} _{X\sim D}[|X-y|]+\mathbb {E} _{X\sim D}[X]-2\mathbb {E} _{X\sim D}[X\cdot F_{D}(X)]

La puntuación de probabilidad clasificada continua puede considerarse tanto una extensión continua de la puntuación de probabilidad clasificada como una regresión cuantil . La puntuación de probabilidad clasificada continua sobre la distribución empírica de un conjunto ordenado de puntos (es decir, cada punto tiene probabilidad de ocurrir), es igual al doble de la pérdida cuantil media aplicada en aquellos puntos con cuantiles distribuidos uniformemente : ^[12] ${\hat {D}}_{q}$ $q_{1}\leq \ldots \leq q_{n}$ $1/n$ $(\tau _{1},\ldots ,\tau _{n})=(1/(2n),\ldots ,(2n-1)/(2n))$

CRPS\left({\hat {D}}_{q},y\right)={\frac {2}{n}}\sum _{i=1}^{n}\tau _{i}(y-q_{i})_{+}+(1-\tau _{i})(q_{i}-y)_{+}

Para muchas familias populares de distribuciones, se han derivado expresiones de forma cerrada para la puntuación de probabilidad clasificada continua. La puntuación de probabilidad clasificada continua se ha utilizado como una función de pérdida para redes neuronales artificiales , en las que los pronósticos meteorológicos se posprocesan a una distribución de probabilidad gaussiana . ^[13]^[14]

El CRPS también se adaptó al análisis de supervivencia para cubrir eventos censurados. ^[15]

Variables continuas multivariadas

Las reglas de puntuación que se enumeran a continuación tienen como objetivo evaluar las predicciones probabilísticas cuando las distribuciones predichas son distribuciones de probabilidad continuas univariadas , es decir, las distribuciones predichas se definen sobre una variable objetivo multivariada y tienen una función de densidad de probabilidad . $X\in \mathbb {R} ^{n}$ $f:\mathbb {R} ^{n}\to \mathbb {R} _{+}$

Puntuación logarítmica multivariante

La puntuación logarítmica multivariada es similar a la puntuación logarítmica univariante:

L(D,y)=-\ln(f_{D}(y))

donde denota la función de densidad de probabilidad de la distribución multivariante predicha . Es una regla de puntuación local estrictamente apropiada. $f_{D}$ $D$

Puntuación energética

La puntuación energética es una extensión multivariada de la puntuación de probabilidad clasificada continua: ^[1]

ES_{\beta }(D,Y)=\mathbb {E} _{X\sim D}[\lVert X-Y\rVert _{2}^{\beta }]-{\frac {1}{2}}\mathbb {E} _{X,X'\sim D}[\lVert X-X'\rVert _{2}^{\beta }]

Aquí, , denota la distancia euclidiana -dimensional y son variables aleatorias muestreadas independientemente de la distribución de probabilidad . El puntaje de energía es estrictamente apropiado para distribuciones para las cuales es finito. Se ha sugerido que el puntaje de energía es algo ineficaz al evaluar la estructura de dependencia intervariable de la distribución multivariada pronosticada. ^[16] El puntaje de energía es igual al doble de la distancia de energía entre la distribución predicha y la distribución empírica de la observación. $\beta \in (0,2)$ $\lVert \rVert _{2}$ $n$ $X,X'$ $D$ $D$ $\mathbb {E} _{X\sim D}[\lVert X\rVert _{2}]$

Puntuación del variograma

La puntuación del orden del variograma viene dada por: ^[17] $p$

VS_{p}(D,Y)=\sum _{i,j=1}^{n}w_{ij}(|Y_{i}-Y_{j}|^{p}-\mathbb {E} _{X\sim D}[|X_{i}-X_{j}|^{p}])^{2}

Aquí, se encuentran los pesos, que a menudo se establecen en 1, y se pueden elegir de forma arbitraria, pero a menudo se utilizan o . está aquí para indicar la variable aleatoria marginal 'ésima de . La puntuación del variograma es adecuada para distribuciones para las que el momento 'ésimo es finito para todos los componentes, pero nunca es estrictamente adecuada. En comparación con la puntuación de energía, se afirma que la puntuación del variograma es más discriminativa con respecto a la estructura de correlación predicha. $w_{ij}$ $p>0$ $p=0.5,1$ $2$ $X_{i}$ $i$ $X$ $(2p)$

Puntuación de probabilidad clasificada continua condicional

La puntuación de probabilidad condicional continua clasificada (CRPS condicional o CCRPS) es una familia de reglas de puntuación (estrictamente) adecuadas. La CRPS condicional evalúa una distribución multivariada prevista mediante la evaluación de la CRPS sobre un conjunto prescrito de distribuciones de probabilidad condicional univariadas de la distribución multivariada prevista: ^[18] $D$

CCRPS_{\mathcal {T}}(D,Y)=\sum _{i=1}^{k}CRPS(P_{X\sim D}(X_{v_{i}}|X_{j}=Y_{j}{\text{ for }}j\in {\mathcal {C}}_{i}),Y_{v_{i}})

Aquí, es la 'ésima variable marginal de , es un conjunto de tuplas que define una especificación condicional (con y ), y denota la distribución de probabilidad condicional para dado que todas las variables para son iguales a sus respectivas observaciones. En el caso de que esté mal definido (es decir, su evento condicional tiene probabilidad cero), las puntuaciones CRPS sobre esta distribución se definen como infinitas. La CRPS condicional es estrictamente apropiada para distribuciones con primer momento finito, si la regla de la cadena está incluida en la especificación condicional, lo que significa que existe una permutación de tal que para todo : . $X_{i}$ $i$ $X\sim D$ ${\mathcal {T}}=(v_{i},{\mathcal {C}}_{i})_{i=1}^{k}$ $v_{i}\in \{1,\ldots ,n\}$ ${\mathcal {C}}_{i}\subseteq \{1,\ldots ,n\}\setminus \{v_{i}\}$ $P_{X\sim D}(X_{v_{i}}|X_{j}=Y_{j}{\text{ for }}j\in {\mathcal {C}}_{i})$ $X_{v_{i}}$ $X_{j}$ $j\in {\mathcal {C}}_{i}$ $P_{X\sim D}(X_{v_{i}}|X_{j}=Y_{j}{\text{ for }}j\in {\mathcal {C}}_{i})$ $\phi _{1},\ldots ,\phi _{n}$ $1,\ldots ,n$ $1\leq i\leq n$ $(\phi _{i},\{\phi _{1},\ldots ,\phi _{i-1}\})\in {\mathcal {T}}$

Interpretación de las reglas de puntuación adecuadas

Todas las reglas de puntuación adecuadas son iguales a sumas ponderadas (integrales con una función de ponderación no negativa) de las pérdidas en un conjunto de problemas de decisión simples de dos alternativas que utilizan la predicción probabilística, cada uno de esos problemas de decisión tiene una combinación particular de parámetros de costo asociados para decisiones de falsos positivos y falsos negativos . Una regla de puntuación estrictamente adecuada corresponde a tener una ponderación distinta de cero para todos los umbrales de decisión posibles. Cualquier regla de puntuación adecuada dada es igual a las pérdidas esperadas con respecto a una distribución de probabilidad particular sobre los umbrales de decisión; por lo tanto, la elección de una regla de puntuación corresponde a un supuesto sobre la distribución de probabilidad de los problemas de decisión para los que se emplearán en última instancia las probabilidades predichas, con, por ejemplo, la regla de puntuación de pérdida cuadrática (o Brier) correspondiente a una probabilidad uniforme de que el umbral de decisión esté en cualquier lugar entre cero y uno. La puntuación de precisión de la clasificación (porcentaje de clasificados correctamente), una regla de puntuación de umbral único que es cero o uno dependiendo de si la probabilidad predicha está en el lado apropiado de 0,5, es una regla de puntuación adecuada pero no estrictamente adecuada porque está optimizada (en expectativa) no solo al predecir la probabilidad real sino al predecir cualquier probabilidad en el mismo lado de 0,5 que la probabilidad real. ^[19]^[20]^[21]^[22]^[23]^[24]

Características

Transformación afín

Una regla de puntuación estrictamente adecuada, ya sea binaria o multiclase, después de una transformación afín sigue siendo una regla de puntuación estrictamente adecuada. ^[3] Es decir, si es una regla de puntuación estrictamente adecuada, entonces con también es una regla de puntuación estrictamente adecuada, aunque si entonces el sentido de optimización de la regla de puntuación cambia entre maximización y minimización. $S(\mathbf {r} ,i)$ $a+bS(\mathbf {r} ,i)$ $b\neq 0$ $b<0$

Localidad

Se dice que una regla de puntuación adecuada es local si su estimación de la probabilidad de un evento específico depende únicamente de la probabilidad de ese evento. Esta afirmación es vaga en la mayoría de las descripciones, pero en la mayoría de los casos podemos pensar en esto como que la solución óptima del problema de puntuación "en un evento específico" es invariable a todos los cambios en la distribución de observaciones que dejan la probabilidad de ese evento sin cambios. Todas las puntuaciones binarias son locales porque la probabilidad asignada al evento que no ocurrió está determinada, por lo que no hay ningún grado de flexibilidad para variar.

Las funciones afines de la regla de puntuación logarítmica son las únicas reglas de puntuación locales estrictamente adecuadas en un conjunto finito que no es binario.

Descomposición

El valor esperado de una regla de puntuación adecuada se puede descomponer en la suma de tres componentes, llamados incertidumbre , confiabilidad y resolución , ^[25]^[26] que caracterizan diferentes atributos de los pronósticos probabilísticos: $S$

E(S)=\mathrm {UNC} +\mathrm {REL} -\mathrm {RES} .

Si una puntuación es adecuada y de orientación negativa (como la puntuación Brier), los tres términos son definidos positivos. El componente de incertidumbre es igual a la puntuación esperada del pronóstico que predice constantemente la frecuencia media de los eventos. El componente de fiabilidad penaliza los pronósticos mal calibrados, en los que las probabilidades predichas no coinciden con las frecuencias de los eventos.

Las ecuaciones para los componentes individuales dependen de la regla de puntuación particular. Para la puntuación Brier, se dan por

\mathrm {UNC} ={\bar {x}}(1-{\bar {x}})

\mathrm {REL} =E(p-\pi (p))^{2}

\mathrm {RES} =E(\pi (p)-{\bar {x}})^{2}

donde es la probabilidad media de ocurrencia del evento binario , y es la probabilidad condicional del evento, dada , es decir ${\bar {x}}$ $x$ $\pi (p)$ $p$ $\pi (p)=P(x=1\mid p)$

Véase también

Literatura

Reglas de puntuación estrictamente adecuadas, predicción y estimación. Tilmann Gneiting y Adrian E Raftery Páginas 359-378, https://doi.org/10.1198/016214506000001437, pdf

Referencias

^ abcd Gneiting, Tilmann; Raftery, Adrian E. (2007). "Reglas de puntuación estrictamente adecuadas, predicción y estimación" (PDF) . Revista de la Asociación Estadounidense de Estadística . 102 (447): 359–378. doi :10.1198/016214506000001437. S2CID 1878582.
^ Gneiting, Tilmann (2011). "Elaboración y evaluación de pronósticos puntuales". Revista de la Asociación Estadounidense de Estadística . 106 (494): 746–762. arXiv : 0912.0902 . doi :10.1198/jasa.2011.r10138. S2CID : 88518170.
^ ab Bickel, EJ (2007). "Algunas comparaciones entre reglas de puntuación cuadráticas, esféricas y logarítmicas" (PDF) . Análisis de decisiones . 4 (2): 49–65. doi :10.1287/deca.1070.0089.
^ Brier, GW (1950). "Verificación de pronósticos expresados en términos de probabilidad" (PDF) . Monthly Weather Review . 78 (1): 1–3. Bibcode :1950MWRv...78....1B. doi :10.1175/1520-0493(1950)078<0001:VOFEIT>2.0.CO;2.
^ ab Hyvärinen, Aapo (2005). "Estimación de modelos estadísticos no normalizados mediante correspondencia de puntuaciones". Revista de investigación en aprendizaje automático . 6 (24): 695–709. ISSN 1533-7928.
^ Shao, Stephane; Jacob, Pierre E.; Ding, Jie; Tarokh, Vahid (2019-10-02). "Comparación del modelo bayesiano con la puntuación de Hyvärinen: cálculo y consistencia". Revista de la Asociación Estadounidense de Estadística . 114 (528): 1826–1837. arXiv : 1711.00136 . doi :10.1080/01621459.2018.1518237. ISSN 0162-1459. S2CID 52264864.
^ Ding, Jie; Calderbank, Robert; Tarokh, Vahid (2019). "Información de gradiente para representación y modelado". Avances en sistemas de procesamiento de información neuronal . 32 : 2396–2405.
^ Epstein, Edward S. (1969-12-01). "Un sistema de puntuación para pronósticos de probabilidad de categorías clasificadas". Revista de meteorología y climatología aplicadas . 8 (6). Sociedad Meteorológica Estadounidense: 985–987. doi :10.1175/1520-0450(1969)008<0985:ASSFPF>2.0.CO;2 . Consultado el 2 de mayo de 2024 .
^ Bjerregård, Mathias Blicher; Møller, Jan Kloppenborg; Madsen, Henrik (2021). "Una introducción a la evaluación de pronósticos probabilísticos multivariados". Energía e IA . 4 . Elsevier BV: 100058. doi : 10.1016/j.egyai.2021.100058 . ISSN 2666-5468.
^ Zamo, Michaël; Naveau, Philippe (1 de febrero de 2018). "Estimación de la puntuación de probabilidad clasificada continua con información limitada y aplicaciones a los pronósticos meteorológicos por conjuntos". Geociencias matemáticas . 50 (2): 209–234. doi : 10.1007/s11004-017-9709-7 . ISSN 1874-8953. S2CID 125989069.
^ Taillardat, Maxime; Mestre, Olivier; Zamo, Michaël; Naveau, Philippe (1 de junio de 2016). "Previsiones calibradas de conjuntos utilizando bosques de regresión cuantil y estadísticas de salida de modelos de conjuntos" (PDF) . Monthly Weather Review . 144 (6). Sociedad Meteorológica Estadounidense: 2375–2393. doi :10.1175/mwr-d-15-0260.1. ISSN 0027-0644.
^ Bröcker, Jochen (2012). "Evaluación de conjuntos brutos con la puntuación de probabilidad clasificada continua". Revista trimestral de la Royal Meteorological Society . 138 (667): 1611–1617. doi :10.1002/qj.1891. ISSN 0035-9009.
^ Rasp, Stephan; Lerch, Sebastian (31 de octubre de 2018). "Redes neuronales para el posprocesamiento de pronósticos meteorológicos por conjuntos". Monthly Weather Review . 146 (11). Sociedad Meteorológica Estadounidense: 3885–3900. arXiv : 1805.09091 . doi :10.1175/mwr-d-18-0187.1. ISSN 0027-0644.
^ Grönquist, Peter; Yao, Chengyuan; Ben-Nun, Tal; Dryden, Nikoli; Dueben, Peter; Li, Shigang; Hoefler, Torsten (5 de abril de 2021). "Aprendizaje profundo para el posprocesamiento de pronósticos meteorológicos por conjuntos". Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences . 379 (2194): 20200092. arXiv : 2005.08748 . doi :10.1098/rsta.2020.0092. ISSN 1364-503X. PMID 33583263.
^ Regresión de cuenta regresiva: predicciones de supervivencia precisas y calibradas, https://arxiv.org/abs/1806.08324
^ Pinson, Pierre; Tastu, Julija (2013). "Capacidad de discriminación del puntaje energético". Universidad Técnica de Dinamarca . Consultado el 11 de mayo de 2024 .
^ Scheuerer, Michael; Hamill, Thomas M. (31 de marzo de 2015). "Reglas de puntuación apropiadas basadas en variogramas para pronósticos probabilísticos de magnitudes multivariadas*". Monthly Weather Review . 143 (4). Sociedad Meteorológica Estadounidense: 1321–1334. doi :10.1175/mwr-d-14-00269.1. ISSN 0027-0644.
^ Roordink, Daan; Hess, Sibylle (2023). "Redes de reglas de puntuación: más allá de la predicción del objetivo medio en la regresión multivariante". Aprendizaje automático y descubrimiento de conocimiento en bases de datos: línea de investigación . Vol. 14170. Cham: Springer Nature Switzerland. págs. 190–205. doi :10.1007/978-3-031-43415-0_12. ISBN . 978-3-031-43414-3.
^ Leonard J. Savage. Elicitación de probabilidades y expectativas personales. J. of the American Stat. Assoc., 66(336):783–801, 1971.
^ Schervish, Mark J. (1989). "Un método general para comparar evaluadores de probabilidad", Anales de Estadística 17 (4) 1856–1879, https://projecteuclid.org/euclid.aos/1176347398
^ Rosen, David B. (1996). "¿Cuán buenas fueron esas predicciones de probabilidad? La regla de puntuación de pérdida de recomendación esperada (ERL)". En Heidbreder, G. (ed.). Entropía máxima y métodos bayesianos (Actas del decimotercer taller internacional, agosto de 1993) . Kluwer, Dordrecht, Países Bajos. CiteSeerX 10.1.1.52.1557 .
^ Roulston, MS y Smith, LA (2002). Evaluación de pronósticos probabilísticos utilizando la teoría de la información. Monthly Weather Review, 130, 1653–1660. Véase el APÉNDICE "Puntajes de habilidad y costo-pérdida". [1]
^ "Funciones de pérdida para la estimación y clasificación de probabilidad de clases binarias: estructura y aplicaciones", Andreas Buja, Werner Stuetzle, Yi Shen (2005) http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.184.5203
^ Hernandez-Orallo, Jose; Flach, Peter; y Ferri, Cesar (2012). "Una visión unificada de las métricas de rendimiento: traducir la elección del umbral en pérdida de clasificación esperada". Journal of Machine Learning Research 13 2813–2869. http://www.jmlr.org/papers/volume13/hernandez-orallo12a/hernandez-orallo12a.pdf
^ Murphy, AH (1973). "Una nueva partición vectorial de la puntuación de probabilidad". Revista de meteorología aplicada . 12 (4): 595–600. Código Bibliográfico :1973JApMe..12..595M. doi : 10.1175/1520-0450(1973)012<0595:ANVPOT>2.0.CO;2 .
^ Bröcker, J. (2009). "Fiabilidad, suficiencia y descomposición de puntuaciones adecuadas" (PDF) . Quarterly Journal of the Royal Meteorological Society . 135 (643): 1512–1519. arXiv : 0806.0813 . Bibcode :2009QJRMS.135.1512B. doi :10.1002/qj.456. S2CID : 15880012.

Enlaces externos

Vídeo comparativo de las reglas de puntuación esférica, cuadrática y logarítmica
Reglas locales de puntuación adecuada
Reglas de puntuación y análisis de decisiones
Reglas de puntuación estrictamente adecuadas
Reglas de puntuación e incertidumbre
Daños causados por la precisión de la clasificación y otras reglas de puntuación de precisión incorrectas y discontinuas
Expresiones de forma cerrada de la puntuación de probabilidad clasificada continua