hiperprior

En estadística bayesiana , un hiperprior es una distribución previa sobre un hiperparámetro , es decir, sobre un parámetro de una distribución previa .

Al igual que con el término hiperparámetro, el uso de hiper es para distinguirlo de una distribución previa de un parámetro del modelo para el sistema subyacente. Surgen particularmente en el uso de modelos jerárquicos . ^[1]^[2]

Por ejemplo, si se utiliza una distribución beta para modelar la distribución del parámetro p de una distribución de Bernoulli , entonces:

La distribución de Bernoulli (con parámetro p ) es el modelo del sistema subyacente;
p es un parámetro del sistema subyacente (distribución de Bernoulli);
La distribución beta (con parámetros α y β ) es la distribución previa de p ;
α y β son parámetros de la distribución previa (distribución beta), por lo tanto, hiperparámetros;
Por tanto, una distribución previa de α y β es una hiperprior.

En principio, se puede repetir lo anterior: si el hiperprior en sí tiene hiperparámetros, estos pueden denominarse hiperhiperparámetros, y así sucesivamente.

De manera análoga, se puede llamar hiperposterior a la distribución posterior del hiperparámetro y, si pertenecen a la misma familia, llamarlas hiperdistribuciones conjugadas o hiperprior conjugada. Sin embargo, esto rápidamente se vuelve muy abstracto y alejado del problema original.

Objetivo

Los hiperpriores, al igual que los priores conjugados, son una conveniencia computacional: no cambian el proceso de inferencia bayesiana, sino que simplemente permiten describir y calcular más fácilmente con el prior.

Incertidumbre

En primer lugar, el uso de un hiperparámetro permite expresar la incertidumbre en un hiperparámetro: tomar un previo fijo es una suposición, variar un hiperparámetro del anterior permite hacer un análisis de sensibilidad sobre este supuesto, y tomar una distribución sobre este hiperparámetro permite expresar incertidumbre en este supuesto: "supongamos que el prior es de esta forma (esta familia paramétrica), pero que no estamos seguros de cuáles deberían ser precisamente los valores de los parámetros".

Distribución de la mezcla

De manera más abstracta, si se usa un hiperprior, entonces la distribución previa (en el parámetro del modelo subyacente) en sí misma es una densidad de mezcla : es el promedio ponderado de las diversas distribuciones previas (sobre diferentes hiperparámetros), siendo el hiperprior la ponderación. . Esto agrega posibles distribuciones adicionales (más allá de la familia paramétrica que se está usando), porque las familias paramétricas de distribuciones generalmente no son conjuntos convexos ; como una densidad de mezcla es una combinación convexa de distribuciones, en general quedará fuera de la familia. Por ejemplo, la mezcla de dos distribuciones normales no es una distribución normal: si se toman medias diferentes (suficientemente distantes) y se mezclan el 50% de cada una, se obtiene una distribución bimodal, que por tanto no es normal. De hecho, la capa convexa de las distribuciones normales es densa en todas las distribuciones, por lo que en algunos casos, se puede aproximar arbitrariamente a un prior determinado utilizando una familia con un hiperprior adecuado.

Lo que hace que este enfoque sea particularmente útil es si se utilizan priores conjugados: los priores conjugados individuales tienen posteriores fácilmente calculados y, por lo tanto, una mezcla de priores conjugados es la misma mezcla de posteriores: solo se necesita saber cómo cambia cada prior conjugado. Usar un único conjugado previo puede ser demasiado restrictivo, pero usar una mezcla de conjugados anteriores puede brindarle la distribución deseada en una forma que sea fácil de calcular. Esto es similar a descomponer una función en términos de funciones propias; consulte Conjugado anterior: analogía con funciones propias .

sistema dinámico

Un hiperprior es una distribución en el espacio de posibles hiperparámetros. Si se utilizan anteriores conjugados, entonces este espacio se conserva moviéndose a posteriores; por lo tanto, a medida que llegan los datos, la distribución cambia, pero permanece en este espacio: a medida que llegan los datos, la distribución evoluciona como un sistema dinámico (cada punto del espacio de hiperparámetros evoluciona a los hiperparámetros actualizados), convergiendo con el tiempo, al igual que el anterior mismo converge.

Referencias

^ Ntzoufras, Ioannis (2009). "Modelos jerárquicos bayesianos". Modelado bayesiano mediante WinBUGS . Wiley. págs. 305–340. ISBN 978-0-470-14114-4.
^ McElreath, Richard (2020). "Modelos con memoria". Repensamiento estadístico: un curso bayesiano con ejemplos en R y Stan . Prensa CRC. ISBN 978-0-367-13991-9.

Otras lecturas

Bernardo, JM; Smith, AFM (2000). Teoría bayesiana. Nueva York: Wiley. ISBN 0-471-49464-X.