Sin embargo, esto se vuelve rápidamente muy abstracto y alejado del problema original.
Los hiperpriores, al igual que los priores conjugados, son una conveniencia computacional: no cambian el proceso de inferencia bayesiana, sino que simplemente permiten describir y calcular más fácilmente con el prior.
De hecho, el casco convexo de las distribuciones normales es denso en todas las distribuciones, por lo que, en algunos casos, se puede aproximar arbitrariamente una prioridad dada utilizando una familia con una hiperprioridad adecuada.
Utilizar una única prior conjugada puede ser demasiado restrictivo, pero utilizar una mezcla de priores conjugadas puede darnos la distribución deseada en una forma fácil de calcular.
Si se utilizan priores conjugados, este espacio se conserva al pasar a los posteriors, por lo que, a medida que llegan los datos, la distribución cambia, pero permanece en este espacio: a medida que llegan los datos, la distribución evoluciona como un sistema dinámico (cada punto del espacio de hiperparámetros evoluciona hacia los hiperparámetros actualizados), convergiendo con el tiempo, al igual que converge el propio prior.