En la estadística bayesiana , la distribución predictiva posterior es la distribución de posibles valores no observados condicionados a los valores observados. [1] [2]
Dado un conjunto de N observaciones i.id , se extraerá un nuevo valor de una distribución que depende de un parámetro , donde es el espacio de parámetros .
Puede resultar tentador introducir una única mejor estimación para , pero esto ignora la incertidumbre sobre , y como se ignora una fuente de incertidumbre, la distribución predictiva será demasiado estrecha. Dicho de otro modo, las predicciones de valores extremos de tendrán una probabilidad menor que si se tiene en cuenta la incertidumbre de los parámetros tal como se dan por su distribución posterior.
Una distribución predictiva posterior tiene en cuenta la incertidumbre sobre . La distribución posterior de valores posibles depende de :
Y la distribución predictiva posterior de dado se calcula marginalizando la distribución de dado sobre la distribución posterior de dado :
Debido a que tiene en cuenta la incertidumbre acerca de , la distribución predictiva posterior será en general más amplia que una distribución predictiva que incluye una única mejor estimación para .
La distribución predictiva previa , en un contexto bayesiano, es la distribución de un punto de datos marginalizado sobre su distribución previa . Es decir, si y , entonces la distribución predictiva previa es la distribución correspondiente , donde
Esto es similar a la distribución predictiva posterior excepto que la marginalización (o equivalentemente, la expectativa) se toma con respecto a la distribución previa en lugar de la distribución posterior.
Además, si la distribución anterior es una distribución anterior conjugada , entonces la distribución predictiva posterior pertenecerá a la misma familia de distribuciones que la distribución predictiva anterior. Esto es fácil de ver. Si la distribución anterior es conjugada, entonces
es decir la distribución posterior también pertenece pero simplemente con un parámetro diferente en lugar del parámetro original Entonces,
Por lo tanto, la distribución predictiva posterior sigue la misma distribución H que la distribución predictiva anterior, pero con los valores posteriores de los hiperparámetros sustituidos por los anteriores.
La distribución predictiva previa tiene la forma de una distribución compuesta y, de hecho, se utiliza a menudo para definir una distribución compuesta , debido a la falta de factores de complicación como la dependencia de los datos y el problema de la conjugación. Por ejemplo, la distribución t de Student se puede definir como la distribución predictiva previa de una distribución normal con media conocida μ pero varianza desconocida σ x 2 , con una distribución chi-cuadrado inversa escalada previa conjugada colocada en σ x 2 , con hiperparámetros ν y σ 2 . La distribución compuesta resultante es de hecho una distribución t de Student no estandarizada y sigue una de las dos parametrizaciones más comunes de esta distribución. Entonces, la distribución predictiva posterior correspondiente sería nuevamente la t de Student, con los hiperparámetros actualizados que aparecen en la distribución posterior también apareciendo directamente en la distribución predictiva posterior.
En algunos casos, la distribución compuesta apropiada se define utilizando una parametrización diferente a la que sería más natural para las distribuciones predictivas en el problema actual en cuestión. A menudo, esto se debe a que la distribución previa utilizada para definir la distribución compuesta es diferente de la utilizada en el problema actual. Por ejemplo, como se indicó anteriormente, la distribución t de Student se definió en términos de una distribución de chi-cuadrado inversa escalada colocada sobre la varianza. Sin embargo, es más común utilizar una distribución gamma inversa como la distribución previa conjugada en esta situación. De hecho, las dos son equivalentes excepto por la parametrización; por lo tanto, la distribución t de Student todavía se puede utilizar para cualquiera de las distribuciones predictivas, pero los hiperparámetros deben repararmetrizarse antes de ser incluidos.
La mayoría de las familias de distribuciones comunes, aunque no todas, son familias exponenciales . Las familias exponenciales tienen una gran cantidad de propiedades útiles. Una de ellas es que todos los miembros tienen distribuciones previas conjugadas , mientras que muy pocas otras distribuciones tienen distribuciones previas conjugadas.
Otra propiedad útil es que la función de densidad de probabilidad de la distribución compuesta correspondiente a la distribución predictiva previa de una distribución de familia exponencial marginalizada sobre su distribución previa conjugada se puede determinar analíticamente. Supongamos que es un miembro de la familia exponencial con parámetro que está parametrizado de acuerdo con el parámetro natural , y se distribuye como
mientras que es el conjugado anterior apropiado, distribuido como
Entonces la distribución predictiva previa (el resultado de la capitalización con ) es
La última línea se desprende de la anterior al reconocer que la función dentro de la integral es la función de densidad de una variable aleatoria distribuida como , excluyendo la función normalizadora . Por lo tanto, el resultado de la integración será el recíproco de la función normalizadora.
El resultado anterior es independiente de la elección de parametrización de , ya que ninguno de , y aparece. ( es una función del parámetro y, por lo tanto, asumirá diferentes formas dependiendo de la elección de parametrización). Para las elecciones estándar de y , a menudo es más fácil trabajar directamente con los parámetros habituales en lugar de reescribir en términos de los parámetros naturales .
La razón por la que la integral es manejable es que implica calcular la constante de normalización de una densidad definida por el producto de una distribución previa y una probabilidad . Cuando las dos son conjugadas , el producto es una distribución posterior y, por suposición, se conoce la constante de normalización de esta distribución. Como se muestra arriba, la función de densidad de la distribución compuesta sigue una forma particular, que consiste en el producto de la función que forma parte de la función de densidad para , con el cociente de dos formas de la "constante" de normalización para , una derivada de una distribución previa y la otra de una distribución posterior. La distribución beta-binomial es un buen ejemplo de cómo funciona este proceso.
A pesar de la manejabilidad analítica de tales distribuciones, por lo general no son en sí mismas miembros de la familia exponencial . Por ejemplo, la distribución t de Student de tres parámetros , la distribución beta-binomial y la distribución multinomial de Dirichlet son todas distribuciones predictivas de distribuciones de la familia exponencial (la distribución normal , la distribución binomial y las distribuciones multinomiales , respectivamente), pero ninguna es miembro de la familia exponencial. Esto se puede ver arriba debido a la presencia de dependencia funcional en . En una distribución de la familia exponencial, debe ser posible separar toda la función de densidad en factores multiplicativos de tres tipos: (1) factores que contienen solo variables, (2) factores que contienen solo parámetros y (3) factores cuyo logaritmo se factoriza entre variables y parámetros. La presencia de hace que esto sea imposible a menos que la función "normalizadora" ignore por completo el argumento correspondiente o lo use solo en el exponente de una expresión.
Cuando se utiliza una distribución predictiva posterior conjugada, la distribución predictiva posterior pertenece a la misma familia que la distribución predictiva anterior y se determina simplemente introduciendo los hiperparámetros actualizados para la distribución posterior de los parámetros en la fórmula de la distribución predictiva anterior. Si utilizamos la forma general de las ecuaciones de actualización posterior para distribuciones de la familia exponencial (consulte la sección correspondiente en el artículo sobre la familia exponencial ), podemos escribir una fórmula explícita para la distribución predictiva posterior:
dónde
Esto demuestra que la distribución predictiva posterior de una serie de observaciones, en el caso en que las observaciones siguen una familia exponencial con el conjugado previo apropiado , tiene la misma densidad de probabilidad que la distribución compuesta, con parámetros como los especificados anteriormente. Las observaciones mismas entran solo en la forma
Esto se denomina estadística suficiente de las observaciones, porque nos dice todo lo que necesitamos saber sobre las observaciones para calcular una distribución posterior o predictiva posterior basada en ellas (o, en ese sentido, cualquier otra cosa basada en la probabilidad de las observaciones, como la probabilidad marginal ).
También es posible considerar el resultado de la composición de una distribución conjunta sobre un número fijo de muestras independientes distribuidas de manera idéntica con una distribución previa sobre un parámetro compartido. En un contexto bayesiano, esto surge en varios contextos: al calcular la distribución predictiva previa o posterior de múltiples observaciones nuevas y al calcular la probabilidad marginal de los datos observados (el denominador en la ley de Bayes ). Cuando la distribución de las muestras es de la familia exponencial y la distribución previa es conjugada, la distribución compuesta resultante será manejable y seguirá una forma similar a la expresión anterior. De hecho, es fácil demostrar que la distribución compuesta conjunta de un conjunto de observaciones es
Este resultado y el resultado anterior para una única distribución compuesta se extienden trivialmente al caso de una distribución sobre una observación con valores vectoriales, como una distribución gaussiana multivariada .
El colapso de un nodo en un muestreador de Gibbs colapsado es equivalente a la composición . Como resultado, cuando un conjunto de nodos independientes distribuidos de manera idéntica (iid) dependen todos del mismo nodo anterior, y ese nodo se colapsa, la probabilidad condicional resultante de un nodo dados los otros así como los padres del nodo colapsado (pero sin condicionar ningún otro nodo, por ejemplo, ningún nodo hijo) es la misma que la distribución predictiva posterior de todos los nodos iid restantes (o más correctamente, nodos anteriormente iid, ya que el colapso introduce dependencias entre los nodos). Es decir, generalmente es posible implementar el colapso de un nodo simplemente adjuntando todos los padres del nodo directamente a todos los hijos, y reemplazando la distribución de probabilidad condicional anterior asociada con cada hijo con la distribución predictiva posterior correspondiente para el hijo condicionada a sus padres y los otros nodos anteriormente iid que también eran hijos del nodo eliminado. Para ver un ejemplo, una discusión más específica y algunas advertencias sobre ciertas cuestiones complicadas, consulte el artículo sobre distribución multinomial de Dirichlet .