stringtranslate.com

Distribución predictiva posterior

En estadística bayesiana , la distribución predictiva posterior es la distribución de posibles valores no observados condicionada a los valores observados. [1] [2]

Dado un conjunto de observaciones Ni.id , se extraerá un nuevo valor de una distribución que depende de un parámetro , donde es el espacio de parámetros .

Puede parecer tentador incluir una única mejor estimación para , pero esto ignora la incertidumbre sobre , y debido a que se ignora una fuente de incertidumbre, la distribución predictiva será demasiado estrecha. Dicho de otra manera, las predicciones de valores extremos de tendrán una probabilidad menor que si se tuviera en cuenta la incertidumbre en los parámetros dada por su distribución posterior.

Una distribución predictiva posterior explica la incertidumbre sobre . La distribución posterior de los valores posibles depende de :

Y la distribución predictiva posterior de dado se calcula marginando la distribución de dado sobre la distribución posterior de dado :

Debido a que tiene en cuenta la incertidumbre sobre , la distribución predictiva posterior será en general más amplia que una distribución predictiva que incluye una única mejor estimación de .

Distribución predictiva anterior versus posterior

La distribución predictiva previa , en un contexto bayesiano, es la distribución de un punto de datos marginado sobre su distribución anterior . Es decir, si y , entonces la distribución predictiva previa es la distribución correspondiente , donde

Esto es similar a la distribución predictiva posterior excepto que la marginación (o equivalentemente, la expectativa) se toma con respecto a la distribución anterior en lugar de la distribución posterior.

Además, si la distribución previa es una previa conjugada , entonces la distribución predictiva posterior pertenecerá a la misma familia de distribuciones que la distribución predictiva anterior. Esto es fácil de ver. Si la distribución anterior es conjugada, entonces

es decir, la distribución posterior también pertenece pero simplemente con un parámetro diferente en lugar del parámetro original. Entonces,

Por lo tanto, la distribución predictiva posterior sigue la misma distribución H que la distribución predictiva anterior, pero con los valores posteriores de los hiperparámetros sustituidos por los anteriores.

La distribución predictiva previa tiene la forma de una distribución compuesta y, de hecho, se utiliza a menudo para definir una distribución compuesta , debido a la falta de factores que compliquen, como la dependencia de los datos y la cuestión de la conjugación. Por ejemplo, la distribución t de Student se puede definir como la distribución predictiva previa de una distribución normal con media conocida μ pero varianza desconocida σ x 2 , con una distribución de chi-cuadrado inversa escalada previa conjugada colocada en σ x 2 , con hiperparámetros ν y σ 2 . La distribución compuesta resultante es de hecho una distribución t de Student no estandarizada y sigue una de las dos parametrizaciones más comunes de esta distribución. Entonces, la distribución predictiva posterior correspondiente sería nuevamente la t de Student, y los hiperparámetros actualizados que aparecen en la distribución posterior también aparecerían directamente en la distribución predictiva posterior.

En algunos casos, la distribución compuesta adecuada se define utilizando una parametrización diferente a la que sería más natural para las distribuciones predictivas en el problema actual. A menudo, esto se debe a que la distribución anterior utilizada para definir la distribución compuesta es diferente de la utilizada en el problema actual. Por ejemplo, como se indicó anteriormente, la distribución t de Student se definió en términos de una distribución de chi cuadrado inversa escalada colocada en la varianza. Sin embargo, es más común utilizar una distribución gamma inversa como conjugado previo en esta situación. De hecho, los dos son equivalentes excepto por la parametrización; por lo tanto, la distribución t de Student aún se puede utilizar para cualquiera de las distribuciones predictivas, pero los hiperparámetros deben repararmetrizarse antes de conectarse.

En familias exponenciales

La mayoría de las familias de distribuciones comunes, pero no todas, son familias exponenciales . Las familias exponenciales tienen una gran cantidad de propiedades útiles. Una de ellas es que todos los miembros tienen distribuciones previas conjugadas , mientras que muy pocas otras distribuciones tienen distribuciones previas conjugadas.

Distribución predictiva previa en familias exponenciales.

Otra propiedad útil es que la función de densidad de probabilidad de la distribución compuesta correspondiente a la distribución predictiva previa de una distribución familiar exponencial marginada sobre su distribución previa conjugada se puede determinar analíticamente. Supongamos que es un miembro de la familia exponencial con un parámetro que está parametrizado según el parámetro natural y se distribuye como

while es el conjugado previo apropiado, distribuido como

Entonces la distribución predictiva previa (el resultado de la capitalización con ) es

La última línea se deriva de la anterior al reconocer que la función dentro de la integral es la función de densidad de una variable aleatoria distribuida como , excluyendo la función normalizadora . Por tanto, el resultado de la integración será el recíproco de la función normalizadora.

El resultado anterior es independiente de la elección de parametrización de , ya que no aparece ninguno de y . ( es una función del parámetro y, por lo tanto, asumirá diferentes formas dependiendo de la parametrización elegida). Para las elecciones estándar de y , a menudo es más fácil trabajar directamente con los parámetros habituales en lugar de reescribir en términos de los parámetros naturales .

La razón por la que la integral es manejable es que implica calcular la constante de normalización de una densidad definida por el producto de una distribución previa y una probabilidad . Cuando los dos son conjugados , el producto es una distribución posterior y, por supuesto, se conoce la constante de normalización de esta distribución. Como se muestra arriba, la función de densidad de la distribución compuesta sigue una forma particular, que consiste en el producto de la función que forma parte de la función de densidad de , con el cociente de dos formas de la "constante" de normalización de , una derivada de una distribución anterior y el otro de una distribución posterior. La distribución beta binomial es un buen ejemplo de cómo funciona este proceso.

A pesar de la manejabilidad analítica de tales distribuciones, generalmente no son en sí mismas miembros de la familia exponencial . Por ejemplo, la distribución t de Student de tres parámetros , la distribución beta-binomial y la distribución multinomial de Dirichlet son todas distribuciones predictivas de distribuciones de familia exponencial (la distribución normal , la distribución binomial y las distribuciones multinomiales , respectivamente), pero ninguna es miembro de la distribución exponencial. familia. Esto se puede ver arriba debido a la presencia de dependencia funcional de . En una distribución de familia exponencial, debe ser posible separar toda la función de densidad en factores multiplicativos de tres tipos: (1) factores que contienen solo variables, (2) factores que contienen solo parámetros y (3) factores cuyo logaritmo factoriza entre variables. y parámetros. La presencia de hace que esto sea imposible a menos que la función "normalizadora" ignore por completo el argumento correspondiente o lo use sólo en el exponente de una expresión.

Distribución predictiva posterior en familias exponenciales.

Cuando se utiliza una distribución previa conjugada, la distribución predictiva posterior pertenece a la misma familia que la distribución predictiva previa y se determina simplemente ingresando los hiperparámetros actualizados para la distribución posterior de los parámetros en la fórmula para la distribución predictiva previa. . Usando la forma general de las ecuaciones de actualización posterior para distribuciones de familia exponencial (consulte la sección correspondiente en el artículo sobre familia exponencial ), podemos escribir una fórmula explícita para la distribución predictiva posterior:

dónde

Esto muestra que la distribución predictiva posterior de una serie de observaciones, en el caso de que las observaciones sigan una familia exponencial con el conjugado previo apropiado , tiene la misma densidad de probabilidad que la distribución compuesta, con los parámetros especificados anteriormente. Las observaciones mismas entran sólo en la forma

Esto se denomina estadístico suficiente de las observaciones, porque nos dice todo lo que necesitamos saber sobre las observaciones para calcular una distribución predictiva posterior o posterior basada en ellas (o, de hecho, cualquier otra cosa basada en la probabilidad de las observaciones). observaciones, como la probabilidad marginal ).

Distribución predictiva conjunta, probabilidad marginal

También es posible considerar el resultado de combinar una distribución conjunta sobre un número fijo de muestras independientes distribuidas idénticamente con una distribución previa sobre un parámetro compartido. En un entorno bayesiano, esto surge en varios contextos: calcular la distribución predictiva previa o posterior de múltiples observaciones nuevas y calcular la probabilidad marginal de los datos observados (el denominador en la ley de Bayes ). Cuando la distribución de las muestras es de la familia exponencial y la distribución anterior es conjugada, la distribución compuesta resultante será manejable y seguirá una forma similar a la expresión anterior. De hecho, es fácil demostrar que la distribución compuesta conjunta de un conjunto de observaciones es

Este resultado y el resultado anterior para una distribución compuesta única se extienden trivialmente al caso de una distribución sobre una observación con valor vectorial, como una distribución gaussiana multivariada .

Relación con el muestreo de Gibbs

Colapsar un nodo en un muestreador de Gibbs colapsado equivale a capitalizar . Como resultado, cuando un conjunto de nodos independientes distribuidos idénticamente (iid) dependen del mismo nodo anterior, y ese nodo se colapsa, la probabilidad condicional resultante de un nodo dados los demás, así como los padres del nodo colapsado nodo (pero sin condicionar a ningún otro nodo, por ejemplo, ningún nodo hijo) es la misma que la distribución predictiva posterior de todos los nodos iid restantes (o más correctamente, anteriormente nodos iid, ya que el colapso introduce dependencias entre los nodos). Es decir, generalmente es posible implementar el colapso de un nodo simplemente adjuntando todos los padres del nodo directamente a todos los hijos, y reemplazando la distribución de probabilidad condicional anterior asociada con cada hijo con la distribución predictiva posterior correspondiente para el hijo condicionada a su padres y los otros nodos anteriormente iid que también eran hijos del nodo eliminado. Para ver un ejemplo, para una discusión más específica y para algunas precauciones sobre ciertas cuestiones difíciles, consulte el artículo sobre distribución multinomial de Dirichlet .

Ver también

Referencias

  1. ^ "Distribución predictiva posterior". SAS . Consultado el 19 de julio de 2014 .
  2. ^ Gelman, Andrés ; Carlín, John B .; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B. (2013). Análisis de datos bayesianos (Tercera ed.). Chapman y Hall/CRC. pag. 7.ISBN 978-1-4398-4095-5.

Otras lecturas