stringtranslate.com

Conjugado previo

En la teoría de probabilidad bayesiana , si, dada una función de probabilidad , la distribución posterior está en la misma familia de distribución de probabilidad que la distribución de probabilidad anterior , la anterior y la posterior se denominan distribuciones conjugadas con respecto a esa función de probabilidad y la anterior se denomina conjugada. anterior para la función de verosimilitud .

Un prior conjugado es una conveniencia algebraica, que proporciona una expresión de forma cerrada para el posterior; de lo contrario, puede ser necesaria la integración numérica . Además, los priores conjugados pueden dar intuición al mostrar de manera más transparente cómo una función de probabilidad actualiza una distribución previa.

El concepto, así como el término "prior conjugado", fueron introducidos por Howard Raiffa y Robert Schlaifer en su trabajo sobre la teoría de la decisión bayesiana . [1] George Alfred Barnard había descubierto de forma independiente un concepto similar . [2]

Ejemplo

La forma del conjugado a priori generalmente se puede determinar mediante la inspección de la densidad de probabilidad o la función de masa de probabilidad de una distribución. Por ejemplo, considere una variable aleatoria que consiste en el número de éxitos en ensayos de Bernoulli con probabilidad de éxito desconocida en [0,1]. Esta variable aleatoria seguirá la distribución binomial , con una función de masa de probabilidad de la forma

El conjugado previo habitual es la distribución beta con parámetros ( , ):

donde y se eligen para reflejar cualquier creencia o información existente ( y darían una distribución uniforme ) y la función Beta actúa como una constante normalizadora .

En este contexto, y se denominan hiperparámetros (parámetros del anterior), para distinguirlos de los parámetros del modelo subyacente (aquí ). Una característica típica de los priores conjugados es que la dimensionalidad de los hiperparámetros es uno mayor que la de los parámetros de la distribución original. Si todos los parámetros son valores escalares, habrá un hiperparámetro más que parámetro; pero esto también se aplica a los parámetros con valores vectoriales y matriciales. (Consulte el artículo general sobre la familia exponencial y considere también la distribución Wishart , conjugada anterior de la matriz de covarianza de una distribución normal multivariada , para ver un ejemplo en el que se trata de una gran dimensionalidad).

Si tomamos una muestra de esta variable aleatoria y obtenemos éxitos y fracasos, entonces tenemos

que es otra distribución Beta con parámetros . Esta distribución posterior podría usarse como anterior para más muestras, y los hiperparámetros simplemente agregarían cada pieza adicional de información a medida que llega.

Interpretaciones

Pseudoobservaciones

A menudo resulta útil pensar en los hiperparámetros de una distribución previa conjugada correspondientes a haber observado un cierto número de pseudoobservaciones con propiedades especificadas por los parámetros. Por ejemplo, se puede considerar que los valores y de una distribución beta corresponden a éxitos y fracasos si se usa el modo posterior para elegir una configuración de parámetro óptima, o éxitos y fracasos si se usa la media posterior para elegir una configuración de parámetro óptima. En general, para casi todas las distribuciones anteriores conjugadas, los hiperparámetros se pueden interpretar en términos de pseudoobservaciones. Esto puede ayudar a proporcionar intuición detrás de las ecuaciones de actualización, a menudo confusas, y ayudar a elegir hiperparámetros razonables para un anterior.

sistema dinámico

Se puede pensar que el condicionamiento sobre antecedentes conjugados define una especie de sistema dinámico (de tiempo discreto) : a partir de un conjunto dado de hiperparámetros, los datos entrantes actualizan estos hiperparámetros, por lo que se puede ver el cambio en los hiperparámetros como una especie de "evolución temporal" de el sistema, correspondiente al "aprendizaje". Comenzar en diferentes puntos produce diferentes flujos a lo largo del tiempo. Esto es nuevamente análogo al sistema dinámico definido por un operador lineal, pero tenga en cuenta que, dado que diferentes muestras conducen a diferentes inferencias, esto no depende simplemente del tiempo sino de los datos a lo largo del tiempo. Para enfoques relacionados, consulte Estimación bayesiana recursiva y Asimilación de datos .

Ejemplo práctico

Supongamos que en su ciudad opera un servicio de alquiler de coches. Los conductores pueden dejar y recoger automóviles en cualquier lugar dentro de los límites de la ciudad. Puede buscar y alquilar coches mediante una aplicación.

Suponga que desea encontrar la probabilidad de encontrar un automóvil de alquiler a poca distancia de su domicilio en cualquier momento del día.

Durante tres días, miras la aplicación y encuentras la siguiente cantidad de automóviles a poca distancia de tu domicilio:

Supongamos que asumimos que los datos provienen de una distribución de Poisson . En ese caso, podemos calcular la estimación de máxima verosimilitud de los parámetros del modelo, que es. Usando esta estimación de máxima verosimilitud, podemos calcular la probabilidad de que haya al menos un automóvil disponible en un día determinado:

Esta es la distribución de Poisson que tiene más probabilidades de haber generado los datos observados . Pero los datos también podrían haber venido de otra distribución de Poisson, por ejemplo, una con , o , etc. De hecho, hay un número infinito de distribuciones de Poisson que podrían haber generado los datos observados. Con relativamente pocos puntos de datos, deberíamos estar bastante seguros de qué distribución de Poisson exacta generó estos datos. Intuitivamente, deberíamos tomar un promedio ponderado de la probabilidad de para cada una de esas distribuciones de Poisson, ponderado por la probabilidad de que sean cada una, dados los datos que hemos observado .

Generalmente, esta cantidad se conoce como distribución predictiva posterior, donde es un nuevo punto de datos, son los datos observados y son los parámetros del modelo. Usando el teorema de Bayes podemos desarrollar por lo tanto. Generalmente, esta integral es difícil de calcular. Sin embargo, si elige una distribución previa conjugada , se puede derivar una expresión de forma cerrada. Esta es la columna predictiva posterior en las tablas siguientes.

Volviendo a nuestro ejemplo, si elegimos la distribución Gamma como nuestra distribución previa sobre la tasa de las distribuciones de Poisson, entonces el predictivo posterior es la distribución binomial negativa , como se puede ver en la siguiente tabla. La distribución Gamma está parametrizada por dos hiperparámetros , que tenemos que elegir. Al observar los gráficos de la distribución gamma, elegimos , que parece ser un a priori razonable para el número promedio de automóviles. La elección de hiperparámetros previos es inherentemente subjetiva y se basa en conocimientos previos.

Dados los hiperparámetros anteriores y podemos calcular los hiperparámetros posteriores y

Dados los hiperparámetros posteriores, finalmente podemos calcular el predictivo posterior de

Esta estimación mucho más conservadora refleja la incertidumbre en los parámetros del modelo, que el predictivo posterior tiene en cuenta.

Tabla de distribuciones conjugadas

Sea n el número de observaciones. En todos los casos siguientes, se supone que los datos constan de n puntos (que serán vectores aleatorios en los casos multivariados).

Si la función de verosimilitud pertenece a la familia exponencial , entonces existe un prior conjugado, a menudo también en la familia exponencial; ver Familia exponencial: distribuciones conjugadas .

Cuando la función de probabilidad es una distribución discreta

Cuando la función de probabilidad es una distribución continua

Ver también

Notas

  1. ^ ab Denotado por los mismos símbolos que los hiperparámetros anteriores con números primos agregados ('). Por ejemplo se denota
  2. ^ Esta es la distribución predictiva posterior de un nuevo punto de datos dados los puntos de datos observados, con los parámetros marginados . Las variables con números primos indican los valores posteriores de los parámetros.
  3. ^ abcdefg La interpretación exacta de los parámetros de una distribución beta en términos de número de éxitos y fracasos depende de qué función se utiliza para extraer una estimación puntual de la distribución. La media de una distribución beta es la que corresponde a éxitos y fracasos, mientras que la moda es la que corresponde a éxitos y fracasos. Los bayesianos generalmente prefieren usar la media posterior en lugar del modo posterior como estimación puntual, justificado por una función de pérdida cuadrática, y el uso de y es más conveniente matemáticamente, mientras que el uso de y tiene la ventaja de que una prioridad uniforme corresponde a 0. éxitos y 0 fracasos. Las mismas cuestiones se aplican a la distribución de Dirichlet .
  4. ^ abc β es tasa o escala inversa. En la parametrización de la distribución gamma , θ = 1/ β y k = α .
  5. ^ Esta es la distribución predictiva posterior de un nuevo punto de datos dados los puntos de datos observados, con los parámetros marginados . Las variables con números primos indican los valores posteriores de los parámetros. y se refieren a la distribución normal y la distribución t de Student , respectivamente, o a la distribución normal multivariada y la distribución t multivariada en los casos multivariados.
  6. ^ En términos de gamma inversa , es un parámetro de escala.
  7. ^ En la mezcla normal de varianza-media se encuentra un conjugado anterior diferente para media y varianza desconocidas, pero con una relación lineal fija entre ellas, con la gaussiana inversa generalizada como distribución de mezcla conjugada.
  8. ^ es una distribución gamma compuesta ; Aquí hay una distribución beta principal generalizada .

Referencias

  1. ^ Howard Raiffa y Robert Schlaifer . Teoría de la decisión estadística aplicada . División de Investigación, Escuela de Graduados en Administración de Empresas, Universidad de Harvard, 1961.
  2. ^ Jeff Miller y otros. Primeros usos conocidos de algunas de las palabras de matemáticas, "distribuciones previas conjugadas". Documento electrónico, revisión del 13 de noviembre de 2005, consultado el 2 de diciembre de 2005.
  3. ^ abc Fink, Daniel (1997). "Un compendio de antecedentes conjugados" (PDF) . CiteSeerX  10.1.1.157.5540 . Archivado desde el original (PDF) el 29 de mayo de 2009.
  4. ^ abcdefghijklm Murphy, Kevin P. (2007), Análisis bayesiano conjugado de la distribución gaussiana (PDF)
  5. ^ Liu, Han; Wasserman, Larry (2014). Aprendizaje automático estadístico (PDF) . pag. 314.