Probabilidad marginal

Una verosimilitud marginal es una función de verosimilitud que se ha integrado sobre el espacio de parámetros . En estadística bayesiana , representa la probabilidad de generar la muestra observada para todos los valores posibles de los parámetros; puede entenderse como la probabilidad del modelo en sí y, por lo tanto, a menudo se la denomina evidencia del modelo o simplemente evidencia .

Debido a la integración sobre el espacio de parámetros, la verosimilitud marginal no depende directamente de los parámetros. Si el enfoque no está en la comparación de modelos, la verosimilitud marginal es simplemente la constante normalizadora que garantiza que la probabilidad posterior sea la adecuada. Está relacionada con la función de partición en mecánica estadística . ^[1]

Concepto

Dado un conjunto de puntos de datos independientes distribuidos de manera idéntica donde, según alguna distribución de probabilidad parametrizada por , donde en sí misma es una variable aleatoria descrita por una distribución, es decir, la probabilidad marginal en general pregunta cuál es la probabilidad, donde se ha marginalizado (integrado): $\mathbf {X} =(x_{1},\ldots ,x_{n}),$ $x_{i}\sim p(x|\theta )$ ${\estilo de visualización \theta}$ ${\estilo de visualización \theta}$ $\theta \sim p(\theta \mid \alpha ),$ $p(\mathbf {X} \mid \alpha )$ ${\estilo de visualización \theta}$

p(\mathbf {X} \mid \alpha )=\int _{\theta }p(\mathbf {X} \mid \theta )\,p(\theta \mid \alpha )\ \nombredeloperador {d} \!\theta

La definición anterior se formula en el contexto de las estadísticas bayesianas, en cuyo caso se denomina densidad previa y es la probabilidad. La probabilidad marginal cuantifica la concordancia entre los datos y la probabilidad previa en un sentido geométrico que se precisa ^[^¿cómo?^] en de Carvalho et al. (2019). En las estadísticas clásicas ( frecuentistas ), el concepto de probabilidad marginal aparece en cambio en el contexto de un parámetro conjunto , donde es el parámetro real de interés y es un parámetro de molestia no interesante . Si existe una distribución de probabilidad para ^[^dudoso^–^discutir^] , a menudo es deseable considerar la función de probabilidad solo en términos de , marginando : $p(\theta \mid \alpha )$ $p(\mathbf {X} \mid \theta )$ $\theta = (\psi,\lambda)$ ${\estilo de visualización \psi}$ ${\estilo de visualización \lambda}$ ${\estilo de visualización \lambda}$ ${\estilo de visualización \psi}$ ${\estilo de visualización \lambda}$

{\mathcal {L}}(\psi ;\mathbf {X} )=p(\mathbf {X} \mid \psi )=\int _{\lambda }p(\mathbf {X} \mid \lambda ,\psi )\,p(\lambda \mid \psi )\ \operatorname {d} \!\lambda

Lamentablemente, las probabilidades marginales son generalmente difíciles de calcular. Se conocen soluciones exactas para una pequeña clase de distribuciones, en particular cuando el parámetro marginado es el conjugado anterior de la distribución de los datos. En otros casos, se necesita algún tipo de método de integración numérica , ya sea un método general como la integración gaussiana o un método de Monte Carlo , o un método especializado para problemas estadísticos como la aproximación de Laplace , el muestreo de Gibbs / Metrópolis o el algoritmo EM .

También es posible aplicar las consideraciones anteriores a una única variable aleatoria (punto de datos) , en lugar de a un conjunto de observaciones. En un contexto bayesiano, esto es equivalente a la distribución predictiva previa de un punto de datos. ${\estilo de visualización x}$

Aplicaciones

Comparación de modelos bayesianos

En la comparación de modelos bayesianos , las variables marginalizadas son parámetros para un tipo particular de modelo y la variable restante es la identidad del modelo en sí. En este caso, la probabilidad marginalizada es la probabilidad de los datos dado el tipo de modelo, sin suponer ningún parámetro particular del modelo. Escribiendo para los parámetros del modelo, la probabilidad marginal para el modelo M es ${\estilo de visualización \theta}$ ${\estilo de visualización M}$ ${\estilo de visualización \theta}$

p(\mathbf {X} \mid M)=\int p(\mathbf {X} \mid \theta ,M)\,p(\theta \mid M)\,\operatorname {d} \!\theta

En este contexto se utiliza normalmente el término evidencia del modelo . Esta cantidad es importante porque la razón de probabilidades posterior de un modelo M ₁ frente a otro modelo M ₂ implica una relación de probabilidades marginales, denominada factor de Bayes :

{\frac {p(M_{1}\mid \mathbf {X} )}{p(M_{2}\mid \mathbf {X} )}}={\frac {p(M_{1})}{p(M_{2})}}\,{\frac {p(\mathbf {X} \mid M_{1})}{p(\mathbf {X} \mid M_{2})}}

Lo cual puede enunciarse esquemáticamente como

probabilidades posteriores = probabilidades anteriores × factor de Bayes

Véase también

Referencias

^ Šmídl, Václav; Quinn, Anthony (2006). "Teoría bayesiana". El método Bayesiano Variacional en el procesamiento de señales . Springer. págs. 13–23. doi :10.1007/3-540-28820-1_2.

Lectura adicional

Charles S. Bos. "Una comparación de métodos de cálculo de verosimilitud marginal". En W. Härdle y B. Ronz, editores, COMPSTAT 2002: Proceedings in Computational Statistics , págs. 111–117. 2002. (Disponible como preimpresión en SSRN 332860)
de Carvalho, Miguel; Page, Garritt; Barney, Bradley (2019). "Sobre la geometría de la inferencia bayesiana". Bayesian Analysis . 14 (4): 1013‒1036. (Disponible como preimpresión en la web: [1])
Lambert, Ben (2018). "El diablo está en el denominador". Guía para estudiantes de estadística bayesiana . Sage. pp. 109–120. ISBN 978-1-4739-1636-4.
El libro de texto en línea: Teoría de la información, inferencia y algoritmos de aprendizaje, por David JC MacKay .