Regresión lineal bayesiana

La regresión lineal bayesiana es un tipo de modelado condicional en el que la media de una variable se describe mediante una combinación lineal de otras variables, con el objetivo de obtener la probabilidad posterior de los coeficientes de regresión (así como otros parámetros que describen la distribución del regresado) y, en última instancia, permitir la predicción fuera de la muestra del regresado (a menudo etiquetado como ) condicional a los valores observados de los regresores (generalmente ). La versión más simple y más utilizada de este modelo es el modelo lineal normal , en el que dado se distribuye gaussiana . En este modelo, y bajo una elección particular de probabilidades previas para los parámetros (los llamados anteriores conjugados ), la posterior se puede encontrar analíticamente. Con anteriores elegidos de manera más arbitraria, los posteriores generalmente tienen que ser aproximados. $y$ $X$ $y$ $X$

Configuración del modelo

Consideremos un problema de regresión lineal estándar , en el que especificamos la media de la distribución condicional de un vector predictor dado : $i=1,\ldots ,n$ $y_{i}$ $k\times 1$ $\mathbf {x} _{i}$ $y_{i}=\mathbf {x} _{i}^{\mathsf {T}}{\boldsymbol {\beta }}+\varepsilon _{i},$

donde es un vector, y son variables aleatorias independientes y distribuidas de manera idéntica normalmente : ${\boldsymbol {\beta }}$ $k\times 1$ $\varepsilon _{i}$ $\varepsilon _{i}\sim N(0,\sigma ^{2}).$

Esto corresponde a la siguiente función de probabilidad :

$\rho (\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\propto (\sigma ^{2})^{-n/2}\exp \left(-{\frac {1}{2\sigma ^{2}}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})\right).$

La solución de mínimos cuadrados ordinarios se utiliza para estimar el vector de coeficientes utilizando la pseudoinversa de Moore-Penrose : ${\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\mathsf {T}}\mathbf {y}$

donde es la matriz de diseño , cada fila de la cual es un vector predictor ; y es el vector columna . $\mathbf {X}$ $n\times k$ $\mathbf {x} _{i}^{\mathsf {T}}$ $\mathbf {y}$ $n$ $[y_{1}\;\cdots \;y_{n}]^{\mathsf {T}}$

Este es un enfoque frecuentista y supone que hay suficientes mediciones para decir algo significativo sobre . En el enfoque bayesiano , los datos se complementan con información adicional en forma de una distribución de probabilidad previa . La creencia previa sobre los parámetros se combina con la función de verosimilitud de los datos según el teorema de Bayes para producir la creencia posterior sobre los parámetros y . La previa puede adoptar diferentes formas funcionales según el dominio y la información que esté disponible a priori . ${\boldsymbol {\beta }}$ ${\boldsymbol {\beta }}$ $\sigma$

Dado que los datos comprenden tanto y , el enfoque solo en la distribución de condicional a las necesidades justifica. De hecho, un análisis bayesiano "completo" requeriría una verosimilitud conjunta junto con una previa , donde simboliza los parámetros de la distribución para . Solo bajo el supuesto de exogeneidad (débil) se puede factorizar la verosimilitud conjunta en . ^[1] La última parte generalmente se ignora bajo el supuesto de conjuntos de parámetros disjuntos. Más aún, bajo supuestos clásicos se consideran elegidos (por ejemplo, en un experimento diseñado) y, por lo tanto, tienen una probabilidad conocida sin parámetros. ^[2] $\mathbf {y}$ $\mathbf {X}$ $\mathbf {y}$ $\mathbf {X}$ $\rho (\mathbf {y} ,\mathbf {X} \mid {\boldsymbol {\beta }},\sigma ^{2},\gamma )$ $\rho (\beta ,\sigma ^{2},\gamma )$ $\gamma$ $\mathbf {X}$ $\rho (\mathbf {y} \mid {\boldsymbol {\mathbf {X} }},\beta ,\sigma ^{2})\rho (\mathbf {X} \mid \gamma )$ $\mathbf {X}$

Con priores conjugados

Distribución previa conjugada

Para una distribución a priori arbitraria, puede que no exista una solución analítica para la distribución a posteriori . En esta sección, consideraremos una distribución a priori conjugada para la cual se puede derivar analíticamente la distribución a posteriori.

Una función anterior es conjugada a esta función de verosimilitud si tiene la misma forma funcional con respecto a y . Dado que la verosimilitud logarítmica es cuadrática en , la verosimilitud logarítmica se reescribe de modo que la verosimilitud se vuelva normal en . Escribe $\rho ({\boldsymbol {\beta }},\sigma ^{2})$ ${\boldsymbol {\beta }}$ $\sigma$ ${\boldsymbol {\beta }}$ $({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})$

${\begin{aligned}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})&=[(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})+(\mathbf {X} {\hat {\boldsymbol {\beta }}}-\mathbf {X} {\boldsymbol {\beta }})]^{\mathsf {T}}[(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})+(\mathbf {X} {\hat {\boldsymbol {\beta }}}-\mathbf {X} {\boldsymbol {\beta }})]\\&=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})+({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})+\underbrace {2(\mathbf {X} {\hat {\boldsymbol {\beta }}}-\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})} _{=\ 0}\\&=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})+({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})\,.\end{aligned}}$

La probabilidad ahora se reescribe como donde es el número de coeficientes de regresión. $\rho (\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\propto (\sigma ^{2})^{-{\frac {v}{2}}}\exp \left(-{\frac {vs^{2}}{2{\sigma }^{2}}}\right)(\sigma ^{2})^{-{\frac {n-v}{2}}}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})\right),$ $vs^{2}=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})\quad {\text{ and }}\quad v=n-k,$ $k$

Esto sugiere una forma para lo anterior: donde es una distribución gamma inversa $\rho ({\boldsymbol {\beta }},\sigma ^{2})=\rho (\sigma ^{2})\rho ({\boldsymbol {\beta }}\mid \sigma ^{2}),$ $\rho (\sigma ^{2})$ $\rho (\sigma ^{2})\propto (\sigma ^{2})^{-{\frac {v_{0}}{2}}-1}\exp \left(-{\frac {v_{0}s_{0}^{2}}{2\sigma ^{2}}}\right).$

En la notación introducida en el artículo sobre la distribución gamma inversa , esta es la densidad de una distribución con y con y como valores anteriores de y , respectivamente. De manera equivalente, también se puede describir como una distribución chi-cuadrado inversa escalada . ${\text{Inv-Gamma}}(a_{0},b_{0})$ $a_{0}={\tfrac {v_{0}}{2}}$ $b_{0}={\tfrac {1}{2}}v_{0}s_{0}^{2}$ $v_{0}$ $s_{0}^{2}$ $v$ $s^{2}$ ${\text{Scale-inv-}}\chi ^{2}(v_{0},s_{0}^{2}).$

Además, la densidad previa condicional es una distribución normal , $\rho ({\boldsymbol {\beta }}|\sigma ^{2})$

$\rho ({\boldsymbol {\beta }}\mid \sigma ^{2})\propto (\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2\sigma ^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\mathsf {T}}\mathbf {\Lambda } _{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})\right).$

En la notación de la distribución normal , la distribución previa condicional es ${\mathcal {N}}\left({\boldsymbol {\mu }}_{0},\sigma ^{2}{\boldsymbol {\Lambda }}_{0}^{-1}\right).$

Distribución posterior

Con la distribución anterior ahora especificada, la distribución posterior se puede expresar como

${\begin{aligned}\rho ({\boldsymbol {\beta }},\sigma ^{2}\mid \mathbf {y} ,\mathbf {X} )&\propto \rho (\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\rho ({\boldsymbol {\beta }}\mid \sigma ^{2})\rho (\sigma ^{2})\\&\propto (\sigma ^{2})^{-n/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})\right)(\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2\sigma ^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})\right)(\sigma ^{2})^{-(a_{0}+1)}\exp \left(-{\frac {b_{0}}{\sigma ^{2}}}\right)\end{aligned}}$

Con algún reordenamiento, ^[3] la posterior se puede reescribir de modo que la media posterior del vector de parámetros se pueda expresar en términos del estimador de mínimos cuadrados y la media anterior , con la fuerza de la anterior indicada por la matriz de precisión anterior. ${\boldsymbol {\mu }}_{n}$ ${\boldsymbol {\beta }}$ ${\hat {\boldsymbol {\beta }}}$ ${\boldsymbol {\mu }}_{0}$ ${\boldsymbol {\Lambda }}_{0}$

${\boldsymbol {\mu }}_{n}=(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})^{-1}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}}+{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}).$

Para justificar que efectivamente es la media posterior, los términos cuadráticos en la exponencial se pueden reorganizar como una forma cuadrática en . ^[4] ${\boldsymbol {\mu }}_{n}$ ${\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n}$

$(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})+({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})=({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})+\mathbf {y} ^{\mathsf {T}}\mathbf {y} -{\boldsymbol {\mu }}_{n}^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}){\boldsymbol {\mu }}_{n}+{\boldsymbol {\mu }}_{0}^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}.$

Ahora la distribución posterior se puede expresar como una distribución normal multiplicada por una distribución gamma inversa :

$\rho ({\boldsymbol {\beta }},\sigma ^{2}\mid \mathbf {y} ,\mathbf {X} )\propto (\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +\mathbf {\Lambda } _{0})({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})\right)(\sigma ^{2})^{-{\frac {n+2a_{0}}{2}}-1}\exp \left(-{\frac {2b_{0}+\mathbf {y} ^{\mathsf {T}}\mathbf {y} -{\boldsymbol {\mu }}_{n}^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}){\boldsymbol {\mu }}_{n}+{\boldsymbol {\mu }}_{0}^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}}{2\sigma ^{2}}}\right).$

Por lo tanto, la distribución posterior se puede parametrizar de la siguiente manera. donde los dos factores corresponden a las densidades de las distribuciones y , con los parámetros de estas dados por $\rho ({\boldsymbol {\beta }},\sigma ^{2}\mid \mathbf {y} ,\mathbf {X} )\propto \rho ({\boldsymbol {\beta }}\mid \sigma ^{2},\mathbf {y} ,\mathbf {X} )\rho (\sigma ^{2}\mid \mathbf {y} ,\mathbf {X} ),$ ${\mathcal {N}}\left({\boldsymbol {\mu }}_{n},\sigma ^{2}{\boldsymbol {\Lambda }}_{n}^{-1}\right)\,$ ${\text{Inv-Gamma}}\left(a_{n},b_{n}\right)$

${\boldsymbol {\Lambda }}_{n}=(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +\mathbf {\Lambda } _{0}),\quad {\boldsymbol {\mu }}_{n}=({\boldsymbol {\Lambda }}_{n})^{-1}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}}+{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}),$ $a_{n}=a_{0}+{\frac {n}{2}},\qquad b_{n}=b_{0}+{\frac {1}{2}}(\mathbf {y} ^{\mathsf {T}}\mathbf {y} +{\boldsymbol {\mu }}_{0}^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}-{\boldsymbol {\mu }}_{n}^{\mathsf {T}}{\boldsymbol {\Lambda }}_{n}{\boldsymbol {\mu }}_{n}).$

lo que ilustra que la inferencia bayesiana es un compromiso entre la información contenida en la anterior y la información contenida en la muestra.

Evidencia modelo

La evidencia del modelo es la probabilidad de los datos dado el modelo . También se conoce como la verosimilitud marginal y como la densidad predictiva previa . Aquí, el modelo se define por la función de verosimilitud y la distribución previa de los parámetros, es decir . La evidencia del modelo captura en un solo número qué tan bien dicho modelo explica las observaciones. La evidencia del modelo del modelo de regresión lineal bayesiano presentado en esta sección se puede utilizar para comparar modelos lineales en competencia mediante la comparación de modelos bayesianos . Estos modelos pueden diferir en el número y los valores de las variables predictoras, así como en sus valores previos sobre los parámetros del modelo. La complejidad del modelo ya se tiene en cuenta por la evidencia del modelo, porque marginaliza los parámetros al integrar sobre todos los valores posibles de y . Esta integral se puede calcular analíticamente y la solución se da en la siguiente ecuación. ^[5] $p(\mathbf {y} \mid m)$ $m$ $p(\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma )$ $p({\boldsymbol {\beta }},\sigma )$ $p(\mathbf {y} ,{\boldsymbol {\beta }},\sigma \mid \mathbf {X} )$ ${\boldsymbol {\beta }}$ $\sigma$ $p(\mathbf {y} |m)=\int p(\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma )\,p({\boldsymbol {\beta }},\sigma )\,d{\boldsymbol {\beta }}\,d\sigma$ $p(\mathbf {y} \mid m)={\frac {1}{(2\pi )^{n/2}}}{\sqrt {\frac {\det({\boldsymbol {\Lambda }}_{0})}{\det({\boldsymbol {\Lambda }}_{n})}}}\cdot {\frac {b_{0}^{a_{0}}}{b_{n}^{a_{n}}}}\cdot {\frac {\Gamma (a_{n})}{\Gamma (a_{0})}}$

Aquí se denota la función gamma . Debido a que hemos elegido una función anterior conjugada, la verosimilitud marginal también se puede calcular fácilmente evaluando la siguiente igualdad para valores arbitrarios de y . Nótese que esta ecuación no es más que una reorganización del teorema de Bayes . Insertar las fórmulas para la función anterior, la verosimilitud y la función posterior y simplificar la expresión resultante conduce a la expresión analítica dada anteriormente. $\Gamma$ ${\boldsymbol {\beta }}$ $\sigma$ $p(\mathbf {y} \mid m)={\frac {p({\boldsymbol {\beta }},\sigma |m)\,p(\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma ,m)}{p({\boldsymbol {\beta }},\sigma \mid \mathbf {y} ,\mathbf {X} ,m)}}$

Otros casos

En general, puede resultar imposible o poco práctico derivar la distribución posterior analíticamente. Sin embargo, es posible aproximarla mediante un método de inferencia bayesiana aproximada , como el muestreo de Monte Carlo , ^[6] INLA o Bayes variacional .

El caso especial se llama regresión de cresta . ${\boldsymbol {\mu }}_{0}=0,\mathbf {\Lambda } _{0}=c\mathbf {I}$

Se puede realizar un análisis similar para el caso general de la regresión multivariada y parte de éste prevé la estimación bayesiana de matrices de covarianza : véase regresión lineal multivariada bayesiana .

Véase también

Notas

^ Véase Jackman (2009), pág. 101.
^ Véase Gelman et al. (2013), pág. 354.
^ Los pasos intermedios de este cálculo se pueden encontrar en O'Hagan (1994) al comienzo del capítulo sobre modelos lineales.
^ Los pasos intermedios se encuentran en Fahrmeir et al. (2009) en la página 188.
^ Los pasos intermedios de este cálculo se pueden encontrar en O'Hagan (1994) en la página 257.
^ Carlin y Louis (2008) y Gelman, et al. (2003) explican cómo utilizar métodos de muestreo para la regresión lineal bayesiana.

Referencias

Box, GEP ; Tiao, GC (1973). Inferencia bayesiana en análisis estadístico . Wiley. ISBN 0-471-57428-7.
Carlin, Bradley P.; Louis, Thomas A. (2008). Métodos bayesianos para el análisis de datos (tercera edición). Boca Raton, FL: Chapman and Hall/CRC. ISBN 1-58488-697-8.
Fahrmeir, L.; Kneib, T.; Lang, S. (2009). Regresión. Modelle, Methoden und Anwendungen (Segunda ed.). Heidelberg: Springer. doi :10.1007/978-3-642-01837-4. ISBN 978-3-642-01836-7.
Gelman, Andrew ; et al. (2013). "Introducción a los modelos de regresión". Análisis de datos bayesianos (tercera edición). Boca Raton, FL: Chapman and Hall/CRC. págs. 353–380. ISBN 978-1-4398-4095-5.
Jackman, Simon (2009). "Modelos de regresión". Análisis bayesiano para las ciencias sociales . Wiley. pp. 99–124. ISBN 978-0-470-01154-6.
Rossi, Peter E.; Allenby, Greg M.; McCulloch, Robert (2006). Estadística bayesiana y marketing . John Wiley & Sons. ISBN 0470863676.
O'Hagan, Anthony (1994). Inferencia bayesiana . Kendall's Advanced Theory of Statistics. Vol. 2B (Primera edición). Halsted. ISBN 0-340-52922-9.

Enlaces externos

Estimación bayesiana de modelos lineales (wikilibro de programación R). Regresión lineal bayesiana tal como se implementa en R.