Regresión de picos y losas

La regresión de picos y losas es un tipo de regresión lineal bayesiana en la que se elige una distribución previa jerárquica particular para los coeficientes de regresión de modo que solo se retenga un subconjunto de los regresores posibles . La técnica es particularmente útil cuando el número de predictores posibles es mayor que el número de observaciones. ^[1] La idea del modelo de picos y losas fue propuesta originalmente por Mitchell y Beauchamp (1988). ^[2] El enfoque fue desarrollado significativamente por Madigan y Raftery (1994) ^[3] y George y McCulloch (1997). ^[4] Una contribución reciente e importante a esta literatura es Ishwaran y Rao (2005). ^[5]

Descripción del modelo

Supongamos que tenemos P posibles predictores en algún modelo. El vector γ tiene una longitud igual a P y consta de ceros y unos. Este vector indica si una variable particular está incluida en la regresión o no. Si no hay disponible información previa específica sobre las probabilidades de inclusión inicial de variables particulares, una distribución previa de Bernoulli es una opción predeterminada común. ^[6] Con la condición de que un predictor esté en la regresión, identificamos una distribución previa para el coeficiente del modelo, que corresponde a esa variable ( β ). Una opción común en ese paso es utilizar una distribución previa normal con una media igual a cero y una gran varianza calculada en base a (donde es una matriz de diseño de variables explicativas del modelo). ^[7] $estilo de visualización (X^{T}X)^{-1}}$ ${\estilo de visualización X}$

Un sorteo de γ a partir de su distribución previa es una lista de las variables incluidas en la regresión. Condicional a este conjunto de variables seleccionadas, tomamos un sorteo de la distribución previa de los coeficientes de regresión (si γ _i = 1 entonces β _i ≠ 0 y si γ _i = 0 entonces β _i = 0). βγ denota el subconjunto de β para el cual γ _i = 1. En el siguiente paso, calculamos una probabilidad posterior tanto para la inclusión como para los coeficientes aplicando un procedimiento estadístico estándar. ^[8] Todos los pasos del algoritmo descrito se repiten miles de veces utilizando la técnica de Monte Carlo de cadena de Markov (MCMC). Como resultado, obtenemos una distribución posterior de γ (inclusión de variable en el modelo), β (valores de coeficiente de regresión) y la predicción correspondiente de y .

El modelo recibió su nombre (pico y losa) debido a la forma de las dos distribuciones previas. El "pico" es la probabilidad de que un coeficiente particular en el modelo sea cero. La "losa" es la distribución previa para los valores de los coeficientes de regresión.

Una ventaja de las técnicas de selección de variables bayesianas es que pueden hacer uso del conocimiento previo sobre el modelo. En ausencia de dicho conocimiento, se pueden utilizar algunos valores predeterminados razonables; por citar a Scott y Varian (2013): "Para el analista que prefiere la simplicidad a costa de algunos supuestos razonables, la información previa útil se puede reducir a un tamaño de modelo esperado, un R ² esperado y un tamaño de muestra ν que determine el peso dado a la estimación de R ² ". ^[6] Algunos investigadores sugieren los siguientes valores predeterminados: R ² = 0,5, ν = 0,01 y $π$ = 0,5 (parámetro de una distribución de Bernoulli previa). ^[6]

Véase también

Referencias

^ Varian, Hal R. (2014). "Big Data: nuevos trucos para la econometría". Journal of Economic Perspectives . 28 (2): 3–28. doi : 10.1257/jep.28.2.3 .
^ Mitchell, TJ; Beauchamp, JJ (1988). "Selección de variable bayesiana en regresión lineal". Revista de la Asociación Estadounidense de Estadística . 83 (404): 1023–1032. doi :10.1080/01621459.1988.10478694.
^ Madigan, David; Raftery, Adrian E. (1994). "Selección de modelos y contabilidad de la incertidumbre de los modelos en modelos gráficos utilizando la ventana de Occam". Revista de la Asociación Estadounidense de Estadística . 89 (428): 1535–1546. doi :10.1080/01621459.1994.10476894.
^ George, Edward I.; McCulloch, Robert E. (1997). "Enfoques para la selección de variables bayesianas". Statistica Sinica . 7 (2): 339–373. JSTOR 24306083.
^ Ishwaran, Hemant; Rao, J. Sunil (2005). "Selección de variables de pico y de losa: estrategias frecuentistas y bayesianas". Anales de estadística . 33 (2): 730–773. arXiv : math/0505633 . Bibcode :2005math......5633I. doi :10.1214/009053604000001147. S2CID 9004248.
^ abc Scott, Steven L.; Varian, Hal R. (2014). "Predicción del presente con series temporales estructurales bayesianas". Revista internacional de modelado matemático y optimización numérica . 5 (1–2): 4–23. CiteSeerX 10.1.1.363.2973 . doi :10.1504/IJMMNO.2014.059942.
^ "Selección de variables bayesianas para la predicción a corto plazo de series temporales económicas" (PDF) .
^ Brodersen, Kay H.; Gallusser, Fabian; Koehler, Jim; Remy, Nicolas; Scott, Steven L. (2015). "Inferir el impacto causal utilizando modelos de series temporales estructurales bayesianos". Anales de estadística aplicada . 9 : 247–274. arXiv : 1506.00356 . doi :10.1214/14-AOAS788. S2CID 2879370.

Lectura adicional

Congdon, Peter D. (2020). "Técnicas de regresión utilizando valores jerárquicos previos". Modelos jerárquicos bayesianos (2.ª ed.). Boca Raton: CRC Press. pp. 253–315. ISBN 978-1-03-217715-1.