La regresión de picos y losas es un tipo de regresión lineal bayesiana en la que se elige una distribución previa jerárquica particular para los coeficientes de regresión de modo que solo se retenga un subconjunto de los regresores posibles . La técnica es particularmente útil cuando el número de predictores posibles es mayor que el número de observaciones. [1] La idea del modelo de picos y losas fue propuesta originalmente por Mitchell y Beauchamp (1988). [2] El enfoque fue desarrollado significativamente por Madigan y Raftery (1994) [3] y George y McCulloch (1997). [4] Una contribución reciente e importante a esta literatura es Ishwaran y Rao (2005). [5]
Supongamos que tenemos P posibles predictores en algún modelo. El vector γ tiene una longitud igual a P y consta de ceros y unos. Este vector indica si una variable particular está incluida en la regresión o no. Si no hay disponible información previa específica sobre las probabilidades de inclusión inicial de variables particulares, una distribución previa de Bernoulli es una opción predeterminada común. [6] Con la condición de que un predictor esté en la regresión, identificamos una distribución previa para el coeficiente del modelo, que corresponde a esa variable ( β ). Una opción común en ese paso es utilizar una distribución previa normal con una media igual a cero y una gran varianza calculada en base a (donde es una matriz de diseño de variables explicativas del modelo). [7]
Un sorteo de γ a partir de su distribución previa es una lista de las variables incluidas en la regresión. Condicional a este conjunto de variables seleccionadas, tomamos un sorteo de la distribución previa de los coeficientes de regresión (si γ i = 1 entonces β i ≠ 0 y si γ i = 0 entonces β i = 0). βγ denota el subconjunto de β para el cual γ i = 1. En el siguiente paso, calculamos una probabilidad posterior tanto para la inclusión como para los coeficientes aplicando un procedimiento estadístico estándar. [8] Todos los pasos del algoritmo descrito se repiten miles de veces utilizando la técnica de Monte Carlo de cadena de Markov (MCMC). Como resultado, obtenemos una distribución posterior de γ (inclusión de variable en el modelo), β (valores de coeficiente de regresión) y la predicción correspondiente de y .
El modelo recibió su nombre (pico y losa) debido a la forma de las dos distribuciones previas. El "pico" es la probabilidad de que un coeficiente particular en el modelo sea cero. La "losa" es la distribución previa para los valores de los coeficientes de regresión.
Una ventaja de las técnicas de selección de variables bayesianas es que pueden hacer uso del conocimiento previo sobre el modelo. En ausencia de dicho conocimiento, se pueden utilizar algunos valores predeterminados razonables; por citar a Scott y Varian (2013): "Para el analista que prefiere la simplicidad a costa de algunos supuestos razonables, la información previa útil se puede reducir a un tamaño de modelo esperado, un R 2 esperado y un tamaño de muestra ν que determine el peso dado a la estimación de R 2 ". [6] Algunos investigadores sugieren los siguientes valores predeterminados: R 2 = 0,5, ν = 0,01 y π = 0,5 (parámetro de una distribución de Bernoulli previa). [6]