Supongamos que esperamos que una variable de respuesta esté determinada por una combinación lineal de un subconjunto de posibles covariables. En ese caso, el algoritmo LARS proporciona un medio para producir una estimación de las variables que se deben incluir, así como sus coeficientes.
En lugar de dar un resultado vectorial, la solución LARS consiste en una curva que denota la solución para cada valor de la norma L1 del vector de parámetros. El algoritmo es similar a la regresión gradual hacia adelante , pero en lugar de incluir variables en cada paso, los parámetros estimados se incrementan en una dirección equiangular a las correlaciones de cada uno con el residuo.
Pros y contras
Las ventajas del método LARS son:
Desde el punto de vista computacional, es tan rápido como la selección hacia adelante.
Produce una ruta de solución lineal completa por partes, lo que resulta útil en la validación cruzada o intentos similares de ajustar el modelo.
Si dos variables están correlacionadas casi por igual con la respuesta, sus coeficientes deberían aumentar aproximadamente a la misma velocidad. El algoritmo se comporta así como sugiere la intuición y, además, es más estable.
Se puede modificar fácilmente para producir algoritmos eficientes para otros métodos que produzcan resultados similares, como el lazo y la regresión progresiva.
Es eficaz en contextos donde p ≫ n (es decir, cuando el número de predictores p es significativamente mayor que el número de puntos n ) [2]
Las desventajas del método LARS incluyen:
Con cualquier cantidad de ruido en la variable dependiente y con variables independientes multicolineales de alta dimensión , no hay razón para creer que las variables seleccionadas tendrán una alta probabilidad de ser las variables causales subyacentes reales. Este problema no es exclusivo de LARS, ya que es un problema general con los enfoques de selección de variables que buscan encontrar componentes deterministas subyacentes. Sin embargo, debido a que LARS se basa en un reajuste iterativo de los residuos, parece ser especialmente sensible a los efectos del ruido. Este problema es analizado en detalle por Weisberg en la sección de discusión del artículo de Efron et al. (2004) en Annals of Statistics. [3] Weisberg proporciona un ejemplo empírico basado en el reanálisis de los datos utilizados originalmente para validar LARS de que la selección de variables parece tener problemas con variables altamente correlacionadas.
Dado que casi todos los datos de alta dimensión en el mundo real exhibirán por casualidad algún grado de colinealidad en al menos algunas variables, el problema que tiene LARS con las variables correlacionadas puede limitar su aplicación a datos de alta dimensión.
Algoritmo
Los pasos básicos del algoritmo de regresión de ángulo mínimo son:
Comience con todos los coeficientes iguales a cero.
Encuentre el predictor más correlacionado con .
Aumente el coeficiente en la dirección del signo de su correlación con . Tome los residuos a lo largo del camino. Deténgase cuando algún otro predictor tenga tanta correlación con como .
Aumente ( , ) en su dirección de mínimos cuadrados conjuntos, hasta que algún otro predictor tenga tanta correlación con el residuo .
Aumente ( , , ) en su dirección de mínimos cuadrados conjuntos, hasta que algún otro predictor tenga tanta correlación con el residuo .
Continuar hasta que: todos los predictores estén en el modelo. [4]
Implementación de software
La regresión de ángulo mínimo se implementa en R a través del paquete lars, en Python con el paquete scikit-learn y en SAS a través del procedimiento GLMSELECT.
^ Efron, Bradley ; Hastie, Trevor; Johnstone, Iain; Tibshirani, Robert (2004). "Regresión de ángulo mínimo" (PDF) . Anales de estadística . 32 (2): págs. 407–499. arXiv : math/0406456 . doi :10.1214/009053604000000067. MR 2060166. S2CID 204004121.
^ Hastie, Trevor; Robert, Tibshirani; Jerome, Friedman (2009). Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción (2.ª ed., 2009) (PDF) . Springer Series in Statistics. Springer Nueva York. pág. 76. doi :10.1007/978-0-387-84858-7. ISBN .978-0-387-84857-0.
^ Véase la discusión de Weisberg siguiendo a Efron, Bradley ; Hastie, Trevor; Johnstone, Iain; Tibshirani, Robert (2004). "Least Angle Regression" (PDF) . Annals of Statistics . 32 (2): págs. 407–499. arXiv : math/0406456 . doi :10.1214/009053604000000067. MR 2060166. S2CID 204004121.
^ "Una explicación sencilla de la regresión de Lasso y del ángulo mínimo". Archivado desde el original el 21 de junio de 2015.