stringtranslate.com

Regresión de ángulo mínimo

Coeficientes estandarizados que se muestran en función de la proporción de contracción.

En estadística , la regresión de ángulo mínimo (LARS) es un algoritmo para ajustar modelos de regresión lineal a datos de alta dimensión, desarrollado por Bradley Efron , Trevor Hastie , Iain Johnstone y Robert Tibshirani . [1]

Supongamos que esperamos que una variable de respuesta esté determinada por una combinación lineal de un subconjunto de posibles covariables. En ese caso, el algoritmo LARS proporciona un medio para producir una estimación de las variables que se deben incluir, así como sus coeficientes.

En lugar de dar un resultado vectorial, la solución LARS consiste en una curva que denota la solución para cada valor de la norma L1 del vector de parámetros. El algoritmo es similar a la regresión gradual hacia adelante , pero en lugar de incluir variables en cada paso, los parámetros estimados se incrementan en una dirección equiangular a las correlaciones de cada uno con el residuo.

Pros y contras

Las ventajas del método LARS son:

  1. Desde el punto de vista computacional, es tan rápido como la selección hacia adelante.
  2. Produce una ruta de solución lineal completa por partes, lo que resulta útil en la validación cruzada o intentos similares de ajustar el modelo.
  3. Si dos variables están correlacionadas casi por igual con la respuesta, sus coeficientes deberían aumentar aproximadamente a la misma tasa. El algoritmo se comporta así como sugiere la intuición y, además, es más estable.
  4. Se puede modificar fácilmente para producir algoritmos eficientes para otros métodos que produzcan resultados similares, como el lazo y la regresión progresiva.
  5. Es eficaz en contextos donde p  ≫  n (es decir, cuando el número de predictores p es significativamente mayor que el número de puntos n ) [2]

Las desventajas del método LARS incluyen:

  1. Con cualquier cantidad de ruido en la variable dependiente y con variables independientes multicolineales de alta dimensión , no hay razón para creer que las variables seleccionadas tendrán una alta probabilidad de ser las variables causales subyacentes reales. Este problema no es exclusivo de LARS, ya que es un problema general con los enfoques de selección de variables que buscan encontrar componentes deterministas subyacentes. Sin embargo, debido a que LARS se basa en un reajuste iterativo de los residuos, parece ser especialmente sensible a los efectos del ruido. Este problema es analizado en detalle por Weisberg en la sección de discusión del artículo de Efron et al. (2004) en Annals of Statistics. [3] Weisberg proporciona un ejemplo empírico basado en el reanálisis de los datos utilizados originalmente para validar LARS de que la selección de variables parece tener problemas con variables altamente correlacionadas.
  2. Dado que casi todos los datos de alta dimensión en el mundo real exhibirán por casualidad algún grado de colinealidad en al menos algunas variables, el problema que tiene LARS con las variables correlacionadas puede limitar su aplicación a datos de alta dimensión.

Algoritmo

Los pasos básicos del algoritmo de regresión de ángulo mínimo son:

Implementación de software

La regresión de ángulo mínimo se implementa en R a través del paquete lars, en Python con el paquete scikit-learn y en SAS a través del procedimiento GLMSELECT.

Véase también

Referencias

  1. ^ Efron, Bradley ; Hastie, Trevor; Johnstone, Iain; Tibshirani, Robert (2004). "Regresión de ángulo mínimo" (PDF) . Anales de estadística . 32 (2): págs. 407–499. arXiv : math/0406456 . doi :10.1214/009053604000000067. MR  2060166. S2CID  204004121.
  2. ^ Hastie, Trevor; Robert, Tibshirani; Jerome, Friedman (2009). Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción (2.ª ed., 2009) (PDF) . Springer Series in Statistics. Springer Nueva York. pág. 76. doi :10.1007/978-0-387-84858-7. ISBN . 978-0-387-84857-0.
  3. ^ Véase la discusión de Weisberg siguiendo a Efron, Bradley ; Hastie, Trevor; Johnstone, Iain; Tibshirani, Robert (2004). "Least Angle Regression" (PDF) . Annals of Statistics . 32 (2): págs. 407–499. arXiv : math/0406456 . doi :10.1214/009053604000000067. MR  2060166. S2CID  204004121.
  4. ^ "Una explicación sencilla de la regresión de Lasso y del ángulo mínimo". Archivado desde el original el 21 de junio de 2015.