LASSO (estadística)

En Estadística y Aprendizaje Automático, Lasso (least absolute shrinkage and selection operator, por sus siglas en inglés), es un método de análisis de regresión que realiza selección de variables y regularización para mejorar la exactitud e interpretabilidad del modelo estadístico producido por este.Fue introducido por Robert Tibshirani en 1996 basado en el trabajo de Leo Breiman sobre el Garrote No-Negativo.[1]​[2]​ Lasso fue formulado originalmente para el método de mínimos cuadrados y este caso simple revela una cantidad substancial acerca del comportamiento del estimador, incluyendo su relación con ridge regression y selección de subconjuntos (de variables) y la conexión entre los coeficientes estimados con lasso y el llamado 'soft thresholding'.También revela que (al igual que la Regresión Lineal estándar) los coeficientes estimados no necesariamente son únicos si las variables independientes son colineales.Robert Tibshirani introdujo lasso para mejorar la exactitud de la predicciones e interpretabilidad de los modelo estadísticos de regresión al alterar el proceso de construcción del modelo al seleccionar solamente un subconjunto de (y no todas) las variables provistas para usar en el modelo final.[1]​ Está basado en el Garrote no negativo de Breiman, que tiene propósitos similares, pero funciona de manera un poco diferente.[2]​ Antes de lasso, el método más usado para decidir qué variables incluir en un modelo era stepwise selection, que sólo mejora la exactitud de las predicciones en ciertos casos, como cuando sólo unas pocas variables tienen una relación fuerte con la variable independiente.Sin embargo, en otros casos, puede agravar los errores de predicción.Además, en ese momento, ridge regression era la técnica más popular para mejorar la exactitud de las predicciones.Ridge regression mejora los errores de predicción al reducir en tamaño los coeficientes de regresión que sean demasiado grandes para reducir el sobreajuste (overfitting), pero no realiza selección de variables y por tanto no produce un modelo más interpretable.Considere una clúster de N casos (observaciones), cada una con p variable y una sola variable independente.la variable independiente y{\displaystyle x_{i}:=(x_{1},x_{2},\ldots ,x_{p})^{T}}el vector con variables para el casoEntonces, el objetivo del Lasso es resolver Aquíes el vector de coeficientes yes un parámetro pre especificado que determine la cantidad de regularization.{\displaystyle X_{ij}=(x_{i})_{j}}es la 'i-esima fila de, podemos escribir de forma más compacta el problema como: dondees la p-norma en dimensiones finitas (Denotando la media escalar de los puntos{\displaystyle {\hat {\beta }}_{0}={\bar {y}}-{\bar {x}}^{T}\beta }, de modo que: y así es estándar trabajar con variables centralizadas.Adicionalmente las variables son estandarizadaspara que la solución no sea afectada por la escala de las mediciones.Puede ser útil rescribir el problema en su forma Lagrangiana.depende de los datos.