Las desviaciones mínimas absolutas ( LAD ), también conocidas como errores mínimos absolutos ( LAE ), residuos mínimos absolutos ( LAR ) o valores mínimos absolutos ( LAV ), son un criterio de optimalidad estadística y una técnica de optimización estadística basada en minimizar la suma de las desviaciones absolutas (también suma de residuos absolutos o suma de errores absolutos ) o la norma L 1 de dichos valores. Es análoga a la técnica de mínimos cuadrados , excepto que se basa en valores absolutos en lugar de valores al cuadrado . Intenta encontrar una función que se aproxime estrechamente a un conjunto de datos minimizando los residuos entre los puntos generados por la función y los puntos de datos correspondientes. La estimación LAD también surge como la estimación de máxima verosimilitud si los errores tienen una distribución de Laplace . Fue introducida en 1757 por Roger Joseph Boscovich . [1]
Supongamos que el conjunto de datos consta de los puntos ( x i , y i ) con i = 1, 2, ..., n . Queremos encontrar una función f tal que
Para alcanzar este objetivo, suponemos que la función f tiene una forma particular que contiene algunos parámetros que necesitan ser determinados. Por ejemplo, la forma más simple sería lineal: f ( x ) = bx + c , donde b y c son parámetros cuyos valores no se conocen pero que nos gustaría estimar. De manera menos simple, supongamos que f ( x ) es cuadrática , lo que significa que f ( x ) = ax 2 + bx + c , donde a , b y c aún no se conocen. (De manera más general, podría haber no solo un explicador x , sino más bien múltiples explicadores, todos apareciendo como argumentos de la función f ).
Ahora buscamos valores estimados de los parámetros desconocidos que minimicen la suma de los valores absolutos de los residuos:
Aunque la idea de la regresión de mínimas desviaciones absolutas es tan sencilla como la de la regresión de mínimos cuadrados, la línea de mínimas desviaciones absolutas no es tan fácil de calcular de manera eficiente. A diferencia de la regresión de mínimos cuadrados, la regresión de mínimas desviaciones absolutas no tiene un método de solución analítico. Por lo tanto, se requiere un enfoque iterativo. A continuación, se enumeran algunos métodos de solución de mínimas desviaciones absolutas.
Los métodos basados en símplex son la forma “preferida” de resolver el problema de las desviaciones mínimas absolutas. [7] Un método símplex es un método para resolver un problema de programación lineal. El algoritmo más popular es el algoritmo símplex modificado de Barrodale-Roberts. Los algoritmos para IRLS, el método de Wesolowsky y el método de Li se pueden encontrar en el Apéndice A de [7], entre otros métodos. Verificar todas las combinaciones de líneas que atraviesan dos puntos de datos (x, y) es otro método para encontrar la línea de desviaciones mínimas absolutas. Dado que se sabe que al menos una línea de desviaciones mínimas absolutas atraviesa al menos dos puntos de datos, este método encontrará una línea comparando el SAE (error absoluto más pequeño sobre los puntos de datos) de cada línea y eligiendo la línea con el SAE más pequeño. Además, si varias líneas tienen el mismo SAE más pequeño, entonces las líneas delimitan la región de múltiples soluciones. Aunque simple, este último método es ineficiente para grandes conjuntos de datos.
El problema se puede resolver utilizando cualquier técnica de programación lineal según la siguiente especificación del problema. Deseamos
con respecto a la elección de los valores de los parámetros , donde y i es el valor de la i ésima observación de la variable dependiente, y x ij es el valor de la i ésima observación de la j ésima variable independiente ( j = 1,..., k ). Reescribimos este problema en términos de variables artificiales u i como
Estas restricciones tienen el efecto de obligar a que cada una de ellas sea igual al minimizarse, por lo que la función objetivo es equivalente a la función objetivo original. Dado que esta versión del enunciado del problema no contiene el operador de valor absoluto, está en un formato que se puede resolver con cualquier paquete de programación lineal.
Existen otras propiedades únicas de la línea de desviaciones mínimas absolutas. En el caso de un conjunto de datos ( x , y ), la línea de desviaciones mínimas absolutas siempre pasará por al menos dos de los puntos de datos, a menos que haya múltiples soluciones. Si existen múltiples soluciones, entonces la región de soluciones válidas de desviaciones mínimas absolutas estará limitada por al menos dos líneas, cada una de las cuales pasa por al menos dos puntos de datos. De manera más general, si hay k regresores (incluida la constante), entonces al menos una superficie de regresión óptima pasará por k de los puntos de datos. [8] : p.936
Este "enganche" de la línea a los puntos de datos puede ayudar a entender la propiedad de "inestabilidad": si la línea siempre se engancha a al menos dos puntos, entonces saltará entre diferentes conjuntos de puntos a medida que se alteren los puntos de datos. El "enganche" también ayuda a entender la propiedad de "robustez": si existe un valor atípico y una línea de desviaciones absolutas mínimas debe engancharse a dos puntos de datos, lo más probable es que el valor atípico no sea uno de esos dos puntos porque eso no minimizará la suma de las desviaciones absolutas en la mayoría de los casos.
Un caso conocido en el que existen múltiples soluciones es un conjunto de puntos simétricos respecto de una línea horizontal, como se muestra en la Figura A a continuación.
Para entender por qué hay múltiples soluciones en el caso que se muestra en la Figura A, considere la línea rosa en la región verde. Su suma de errores absolutos es un valor S. Si uno inclinara la línea ligeramente hacia arriba, mientras que todavía la mantuviera dentro de la región verde, la suma de errores seguiría siendo S. No cambiaría porque la distancia desde cada punto a la línea crece en un lado de la línea, mientras que la distancia a cada punto en el lado opuesto de la línea disminuye exactamente en la misma cantidad. Por lo tanto, la suma de errores absolutos permanece igual. Además, dado que uno puede inclinar la línea en incrementos infinitamente pequeños, esto también muestra que si hay más de una solución, hay infinitas soluciones.
La siguiente es una tabla que contrasta algunas propiedades del método de mínimas desviaciones absolutas con las del método de mínimos cuadrados (para problemas no singulares). [9] [10]
*Siempre que el número de puntos de datos sea mayor o igual al número de características.
El método de las desviaciones mínimas absolutas se aplica en muchas áreas debido a su robustez en comparación con el método de mínimos cuadrados. Las desviaciones mínimas absolutas son robustas en el sentido de que son resistentes a los valores atípicos en los datos. El método LAD da el mismo énfasis a todas las observaciones, en contraste con los mínimos cuadrados ordinarios (MCO) que, al elevar al cuadrado los residuos, da más peso a los residuos grandes, es decir, los valores atípicos en los que los valores predichos están lejos de las observaciones reales. Esto puede ser útil en estudios en los que no es necesario dar mayor peso a los valores atípicos que a otras observaciones. Si es importante dar mayor peso a los valores atípicos, el método de mínimos cuadrados es una mejor opción.
Si en la suma de los valores absolutos de los residuos se generaliza la función de valor absoluto a una función de valor absoluto inclinada, que en la semirrecta izquierda tiene pendiente y en la semirrecta derecha tiene pendiente , donde , se obtiene la regresión cuantil . El caso de da la regresión estándar por mínimas desviaciones absolutas y también se conoce como regresión mediana .
El problema de la desviación mínima absoluta puede extenderse para incluir múltiples explicadores, restricciones y regularización , por ejemplo, un modelo lineal con restricciones lineales: [11]
donde es un vector columna de coeficientes a estimar, b es una intersección a estimar, x i es un vector columna de las i ésimas observaciones sobre los diversos explicadores, y i es la i ésima observación sobre la variable dependiente y k es una constante conocida.
La regularización con LASSO (operador de selección y contracción mínima absoluta) también se puede combinar con LAD. [12]