Desviaciones absolutas mínimas

Las desviaciones mínimas absolutas ( LAD ), también conocidas como errores mínimos absolutos ( LAE ), residuos mínimos absolutos ( LAR ) o valores mínimos absolutos ( LAV ), son un criterio de optimalidad estadística y una técnica de optimización estadística basada en minimizar la suma de las desviaciones absolutas (también suma de residuos absolutos o suma de errores absolutos ) o la norma L 1 de dichos valores. Es análoga a la técnica de mínimos cuadrados , excepto que se basa en valores absolutos en lugar de valores al cuadrado . Intenta encontrar una función que se aproxime estrechamente a un conjunto de datos minimizando los residuos entre los puntos generados por la función y los puntos de datos correspondientes. La estimación LAD también surge como la estimación de máxima verosimilitud si los errores tienen una distribución de Laplace . Fue introducida en 1757 por Roger Joseph Boscovich . ^[1]

Formulación

Supongamos que el conjunto de datos consta de los puntos ( x _i , y _i ) con i = 1, 2, ..., n . Queremos encontrar una función f tal que $f(x_{i})\approx y_{i}.$

Para alcanzar este objetivo, suponemos que la función f tiene una forma particular que contiene algunos parámetros que necesitan ser determinados. Por ejemplo, la forma más simple sería lineal: f ( x ) = bx + c , donde b y c son parámetros cuyos valores no se conocen pero que nos gustaría estimar. De manera menos simple, supongamos que f ( x ) es cuadrática , lo que significa que f ( x ) = ax ² + bx + c , donde a , b y c aún no se conocen. (De manera más general, podría haber no solo un explicador x , sino más bien múltiples explicadores, todos apareciendo como argumentos de la función f ).

Ahora buscamos valores estimados de los parámetros desconocidos que minimicen la suma de los valores absolutos de los residuos:

S=\sum _{i=1}^{n}|y_{i}-f(x_{i})|.

Solución

Aunque la idea de la regresión de mínimas desviaciones absolutas es tan sencilla como la de la regresión de mínimos cuadrados, la línea de mínimas desviaciones absolutas no es tan fácil de calcular de manera eficiente. A diferencia de la regresión de mínimos cuadrados, la regresión de mínimas desviaciones absolutas no tiene un método de solución analítico. Por lo tanto, se requiere un enfoque iterativo. A continuación, se enumeran algunos métodos de solución de mínimas desviaciones absolutas.

Métodos basados en símplex (como el algoritmo Barrodale-Roberts ^[2] )
- Dado que el problema es un programa lineal , se puede aplicar cualquiera de las muchas técnicas de programación lineal (incluido el método simplex y otros).
Mínimos cuadrados reponderados iterativamente ^[3]
Método de descendencia directa de Wesolowsky ^[4]
El enfoque de máxima verosimilitud de Li-Arce ^[5]
Enfoque de reducción recursiva de dimensionalidad ^[6]
Comprueba todas las combinaciones de líneas punto a punto para obtener la suma mínima de errores

Los métodos basados en símplex son la forma “preferida” de resolver el problema de las desviaciones mínimas absolutas. ^[7] Un método símplex es un método para resolver un problema de programación lineal. El algoritmo más popular es el algoritmo símplex modificado de Barrodale-Roberts. Los algoritmos para IRLS, el método de Wesolowsky y el método de Li se pueden encontrar en el Apéndice A de ^[7], entre otros métodos. Verificar todas las combinaciones de líneas que atraviesan dos puntos de datos (x, y) es otro método para encontrar la línea de desviaciones mínimas absolutas. Dado que se sabe que al menos una línea de desviaciones mínimas absolutas atraviesa al menos dos puntos de datos, este método encontrará una línea comparando el SAE (error absoluto más pequeño sobre los puntos de datos) de cada línea y eligiendo la línea con el SAE más pequeño. Además, si varias líneas tienen el mismo SAE más pequeño, entonces las líneas delimitan la región de múltiples soluciones. Aunque simple, este último método es ineficiente para grandes conjuntos de datos.

Solución mediante programación lineal

El problema se puede resolver utilizando cualquier técnica de programación lineal según la siguiente especificación del problema. Deseamos

{\text{Minimize}}\sum _{i=1}^{n}|y_{i}-a_{0}-a_{1}x_{i1}-a_{2}x_{i2}-\cdots -a_{k}x_{ik}|

con respecto a la elección de los valores de los parámetros , donde y _i es el valor de la i ^ésima observación de la variable dependiente, y x _ij es el valor de la i ^ésima observación de la j ^ésima variable independiente ( j = 1,..., k ). Reescribimos este problema en términos de variables artificiales u _i como $a_{0},\ldots ,a_{k}$

{\text{Minimize}}\sum _{i=1}^{n}u_{i}

con respecto a y

a_{0},\ldots ,a_{k}

u_{1},\ldots ,u_{n}

sujeto a

u_{i}\geq y_{i}-a_{0}-a_{1}x_{i1}-a_{2}x_{i2}-\cdots -a_{k}x_{ik}\,\ \,\ \,\ \,\ \,\ {\text{for }}i=1,\ldots ,n

u_{i}\geq -[y_{i}-a_{0}-a_{1}x_{i1}-a_{2}x_{i2}-\cdots -a_{k}x_{ik}]\,\ \,\ {\text{ for }}i=1,\ldots ,n.

Estas restricciones tienen el efecto de obligar a que cada una de ellas sea igual al minimizarse, por lo que la función objetivo es equivalente a la función objetivo original. Dado que esta versión del enunciado del problema no contiene el operador de valor absoluto, está en un formato que se puede resolver con cualquier paquete de programación lineal. $u_{i}$ $|y_{i}-a_{0}-a_{1}x_{i1}-a_{2}x_{i2}-\cdots -a_{k}x_{ik}|$

Propiedades

Existen otras propiedades únicas de la línea de desviaciones mínimas absolutas. En el caso de un conjunto de datos ( x , y ), la línea de desviaciones mínimas absolutas siempre pasará por al menos dos de los puntos de datos, a menos que haya múltiples soluciones. Si existen múltiples soluciones, entonces la región de soluciones válidas de desviaciones mínimas absolutas estará limitada por al menos dos líneas, cada una de las cuales pasa por al menos dos puntos de datos. De manera más general, si hay k regresores (incluida la constante), entonces al menos una superficie de regresión óptima pasará por k de los puntos de datos. ^[8]^{: p.936}

Este "enganche" de la línea a los puntos de datos puede ayudar a entender la propiedad de "inestabilidad": si la línea siempre se engancha a al menos dos puntos, entonces saltará entre diferentes conjuntos de puntos a medida que se alteren los puntos de datos. El "enganche" también ayuda a entender la propiedad de "robustez": si existe un valor atípico y una línea de desviaciones absolutas mínimas debe engancharse a dos puntos de datos, lo más probable es que el valor atípico no sea uno de esos dos puntos porque eso no minimizará la suma de las desviaciones absolutas en la mayoría de los casos.

Un caso conocido en el que existen múltiples soluciones es un conjunto de puntos simétricos respecto de una línea horizontal, como se muestra en la Figura A a continuación.

Figura A: Un conjunto de puntos de datos con simetría de reflexión y múltiples soluciones de desviaciones absolutas mínimas. El “área de solución” se muestra en verde. Las líneas azules verticales representan los errores absolutos desde la línea rosa hasta cada punto de datos. La línea rosa es una de las infinitas soluciones dentro del área verde.

Para entender por qué hay múltiples soluciones en el caso que se muestra en la Figura A, considere la línea rosa en la región verde. Su suma de errores absolutos es un valor S. Si uno inclinara la línea ligeramente hacia arriba, mientras que todavía la mantuviera dentro de la región verde, la suma de errores seguiría siendo S. No cambiaría porque la distancia desde cada punto a la línea crece en un lado de la línea, mientras que la distancia a cada punto en el lado opuesto de la línea disminuye exactamente en la misma cantidad. Por lo tanto, la suma de errores absolutos permanece igual. Además, dado que uno puede inclinar la línea en incrementos infinitamente pequeños, esto también muestra que si hay más de una solución, hay infinitas soluciones.

Ventajas y desventajas

La siguiente es una tabla que contrasta algunas propiedades del método de mínimas desviaciones absolutas con las del método de mínimos cuadrados (para problemas no singulares). ^[9]^[10]

*Siempre que el número de puntos de datos sea mayor o igual al número de características.

El método de las desviaciones mínimas absolutas se aplica en muchas áreas debido a su robustez en comparación con el método de mínimos cuadrados. Las desviaciones mínimas absolutas son robustas en el sentido de que son resistentes a los valores atípicos en los datos. El método LAD da el mismo énfasis a todas las observaciones, en contraste con los mínimos cuadrados ordinarios (MCO) que, al elevar al cuadrado los residuos, da más peso a los residuos grandes, es decir, los valores atípicos en los que los valores predichos están lejos de las observaciones reales. Esto puede ser útil en estudios en los que no es necesario dar mayor peso a los valores atípicos que a otras observaciones. Si es importante dar mayor peso a los valores atípicos, el método de mínimos cuadrados es una mejor opción.

Variaciones, ampliaciones, especializaciones

Si en la suma de los valores absolutos de los residuos se generaliza la función de valor absoluto a una función de valor absoluto inclinada, que en la semirrecta izquierda tiene pendiente y en la semirrecta derecha tiene pendiente , donde , se obtiene la regresión cuantil . El caso de da la regresión estándar por mínimas desviaciones absolutas y también se conoce como regresión mediana . $\tau -1$ $\tau$ $0<\tau <1$ $\tau =1/2$

El problema de la desviación mínima absoluta puede extenderse para incluir múltiples explicadores, restricciones y regularización , por ejemplo, un modelo lineal con restricciones lineales: ^[11]

minimizar

S(\mathbf {\beta } ,b)=\sum _{i}|\mathbf {x} '_{i}\mathbf {\beta } +b-y_{i}|

sujeto a, por ejemplo,

\mathbf {x} '_{1}\mathbf {\beta } +b-y_{1}\leq k

donde es un vector columna de coeficientes a estimar, b es una intersección a estimar, x _i es un vector columna de las i ^ésimas observaciones sobre los diversos explicadores, y _i es la i ^ésima observación sobre la variable dependiente y k es una constante conocida. $\mathbf {\beta }$

La regularización con LASSO (operador de selección y contracción mínima absoluta) también se puede combinar con LAD. ^[12]

Véase también

Referencias

^ "Regresión de desviación mínima absoluta". The Concise Encyclopedia of Statistics . Springer. 2008. págs. 299–302. doi :10.1007/978-0-387-32833-1_225. ISBN 9780387328331.
^ Barrodale, I.; Roberts, FDK (1973). "Un algoritmo mejorado para la aproximación lineal discreta L _{1 ".}SIAM Journal on Numerical Analysis . 10 (5): 839–848. Bibcode :1973SJNA...10..839B. doi :10.1137/0710069. hdl : 1828/11491 . JSTOR 2156318.
^ Schlossmacher, EJ (diciembre de 1973). "Una técnica iterativa para el ajuste de curvas de desviaciones absolutas". Revista de la Asociación Estadounidense de Estadística . 68 (344): 857–859. doi :10.2307/2284512. JSTOR 2284512.
^ Wesolowsky, GO (1981). "Un nuevo algoritmo de descenso para el problema de regresión de valor absoluto mínimo". Comunicaciones en Estadística – Simulación y Computación . B10 (5): 479–491. doi :10.1080/03610918108812224.
^ Li, Yinbo; Arce, Gonzalo R. (2004). "Un enfoque de máxima verosimilitud para la regresión de desviación mínima absoluta". Revista EURASIP sobre procesamiento de señales aplicado . 2004 (12): 1762–1769. Bibcode :2004EJASP2004...61L. doi : 10.1155/S1110865704401139 .
^ Kržić, Ana Sovic; Seršić, Damir (2018). "Minimización de L1 mediante reducción recursiva de dimensionalidad". Procesamiento de señales . 151 : 119-129. doi :10.1016/j.sigpro.2018.05.002.
^ de William A. Pfeil, Material didáctico estadístico , tesis de licenciatura en Ciencias, Instituto Politécnico de Worcester , 2006
^ Branham, RL, Jr., "Alternativas a los mínimos cuadrados", Astronomical Journal 87, junio de 1982, 928–937. [1] en SAO/NASA Astrophysics Data System (ADS)
^ Para obtener un conjunto de subprogramas que demuestran estas diferencias, consulte el siguiente sitio: http://www.math.wpi.edu/Course_Materials/SAS/lablets/7.3/73_choices.html
^ Para una discusión de LAD versus OLS, consulte estos artículos e informes académicos: http://www.econ.uiuc.edu/~roger/research/rq/QRJEP.pdf y https://www.leeds.ac.uk/educol/documents/00003759.htm
^ Shi, Mingren; Mark A., Lukas (marzo de 2002). "Un algoritmo de estimación L1 con degeneración y restricciones lineales". Computational Statistics & Data Analysis . 39 (1): 35–55. doi :10.1016/S0167-9473(01)00049-4.
^ Wang, Li; Gordon, Michael D.; Zhu, Ji (diciembre de 2006). "Regresión de desviaciones absolutas mínimas regularizadas y un algoritmo eficiente para el ajuste de parámetros". Actas de la Sexta Conferencia Internacional sobre Minería de Datos . págs. 690–700. doi :10.1109/ICDM.2006.134.

Lectura adicional

Peter Bloomfield ; William Steiger (1980). "Ajuste de curvas de desviaciones mínimas absolutas". Revista SIAM de informática científica . 1 (2): 290–301. doi :10.1137/0901019.
Subhash C. Narula y John F. Wellington (1982). "La regresión de la suma mínima de errores absolutos: un estudio de vanguardia". International Statistical Review . 50 (3): 317–326. doi :10.2307/1402501. JSTOR 1402501.
Robert F. Phillips (julio de 2002). "Estimación de desviaciones mínimas absolutas mediante el algoritmo EM". Estadística y computación . 12 (3): 281–285. doi :10.1023/A:1020759012226.
Enno Siemsen y Kenneth A. Bollen (2007). "Estimación de la desviación mínima absoluta en el modelado de ecuaciones estructurales". Métodos sociológicos e investigación . 36 (2): 227–265. doi :10.1177/0049124107301946.