Regresión robusta

En las estadísticas robustas , la regresión robusta busca superar algunas limitaciones del análisis de regresión tradicional . Un análisis de regresión modela la relación entre una o más variables independientes y una variable dependiente . Los tipos estándar de regresión, como los mínimos cuadrados ordinarios , tienen propiedades favorables si sus supuestos subyacentes son verdaderos, pero pueden dar resultados engañosos en caso contrario (es decir, no son robustos a las violaciones de los supuestos). Los métodos de regresión robusta están diseñados para limitar el efecto que las violaciones de los supuestos por parte del proceso subyacente de generación de datos tienen sobre las estimaciones de regresión.

Por ejemplo, las estimaciones de mínimos cuadrados para los modelos de regresión son muy sensibles a los valores atípicos : un valor atípico con el doble de la magnitud de error de una observación típica contribuye cuatro veces (dos al cuadrado) más a la pérdida de error al cuadrado y, por lo tanto, tiene más influencia sobre las estimaciones de regresión. La función de pérdida de Huber es una alternativa robusta a la pérdida de error al cuadrado estándar que reduce las contribuciones de los valores atípicos a la pérdida de error al cuadrado, limitando así su impacto en las estimaciones de regresión.

Aplicaciones

Errores heterocedásticos

Un caso en el que se debe considerar la estimación robusta es cuando hay una fuerte sospecha de heterocedasticidad . En el modelo homocedástico , se supone que la varianza del término de error es constante para todos los valores de x . La heterocedasticidad permite que la varianza dependa de x , lo que es más preciso para muchos escenarios reales. Por ejemplo, la varianza del gasto suele ser mayor para las personas con ingresos más altos que para las personas con ingresos más bajos. Los paquetes de software suelen utilizar por defecto un modelo homocedástico, aunque dicho modelo puede ser menos preciso que un modelo heterocedástico. Un enfoque simple (Tofallis, 2008) es aplicar mínimos cuadrados a los errores porcentuales, ya que esto reduce la influencia de los valores más grandes de la variable dependiente en comparación con los mínimos cuadrados ordinarios.

Presencia de valores atípicos

Otra situación habitual en la que se utiliza la estimación robusta se produce cuando los datos contienen valores atípicos. En presencia de valores atípicos que no proceden del mismo proceso de generación de datos que el resto de los datos, la estimación por mínimos cuadrados es ineficiente y puede estar sesgada. Como las predicciones por mínimos cuadrados se arrastran hacia los valores atípicos y como la varianza de las estimaciones se infla artificialmente, el resultado es que los valores atípicos pueden quedar enmascarados. (En muchas situaciones, incluidas algunas áreas de la geoestadística y las estadísticas médicas, son precisamente los valores atípicos los que interesan).

Aunque a veces se afirma que los mínimos cuadrados (o los métodos estadísticos clásicos en general) son robustos, sólo lo son en el sentido de que la tasa de error de tipo I no aumenta cuando se violan los parámetros del modelo. De hecho, la tasa de error de tipo I tiende a ser inferior al nivel nominal cuando hay valores atípicos, y a menudo se produce un aumento drástico de la tasa de error de tipo II . La reducción de la tasa de error de tipo I se ha calificado como el conservadurismo de los métodos clásicos.

Historia e impopularidad de la regresión robusta

A pesar de su superioridad en muchas situaciones sobre la estimación por mínimos cuadrados, los métodos robustos de regresión aún no se utilizan ampliamente. Varias razones pueden ayudar a explicar su impopularidad (Hampel et al. 1986, 2005). Una posible razón es que existen varios métodos en competencia ^{[ cita requerida ]} y el campo tuvo muchos comienzos en falso. Además, el cálculo de estimaciones robustas es mucho más intensivo computacionalmente que la estimación por mínimos cuadrados; en los últimos años, sin embargo, esta objeción ha perdido relevancia, ya que la potencia de cálculo ha aumentado considerablemente. Otra razón puede ser que algunos paquetes de software estadístico populares no implementaron los métodos (Stromberg, 2004). Quizás la razón más importante de la impopularidad de los métodos de regresión robusta es que cuando la varianza del error es bastante grande o no existe, para cualquier conjunto de datos dado, cualquier estimación, robusta o no, de los coeficientes de regresión probablemente será prácticamente inútil a menos que la muestra sea bastante grande.

Aunque la adopción de métodos robustos ha sido lenta, los libros de texto de estadística modernos a menudo incluyen un análisis de estos métodos (por ejemplo, los libros de Seber y Lee, y de Faraway ^{[ vago ]} ; para una buena descripción general de cómo los diversos métodos de regresión robusta se desarrollaron unos a otros, véase el libro de Andersen ^{[ vago ]} ). Además, los paquetes de software estadístico modernos como R , Statsmodels, Stata y S-PLUS incluyen una funcionalidad considerable para la estimación robusta (véase, por ejemplo, los libros de Venables y Ripley, y de Maronna et al. ^{[ vago ]} ).

Métodos para regresión robusta

Alternativas de mínimos cuadrados

El método más simple para estimar parámetros en un modelo de regresión que sean menos sensibles a los valores atípicos que las estimaciones de mínimos cuadrados es utilizar las desviaciones mínimas absolutas . Incluso en ese caso, los valores atípicos importantes pueden tener un impacto considerable en el modelo, lo que motiva la investigación de enfoques aún más sólidos.

En 1964, Huber introdujo la estimación M para la regresión. La M en la estimación M significa "tipo de máxima verosimilitud". El método es robusto a los valores atípicos en la variable de respuesta, pero resultó no ser resistente a los valores atípicos en las variables explicativas ( puntos de influencia ). De hecho, cuando hay valores atípicos en las variables explicativas, el método no tiene ninguna ventaja sobre los mínimos cuadrados.

En la década de 1980, se propusieron varias alternativas a la estimación M como intentos de superar la falta de resistencia. Consulte el libro de Rousseeuw y Leroy ^{[ vague ]} para una revisión muy práctica. Los mínimos cuadrados recortados (LTS) son una alternativa viable y actualmente (2007) es la opción preferida de Rousseeuw y Ryan (1997, 2008). El estimador de Theil-Sen tiene un punto de ruptura más bajo que el LTS pero es estadísticamente eficiente y popular. Otra solución propuesta fue la estimación S. Este método encuentra una línea (plano o hiperplano) que minimiza una estimación robusta de la escala (de donde el método obtiene la S en su nombre) de los residuos. Este método es altamente resistente a los puntos de apalancamiento y es robusto a los valores atípicos en la respuesta. Sin embargo, este método también resultó ser ineficiente.

La estimación MM intenta conservar la robustez y resistencia de la estimación S, a la vez que gana la eficiencia de la estimación M. El método procede encontrando una estimación S altamente robusta y resistente que minimiza una estimación M de la escala de los residuos (la primera M en el nombre del método). La escala estimada se mantiene constante mientras se ubica una estimación M cercana de los parámetros (la segunda M).

Alternativas paramétricas

Otro enfoque para la estimación robusta de modelos de regresión es reemplazar la distribución normal con una distribución de cola pesada. Se ha informado que una distribución t con 4 a 6 grados de libertad es una buena opción en varias situaciones prácticas. La regresión robusta bayesiana, al ser completamente paramétrica, depende en gran medida de dichas distribuciones.

Bajo el supuesto de residuos distribuidos en t , la distribución es una familia de escala de ubicación. Es decir, . Los grados de libertad de la distribución t a veces se denominan parámetro de curtosis . Lange, Little y Taylor (1989) analizan este modelo con cierta profundidad desde un punto de vista no bayesiano. Una explicación bayesiana aparece en Gelman et al. (2003). $x\leftarrow (x-\mu )/\sigma$

Un enfoque paramétrico alternativo es suponer que los residuos siguen una mezcla de distribuciones normales (Daemi et al. 2019); en particular, una distribución normal contaminada en la que la mayoría de las observaciones provienen de una distribución normal especificada, pero una pequeña proporción proviene de una distribución normal con una varianza mucho mayor. Es decir, los residuos tienen probabilidad de provenir de una distribución normal con varianza , donde es pequeña, y probabilidad de provenir de una distribución normal con varianza para algún : $1-\varepsilon$ $\sigma ^{2}$ ${\estilo de visualización \varepsilon}$ ${\estilo de visualización \varepsilon}$ $c\sigma ^{2}$ $c>1$

e_{i}\sim (1-\varepsilon )N(0,\sigma ^{2})+\varepsilon N(0,c\sigma ^{2}).

Por lo general, esto a veces se denomina modelo de contaminación. $\varepsilon <0.1$ ${\estilo de visualización \varepsilon}$

Los enfoques paramétricos tienen la ventaja de que la teoría de la verosimilitud proporciona un método "listo para usar" para la inferencia (aunque para los modelos de mezcla como el modelo de contaminación, las condiciones de regularidad habituales podrían no aplicarse), y es posible construir modelos de simulación a partir del ajuste. Sin embargo, estos modelos paramétricos aún suponen que el modelo subyacente es literalmente verdadero. Como tal, no tienen en cuenta las distribuciones residuales sesgadas ni las precisiones de observación finitas. ${\estilo de visualización \varepsilon}$

Pesos unitarios

Otro método robusto es el uso de pesos unitarios ( Wainer y Thissen, 1976), un método que se puede aplicar cuando hay múltiples predictores de un único resultado. Ernest Burgess (1928) utilizó pesos unitarios para predecir el éxito en la libertad condicional. Calificó 21 factores positivos como presentes (por ejemplo, "sin arresto previo" = 1) o ausentes ("arresto previo" = 0), luego los sumó para obtener una puntuación de predictor, que demostró ser un predictor útil del éxito en la libertad condicional. Samuel S. Wilks (1938) demostró que casi todos los conjuntos de pesos de regresión se suman para formar compuestos que están altamente correlacionados entre sí, incluidos los pesos unitarios, un resultado conocido como el teorema de Wilks (Ree, Carretta y Earles, 1998). Robyn Dawes (1979) examinó la toma de decisiones en entornos aplicados, mostrando que los modelos simples con pesos unitarios a menudo superaban a los expertos humanos. Bobko, Roth y Buster (2007) revisaron la literatura sobre pesos unitarios y concluyeron que décadas de estudios empíricos muestran que los pesos unitarios tienen un desempeño similar a los pesos de regresión ordinarios en la validación cruzada.

Ejemplo: datos hepáticos de BUPA

Los datos hepáticos de BUPA han sido estudiados por varios autores, incluido Breiman (2001). Los datos se pueden encontrar en la página de conjuntos de datos clásicos y hay una discusión en el artículo sobre la transformación de Box-Cox . A continuación, aparece un gráfico de los logaritmos de ALT frente a los logaritmos de γGT. Las dos líneas de regresión son las estimadas por mínimos cuadrados ordinarios (MCO) y por estimación robusta de MM. El análisis se realizó en R utilizando el software puesto a disposición por Venables y Ripley (2002).

Las dos líneas de regresión parecen ser muy similares (y esto no es inusual en un conjunto de datos de este tamaño). Sin embargo, la ventaja del enfoque robusto sale a la luz cuando se consideran las estimaciones de la escala residual. Para los mínimos cuadrados ordinarios, la estimación de la escala es 0,420, en comparación con 0,373 para el método robusto. Por lo tanto, la eficiencia relativa de los mínimos cuadrados ordinarios con respecto a la estimación MM en este ejemplo es 1,266. Esta ineficiencia conduce a una pérdida de potencia en las pruebas de hipótesis y a intervalos de confianza innecesariamente amplios en los parámetros estimados.

Detección de valores atípicos

Otra consecuencia de la ineficiencia del ajuste por mínimos cuadrados ordinarios es que varios valores atípicos quedan enmascarados porque la estimación de la escala residual está inflada; los residuos escalados se acercan más a cero que cuando se utiliza una estimación de escala más apropiada. Los gráficos de los residuos escalados de los dos modelos aparecen a continuación. La variable en el eje x es simplemente el número de observación tal como aparece en el conjunto de datos. Rousseeuw y Leroy (1986) contienen muchos gráficos de este tipo.

Las líneas de referencia horizontales están en 2 y −2, de modo que cualquier residuo escalado observado más allá de estos límites puede considerarse un valor atípico. Claramente, el método de mínimos cuadrados hace que se oculten muchas observaciones interesantes.

Si bien la detección de valores atípicos en una o dos dimensiones mediante métodos clásicos se puede realizar de forma manual, con grandes conjuntos de datos y en grandes dimensiones el problema del enmascaramiento puede hacer imposible la identificación de muchos valores atípicos. Los métodos robustos detectan automáticamente estas observaciones, lo que ofrece una importante ventaja sobre los métodos clásicos cuando hay valores atípicos.

Véase también

Regresión

Referencias

Liu, J.; Cosman, PC; Rao, BD (2018). "Regresión lineal robusta mediante regularización L0". IEEE Transactions on Signal Processing . 66 (3): 698–713. doi : 10.1109/TSP.2017.2771720 .
Andersen, R. (2008). Métodos modernos para regresión robusta . Serie de artículos de la Universidad Sage sobre aplicaciones cuantitativas en las ciencias sociales, 07-152.
Ben-Gal I., Detección de valores atípicos, en: Maimon O. y Rockach L. (Eds.) Manual de minería de datos y descubrimiento de conocimiento: una guía completa para profesionales e investigadores", Kluwer Academic Publishers, 2005, ISBN 0-387-24435-2 .
Bobko, P., Roth, PL y Buster, MA (2007). "La utilidad de los pesos unitarios en la creación de puntuaciones compuestas: una revisión de la literatura, su aplicación a la validez de contenido y un metanálisis". Métodos de investigación organizacional , volumen 10, páginas 689-709. doi :10.1177/1094428106294734
Daemi, Atefeh, Hariprasad Kodamana y Biao Huang. "Modelado de procesos gaussianos con probabilidad de mezcla gaussiana". Journal of Process Control 81 (2019): 209-220. doi :10.1016/j.jprocont.2019.06.007
Breiman, L. (2001). "Modelado estadístico: las dos culturas". Ciencia estadística . 16 (3): 199–231. doi : 10.1214/ss/1009213725 . JSTOR 2676681.
Burgess, EW (1928). "Factores que determinan el éxito o el fracaso de la libertad condicional". En AA Bruce (Ed.), The Workings of the Indeterminate Sentence Law and Parole in Illinois (págs. 205-249). Springfield, Illinois: Illinois State Parole Board. Google books
Dawes, Robyn M. (1979). "La robusta belleza de los modelos lineales inadecuados en la toma de decisiones". American Psychologist , volumen 34, páginas 571-582. doi :10.1037/0003-066X.34.7.571. pdf archivado
Draper, David (1988). "Análisis robusto basado en rangos de modelos lineales. I. Exposición y revisión". Ciencia estadística . 3 (2): 239–257. doi : 10.1214/ss/1177012915 . JSTOR 2245578.
Faraway, JJ (2004). Modelos lineales con R. Chapman y Hall/CRC.
Fornalski, KW (2015). "Aplicaciones del análisis de regresión bayesiana robusta". Revista Internacional de Ciencias de Sistemas Sociales . 7 (4): 314–333. doi :10.1504/IJSSS.2015.073223.
Gelman, A.; JB Carlin; HS Stern; DB Rubin (2003). Análisis de datos bayesianos (segunda edición). Chapman & Hall/CRC.
Hampel, FR; EM Ronchetti; PJ Rousseeuw; WA Stahel (2005) [1986]. Estadísticas robustas: el enfoque basado en funciones de influencia . Wiley.
Lange, KL; RJA Little; JMG Taylor (1989). "Modelado estadístico robusto utilizando la distribución t". Revista de la Asociación Estadounidense de Estadística . 84 (408): 881–896. doi :10.2307/2290063. JSTOR 2290063.
Lerman, G.; McCoy, M.; Tropp, JA; Zhang T. (2012). "Cálculo robusto de modelos lineales, o cómo encontrar una aguja en un pajar", arXiv :1202.4044.
Maronna, R.; D. Martin; V. Yohai (2006). Estadística robusta: teoría y métodos . Wiley.
McKean, Joseph W. (2004). "Análisis robusto de modelos lineales". Ciencia estadística . 19 (4): 562–570. doi : 10.1214/088342304000000549 . JSTOR 4144426.
Radchenko SG (2005). Métodos robustos para la estimación de modelos estadísticos: Monografía. (en idioma ruso) . Kiev: РР «Sanspariel». pág. 504. ISBN 978-966-96574-0-4.
Ree, MJ, Carretta, TR y Earles, JA (1998). "En las decisiones de arriba hacia abajo, la ponderación de las variables no importa: una consecuencia del teorema de Wilk". Métodos de investigación organizacional , volumen 1(4), páginas 407-420. doi :10.1177/109442819814003
Rousseeuw, PJ ; AM Leroy (2003) [1986]. Regresión robusta y detección de valores atípicos . Wiley.
Ryan, TP (2008) [1997]. Métodos de regresión modernos . Wiley.
Seber, GAF; AJ Lee (2003). Análisis de regresión lineal (segunda edición). Wiley.
Stromberg, AJ (2004). "¿Por qué escribir software estadístico? El caso de los métodos estadísticos robustos". Journal of Statistical Software . 10 (5). doi : 10.18637/jss.v010.i05 .
Strutz, T. (2016). Ajuste de datos e incertidumbre (Una introducción práctica a los mínimos cuadrados ponderados y más allá) . Springer Vieweg. ISBN 978-3-658-11455-8.
Tofallis, Chris (2008). "Regresión porcentual de mínimos cuadrados". Revista de métodos estadísticos aplicados modernos . 7 : 526–534. doi :10.2139/ssrn.1406472. hdl : 2299/965 . SSRN 1406472.
Venables, WN; BD Ripley (2002). Estadística aplicada moderna con S. Springer.
Wainer, H. y Thissen, D. (1976). "Tres pasos hacia una regresión robusta". Psychometrika , volumen 41(1), páginas 9–34. doi :10.1007/BF02291695
Wilks, SS (1938). "Sistemas de ponderación para funciones lineales de variables correlacionadas cuando no hay variable dependiente". Psychometrika , volumen 3, páginas 23–40. doi :10.1007/BF02287917

Enlaces externos

Wikilibros sobre programación R
Apuntes del curso de estadística robusta de Brian Ripley .
Las notas del curso de Nick Fieller sobre modelado estadístico y computación contienen material sobre regresión robusta.
Resumen de las estadísticas sólidas de Olfa Nasraoui
Descripción general de la agrupación robusta según Olfa Nasraoui
¿Por qué escribir software estadístico? El caso de los métodos estadísticos robustos, AJ Stromberg
Regresión de norma L1 en software libre (Fortran 95). Minimización de desviaciones absolutas en lugar de mínimos cuadrados.
Implementación gratuita de Python de código abierto para regresión no lineal robusta.