stringtranslate.com

Regresión robusta

En las estadísticas sólidas , la regresión robusta busca superar algunas limitaciones del análisis de regresión tradicional . Un análisis de regresión modela la relación entre una o más variables independientes y una variable dependiente . Los tipos estándar de regresión, como los mínimos cuadrados ordinarios , tienen propiedades favorables si sus supuestos subyacentes son verdaderos, pero en caso contrario pueden dar resultados engañosos (es decir, no son robustos ante violaciones de supuestos). Los métodos de regresión sólidos están diseñados para limitar el efecto que las violaciones de los supuestos por parte del proceso subyacente de generación de datos tienen sobre las estimaciones de regresión.

Por ejemplo, las estimaciones de mínimos cuadrados para los modelos de regresión son muy sensibles a los valores atípicos : un valor atípico con el doble de magnitud de error que una observación típica contribuye cuatro (dos al cuadrado) veces más a la pérdida de error al cuadrado y, por lo tanto, tiene más influencia sobre las estimaciones de regresión. . La función de pérdida de Huber es una alternativa sólida a la pérdida por error cuadrático estándar que reduce las contribuciones de los valores atípicos a la pérdida por error cuadrático, limitando así su impacto en las estimaciones de regresión.

Aplicaciones

Errores heterocedásticos

Un caso en el que se debe considerar una estimación robusta es cuando existe una fuerte sospecha de heterocedasticidad . En el modelo homocedástico , se supone que la varianza del término de error es constante para todos los valores de x . La heterocedasticidad permite que la varianza dependa de x , lo cual es más preciso para muchos escenarios reales. Por ejemplo, la varianza del gasto suele ser mayor para las personas con ingresos más altos que para las personas con ingresos más bajos. Los paquetes de software suelen utilizar por defecto un modelo homocedástico, aunque dicho modelo pueda ser menos preciso que un modelo heterocedástico. Un enfoque simple (Tofallis, 2008) es aplicar mínimos cuadrados a los errores porcentuales, ya que esto reduce la influencia de los valores más grandes de la variable dependiente en comparación con los mínimos cuadrados ordinarios.

Presencia de valores atípicos

Otra situación común en la que se utiliza una estimación robusta ocurre cuando los datos contienen valores atípicos. En presencia de valores atípicos que no provienen del mismo proceso de generación de datos que el resto de los datos, la estimación de mínimos cuadrados es ineficiente y puede estar sesgada. Debido a que las predicciones de mínimos cuadrados son arrastradas hacia los valores atípicos, y debido a que la varianza de las estimaciones está inflada artificialmente, el resultado es que los valores atípicos pueden enmascararse. (En muchas situaciones, incluidas algunas áreas de la geoestadística y las estadísticas médicas, son precisamente los valores atípicos los que interesan).

Aunque a veces se afirma que los mínimos cuadrados (o los métodos estadísticos clásicos en general) son robustos, sólo lo son en el sentido de que la tasa de error tipo I no aumenta ante violaciones del modelo. De hecho, la tasa de error de tipo I tiende a ser inferior al nivel nominal cuando hay valores atípicos y, a menudo, hay un aumento espectacular en la tasa de error de tipo II . La reducción de la tasa de error tipo I ha sido etiquetada como el conservadurismo de los métodos clásicos.

Historia e impopularidad de la regresión robusta

A pesar de su rendimiento superior a la estimación de mínimos cuadrados en muchas situaciones, los métodos sólidos de regresión aún no se utilizan ampliamente. Varias razones pueden ayudar a explicar su impopularidad (Hampel et al. 1986, 2005). Una posible razón es que existen varios métodos en competencia [ cita necesaria ] y el campo tuvo muchos comienzos en falso. Además, el cálculo de estimaciones robustas es mucho más intensivo desde el punto de vista computacional que la estimación de mínimos cuadrados; Sin embargo, en los últimos años esta objeción se ha vuelto menos relevante, a medida que la potencia informática ha aumentado considerablemente. Otra razón puede ser que algunos paquetes de software estadístico populares no implementaron los métodos (Stromberg, 2004). Quizás la razón más importante de la impopularidad de los métodos de regresión robustos es que cuando la varianza del error es bastante grande o no existe, para cualquier conjunto de datos cualquier estimación, robusta o no, de los coeficientes de regresión probablemente será prácticamente inútil a menos que la muestra sea bastante grande.

Aunque la adopción de métodos robustos ha sido lenta, los libros de texto de estadística convencionales modernos a menudo incluyen una discusión sobre estos métodos (por ejemplo, los libros de Seber y Lee, y de Faraway [ vague ] ; para una buena descripción general de cómo los diversos métodos de regresión robustos desarrollados unos a partir de otros, ver el libro de Andersen [ vago ] ). Además, los paquetes de software estadístico modernos como R , Statsmodels , Stata y S-PLUS incluyen una funcionalidad considerable para una estimación sólida (véanse, por ejemplo, los libros de Venables y Ripley, y de Maronna et al. [ vago ] ).

Métodos para una regresión robusta

Alternativas de mínimos cuadrados

El método más simple para estimar parámetros en un modelo de regresión que son menos sensibles a los valores atípicos que las estimaciones de mínimos cuadrados es utilizar desviaciones mínimas absolutas . Incluso entonces, los valores atípicos pueden tener un impacto considerable en el modelo, lo que motiva la investigación de enfoques aún más sólidos.

En 1964, Huber introdujo la estimación M para la regresión. La M en estimación M significa "tipo de máxima verosimilitud". El método es robusto a los valores atípicos en la variable de respuesta, pero resultó no ser resistente a los valores atípicos en las variables explicativas ( puntos de apalancamiento ). De hecho, cuando hay valores atípicos en las variables explicativas, el método no tiene ventaja sobre los mínimos cuadrados.

En la década de 1980, se propusieron varias alternativas a la estimación M como intentos de superar la falta de resistencia. Véase el libro de Rousseeuw y Leroy [ vague ] para una reseña muy práctica. Los cuadrados mínimos recortados (LTS) son una alternativa viable y actualmente (2007) son la opción preferida de Rousseeuw y Ryan (1997, 2008). El estimador Theil-Sen tiene un punto de ruptura más bajo que el LTS pero es estadísticamente eficiente y popular. Otra solución propuesta fue la estimación S. Este método encuentra una línea (plano o hiperplano) que minimiza una estimación robusta de la escala (de la cual el método obtiene la S en su nombre) de los residuos. Este método es altamente resistente a los puntos de apalancamiento y robusto a los valores atípicos en la respuesta. Sin embargo, también se descubrió que este método era ineficaz.

La estimación MM intenta conservar la solidez y resistencia de la estimación S, al tiempo que gana la eficiencia de la estimación M. El método procede encontrando una estimación S altamente robusta y resistente que minimice una estimación M de la escala de los residuos (la primera M en el nombre del método). La escala estimada se mantiene entonces constante mientras se localiza una estimación M cercana de los parámetros (la segunda M).

Alternativas paramétricas

Otro enfoque para la estimación robusta de modelos de regresión es reemplazar la distribución normal con una distribución de cola pesada. Se ha informado que una distribución t con 4 a 6 grados de libertad es una buena opción en diversas situaciones prácticas. La regresión bayesiana robusta, al ser totalmente paramétrica, depende en gran medida de dichas distribuciones.

Bajo el supuesto de residuos t distribuidos, la distribución es una familia de escala de ubicación. Eso es, . Los grados de libertad de la distribución t a veces se denominan parámetro de curtosis . Lange, Little y Taylor (1989) analizan este modelo con cierta profundidad desde un punto de vista no bayesiano. Una explicación bayesiana aparece en Gelman et al. (2003).

Un enfoque paramétrico alternativo es suponer que los residuos siguen una combinación de distribuciones normales (Daemi et al. 2019); en particular, una distribución normal contaminada en la que la mayoría de las observaciones provienen de una distribución normal especificada, pero una pequeña proporción proviene de una distribución normal con una varianza mucho mayor. Es decir, los residuos tienen probabilidad de provenir de una distribución normal con varianza , donde es pequeño, y probabilidad de provenir de una distribución normal con varianza para algunos :

Normalmente, . A esto a veces se le llama modelo de contaminación.

Los enfoques paramétricos tienen la ventaja de que la teoría de la verosimilitud proporciona un enfoque "listo para usar" para la inferencia (aunque para modelos de mezcla como el modelo de contaminación, las condiciones de regularidad habituales podrían no aplicarse), y es posible construir modelos de simulación a partir de el ajuste. Sin embargo, estos modelos paramétricos todavía suponen que el modelo subyacente es literalmente cierto. Como tales, no tienen en cuenta distribuciones residuales asimétricas ni precisiones de observación finitas.

Pesos unitarios

Otro método sólido es el uso de pesos unitarios ( Wainer y Thissen, 1976), un método que puede aplicarse cuando existen múltiples predictores de un único resultado. Ernest Burgess (1928) utilizó pesos unitarios para predecir el éxito en la libertad condicional. Calificó 21 factores positivos como presentes (p. ej., "sin arresto previo" = 1) o ausentes ("arresto previo" = 0), luego los sumó para obtener una puntuación predictiva, que demostró ser un predictor útil del éxito de la libertad condicional. Samuel S. Wilks (1938) demostró que casi todos los conjuntos de pesos de regresión suman compuestos que están muy correlacionados entre sí, incluidos los pesos unitarios, un resultado conocido como teorema de Wilks (Ree, Carretta y Earles, 1998). Robyn Dawes (1979) examinó la toma de decisiones en entornos aplicados y demostró que los modelos simples con pesos unitarios a menudo superaban a los expertos humanos. Bobko, Roth y Buster (2007) revisaron la literatura sobre ponderaciones unitarias y concluyeron que décadas de estudios empíricos muestran que las ponderaciones unitarias funcionan de manera similar a las ponderaciones de regresión ordinarias en la validación cruzada.

Ejemplo: datos de hígado de BUPA

Los datos del hígado de BUPA han sido estudiados por varios autores, incluido Breiman (2001). Los datos se pueden encontrar en la página de conjuntos de datos clásicos y hay una discusión en el artículo sobre la transformación Box-Cox . A continuación aparece un gráfico de los registros de ALT frente a los registros de γGT. Las dos líneas de regresión son las estimadas mediante mínimos cuadrados ordinarios (MCO) y mediante estimación robusta de MM. El análisis se realizó en R utilizando el software proporcionado por Venables y Ripley (2002).

Las dos líneas de regresión parecen ser muy similares (y esto no es inusual en un conjunto de datos de este tamaño). Sin embargo, la ventaja del enfoque robusto sale a la luz cuando se consideran las estimaciones de la escala residual. Para los mínimos cuadrados ordinarios, la estimación de escala es 0,420, en comparación con 0,373 para el método robusto. Por lo tanto, la eficiencia relativa de los mínimos cuadrados ordinarios con respecto a la estimación MM en este ejemplo es 1,266. Esta ineficiencia conduce a una pérdida de poder en las pruebas de hipótesis y a intervalos de confianza innecesariamente amplios en los parámetros estimados.

Detección de valores atípicos

Otra consecuencia de la ineficiencia del ajuste de mínimos cuadrados ordinarios es que varios valores atípicos quedan enmascarados porque la estimación de la escala residual está inflada; los residuos escalados se acercan más a cero que cuando se utiliza una estimación de escala más apropiada. Los gráficos de los residuos escalados de los dos modelos aparecen a continuación. La variable en el eje x es solo el número de observación tal como apareció en el conjunto de datos. Rousseeuw y Leroy (1986) contienen muchos argumentos de este tipo.

Las líneas de referencia horizontales están en 2 y −2, de modo que cualquier residuo escalado observado más allá de estos límites puede considerarse un valor atípico. Claramente, el método de mínimos cuadrados enmascara muchas observaciones interesantes.

Mientras que en una o dos dimensiones la detección de valores atípicos utilizando métodos clásicos se puede realizar manualmente, con grandes conjuntos de datos y en grandes dimensiones el problema del enmascaramiento puede hacer imposible la identificación de muchos valores atípicos. Los métodos robustos detectan automáticamente estas observaciones, lo que ofrece una gran ventaja sobre los métodos clásicos cuando hay valores atípicos presentes.

Ver también

Referencias

enlaces externos