Regresión robusta

Algunos métodos utilizados de regresión, como mínimos cuadrados ordinarios, tienen propiedades favorables si sus suposiciones subyacentes se cumplen para los datos estudiados, pero pueden dar resultados engañosos si esas suposiciones no son ciertas; se dice que mínimos cuadrados ordinarios no es robusto a violaciones de los supuestos.En particular, las estimaciones con los mínimos cuadrados son altamente no robustos a los valores atípicos.Un caso en el que la estimación robusta se debe considerar es cuando hay una fuerte sospecha de heterocedasticidad.Debido a que las predicciones con mínimos cuadrados son arrastradas hacia los valores atípicos, y debido a que la varición de las estimaciones se inflan artificialmente, el resultado es que los valores atípicos se pueden enmascarar.Aunque a veces se afirma que los mínimos cuadrados (o métodos estadísticos clásicos en general) son robustos, solo son robustos en el sentido de que el tipo I tasa de error no aumenta bajo violaciones del modelo.A pesar de su rendimiento superior sobre la estimación de mínimos cuadrados, en muchos casos, aún no se utilizan ampliamente métodos robustos para la regresión.Hay varias razones que pueden ayudar a explicar su impopularidad (Hampel et al.Sin embargo, en los últimos años esta objeción se ha vuelto menos relevante dado que la potencia de cálculo ha aumentado considerablemente.El método es robusto a los valores atípicos en la variable de respuesta, pero resultó no ser resistente a los valores atípicos en las variables explicativas (puntos de influencia).De hecho, cuando hay valores extremos en las variables explicativas, el método no tiene ninguna ventaja sobre los mínimos cuadrados.El Theil-Sen estimador tiene un punto de ruptura inferior LTS pero es estadísticamente eficiente y popular.Una distribución t con entre 4 y 6 grados de libertad se considera que es una buena elección en diferentes situaciones prácticas.La regresión bayesiana robusta, siendo totalmente paramétrica se basa en gran medida de estas distribuciones.Bajo el supuesto de residuos t-distribuidos, la distribución es una localización escala.Lange, Little y Taylor (1989) discuten este modelo en cierta profundidad desde un punto de vista no Bayesiano.[1]​ Una estudio que toma en cuenta lo bayesiano aparece en Gelman et al.-Contaminación modelo, no pudo aplicarse las condiciones usuales de regularidad), y que es posible construir modelos de simulación a partir del ajuste.Como tales, no tienen en cuenta las distribuciones residuales sesgadas o precisiones observación finitos.
gráfico de estadística