Medida de la influencia de un punto de datos en el análisis de regresión
En estadística , la distancia de Cook o D de Cook es una estimación comúnmente utilizada de la influencia de un punto de datos al realizar un análisis de regresión de mínimos cuadrados . [1] En un análisis práctico de mínimos cuadrados ordinarios , la distancia de Cook se puede utilizar de varias maneras: para indicar puntos de datos influyentes que vale la pena verificar en cuanto a su validez; o para indicar regiones del espacio de diseño donde sería bueno poder obtener más puntos de datos. Recibe su nombre en honor al estadístico estadounidense R. Dennis Cook , quien introdujo el concepto en 1977. [2] [3]
Definición
Los puntos de datos con residuos grandes ( valores atípicos ) o un alto nivel de apalancamiento pueden distorsionar el resultado y la precisión de una regresión. La distancia de Cook mide el efecto de eliminar una observación determinada. Se considera que los puntos con una distancia de Cook grande merecen un examen más detallado en el análisis.
Para la expresión algebraica, primero defina
donde es el término de error , es la matriz de coeficientes, es el número de covariables o predictores para cada observación y es la matriz de diseño que incluye una constante. El estimador de mínimos cuadrados es entonces y, en consecuencia, los valores ajustados (predichos) para la media de son
donde es la matriz de proyección (o matriz de sombrero). El -ésimo elemento diagonal de , dado por , [4] se conoce como el apalancamiento de la -ésima observación. De manera similar, el -ésimo elemento del vector residual se denota por .
La distancia de observación de Cook se define como la suma de todos los cambios en el modelo de regresión cuando se elimina la observación de éste [5].
donde p es el rango del modelo (es decir, el número de variables independientes en la matriz de diseño) y es el valor de respuesta ajustado obtenido al excluir , y es el error cuadrático medio del modelo de regresión. [6]
De manera equivalente, se puede expresar utilizando el apalancamiento [5] ( ):
Detección de observaciones altamente influyentes
Existen diferentes opiniones sobre qué valores de corte utilizar para detectar puntos altamente influyentes . Dado que la distancia de Cook está en la métrica de una distribución F con y (como se define para la matriz de diseño anterior) grados de libertad, el punto mediano (es decir, ) se puede utilizar como un punto de corte. [7] Dado que este valor es cercano a 1 para valores grandes , se ha sugerido una directriz operativa simple de . [8]
El vector aleatorio -dimensional , que es el cambio de debido a una eliminación de la -ésima observación, tiene una matriz de covarianza de rango uno y por lo tanto se distribuye completamente sobre un subespacio unidimensional (una línea, digamos ) del espacio -dimensional. La propiedad distribucional de mencionada anteriormente implica que la información sobre la influencia de la -ésima observación proporcionada por debe obtenerse no desde fuera de la línea sino desde la línea misma. Sin embargo, en la introducción de la distancia de Cook, se elige una matriz de escala de rango completo y como resultado se trata como si fuera un vector aleatorio distribuido sobre todo el espacio de dimensiones. Esto significa que la información sobre la influencia de la -ésima observación proporcionada por a través de la distancia de Cook proviene de todo el espacio de dimensiones. Por lo tanto, es probable que la medida de la distancia de Cook distorsione la influencia real de las observaciones, lo que confunde la identificación correcta de las observaciones influyentes. [9] [10]
Relación con otras medidas de influencia (e interpretación)
se puede expresar utilizando el apalancamiento [5] ( ) y el cuadrado del residuo interno estudentizado ( ), de la siguiente manera:
La ventaja de la última formulación es que muestra claramente la relación entre y con (mientras que p y n son iguales para todas las observaciones). Si es grande, entonces (para valores no extremos de ) aumentará . Si es cercano a 0, entonces será pequeño, mientras que si es cercano a 1, entonces se volverá muy grande (siempre que , es decir: que la observación no esté exactamente en la línea de regresión que se ajustó sin la observación ).
está relacionado con DFFITS a través de la siguiente relación (tenga en cuenta que es el residuo estudentizado externamente y se definen aquí ):
puede interpretarse como la distancia que recorren las estimaciones dentro del elipsoide de confianza que representa una región de valores plausibles para los parámetros. [ aclaración necesaria ] Esto se muestra mediante una representación alternativa pero equivalente de la distancia de Cook en términos de cambios en las estimaciones de los parámetros de regresión entre los casos, donde la observación particular se incluye o se excluye del análisis de regresión.
Se ha propuesto una alternativa . En lugar de considerar la influencia que tiene una sola observación en el modelo general, las estadísticas sirven como medida de la sensibilidad de la predicción de la observación -ésima a la eliminación de cada observación en el conjunto de datos original. Se puede formular como una combinación lineal ponderada de los valores de todos los puntos de datos. Nuevamente, la matriz de proyección interviene en el cálculo para obtener los pesos requeridos:
En este contexto, ( ) se asemeja a la correlación entre las predicciones y [a] .
A diferencia de , la distribución de es asintóticamente normal para tamaños de muestra grandes y modelos con muchos predictores. En ausencia de valores atípicos, el valor esperado de es aproximadamente . Se puede identificar una observación influyente si
con como la mediana y como la desviación absoluta mediana de todos los valores dentro del conjunto de datos original, es decir, una medida robusta de la ubicación y una medida robusta de la escala para la distribución de . El factor 4.5 cubre aproximadamente 3 desviaciones estándar de alrededor de su centro.
Cuando se compara con la distancia de Cook, se encontró que funcionaba bien para valores atípicos de apalancamiento alto e intermedio, incluso en presencia de efectos de enmascaramiento para los cuales falló. [12]
Curiosamente, y están estrechamente relacionados porque ambos se pueden expresar en términos de la matriz que contiene los efectos de la eliminación del -ésimo punto de datos en la -ésima predicción:
Con la mano, se da por:
donde si es simétrico e idempotente , lo que no es necesariamente el caso . Por el contrario, se puede calcular como:
donde extrae la diagonal principal de una matriz cuadrada . En este contexto, se denomina matriz de influencia mientras que se asemeja a la llamada matriz de sensibilidad. Un análisis de vectores propios de y -que comparten los mismos valores propios- sirve como herramienta para la detección de valores atípicos, aunque los vectores propios de la matriz de sensibilidad son más potentes. [13]
Implementaciones de software
Muchos programas y paquetes de estadísticas, como R , Python , Julia , etc., incluyen implementaciones de la distancia de Cook.
Extensiones
La medida de influencia de alta dimensión (HIM) es una alternativa a la distancia de Cook para cuando (es decir, cuando hay más predictores que observaciones). [14] Mientras que la distancia de Cook cuantifica la influencia de la observación individual en la estimación del coeficiente de regresión de mínimos cuadrados, la HIM mide la influencia de una observación en las correlaciones marginales.
Véase también
Notas
- ^ Los índices y se intercambian a menudo en la publicación original, ya que la matriz de proyección es simétrica en la regresión lineal ordinaria, es decir, . Como este no siempre es el caso, por ejemplo, en la regresión lineal ponderada, los índices se han escrito aquí de manera coherente para tener en cuenta la posible asimetría y, por lo tanto, permitir su uso directo.
Referencias
- ^ Mendenhall, William; Sincich, Terry (1996). Un segundo curso de estadística: análisis de regresión (5.ª ed.). Upper Saddle River, NJ: Prentice-Hall. pág. 422. ISBN 0-13-396821-9
RD Cook (1979) propuso
una medida de la influencia general que tiene una observación atípica sobre los coeficientes estimados
. La distancia de Cook, D
i
, se calcula...
- ^ Cook, R. Dennis (febrero de 1977). "Detección de observaciones influyentes en la regresión lineal". Technometrics . 19 (1). Asociación Estadounidense de Estadística : 15–18. doi :10.2307/1268249. JSTOR 1268249. MR 0436478.
- ^ Cook, R. Dennis (marzo de 1979). "Observaciones influyentes en la regresión lineal". Revista de la Asociación Estadounidense de Estadística . 74 (365). Asociación Estadounidense de Estadística: 169–174. doi :10.2307/2286747. hdl : 11299/199280 . JSTOR 2286747. MR 0529533.
- ^ Hayashi, Fumio (2000). Econometría. Princeton University Press. pp. 21–23. ISBN 1400823838.
- ^ abc "Distancia de Cook".
- ^ "Estadística 512: modelos lineales aplicados" (PDF) . Universidad de Purdue . Archivado desde el original (PDF) el 2016-11-30 . Consultado el 2016-03-25 .
- ^ Bollen, Kenneth A .; Jackman, Robert W. (1990). "Diagnóstico de regresión: un tratamiento expositivo de casos atípicos e influyentes". En Fox, John; Long, J. Scott (eds.). Métodos modernos de análisis de datos . Newbury Park, CA: Sage. págs. 266. ISBN 0-8039-3366-5.
- ^ Cook, R. Dennis; Weisberg, Sanford (1982). Residuos e influencia en la regresión. Nueva York, NY: Chapman & Hall. hdl :11299/37076. ISBN 0-412-24280-X.
- ^ Kim, Myung Geun (31 de mayo de 2017). "Una nota de advertencia sobre el uso de la distancia de Cook". Communications for Statistical Applications and Methods . 24 (3): 317–324. doi : 10.5351/csam.2017.24.3.317 . ISSN 2383-4757.
- ^ Sobre la estadística diagnóstica de deleción en regresión
- ^ Peña, Daniel (2005). "Una nueva estadística para la influencia en la regresión lineal". Technometrics . 47 (1). American Society for Quality y la American Statistical Association : 1–12. doi :10.1198/004017004000000662. S2CID 1802937.
- ^ Peña, Daniel (2006). Pham, Hoang (ed.). Springer Handbook of Engineering Statistics. Springer Londres. pp. 523–536. doi :10.1007/978-1-84628-288-1. ISBN 978-1-84628-288-1.S2CID60460007 .
- ^ Medida de influencia de alta dimensión
Lectura adicional
- Atkinson, Anthony; Riani, Marco (2000). "Deletion Diagnostics". Diagnóstico robusto y análisis de regresión . Nueva York: Springer. págs. 22–25. ISBN 0-387-95017-6.
- Heiberger, Richard M.; Holland, Burt (2013). "Estadísticas de casos". Análisis estadístico y visualización de datos . Springer Science & Business Media. págs. 312–27. ISBN 9781475742848.
- Krasker, William S.; Kuh, Edwin ; Welsch, Roy E. (1983). "Estimación para datos sucios y modelos defectuosos". Handbook of Econometrics . Vol. 1. Elsevier. págs. 651–698. doi :10.1016/S1573-4412(83)01015-6. ISBN 9780444861856.
- Aguinis, Herman; Gottfredson, Ryan K.; Joo, Harry (2013). "Recomendaciones de mejores prácticas para definir, identificar y manejar valores atípicos". Métodos de investigación organizacional . 16 (2). Sage: 270–301. doi :10.1177/1094428112470848. S2CID 54916947 . Consultado el 4 de diciembre de 2015 .