Observación influyente

En estadística , una observación influyente es una observación para un cálculo estadístico cuya eliminación del conjunto de datos cambiaría notablemente el resultado del cálculo. ^[1] En particular, en el análisis de regresión, una observación influyente es aquella cuya eliminación tiene un gran efecto en las estimaciones de los parámetros. ^[2]

Evaluación

Se han propuesto varios métodos para medir la influencia. ^[3]^[4] Supongamos una regresión estimada , donde es un vector de columna n × 1 para la variable de respuesta, es la matriz de diseño n × k de variables explicativas (incluida una constante), es el vector residual n × 1 y es un vector k × 1 de estimaciones de algún parámetro de población . Defina también , la matriz de proyección de . Entonces tenemos las siguientes medidas de influencia: $\mathbf {y} =\mathbf {X} \mathbf {b} +\mathbf {e}$ $\mathbf {y}$ $\mathbf {X}$ $\mathbf {e}$ $\mathbf {b}$ $\mathbf {\beta } \en \mathbb {R} ^{k}$ $\mathbf {H} \equiv \mathbf {X} \izquierda(\mathbf {X} ^{\mathsf {T}}\mathbf {X} \derecha)^{-1}\mathbf {X} ^{\mathsf {T}}$ $\mathbf {X}$

${\text{DFBETA}}_{i}\equiv \mathbf {b} -\mathbf {b} _{(-i)}={\frac {\left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} \right)^{-1}\mathbf {x} _{i}^{\mathsf {T}}e_{i}}{1-h_{ii}}}$ , donde denota los coeficientes estimados con la i -ésima fila de eliminada, denota el i -ésimo valor de la diagonal principal de la matriz. Por lo tanto, DFBETA mide la diferencia en la estimación de cada parámetro con y sin el punto influyente. Hay un DFBETA para cada variable y cada observación (si hay N observaciones y k variables, hay N·k DFBETA). ^[5] La tabla muestra los DFBETA para el tercer conjunto de datos del cuarteto de Anscombe (gráfico inferior izquierdo en la figura): $\mathbf {b}_{(-i)}$ $\mathbf {x} _ {i}$ $\mathbf {X}$ $h_{ii}=\mathbf {x} _{i}\left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} \right)^{-1}\mathbf {x } _{i}^{\mathsf {T}}$ $\mathbf {H}$

DFFITS - diferencia en los ajustes
La D de Cook mide el efecto de eliminar un punto de datos en todos los parámetros combinados. ^[2]

Valores atípicos, apalancamiento e influencia

Un valor atípico puede definirse como un punto de datos que difiere notablemente de otras observaciones. ^[6]^[7] Un punto de alto apalancamiento son observaciones realizadas en valores extremos de variables independientes. ^[8] Ambos tipos de observaciones atípicas forzarán a la línea de regresión a estar cerca del punto. ^[2] En el cuarteto de Anscombe, la imagen inferior derecha tiene un punto con alto apalancamiento y la imagen inferior izquierda tiene un punto atípico.

Véase también

Referencias

^ Burt, James E.; Barber, Gerald M.; Rigby, David L. (2009), Estadística elemental para geógrafos, Guilford Press, pág. 513, ISBN 9781572304840.
^ abc Everitt, Brian (1998). Diccionario de estadística de Cambridge. Cambridge, Reino Unido. Nueva York: Cambridge University Press. ISBN 0-521-59346-8.
^ Winner, Larry (25 de marzo de 2002). "Estadísticas de influencia, valores atípicos y diagnóstico de colinealidad".
^ Belsley, David A.; Kuh, Edwin; Welsh, Roy E. (1980). Diagnóstico de regresión: identificación de datos influyentes y fuentes de colinealidad. Serie Wiley en probabilidad y estadística matemática. Nueva York: John Wiley & Sons . págs. 11–16. ISBN 0-471-05856-4.
^ "Valores atípicos y DFBETA" (PDF) . Archivado (PDF) del original el 11 de mayo de 2013.
^ Grubbs, FE (febrero de 1969). "Procedimientos para detectar observaciones atípicas en muestras". Technometrics . 11 (1): 1–21. doi :10.1080/00401706.1969.10490657. Una observación atípica, o "atípica", es aquella que parece desviarse notablemente de otros miembros de la muestra en la que se encuentra.
^ Maddala, GS (1992). "Outliers". Introducción a la econometría (2.ª ed.). Nueva York: MacMillan. pp. 89. ISBN 978-0-02-374545-4Un valor atípico es una observación que está muy alejada del resto de las observaciones.
^ Everitt, BS (2002). Diccionario de Estadística de Cambridge . Cambridge University Press. ISBN 0-521-81099-X.

Lectura adicional

Dehon, Catherine; Gassner, Marjorie; Verardi, Vincenzo (2009). "Cuidado con los valores atípicos 'buenos' y las conclusiones demasiado optimistas". Oxford Bulletin of Economics and Statistics . 71 (3): 437–452. doi :10.1111/j.1468-0084.2009.00543.x. S2CID 154376487.
Kennedy, Peter (2003). "Estimación robusta". Guía de econometría (quinta edición). Cambridge: The MIT Press. pp. 372–388. ISBN 0-262-61183-X.