Observación que causaría un gran cambio si se eliminara
En estadística , una observación influyente es una observación para un cálculo estadístico cuya eliminación del conjunto de datos cambiaría notablemente el resultado del cálculo. [1] En particular, en el análisis de regresión, una observación influyente es aquella cuya eliminación tiene un gran efecto en las estimaciones de los parámetros. [2]
Evaluación
Se han propuesto varios métodos para medir la influencia. [3] [4] Supongamos una regresión estimada , donde es un vector de columna n × 1 para la variable de respuesta, es la matriz de diseño n × k de variables explicativas (incluida una constante), es el vector residual n × 1 y es un vector k × 1 de estimaciones de algún parámetro de población . Defina también , la matriz de proyección de . Entonces tenemos las siguientes medidas de influencia:
, donde denota los coeficientes estimados con la i -ésima fila de eliminada, denota el i -ésimo valor de la diagonal principal de la matriz. Por lo tanto, DFBETA mide la diferencia en la estimación de cada parámetro con y sin el punto influyente. Hay un DFBETA para cada variable y cada observación (si hay N observaciones y k variables, hay N·k DFBETA). [5] La tabla muestra los DFBETA para el tercer conjunto de datos del cuarteto de Anscombe (gráfico inferior izquierdo en la figura):
La D de Cook mide el efecto de eliminar un punto de datos en todos los parámetros combinados. [2]
Valores atípicos, apalancamiento e influencia
Un valor atípico puede definirse como un punto de datos que difiere notablemente de otras observaciones. [6] [7]
Un punto de alto apalancamiento son observaciones realizadas en valores extremos de variables independientes. [8]
Ambos tipos de observaciones atípicas forzarán a la línea de regresión a estar cerca del punto. [2]
En el cuarteto de Anscombe, la imagen inferior derecha tiene un punto con alto apalancamiento y la imagen inferior izquierda tiene un punto atípico.
^ Burt, James E.; Barber, Gerald M.; Rigby, David L. (2009), Estadística elemental para geógrafos, Guilford Press, pág. 513, ISBN 9781572304840.
^ abc Everitt, Brian (1998). Diccionario de estadística de Cambridge. Cambridge, Reino Unido. Nueva York: Cambridge University Press. ISBN0-521-59346-8.
^ Winner, Larry (25 de marzo de 2002). "Estadísticas de influencia, valores atípicos y diagnóstico de colinealidad".
^ Belsley, David A.; Kuh, Edwin; Welsh, Roy E. (1980). Diagnóstico de regresión: identificación de datos influyentes y fuentes de colinealidad. Serie Wiley en probabilidad y estadística matemática. Nueva York: John Wiley & Sons . págs. 11–16. ISBN0-471-05856-4.
^ "Valores atípicos y DFBETA" (PDF) . Archivado (PDF) del original el 11 de mayo de 2013.
^ Grubbs, FE (febrero de 1969). "Procedimientos para detectar observaciones atípicas en muestras". Technometrics . 11 (1): 1–21. doi :10.1080/00401706.1969.10490657. Una observación atípica, o "atípica", es aquella que parece desviarse notablemente de otros miembros de la muestra en la que se encuentra.
^ Maddala, GS (1992). "Outliers". Introducción a la econometría (2.ª ed.). Nueva York: MacMillan. pp. 89. ISBN978-0-02-374545-4Un valor atípico es una observación que está muy alejada del resto de las observaciones.
^ Everitt, BS (2002). Diccionario de Estadística de Cambridge . Cambridge University Press. ISBN0-521-81099-X.
Lectura adicional
Dehon, Catherine; Gassner, Marjorie; Verardi, Vincenzo (2009). "Cuidado con los valores atípicos 'buenos' y las conclusiones demasiado optimistas". Oxford Bulletin of Economics and Statistics . 71 (3): 437–452. doi :10.1111/j.1468-0084.2009.00543.x. S2CID 154376487.
Kennedy, Peter (2003). "Estimación robusta". Guía de econometría (quinta edición). Cambridge: The MIT Press. pp. 372–388. ISBN 0-262-61183-X.