stringtranslate.com

Apalancamiento (estadísticas)

En estadística y en particular en análisis de regresión , el apalancamiento es una medida de qué tan lejos están los valores de las variables independientes de una observación de los de las otras observaciones. Los puntos de alto apalancamiento , si los hay, son valores atípicos con respecto a las variables independientes . Es decir, los puntos de alto apalancamiento no tienen puntos vecinos en el espacio, donde es el número de variables independientes en un modelo de regresión. Esto hace que el modelo ajustado probablemente pase cerca de una observación de alto apalancamiento. [1] Por lo tanto, los puntos de alto apalancamiento tienen el potencial de causar grandes cambios en las estimaciones de los parámetros cuando se eliminan, es decir, ser puntos influyentes . Aunque un punto influyente normalmente tendrá un alto apalancamiento, un punto alto de apalancamiento no es necesariamente un punto influyente. El apalancamiento se define típicamente como los elementos diagonales de la matriz hat .

Definición e interpretaciones

Considere el modelo de regresión lineal ,. Es decir, donde, es la matriz de diseño cuyas filas corresponden a las observaciones y cuyas columnas corresponden a las variables independientes o explicativas. La puntuación de apalancamiento para la observación independiente viene dada por:

, el elemento diagonal de la matriz de ortoproyección ( también conocida como matriz de sombrero) .

Por lo tanto, la puntuación de apalancamiento puede verse como la distancia "ponderada" entre la media de 's (consulte su relación con la distancia de Mahalanobis). También se puede interpretar como el grado en que el valor medido (dependiente) (es decir, ) influye en el valor ajustado (predicho) (es decir, ): matemáticamente,

.

Por lo tanto, la puntuación de apalancamiento también se conoce como autosensibilidad de observación o autoinfluencia. [2] Utilizando el hecho de que (es decir, la predicción es la ortoproyección de sobre el espacio de rango de ) en la expresión anterior, obtenemos . Tenga en cuenta que este apalancamiento depende de los valores de las variables explicativas de todas las observaciones, pero no de ninguno de los valores de las variables dependientes .

Propiedades

  1. El apalancamiento   es un número entre 0 y 1. Prueba: Tenga en cuenta que es una matriz idempotente ( ) y simétrica ( ). Por lo tanto, al utilizar el hecho de que , tenemos . Como sabemos eso , lo hemos hecho .
  2. La suma de apalancamientos es igual al número de parámetros ( incluido el intercepto). Prueba: .

Determinación de valores atípicos en X utilizando apalancamientos

Un apalancamiento grande corresponde a un apalancamiento extremo. Una regla común es identificar cuyo valor de apalancamiento es más de 2 veces mayor que el apalancamiento medio (ver propiedad 2 arriba). Es decir, si , se considerará un valor atípico. Algunos estadísticos prefieren el umbral de en lugar de .

Relación con la distancia de Mahalanobis

El apalancamiento está estrechamente relacionado con la distancia de Mahalanobis (prueba [3] ). Específicamente, para alguna matriz , la distancia de Mahalanobis al cuadrado de (donde está la fila de ) del vector de la media de longitud es , donde está la matriz de covarianza estimada de 's. Esto está relacionado con el apalancamiento de la matriz hat de después de agregarle un vector de columna de unos. La relación entre ambos es:

Esta relación nos permite descomponer el apalancamiento en componentes significativos para que algunas fuentes de alto apalancamiento puedan investigarse analíticamente. [4]

Relación con las funciones de influencia.

En un contexto de regresión, combinamos funciones de apalancamiento e influencia para calcular el grado en que los coeficientes estimados cambiarían si eliminamos un solo punto de datos. Al denotar los residuos de regresión como , se puede comparar el coeficiente estimado con el coeficiente estimado sin incluir utilizando la fórmula [5] [6]

Young (2019) utiliza una versión de esta fórmula después de residualizar los controles. [7] Para ganar intuición sobre esta fórmula, tenga en cuenta que captura el potencial de que una observación afecte los parámetros de regresión y, por lo tanto, captura la influencia real de las desviaciones de esas observaciones de su valor ajustado en los parámetros de regresión. Luego, la fórmula se divide por para tener en cuenta el hecho de que eliminamos la observación en lugar de ajustar su valor, lo que refleja el hecho de que la eliminación cambia más la distribución de las covariables cuando se aplica a observaciones de alto apalancamiento (es decir, con valores de covariables atípicos). Surgen fórmulas similares cuando se aplican fórmulas generales para funciones de influencia estadística en el contexto de la regresión. [8] [9]

Efecto sobre la varianza residual

Si estamos en un entorno de mínimos cuadrados ordinarios con errores de regresión fijos y homocedásticos , entonces el residuo de regresión tiene varianza .

.

En otras palabras, la puntuación de apalancamiento de una observación determina el grado de ruido en la predicción errónea del modelo de esa observación, donde un mayor apalancamiento genera menos ruido. Esto se desprende del hecho de que es idempotente y simétrico y , por tanto, .

El residual estudentizado correspondiente (el residual ajustado por su varianza residual estimada específica de la observación) se calcula entonces

donde es una estimación adecuada de .

Apalancamiento parcial

El apalancamiento parcial ( PL ) es una medida de la contribución de las variables independientes individuales al apalancamiento total de cada observación. Es decir, PL es una medida de cómo cambian a medida que se agrega una variable al modelo de regresión. Se calcula como:

donde es el índice de la variable independiente, es el índice de observación y son los residuos de la regresión contra las restantes variables independientes. Tenga en cuenta que el apalancamiento parcial es el apalancamiento del punto en el gráfico de regresión parcial para la variable. Los puntos de datos con un gran apalancamiento parcial para una variable independiente pueden ejercer una influencia indebida en la selección de esa variable en los procedimientos de construcción de modelos de regresión automática.

Implementaciones de software

Muchos programas y paquetes de estadísticas, como R , Python , etc., incluyen implementaciones de Leverage.

Ver también

Referencias

  1. ^ Everitt, BS (2002). Diccionario de estadística de Cambridge . Prensa de la Universidad de Cambridge. ISBN 0-521-81099-X.
  2. ^ Cardinali, C. (junio de 2013). "Asimilación de datos: la observación influye en el diagnóstico de un sistema de asimilación de datos" (PDF) .
  3. ^ ¿ Demostrar la relación entre la distancia de Mahalanobis y el apalancamiento?
  4. ^ Kim, MG (2004). "Fuentes de alto apalancamiento en el modelo de regresión lineal (Journal of Applied Mathematics and Computing, volumen 16, 509–513)". arXiv : 2006.04024 [matemáticas.ST].
  5. ^ Miller, Rupert G. (septiembre de 1974). "Una navaja desequilibrada". Anales de Estadística . 2 (5): 880–891. doi : 10.1214/aos/1176342811 . ISSN  0090-5364.
  6. ^ Hiyashi, Fumio (2000). Econometría . Prensa de la Universidad de Princeton. pag. 21.
  7. ^ Joven, Alwyn (2019). "Canalización de Fisher: pruebas de aleatorización y la insignificancia estadística de resultados experimentales aparentemente significativos". La revista trimestral de economía . 134 (2): 567. doi : 10.1093/qje/qjy029 .
  8. ^ Chatterjee, Samprit; Hadi, Ali S. (agosto de 1986). "Observaciones influyentes, puntos de alto apalancamiento y valores atípicos en regresión lineal". Ciencia estadística . 1 (3): 379–393. doi : 10.1214/ss/1177013622 . ISSN  0883-4237.
  9. ^ "regresión: funciones de influencia y MCO". Validación cruzada . Consultado el 6 de diciembre de 2020 .