stringtranslate.com

Factor de inflación de la varianza


En estadística , el factor de inflación de la varianza ( VIF ) es la relación ( cociente ) de la varianza de una estimación de un parámetro cuando se ajusta un modelo completo que incluye otros parámetros con la varianza de la estimación del parámetro si el modelo se ajusta solo con el parámetro por sí solo. [1] El VIF proporciona un índice que mide cuánto aumenta la varianza (el cuadrado de la desviación estándar de la estimación) de un coeficiente de regresión estimado debido a la colinealidad.

Cuthbert Daniel afirma haber inventado el concepto detrás del factor de inflación de la varianza, pero no inventó el nombre. [2]

Definición

Consideremos el siguiente modelo lineal con k variables independientes:

Y = β 0 + β 1 X 1 + β 2 X 2 + ... + β k X k + ε .

El error estándar de la estimación de β j es la raíz cuadrada del  elemento diagonal j + 1 de s 2 ( XX ) −1 , donde s es el error cuadrático medio (RMSE) (nótese que RMSE 2 es un estimador consistente de la varianza verdadera del término de error, ); X es la matriz de diseño de regresión —una matriz tal que X i , j +1 es el valor de la variable independiente j ésima para el caso u observación i ésima , y ​​tal que X i ,1 , el vector predictor asociado con el término de intersección, es igual a 1 para todo i . Resulta que el cuadrado de este error estándar, la varianza estimada de la estimación de β j , puede expresarse de manera equivalente como: [3] [4]

donde R j 2 es el múltiplo R 2 de la regresión de X j sobre las otras covariables (una regresión que no involucra la variable de respuesta Y ) y son las estimaciones de los coeficientes, es decir, las estimaciones de . Esta identidad separa las influencias de varios factores distintos sobre la varianza de la estimación de los coeficientes:

El término restante, 1 / (1 −  R j 2 ) es el VIF. Refleja todos los demás factores que influyen en la incertidumbre en las estimaciones de los coeficientes. El VIF es igual a 1 cuando el vector X j es ortogonal a cada columna de la matriz de diseño para la regresión de X j sobre las otras covariables. Por el contrario, el VIF es mayor que 1 cuando el vector X j no es ortogonal a todas las columnas de la matriz de diseño para la regresión de X j sobre las otras covariables. Por último, observe que el VIF es invariante al escalamiento de las variables (es decir, podríamos escalar cada variable X j mediante una constante c j sin cambiar el VIF).

Sea ahora , y sin perder generalidad, reordenamos las columnas de X para establecer que la primera columna sea

.

Al utilizar el complemento de Schur , el elemento en la primera fila y la primera columna es,

Entonces tenemos,

Aquí está el coeficiente de regresión de la variable dependiente sobre la covariable . es la suma de cuadrados residuales correspondiente .

Cálculo y análisis

Podemos calcular k VIF diferentes (uno para cada Xi ) en tres pasos:

Paso uno

Primero, ejecutamos una regresión de mínimos cuadrados ordinaria que tiene X i como función de todas las demás variables explicativas en la primera ecuación.
Si i = 1, por ejemplo, la ecuación sería

donde es una constante y es el término de error .

Paso dos

Luego, calcula el factor VIF con la siguiente fórmula:

donde R 2 i es el coeficiente de determinación de la ecuación de regresión en el paso uno, con en el lado izquierdo, y todas las demás variables predictoras (todas las demás variables X) en el lado derecho.

Paso tres

Analice la magnitud de la multicolinealidad considerando el tamaño de . Una regla general es que si entonces la multicolinealidad es alta [5] (también se usa comúnmente un valor de corte de 5 [6] ). Sin embargo, no hay ningún valor de VIF mayor que 1 en el que la varianza de las pendientes de los predictores no esté inflada. Como resultado, incluir dos o más variables en una regresión múltiple que no sean ortogonales (es decir, que tengan correlación = 0), alterará la pendiente de cada una, el SE de la pendiente y el valor P, porque existe una varianza compartida entre los predictores que no se puede atribuir de forma única a ninguno de ellos.

Algunos programas calculan la tolerancia, que es simplemente el valor inverso del VIF. La elección de cuál utilizar es una cuestión de preferencia personal.

Interpretación

La raíz cuadrada del factor de inflación de la varianza indica cuánto más aumenta el error estándar en comparación con si esa variable tuviera correlación cero con otras variables predictoras en el modelo.

Ejemplo:
Si el factor de inflación de la varianza de una variable predictora fuera 5,27 (√5,27 = 2,3), esto significa que el error estándar para el coeficiente de esa variable predictora es 2,3 veces mayor que si esa variable predictora tuviera correlación 0 con las otras variables predictoras.

Implementación

Referencias

  1. ^ James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2017). Introducción al aprendizaje estadístico (8.ª edición). Springer Science+Business Media Nueva York. ISBN 978-1-4614-7138-7.
  2. ^ Snee, Ron (1981). Orígenes del factor de inflación de la varianza según lo recuerda Cuthbert Daniel (informe técnico). Snee Associates.
  3. ^ Rawlings, John O.; Pantula, Sastry G.; Dickey, David A. (1998). Análisis de regresión aplicado: una herramienta de investigación (segunda edición). Nueva York: Springer. pp. 372, 373. ISBN 0387227539.OCLC 54851769  .
  4. ^ Faraway, Julian J. (2002). Regresión práctica y Anova usando R (PDF) . págs. 117, 118.
  5. ^ Kutner, MH; Nachtsheim, CJ; Neter, J. (2004). Modelos de regresión lineal aplicados (4.ª ed.). McGraw-Hill Irwin.
  6. ^ Sheather, Simon (2009). Un enfoque moderno de la regresión con R. Nueva York, NY: Springer. ISBN 978-0-387-09607-0.

Lectura adicional

Véase también