Factor de inflación de la varianza

En estadística , el factor de inflación de la varianza ( VIF ) es la relación ( cociente ) de la varianza de una estimación de un parámetro cuando se ajusta un modelo completo que incluye otros parámetros con la varianza de la estimación del parámetro si el modelo se ajusta solo con el parámetro por sí solo. ^[1] El VIF proporciona un índice que mide cuánto aumenta la varianza (el cuadrado de la desviación estándar de la estimación) de un coeficiente de regresión estimado debido a la colinealidad.

Cuthbert Daniel afirma haber inventado el concepto detrás del factor de inflación de la varianza, pero no inventó el nombre. ^[2]

Definición

Consideremos el siguiente modelo lineal con k variables independientes:

Y = β ₀ + β ₁ X ₁ + β ₂ X ₂ + ... + β _k X _k + ε .

El error estándar de la estimación de β _j es la raíz cuadrada del elemento diagonal j + 1 de s ² ( X ′ X ) ⁻¹ , donde s es el error cuadrático medio (RMSE) (nótese que RMSE ² es un estimador consistente de la varianza verdadera del término de error, ); X es la matriz de diseño de regresión —una matriz tal que X _i_,_j₊₁ es el valor de la variable independiente j ^{ésima para el}^{caso u observación i ésima}, y tal que X _i_,1 , el vector predictor asociado con el término de intersección, es igual a 1 para todo i . Resulta que el cuadrado de este error estándar, la varianza estimada de la estimación de β _j , puede expresarse de manera equivalente como: ^[3]^[4] $\sigma ^{2}$

{\widehat {\operatorname {var} }}({\hat {\beta }}_{j})={\frac {s^{2}}{(n-1){\widehat {\operatorname {var} }}(X_{j})}}\cdot {\frac {1}{1-R_{j}^{2}}},

donde R _j² es el múltiplo R ² de la regresión de X _j sobre las otras covariables (una regresión que no involucra la variable de respuesta Y ) y son las estimaciones de los coeficientes, es decir, las estimaciones de . Esta identidad separa las influencias de varios factores distintos sobre la varianza de la estimación de los coeficientes: ${\sombrero {\beta }}_{j}$ ${\beta }_{j}$

s ² : una mayor dispersión en los datos alrededor de la superficie de regresión conduce a una varianza proporcionalmente mayor en las estimaciones de los coeficientes
n : un mayor tamaño de muestra da como resultado una varianza proporcionalmente menor en las estimaciones de los coeficientes
${\widehat {\operatorname {var} }}(X_{j})$ :una mayor variabilidad en una covariable particular conduce a una varianza proporcionalmente menor en la estimación del coeficiente correspondiente

El término restante, 1 / (1 − R _j² ) es el VIF. Refleja todos los demás factores que influyen en la incertidumbre en las estimaciones de los coeficientes. El VIF es igual a 1 cuando el vector X _j es ortogonal a cada columna de la matriz de diseño para la regresión de X _j sobre las otras covariables. Por el contrario, el VIF es mayor que 1 cuando el vector X _j no es ortogonal a todas las columnas de la matriz de diseño para la regresión de X _j sobre las otras covariables. Por último, observe que el VIF es invariante al escalamiento de las variables (es decir, podríamos escalar cada variable X _j mediante una constante c _j sin cambiar el VIF).

{\widehat {\operatorname {var} }}({\hat {\beta }}_{j})=s^{2}[(X^{T}X)^{-1}]_{jj}

Sea ahora , y sin perder generalidad, reordenamos las columnas de X para establecer que la primera columna sea $Estilo de visualización r=X^{T}X}$ $Estilo de visualización X_ {j}}$

r^{-1}={\begin{bmatrix}r_{j,j}&r_{j,-j}\\r_{-j,j}&r_{-j,-j}\end{bmatrix}}^{-1}

r_{j,j}=X_{j}^{T}X_{j},r_{j,-j}=X_{j}^{T}X_{-j},r_{-j,j}=X_{-j}^{T}X_{j},r_{-j,-j}=X_{-j}^{T}X_{-j}

Al utilizar el complemento de Schur , el elemento en la primera fila y la primera columna es, $r^{-1}$

r_{1,1}^{-1}=[r_{j,j}-r_{j,-j}r_{-j,-j}^{-1}r_{-j,j}]^{-1}

Entonces tenemos,

{\begin{aligned}&{\widehat {\operatorname {var} }}({\hat {\beta }}_{j})=s^{2}[(X^{T}X)^{-1}]_{jj}=s^{2}r_{1,1}^{-1}\\={}&s^{2}[X_{j}^{T}X_{j}-X_{j}^{T}X_{-j}(X_{-j}^{T}X_{-j})^{-1}X_{-j}^{T}X_{j}]^{-1}\\={}&s^{2} [X_{j}^{T}X_{j}-X_{j}^{T}X_{-j}(X_{-j}^{T}X_{-j})^{-1}(X_{-j}^{T}X_{-j})(X_{-j}^{T}X_{-j})^{-1}X_{-j}^{T}X_{j}]^{-1}\\={}&s^{2}[X_{j}^{T}X_{j}-{\hat {\beta }}_{*j}^{T}(X_{-j}^{T}X_{-j}){\hat {\beta }}_{*j}]^{-1}\\={}&s^{2}{\frac {1}{\mathrm {RSS} _{j}}}\\={}&{\frac {s^{2}}{(n-1){\widehat {\operatorname {var} }}(X_{j})}}\cdot {\frac {1}{1-R_{j}^{2}}}\end{aligned}}

Aquí está el coeficiente de regresión de la variable dependiente sobre la covariable . es la suma de cuadrados residuales correspondiente . ${\sombrero {\beta }}_{*j}$ $Estilo de visualización X_ {j}}$ $Estilo de visualización X_{-j}}$ $\mathrm {RSS} _ {j}$

Cálculo y análisis

Podemos calcular k VIF diferentes (uno para cada Xi ₎ en tres pasos:

Paso uno

Primero, ejecutamos una regresión de mínimos cuadrados ordinaria que tiene X _i como función de todas las demás variables explicativas en la primera ecuación.
Si i = 1, por ejemplo, la ecuación sería

X_{1}=\alpha _{0}+\alpha _{2}X_{2}+\alpha _{3}X_{3}+\cdots +\alpha _{k}X_{k}+\varepsilon

donde es una constante y es el término de error . $\alpha _{0}$ ${\estilo de visualización \varepsilon}$

Paso dos

Luego, calcula el factor VIF con la siguiente fórmula: ${\sombrero {\alpha }}_{i}$

\mathrm {VIF} _{i}={\frac {1}{1-R_{i}^{2}}}

donde R ²_i es el coeficiente de determinación de la ecuación de regresión en el paso uno, con en el lado izquierdo, y todas las demás variables predictoras (todas las demás variables X) en el lado derecho. $Estilo de visualización X_{i}}$

Paso tres

Analice la magnitud de la multicolinealidad considerando el tamaño de . Una regla general es que si entonces la multicolinealidad es alta ^[5] (también se usa comúnmente un valor de corte de 5 ^[6] ). Sin embargo, no hay ningún valor de VIF mayor que 1 en el que la varianza de las pendientes de los predictores no esté inflada. Como resultado, incluir dos o más variables en una regresión múltiple que no sean ortogonales (es decir, que tengan correlación = 0), alterará la pendiente de cada una, el SE de la pendiente y el valor P, porque existe una varianza compartida entre los predictores que no se puede atribuir de forma única a ninguno de ellos. $\operatorname {VIF} ({\hat {\alpha }}_{i})$ $\operatorname {VIF} ({\hat {\alpha }}_{i})>10$

Algunos programas calculan la tolerancia, que es simplemente el valor inverso del VIF. La elección de cuál utilizar es una cuestión de preferencia personal.

Interpretación

La raíz cuadrada del factor de inflación de la varianza indica cuánto más aumenta el error estándar en comparación con si esa variable tuviera correlación cero con otras variables predictoras en el modelo.

Ejemplo:
Si el factor de inflación de la varianza de una variable predictora fuera 5,27 (√5,27 = 2,3), esto significa que el error estándar para el coeficiente de esa variable predictora es 2,3 veces mayor que si esa variable predictora tuviera correlación 0 con las otras variables predictoras.

Implementación

vifFunción en el paquete R del coche
ols_vif_tolfunción en el paquete R olsrr
PROC REGen el sistema SAS
variance_inflation_factorFunción en el paquete Python statsmodels
estat vifen Stata
Complemento r.vif para GRASS GIS
vifFunciones (no categóricas) y gvif(datos categóricos) en el lenguaje de programación Julia StatsModels

Referencias

^ James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2017). Introducción al aprendizaje estadístico (8.ª edición). Springer Science+Business Media Nueva York. ISBN 978-1-4614-7138-7.
^ Snee, Ron (1981). Orígenes del factor de inflación de la varianza según lo recuerda Cuthbert Daniel (informe técnico). Snee Associates.
^ Rawlings, John O.; Pantula, Sastry G.; Dickey, David A. (1998). Análisis de regresión aplicado: una herramienta de investigación (segunda edición). Nueva York: Springer. pp. 372, 373. ISBN 0387227539.OCLC 54851769 .
^ Faraway, Julian J. (2002). Regresión práctica y Anova usando R (PDF) . págs. 117, 118.
^ Kutner, MH; Nachtsheim, CJ; Neter, J. (2004). Modelos de regresión lineal aplicados (4.ª ed.). McGraw-Hill Irwin.
^ Sheather, Simon (2009). Un enfoque moderno de la regresión con R. Nueva York, NY: Springer. ISBN 978-0-387-09607-0.

Lectura adicional

Allison, PD (1999). Regresión múltiple: una introducción . Thousand Oaks, CA: Pine Forge Press. pág. 142.
Hair, JF; Anderson, R.; Tatham, RL; Black, WC (2006). Análisis de datos multivariados . Upper Saddle River, NJ: Prentice Hall.
Kutner, MH; Nachtsheim, CJ; Neter, J. (2004). Modelos de regresión lineal aplicados (4.ª ed.). McGraw-Hill Irwin.
Longnecker, MT; Ott, RL (2004). Un primer curso de métodos estadísticos . Thomson Brooks/Cole. pág. 615.
Marquardt, DW (1970). "Inversas generalizadas, regresión de cresta, estimación lineal sesgada y estimación no lineal". Technometrics . 12 (3): 591–612 [pp. 605–7]. doi :10.1080/00401706.1970.10488699.
Studenmund, AH (2006). Uso de la econometría: una guía práctica (5.ª ed.). Pearson International. págs. 258–259.
Zuur, AF; Ieno, EN; Elphick, CS (2010). "Un protocolo para la exploración de datos para evitar problemas estadísticos comunes". Métodos en ecología y evolución . 1 : 3–14. doi : 10.1111/j.2041-210X.2009.00001.x . S2CID 18814132.

Véase también

Efecto de diseño