Medida estadística en modelo matemático
En estadística , el factor de inflación de la varianza ( VIF ) es la relación ( cociente ) de la varianza de una estimación de un parámetro cuando se ajusta un modelo completo que incluye otros parámetros con la varianza de la estimación del parámetro si el modelo se ajusta solo con el parámetro por sí solo. [1] El VIF proporciona un índice que mide cuánto aumenta la varianza (el cuadrado de la desviación estándar de la estimación) de un coeficiente de regresión estimado debido a la colinealidad.
Cuthbert Daniel afirma haber inventado el concepto detrás del factor de inflación de la varianza, pero no inventó el nombre. [2]
Definición
Consideremos el siguiente modelo lineal con k variables independientes:
- Y = β 0 + β 1 X 1 + β 2 X 2 + ... + β k X k + ε .
El error estándar de la estimación de β j es la raíz cuadrada del elemento diagonal j + 1 de s 2 ( X ′ X ) −1 , donde s es el error cuadrático medio (RMSE) (nótese que RMSE 2 es un estimador consistente de la varianza verdadera del término de error, ); X es la matriz de diseño de regresión —una matriz tal que X i , j +1 es el valor de la variable independiente j ésima para el caso u observación i ésima , y tal que X i ,1 , el vector predictor asociado con el término de intersección, es igual a 1 para todo i . Resulta que el cuadrado de este error estándar, la varianza estimada de la estimación de β j , puede expresarse de manera equivalente como: [3] [4]
donde R j 2 es el múltiplo R 2 de la regresión de X j sobre las otras covariables (una regresión que no involucra la variable de respuesta Y ) y son las estimaciones de los coeficientes, es decir, las estimaciones de . Esta identidad separa las influencias de varios factores distintos sobre la varianza de la estimación de los coeficientes:
- s 2 : una mayor dispersión en los datos alrededor de la superficie de regresión conduce a una varianza proporcionalmente mayor en las estimaciones de los coeficientes
- n : un mayor tamaño de muestra da como resultado una varianza proporcionalmente menor en las estimaciones de los coeficientes
- :una mayor variabilidad en una covariable particular conduce a una varianza proporcionalmente menor en la estimación del coeficiente correspondiente
El término restante, 1 / (1 − R j 2 ) es el VIF. Refleja todos los demás factores que influyen en la incertidumbre en las estimaciones de los coeficientes. El VIF es igual a 1 cuando el vector X j es ortogonal a cada columna de la matriz de diseño para la regresión de X j sobre las otras covariables. Por el contrario, el VIF es mayor que 1 cuando el vector X j no es ortogonal a todas las columnas de la matriz de diseño para la regresión de X j sobre las otras covariables. Por último, observe que el VIF es invariante al escalamiento de las variables (es decir, podríamos escalar cada variable X j mediante una constante c j sin cambiar el VIF).
Sea ahora , y sin perder generalidad, reordenamos las columnas de X para establecer que la primera columna sea
- .
Al utilizar el complemento de Schur , el elemento en la primera fila y la primera columna es,
Entonces tenemos,
Aquí está el coeficiente de regresión de la variable dependiente sobre la covariable . es la suma de cuadrados residuales correspondiente .
Cálculo y análisis
Podemos calcular k VIF diferentes (uno para cada Xi ) en tres pasos:
Paso uno
Primero, ejecutamos una regresión de mínimos cuadrados ordinaria que tiene X i como función de todas las demás variables explicativas en la primera ecuación.
Si i = 1, por ejemplo, la ecuación sería
donde es una constante y es el término de error .
Paso dos
Luego, calcula el factor VIF con la siguiente fórmula:
donde R 2 i es el coeficiente de determinación de la ecuación de regresión en el paso uno, con en el lado izquierdo, y todas las demás variables predictoras (todas las demás variables X) en el lado derecho.
Paso tres
Analice la magnitud de la multicolinealidad considerando el tamaño de . Una regla general es que si entonces la multicolinealidad es alta [5] (también se usa comúnmente un valor de corte de 5 [6] ). Sin embargo, no hay ningún valor de VIF mayor que 1 en el que la varianza de las pendientes de los predictores no esté inflada. Como resultado, incluir dos o más variables en una regresión múltiple que no sean ortogonales (es decir, que tengan correlación = 0), alterará la pendiente de cada una, el SE de la pendiente y el valor P, porque existe una varianza compartida entre los predictores que no se puede atribuir de forma única a ninguno de ellos.
Algunos programas calculan la tolerancia, que es simplemente el valor inverso del VIF. La elección de cuál utilizar es una cuestión de preferencia personal.
Interpretación
La raíz cuadrada del factor de inflación de la varianza indica cuánto más aumenta el error estándar en comparación con si esa variable tuviera correlación cero con otras variables predictoras en el modelo.
Ejemplo:
Si el factor de inflación de la varianza de una variable predictora fuera 5,27 (√5,27 = 2,3), esto significa que el error estándar para el coeficiente de esa variable predictora es 2,3 veces mayor que si esa variable predictora tuviera correlación 0 con las otras variables predictoras.
Implementación
vif
Función en el paquete R del cocheols_vif_tol
función en el paquete R olsrrPROC REG
en el sistema SASvariance_inflation_factor
Función en el paquete Python statsmodelsestat vif
en Stata- Complemento r.vif para GRASS GIS
vif
Funciones (no categóricas) y gvif
(datos categóricos) en el lenguaje de programación Julia StatsModels
Referencias
- ^ James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2017). Introducción al aprendizaje estadístico (8.ª edición). Springer Science+Business Media Nueva York. ISBN 978-1-4614-7138-7.
- ^ Snee, Ron (1981). Orígenes del factor de inflación de la varianza según lo recuerda Cuthbert Daniel (informe técnico). Snee Associates.
- ^ Rawlings, John O.; Pantula, Sastry G.; Dickey, David A. (1998). Análisis de regresión aplicado: una herramienta de investigación (segunda edición). Nueva York: Springer. pp. 372, 373. ISBN 0387227539.OCLC 54851769 .
- ^ Faraway, Julian J. (2002). Regresión práctica y Anova usando R (PDF) . págs. 117, 118.
- ^ Kutner, MH; Nachtsheim, CJ; Neter, J. (2004). Modelos de regresión lineal aplicados (4.ª ed.). McGraw-Hill Irwin.
- ^ Sheather, Simon (2009). Un enfoque moderno de la regresión con R. Nueva York, NY: Springer. ISBN 978-0-387-09607-0.
Lectura adicional
- Allison, PD (1999). Regresión múltiple: una introducción . Thousand Oaks, CA: Pine Forge Press. pág. 142.
- Hair, JF; Anderson, R.; Tatham, RL; Black, WC (2006). Análisis de datos multivariados . Upper Saddle River, NJ: Prentice Hall.
- Kutner, MH; Nachtsheim, CJ; Neter, J. (2004). Modelos de regresión lineal aplicados (4.ª ed.). McGraw-Hill Irwin.
- Longnecker, MT; Ott, RL (2004). Un primer curso de métodos estadísticos . Thomson Brooks/Cole. pág. 615.
- Marquardt, DW (1970). "Inversas generalizadas, regresión de cresta, estimación lineal sesgada y estimación no lineal". Technometrics . 12 (3): 591–612 [pp. 605–7]. doi :10.1080/00401706.1970.10488699.
- Studenmund, AH (2006). Uso de la econometría: una guía práctica (5.ª ed.). Pearson International. págs. 258–259.
- Zuur, AF; Ieno, EN; Elphick, CS (2010). "Un protocolo para la exploración de datos para evitar problemas estadísticos comunes". Métodos en ecología y evolución . 1 : 3–14. doi : 10.1111/j.2041-210X.2009.00001.x . S2CID 18814132.
Véase también