Multicolinealidad

En estadística , la multicolinealidad o colinealidad es una situación en la que los predictores en un modelo de regresión son linealmente dependientes .

La multicolinealidad perfecta se refiere a una situación en la que las variables predictivas tienen una relación lineal exacta . Cuando hay una colinealidad perfecta, la matriz de diseño tiene un rango menor que el completo y, por lo tanto, la matriz de momentos no se puede invertir . En esta situación, las estimaciones de los parámetros de la regresión no están bien definidas, ya que el sistema de ecuaciones tiene infinitas soluciones . ${\estilo de visualización X}$ $X^{\mathsf {T}}X$

La multicolinealidad imperfecta se refiere a una situación en la que las variables predictivas tienen una relación lineal casi exacta.

Contrariamente a la creencia popular, ni el teorema de Gauss-Markov ni la justificación más común de máxima verosimilitud para los mínimos cuadrados ordinarios se basan en ningún tipo de estructura de correlación entre predictores dependientes ^[1]^[2]^[3] (aunque la colinealidad perfecta puede causar problemas con algunos programas).

No existe justificación para la práctica de eliminar variables colineales como parte del análisis de regresión, ^[1]^[4]^[5]^[6]^[7] y hacerlo puede constituir una mala conducta científica . La inclusión de variables colineales no reduce el poder predictivo ni la confiabilidad del modelo en su conjunto, ^[6] y no reduce la precisión de las estimaciones de coeficientes. ^[1]

Una alta colinealidad indica que es excepcionalmente importante incluir todas las variables colineales, ya que excluir alguna provocará peores estimaciones de coeficientes, fuerte confusión y estimaciones sesgadas a la baja de los errores estándar . ^[2]

Multicolinealidad perfecta

Una representación de la multicolinealidad.

La multicolinealidad perfecta se refiere a una situación en la que los predictores son linealmente dependientes (uno puede escribirse como una función lineal exacta de los otros). Los mínimos cuadrados ordinarios requieren invertir la matriz , donde $X^{\mathsf {T}}X$

X={\begin{bmatrix}1&X_{11}&\cdots &X_{k1}\\\vdots &\vdots &&\vdots \\1&X_{1N}&\cdots &X_{kN}\end{bmatrix}}

es una matriz, donde es el número de observaciones, es el número de variables explicativas y . Si existe una relación lineal exacta entre las variables independientes, entonces al menos una de las columnas de es una combinación lineal de las otras, y por lo tanto el rango de (y por lo tanto de ) es menor que , y la matriz no será invertible. $N\times (k+1)$ ${\estilo de visualización N}$ ${\estilo de visualización k}$ $N\geq k+1$ $X$ $X$ $X^{\mathsf {T}}X$ $k+1$ $X^{\mathsf {T}}X$

Resolución

La colinealidad perfecta suele deberse a la inclusión de variables redundantes en una regresión. Por ejemplo, un conjunto de datos puede incluir variables de ingresos, gastos y ahorros. Sin embargo, como los ingresos son iguales a los gastos más los ahorros por definición, es incorrecto incluir las tres variables en una regresión simultáneamente. De manera similar, incluir una variable ficticia para cada categoría (por ejemplo, verano, otoño, invierno y primavera) así como un término de intersección dará como resultado una colinealidad perfecta. Esto se conoce como la trampa de la variable ficticia. ^[8]

La otra causa común de colinealidad perfecta es intentar utilizar mínimos cuadrados ordinarios cuando se trabaja con conjuntos de datos muy amplios (aquellos con más variables que observaciones). Estos requieren técnicas de análisis de datos más avanzadas, como el modelado jerárquico bayesiano, para producir resultados significativos. ^{[ cita requerida ]}

Cuestiones numéricas

A veces, las variables son casi colineales. En este caso, la matriz tiene una inversa, pero está mal condicionada . Un algoritmo informático puede o no ser capaz de calcular una inversa aproximada; incluso si pudiera, la inversa resultante puede tener grandes errores de redondeo . $X_{j}$ $X^{\mathsf {T}}X$

La medida estándar del mal condicionamiento en una matriz es el índice de condición. Este determina si la inversión de la matriz es numéricamente inestable con números de precisión finita, lo que indica la sensibilidad potencial de la inversa calculada a pequeños cambios en la matriz original. El número de condición se calcula hallando el valor singular máximo dividido por el valor singular mínimo de la matriz de diseño . ^[9] En el contexto de las variables colineales, el factor de inflación de la varianza es el número de condición para un coeficiente particular.

Soluciones

Los problemas numéricos de estimación se pueden resolver aplicando técnicas estándar del álgebra lineal para estimar las ecuaciones con mayor precisión:

Estandarización de las variables predictoras. Trabajar con términos polinómicos (p. ej.,, ), incluidos los términos de interacción (es decir,) puede causar multicolinealidad. Esto es especialmente cierto cuando la variable en cuestión tiene un rango limitado. La estandarización de las variables predictoras eliminará este tipo especial de multicolinealidad para polinomios de hasta tercer orden.^[10] $x_{1}$ $x_{1}^{2}$ $x_{1}\times x_{2}$
- Para polinomios de orden superior, una representación polinomial ortogonal generalmente solucionará cualquier problema de colinealidad. ^[11] Sin embargo, las regresiones polinomiales son generalmente inestables , lo que las hace inadecuadas para la regresión no paramétrica e inferiores a los métodos más nuevos basados en splines de suavizado , LOESS o regresión de proceso gaussiano . ^[12]
Utilice una representación ortogonal de los datos . ^[11] A veces, un software estadístico mal escrito no logra converger a una representación correcta cuando las variables están fuertemente correlacionadas. Sin embargo, aún es posible reescribir la regresión para utilizar solo variables no correlacionadas realizando un cambio de base .
- En particular, para los términos polinomiales, es posible reescribir la regresión como una función de variables no correlacionadas utilizando polinomios ortogonales .

Efectos sobre las estimaciones de coeficientes

Además de causar problemas numéricos, la colinealidad imperfecta dificulta la estimación precisa de las variables. En otras palabras, las variables altamente correlacionadas dan lugar a estimaciones deficientes y a grandes errores estándar.

Por ejemplo, digamos que nos damos cuenta de que Alicia usa botas siempre que llueve y que solo hay charcos cuando llueve. Entonces, no podemos decir si usa botas para evitar que la lluvia caiga sobre sus pies o para mantenerlos secos si pisa un charco.

El problema de intentar identificar cuánto importa cada una de las dos variables es que se confunden entre sí: nuestras observaciones se explican igualmente bien por cualquiera de las dos variables, por lo que no sabemos cuál de ellas causa las correlaciones observadas.

Hay dos formas de descubrir esta información:

Utilizando información previa o teoría. Por ejemplo, si nos damos cuenta de que Alicia nunca pisa charcos, podemos argumentar razonablemente que los charcos no son la razón por la que usa botas, ya que no necesita las botas para evitarlos.
Recopilación de más datos. Si observamos a Alice suficientes veces, la veremos en días en los que hay charcos pero no llueve (por ejemplo, porque deja de llover antes de que ella salga de casa).

Esta confusión se agrava sustancialmente cuando los investigadores intentan ignorarla o suprimirla excluyendo estas variables de la regresión (véase #Uso incorrecto). Excluir variables multicolineales de las regresiones invalidará la inferencia causal y producirá estimaciones peores al eliminar factores de confusión importantes.

Remedios

Existen muchas maneras de evitar que la multicolinealidad afecte los resultados mediante una planificación anticipada. Sin embargo, estos métodos requieren que los investigadores decidan un procedimiento y un análisis antes de que se hayan recopilado los datos (consulte el análisis post hoc y el apartado #Uso incorrecto).

Estimadores regularizados

Muchos métodos de regresión son naturalmente "robustos" a la multicolinealidad y generalmente funcionan mejor que la regresión de mínimos cuadrados ordinaria , incluso cuando las variables son independientes. Las técnicas de regresión regularizada como la regresión de cresta , LASSO , la regresión de red elástica o la regresión de picos y losas son menos sensibles a la inclusión de predictores "inútiles", una causa común de colinealidad. Estas técnicas pueden detectar y eliminar estos predictores automáticamente para evitar problemas. Los modelos jerárquicos bayesianos (proporcionados por software como BRMS ) pueden realizar dicha regularización automáticamente, aprendiendo valores previos informativos de los datos.

A menudo, los problemas causados por el uso de la estimación frecuentista se malinterpretan o se diagnostican erróneamente como relacionados con la multicolinealidad. ^[3] Los investigadores a menudo se sienten frustrados no por la multicolinealidad, sino por su incapacidad para incorporar información previa relevante en las regresiones. Por ejemplo, las quejas de que los coeficientes tienen "signos erróneos" o intervalos de confianza que "incluyen valores irreales" indican que hay información previa importante que no se está incorporando al modelo. Cuando esta información está disponible, se debe incorporar a la información previa utilizando técnicas de regresión bayesiana . ^[3]

La regresión por pasos (el procedimiento de excluir variables "colineales" o "insignificantes") es especialmente vulnerable a la multicolinealidad y es uno de los pocos procedimientos que esta invalida por completo (cualquier colinealidad da como resultado estimaciones muy sesgadas y valores p invalidados). ^[2]

Diseño experimental mejorado

Al realizar experimentos en los que los investigadores tienen control sobre las variables predictivas, a menudo pueden evitar la colinealidad eligiendo un diseño experimental óptimo en consulta con un estadístico.

Aceptación

Si bien las estrategias anteriores funcionan en algunas situaciones, por lo general no tienen un efecto sustancial. Las técnicas más avanzadas aún pueden generar errores estándar grandes. Por lo tanto, la respuesta más común a la multicolinealidad debería ser "no hacer nada". ^[1] El proceso científico a menudo implica resultados nulos o no concluyentes; no todos los experimentos serán "exitosos" en el sentido de proporcionar una confirmación decisiva de la hipótesis original del investigador.

Edward Leamer señala que "la solución al problema de la evidencia débil es más y mejores datos. Dentro de los límites del conjunto de datos dado no hay nada que se pueda hacer con respecto a la evidencia débil"; ^[3] los investigadores que creen que hay un problema con los resultados de la regresión deberían observar la probabilidad previa , no la función de verosimilitud .

Damodar Gujarati escribe que "deberíamos aceptar con razón que [nuestros datos] a veces no son muy informativos sobre los parámetros de interés". ^[1] Olivier Blanchard bromea diciendo que "la multicolinealidad es la voluntad de Dios, no un problema con MCO "; ^[7] en otras palabras, cuando trabajan con datos observacionales , los investigadores no pueden "arreglar" la multicolinealidad, solo aceptarla.

Mal uso

Los factores de inflación de varianza se utilizan a menudo incorrectamente como criterios en la regresión por pasos (es decir, para la inclusión/exclusión de variables), un uso que "carece de cualquier base lógica y que también es fundamentalmente engañoso como regla general". ^[2]

La exclusión de variables colineales conduce a estimaciones artificialmente pequeñas de los errores estándar, pero no reduce los errores estándar reales (no estimados) de los coeficientes de regresión. ^[1] La exclusión de variables con un alto factor de inflación de la varianza también invalida los errores estándar calculados y los valores p, al convertir los resultados de la regresión en un análisis post hoc . ^[13]

Debido a que la colinealidad genera grandes errores estándar y valores p, que pueden dificultar la publicación de artículos, algunos investigadores intentarán suprimir los datos inconvenientes eliminando de su regresión las variables fuertemente correlacionadas. Este procedimiento se enmarca en las categorías más amplias de p-hacking , dragado de datos y análisis post hoc . La eliminación de predictores colineales (útiles) generalmente empeorará la precisión del modelo y las estimaciones de coeficientes.

De manera similar, probar muchos modelos o procedimientos de estimación diferentes (por ejemplo, mínimos cuadrados ordinarios , regresión de cresta, etc.) hasta encontrar uno que pueda "gestionar" la colinealidad crea un problema de caminos bifurcados . Los valores p y los intervalos de confianza derivados de los análisis post hoc se invalidan al ignorar la incertidumbre en el procedimiento de selección del modelo.

Es razonable excluir los predictores poco importantes si se sabe de antemano que tienen poco o ningún efecto sobre el resultado; por ejemplo, no se debe utilizar la producción local de queso para predecir la altura de los rascacielos. Sin embargo, esto debe hacerse al especificar el modelo por primera vez, antes de observar los datos, y siempre deben incluirse las variables potencialmente informativas.

Véase también

Referencias

^ abcdef Gujarati, Damodar (2009). "Multicolinealidad: ¿qué sucede si los regresores están correlacionados?". Basic Econometrics (4.ª ed.). McGraw−Hill. págs. 363. ISBN 9780073375779.
^ abcd Kalnins, Arturs; Praitis Hill, Kendall (13 de diciembre de 2023). "El índice VIF. ¿Para qué sirve? Absolutamente para nada". Métodos de investigación organizacional . doi :10.1177/10944281231216381. ISSN 1094-4281.
^ abcd Leamer, Edward E. (1973). "Multicolinealidad: una interpretación bayesiana". The Review of Economics and Statistics . 55 (3): 371–380. doi :10.2307/1927962. ISSN 0034-6535. JSTOR 1927962.
^ Giles, Dave (15 de septiembre de 2011). "Econometrics Beat: Dave Giles' Blog: Micronumerosity". Econometrics Beat . Consultado el 3 de septiembre de 2023 .
^ Goldberger, (1964), AS (1964). Teoría econométrica . Nueva York: Wiley.{{cite book}}: CS1 maint: numeric names: authors list (link)
^ ab Goldberger, AS "Capítulo 23.3". Un curso de econometría . Cambridge, MA: Harvard University Press.
^ ab Blanchard, Olivier Jean (octubre de 1987). "Comentario". Revista de estadísticas económicas y empresariales . 5 (4): 449–451. doi :10.1080/07350015.1987.10509611. ISSN 0735-0015.
^ Karabiber, Fatih. "La trampa de la variable ficticia: ¿qué es la trampa de la variable ficticia?". LearnDataSci (www.learndatasci.com) . Consultado el 18 de enero de 2024 .
^ Belsley, David (1991). Diagnóstico de condicionamiento: colinealidad y datos débiles en regresión . Nueva York: Wiley. ISBN 978-0-471-52889-0.
^ "12.6 - Reducción de la multicolinealidad estructural | STAT 501". newonlinecourses.science.psu.edu . Consultado el 16 de marzo de 2019 .
^ ab "Trucos computacionales con Turing (parametrización no centrada y descomposición QR)". storopoli.io . Consultado el 3 de septiembre de 2023 .
^ Gelman, Andrew; Imbens, Guido (3 de julio de 2019). "Por qué no se deben utilizar polinomios de orden superior en diseños de regresión discontinua". Journal of Business & Economic Statistics . 37 (3): 447–456. doi :10.1080/07350015.2017.1366909. ISSN 0735-0015.
^ Gelman, Andrew; Loken, Eric (14 de noviembre de 2013). "El jardín de los senderos que se bifurcan" (PDF) . Inédito , a través de Columbia.

Lectura adicional

Belsley, David A.; Kuh, Edwin ; Welsch, Roy E. (1980). Diagnóstico de regresión: identificación de datos influyentes y fuentes de colinealidad . Nueva York: Wiley. ISBN 978-0-471-05856-4.
Goldberger, Arthur S. (1991). "Multicolinealidad". Un curso de econometría . Cambridge: Harvard University Press. págs. 245–53. ISBN 9780674175440.
Hill, R. Carter; Adkins, Lee C. (2001). "Collinearity". En Baltagi, Badi H. (ed.). A Companion to Theoretical Econometrics . Blackwell. págs. 256–278. doi :10.1002/9780470996249.ch13. ISBN. 978-0-631-21254-6.
Johnston, John (1972). Métodos econométricos (segunda edición). Nueva York: McGraw-Hill. Págs. 159-168. ISBN . 9780070326798.
Kalnins, Arturs (2022). "¿Cuándo la multicolinealidad genera sesgo en los coeficientes y causa errores de tipo 1? Una reconciliación de Lindner, Puck y Verbeke (2020) con Kalnins (2018)". Revista de Estudios Empresariales Internacionales . 53 (7): 1536–1548. doi :10.1057/s41267-022-00531-9. S2CID 249323519.
Kmenta, Jan (1986). Elementos de econometría (segunda edición). Nueva York: Macmillan. Págs. 430–442. ISBN. 978-0-02-365070-3.
Maddala, GS ; Lahiri, Kajal (2009). Introducción a la econometría (Cuarta ed.). Chichester: Wiley. págs. 279–312. ISBN 978-0-470-01512-4.
Tomaschek, Fabian; Hendrix, Peter; Baayen, R. Harald (2018). "Estrategias para abordar la colinealidad en datos lingüísticos multivariados". Journal of Phonetics . 71 : 249–267. doi : 10.1016/j.wocn.2018.09.004 .

Enlaces externos

Thoma, Mark (2 de marzo de 2011). «Conferencia de econometría (tema: multicolinealidad)». Universidad de Oregón . Archivado desde el original el 12 de diciembre de 2021 – vía YouTube .
Primeros usos: La entrada sobre multicolinealidad tiene cierta información histórica.