En estadística , la multicolinealidad o colinealidad es una situación en la que los predictores de un modelo de regresión son linealmente dependientes .
La multicolinealidad perfecta se refiere a una situación en la que las variables predictivas tienen una relación lineal exacta . Cuando hay colinealidad perfecta, la matriz de diseño tiene un rango inferior al completo y, por lo tanto, la matriz de momentos no se puede invertir . En esta situación, las estimaciones de los parámetros de la regresión no están bien definidas, ya que el sistema de ecuaciones tiene infinitas soluciones .
La multicolinealidad imperfecta se refiere a una situación en la que las variables predictivas tienen una relación lineal casi exacta.
Contrariamente a la creencia popular, ni el teorema de Gauss-Markov ni la justificación más común de máxima verosimilitud para los mínimos cuadrados ordinarios se basan en ningún tipo de estructura de correlación entre predictores dependientes [1] [2] [3] (aunque la colinealidad perfecta puede causar problemas con algunos software).
No hay justificación para la práctica de eliminar variables colineales como parte del análisis de regresión, [1] [4] [5] [6] [7] y hacerlo puede constituir una mala conducta científica . La inclusión de variables colineales no reduce el poder predictivo ni la confiabilidad del modelo en su conjunto [6] y no reduce la precisión de las estimaciones de los coeficientes. [1]
La alta colinealidad indica que es excepcionalmente importante incluir todas las variables colineales, ya que excluir cualquiera provocará peores estimaciones de coeficientes, fuertes factores de confusión y estimaciones de errores estándar sesgadas a la baja . [2]
La multicolinealidad perfecta se refiere a una situación en la que los predictores son linealmente dependientes (uno puede escribirse como una función lineal exacta de los demás). Los mínimos cuadrados ordinarios requieren invertir la matriz , donde
es una matriz, donde es el número de observaciones, es el número de variables explicativas y . Si existe una relación lineal exacta entre las variables independientes, entonces al menos una de las columnas de es una combinación lineal de las demás, por lo que el rango de (y por lo tanto de ) es menor que y la matriz no será invertible.
La colinealidad perfecta suele deberse a la inclusión de variables redundantes en una regresión. Por ejemplo, un conjunto de datos puede incluir variables de ingresos, gastos y ahorros. Sin embargo, debido a que los ingresos son iguales a los gastos más los ahorros por definición, es incorrecto incluir las tres variables en una regresión simultáneamente. De manera similar, incluir una variable ficticia para cada categoría (por ejemplo, verano, otoño, invierno y primavera), así como un término de intersección, dará como resultado una colinealidad perfecta. Esto se conoce como trampa de variable ficticia. [8]
La otra causa común de colinealidad perfecta es intentar utilizar mínimos cuadrados ordinarios cuando se trabaja con conjuntos de datos muy amplios (aquellos con más variables que observaciones). Estos requieren técnicas de análisis de datos más avanzadas, como el modelado jerárquico bayesiano, para producir resultados significativos. [ cita necesaria ]
A veces, las variables son casi colineales. En este caso la matriz tiene inversa, pero está mal condicionada . Un algoritmo informático puede o no ser capaz de calcular una inversa aproximada; incluso si pudiera, el inverso resultante puede tener grandes errores de redondeo .
La medida estándar de mal condicionamiento en una matriz es el índice de condición. Esto determina si la inversión de la matriz es numéricamente inestable con números de precisión finita, lo que indica la sensibilidad potencial de la inversa calculada a pequeños cambios en la matriz original. El número de condición se calcula encontrando el valor singular máximo dividido por el valor singular mínimo de la matriz de diseño . [9] En el contexto de variables colineales, el factor de inflación de la varianza es el número de condición para un coeficiente particular.
Los problemas numéricos de estimación se pueden resolver aplicando técnicas estándar del álgebra lineal para estimar las ecuaciones con mayor precisión:
Además de causar problemas numéricos, la colinealidad imperfecta dificulta la estimación precisa de las variables. En otras palabras, las variables altamente correlacionadas conducen a estimaciones deficientes y errores estándar grandes.
Como ejemplo, digamos que notamos que Alice usa botas siempre que llueve y que solo hay charcos cuando llueve. Entonces, no podemos decir si usa botas para evitar que la lluvia caiga sobre sus pies o para mantener sus pies secos si pisa un charco.
El problema de intentar identificar cuánto importa cada una de las dos variables es que se confunden entre sí: nuestras observaciones se explican igualmente bien por cualquiera de las variables, por lo que no sabemos cuál de ellas causa las correlaciones observadas.
Hay dos formas de descubrir esta información:
Esta confusión empeora sustancialmente cuando los investigadores intentan ignorarla o suprimirla excluyendo estas variables de la regresión (consulte #Misuse). Excluir variables multicolineales de las regresiones invalidará la inferencia causal y producirá peores estimaciones al eliminar importantes factores de confusión.
Hay muchas formas de evitar que la multicolinealidad afecte los resultados planificando con anticipación. Sin embargo, estos métodos requieren que los investigadores decidan un procedimiento y un análisis antes de que se recopilen los datos (consulte análisis post hoc y #Misuse).
Muchos métodos de regresión son naturalmente "robustos" a la multicolinealidad y generalmente funcionan mejor que la regresión de mínimos cuadrados ordinaria , incluso cuando las variables son independientes. Las técnicas de regresión regularizada , como la regresión de crestas , LASSO , la regresión neta elástica o la regresión de puntas y losas, son menos sensibles a la inclusión de predictores "inútiles", una causa común de colinealidad. Estas técnicas pueden detectar y eliminar estos predictores automáticamente para evitar problemas. Los modelos jerárquicos bayesianos (proporcionados por software como BRMS ) pueden realizar dicha regularización automáticamente, aprendiendo información previa a partir de los datos.
A menudo, los problemas causados por el uso de la estimación frecuentista se malinterpretan o se diagnostican erróneamente como relacionados con la multicolinealidad. [3] Los investigadores a menudo se sienten frustrados no por la multicolinealidad, sino por su incapacidad para incorporar información previa relevante en las regresiones. Por ejemplo, las quejas de que los coeficientes tienen "signos incorrectos" o intervalos de confianza que "incluyen valores poco realistas" indican que hay información previa importante que no se está incorporando al modelo. Cuando esta información esté disponible, debe incorporarse a la anterior utilizando técnicas de regresión bayesiana . [3]
La regresión por pasos (el procedimiento de exclusión de variables "colineales" o "insignificantes") es especialmente vulnerable a la multicolinealidad y es uno de los pocos procedimientos totalmente invalidado por ella (cualquier colinealidad da como resultado estimaciones muy sesgadas y valores p invalidados). [2]
Al realizar experimentos en los que los investigadores tienen control sobre las variables predictivas, a menudo pueden evitar la colinealidad eligiendo un diseño experimental óptimo en consulta con un estadístico.
Si bien las estrategias anteriores funcionan en algunas situaciones, normalmente no tienen un efecto sustancial. Las técnicas más avanzadas aún pueden dar lugar a grandes errores estándar. Por tanto, la respuesta más común a la multicolinealidad debería ser "no hacer nada". [1] El proceso científico implica muchas veces resultados nulos o no concluyentes; no todos los experimentos serán "exitosos" en el sentido de proporcionar una confirmación decisiva de la hipótesis original del investigador.
Edward Leamer señala que "La solución al problema de la evidencia débil es más y mejores datos. Dentro de los límites del conjunto de datos dado, no hay nada que se pueda hacer con respecto a la evidencia débil"; [3] Los investigadores que creen que hay un problema con los resultados de la regresión deben observar la probabilidad previa , no la función de verosimilitud .
Damodar Gujarati escribe que "debemos aceptar con razón que [nuestros datos] a veces no son muy informativos sobre los parámetros de interés". [1] Olivier Blanchard bromea diciendo que "la multicolinealidad es la voluntad de Dios, no un problema con OLS "; [7] en otras palabras, cuando trabajan con datos de observación , los investigadores no pueden "arreglar" la multicolinealidad, sólo aceptarla.
Los factores de inflación de varianza a menudo se utilizan incorrectamente como criterios en la regresión por pasos (es decir, para la inclusión/exclusión de variables), un uso que "carece de base lógica pero que también es fundamentalmente engañoso como regla general". [2]
La exclusión de variables colineales conduce a estimaciones artificialmente pequeñas de los errores estándar, pero no reduce los errores estándar verdaderos (no estimados) de los coeficientes de regresión. [1] La exclusión de variables con un factor de inflación de alta varianza también invalida los errores estándar calculados y los valores p, al convertir los resultados de la regresión en un análisis post hoc . [13]
Debido a que la colinealidad genera grandes errores estándar y valores p, lo que puede dificultar la publicación de artículos, algunos investigadores intentarán suprimir datos inconvenientes eliminando variables fuertemente correlacionadas de su regresión. Este procedimiento cae dentro de las categorías más amplias de p-hacking , dragado de datos y análisis post hoc . Eliminar los predictores colineales (útiles) generalmente empeorará la precisión del modelo y las estimaciones de los coeficientes.
De manera similar, probar muchos modelos o procedimientos de estimación diferentes (por ejemplo, mínimos cuadrados ordinarios , regresión de crestas, etc.) hasta encontrar uno que pueda "tratar" la colinealidad crea un problema de bifurcación . Los valores p y los intervalos de confianza derivados de los análisis post hoc se invalidan al ignorar la incertidumbre en el procedimiento de selección del modelo.
Es razonable excluir los predictores sin importancia si se sabe de antemano que tienen poco o ningún efecto sobre el resultado; por ejemplo, la producción local de queso no debería utilizarse para predecir la altura de los rascacielos. Sin embargo, esto debe hacerse al especificar el modelo por primera vez, antes de observar cualquier dato, y siempre deben incluirse variables potencialmente informativas.
{{cite book}}
: CS1 maint: numeric names: authors list (link)