En estadística , la multicolinealidad o colinealidad es una situación en la que los predictores en un modelo de regresión son linealmente dependientes .
La multicolinealidad perfecta se refiere a una situación en la que las variables predictivas tienen una relación lineal exacta . Cuando hay una colinealidad perfecta, la matriz de diseño tiene un rango menor que el completo y, por lo tanto, la matriz de momentos no se puede invertir . En esta situación, las estimaciones de los parámetros de la regresión no están bien definidas, ya que el sistema de ecuaciones tiene infinitas soluciones .
La multicolinealidad imperfecta se refiere a una situación en la que las variables predictivas tienen una relación lineal casi exacta.
Contrariamente a la creencia popular, ni el teorema de Gauss-Markov ni la justificación más común de máxima verosimilitud para los mínimos cuadrados ordinarios se basan en ningún tipo de estructura de correlación entre predictores dependientes [1] [2] [3] (aunque la colinealidad perfecta puede causar problemas con algunos programas).
No existe justificación para la práctica de eliminar variables colineales como parte del análisis de regresión, [1] [4] [5] [6] [7] y hacerlo puede constituir una mala conducta científica . La inclusión de variables colineales no reduce el poder predictivo ni la confiabilidad del modelo en su conjunto, [6] y no reduce la precisión de las estimaciones de coeficientes. [1]
Una alta colinealidad indica que es excepcionalmente importante incluir todas las variables colineales, ya que excluir alguna provocará peores estimaciones de coeficientes, fuerte confusión y estimaciones sesgadas a la baja de los errores estándar . [2]
La multicolinealidad perfecta se refiere a una situación en la que los predictores son linealmente dependientes (uno puede escribirse como una función lineal exacta de los otros). Los mínimos cuadrados ordinarios requieren invertir la matriz , donde
es una matriz, donde es el número de observaciones, es el número de variables explicativas y . Si existe una relación lineal exacta entre las variables independientes, entonces al menos una de las columnas de es una combinación lineal de las otras, y por lo tanto el rango de (y por lo tanto de ) es menor que , y la matriz no será invertible.
La colinealidad perfecta suele deberse a la inclusión de variables redundantes en una regresión. Por ejemplo, un conjunto de datos puede incluir variables de ingresos, gastos y ahorros. Sin embargo, como los ingresos son iguales a los gastos más los ahorros por definición, es incorrecto incluir las tres variables en una regresión simultáneamente. De manera similar, incluir una variable ficticia para cada categoría (por ejemplo, verano, otoño, invierno y primavera) así como un término de intersección dará como resultado una colinealidad perfecta. Esto se conoce como la trampa de la variable ficticia. [8]
La otra causa común de colinealidad perfecta es intentar utilizar mínimos cuadrados ordinarios cuando se trabaja con conjuntos de datos muy amplios (aquellos con más variables que observaciones). Estos requieren técnicas de análisis de datos más avanzadas, como el modelado jerárquico bayesiano, para producir resultados significativos. [ cita requerida ]
A veces, las variables son casi colineales. En este caso, la matriz tiene una inversa, pero está mal condicionada . Un algoritmo informático puede o no ser capaz de calcular una inversa aproximada; incluso si pudiera, la inversa resultante puede tener grandes errores de redondeo .
La medida estándar del mal condicionamiento en una matriz es el índice de condición. Este determina si la inversión de la matriz es numéricamente inestable con números de precisión finita, lo que indica la sensibilidad potencial de la inversa calculada a pequeños cambios en la matriz original. El número de condición se calcula hallando el valor singular máximo dividido por el valor singular mínimo de la matriz de diseño . [9] En el contexto de las variables colineales, el factor de inflación de la varianza es el número de condición para un coeficiente particular.
Los problemas numéricos de estimación se pueden resolver aplicando técnicas estándar del álgebra lineal para estimar las ecuaciones con mayor precisión:
Además de causar problemas numéricos, la colinealidad imperfecta dificulta la estimación precisa de las variables. En otras palabras, las variables altamente correlacionadas dan lugar a estimaciones deficientes y a grandes errores estándar.
Por ejemplo, digamos que nos damos cuenta de que Alicia usa botas siempre que llueve y que solo hay charcos cuando llueve. Entonces, no podemos decir si usa botas para evitar que la lluvia caiga sobre sus pies o para mantenerlos secos si pisa un charco.
El problema de intentar identificar cuánto importa cada una de las dos variables es que se confunden entre sí: nuestras observaciones se explican igualmente bien por cualquiera de las dos variables, por lo que no sabemos cuál de ellas causa las correlaciones observadas.
Hay dos formas de descubrir esta información:
Esta confusión se agrava sustancialmente cuando los investigadores intentan ignorarla o suprimirla excluyendo estas variables de la regresión (véase #Uso incorrecto). Excluir variables multicolineales de las regresiones invalidará la inferencia causal y producirá estimaciones peores al eliminar factores de confusión importantes.
Existen muchas maneras de evitar que la multicolinealidad afecte los resultados mediante una planificación anticipada. Sin embargo, estos métodos requieren que los investigadores decidan un procedimiento y un análisis antes de que se hayan recopilado los datos (consulte el análisis post hoc y el apartado #Uso incorrecto).
Muchos métodos de regresión son naturalmente "robustos" a la multicolinealidad y generalmente funcionan mejor que la regresión de mínimos cuadrados ordinaria , incluso cuando las variables son independientes. Las técnicas de regresión regularizada como la regresión de cresta , LASSO , la regresión de red elástica o la regresión de picos y losas son menos sensibles a la inclusión de predictores "inútiles", una causa común de colinealidad. Estas técnicas pueden detectar y eliminar estos predictores automáticamente para evitar problemas. Los modelos jerárquicos bayesianos (proporcionados por software como BRMS ) pueden realizar dicha regularización automáticamente, aprendiendo valores previos informativos de los datos.
A menudo, los problemas causados por el uso de la estimación frecuentista se malinterpretan o se diagnostican erróneamente como relacionados con la multicolinealidad. [3] Los investigadores a menudo se sienten frustrados no por la multicolinealidad, sino por su incapacidad para incorporar información previa relevante en las regresiones. Por ejemplo, las quejas de que los coeficientes tienen "signos erróneos" o intervalos de confianza que "incluyen valores irreales" indican que hay información previa importante que no se está incorporando al modelo. Cuando esta información está disponible, se debe incorporar a la información previa utilizando técnicas de regresión bayesiana . [3]
La regresión por pasos (el procedimiento de excluir variables "colineales" o "insignificantes") es especialmente vulnerable a la multicolinealidad y es uno de los pocos procedimientos que esta invalida por completo (cualquier colinealidad da como resultado estimaciones muy sesgadas y valores p invalidados). [2]
Al realizar experimentos en los que los investigadores tienen control sobre las variables predictivas, a menudo pueden evitar la colinealidad eligiendo un diseño experimental óptimo en consulta con un estadístico.
Si bien las estrategias anteriores funcionan en algunas situaciones, por lo general no tienen un efecto sustancial. Las técnicas más avanzadas aún pueden generar errores estándar grandes. Por lo tanto, la respuesta más común a la multicolinealidad debería ser "no hacer nada". [1] El proceso científico a menudo implica resultados nulos o no concluyentes; no todos los experimentos serán "exitosos" en el sentido de proporcionar una confirmación decisiva de la hipótesis original del investigador.
Edward Leamer señala que "la solución al problema de la evidencia débil es más y mejores datos. Dentro de los límites del conjunto de datos dado no hay nada que se pueda hacer con respecto a la evidencia débil"; [3] los investigadores que creen que hay un problema con los resultados de la regresión deberían observar la probabilidad previa , no la función de verosimilitud .
Damodar Gujarati escribe que "deberíamos aceptar con razón que [nuestros datos] a veces no son muy informativos sobre los parámetros de interés". [1] Olivier Blanchard bromea diciendo que "la multicolinealidad es la voluntad de Dios, no un problema con MCO "; [7] en otras palabras, cuando trabajan con datos observacionales , los investigadores no pueden "arreglar" la multicolinealidad, solo aceptarla.
Los factores de inflación de varianza se utilizan a menudo incorrectamente como criterios en la regresión por pasos (es decir, para la inclusión/exclusión de variables), un uso que "carece de cualquier base lógica y que también es fundamentalmente engañoso como regla general". [2]
La exclusión de variables colineales conduce a estimaciones artificialmente pequeñas de los errores estándar, pero no reduce los errores estándar reales (no estimados) de los coeficientes de regresión. [1] La exclusión de variables con un alto factor de inflación de la varianza también invalida los errores estándar calculados y los valores p, al convertir los resultados de la regresión en un análisis post hoc . [13]
Debido a que la colinealidad genera grandes errores estándar y valores p, que pueden dificultar la publicación de artículos, algunos investigadores intentarán suprimir los datos inconvenientes eliminando de su regresión las variables fuertemente correlacionadas. Este procedimiento se enmarca en las categorías más amplias de p-hacking , dragado de datos y análisis post hoc . La eliminación de predictores colineales (útiles) generalmente empeorará la precisión del modelo y las estimaciones de coeficientes.
De manera similar, probar muchos modelos o procedimientos de estimación diferentes (por ejemplo, mínimos cuadrados ordinarios , regresión de cresta, etc.) hasta encontrar uno que pueda "gestionar" la colinealidad crea un problema de caminos bifurcados . Los valores p y los intervalos de confianza derivados de los análisis post hoc se invalidan al ignorar la incertidumbre en el procedimiento de selección del modelo.
Es razonable excluir los predictores poco importantes si se sabe de antemano que tienen poco o ningún efecto sobre el resultado; por ejemplo, no se debe utilizar la producción local de queso para predecir la altura de los rascacielos. Sin embargo, esto debe hacerse al especificar el modelo por primera vez, antes de observar los datos, y siempre deben incluirse las variables potencialmente informativas.
{{cite book}}
: CS1 maint: numeric names: authors list (link)