stringtranslate.com

Multicolinealidad

En estadística , la multicolinealidad o colinealidad es una situación en la que los predictores de un modelo de regresión son linealmente dependientes .

La multicolinealidad perfecta se refiere a una situación en la que las variables predictivas tienen una relación lineal exacta . Cuando hay colinealidad perfecta, la matriz de diseño tiene un rango inferior al completo y, por lo tanto, la matriz de momentos no se puede invertir . En esta situación, las estimaciones de los parámetros de la regresión no están bien definidas, ya que el sistema de ecuaciones tiene infinitas soluciones .

La multicolinealidad imperfecta se refiere a una situación en la que las variables predictivas tienen una relación lineal casi exacta.

Contrariamente a la creencia popular, ni el teorema de Gauss-Markov ni la justificación más común de máxima verosimilitud para mínimos cuadrados ordinarios se basan en ningún tipo de estructura de correlación entre predictores dependientes [1] [2] [3] (aunque la colinealidad perfecta puede causar problemas con algunos software).

No hay justificación para la práctica de eliminar variables colineales como parte del análisis de regresión, [1] [4] [5] [6] [7] y hacerlo puede constituir una mala conducta científica . Los econometristas y estadísticos se han referido en broma a la colinealidad imperfecta como " micronumerosidad ", señalando que sólo es un problema cuando se trabaja con un tamaño de muestra insuficiente. [3] [4] La inclusión de variables colineales no reduce el poder predictivo o la confiabilidad del modelo en su conjunto, [6] y no reduce la precisión de las estimaciones de los coeficientes. [1]

La alta colinealidad indica que es excepcionalmente importante incluir todas las variables colineales, ya que excluir cualquiera provocará peores estimaciones de coeficientes, fuertes factores de confusión y estimaciones de errores estándar sesgadas a la baja . [2]

Multicolinealidad perfecta

Una descripción de la multicolinealidad.

La multicolinealidad perfecta se refiere a una situación en la que los predictores son linealmente dependientes (uno puede escribirse como una función lineal exacta de los demás). Los mínimos cuadrados ordinarios requieren invertir la matriz , donde

es una matriz, donde es el número de observaciones, es el número de variables explicativas y . Si existe una relación lineal exacta entre las variables independientes, entonces al menos una de las columnas de es una combinación lineal de las demás, por lo que el rango de (y por lo tanto de ) es menor que y la matriz no será invertible.

Resolución

La colinealidad perfecta suele deberse a la inclusión de variables redundantes en una regresión. Por ejemplo, un conjunto de datos puede incluir variables de ingresos, gastos y ahorros. Sin embargo, debido a que los ingresos son iguales a los gastos más los ahorros por definición, es incorrecto incluir las tres variables en una regresión simultáneamente. De manera similar, incluir una variable ficticia para cada categoría (por ejemplo, verano, otoño, invierno y primavera), así como un término de intersección, dará como resultado una colinealidad perfecta. Esto se conoce como trampa de variable ficticia. [8]

La otra causa común de colinealidad perfecta es intentar utilizar mínimos cuadrados ordinarios cuando se trabaja con conjuntos de datos muy amplios (aquellos con más variables que observaciones). Estos requieren técnicas de análisis de datos más avanzadas, como el modelado jerárquico bayesiano, para producir resultados significativos.

En una regresión lineal, los verdaderos parámetros son los que se estiman de manera confiable en el caso de no correlacionados y (caso negro), pero no se estiman de manera confiable cuando y están correlacionados (caso rojo).

Cuestiones numéricas

A veces, las variables son casi colineales. En este caso la matriz tiene inversa, pero está mal condicionada . Un algoritmo informático puede o no poder calcular una inversa aproximada; incluso si pudiera, el inverso resultante puede tener grandes errores de redondeo .

La medida estándar de mal condicionamiento en una matriz es el índice de condición. Esto determina si la inversión de la matriz es numéricamente inestable con números de precisión finita, lo que indica la sensibilidad potencial de la inversa calculada a pequeños cambios en la matriz original. El número de condición se calcula encontrando el valor singular máximo dividido por el valor singular mínimo de la matriz de diseño . [9] En el contexto de variables colineales, el factor de inflación de la varianza es el número de condición para un coeficiente particular.

Soluciones

Los problemas numéricos de estimación se pueden resolver aplicando técnicas estándar del álgebra lineal para estimar las ecuaciones con mayor precisión:

  1. Estandarización de variables predictoras. Trabajar con términos polinomiales (p. ej.,), incluidos términos de interacción (es decir,) puede provocar multicolinealidad. Esto es especialmente cierto cuando la variable en cuestión tiene un rango limitado. La estandarización de las variables predictoras eliminará este tipo especial de multicolinealidad para polinomios de hasta tercer orden. [10]
  2. Utilice una representación ortogonal de los datos . [11] El software estadístico mal escrito a veces no logra converger a una representación correcta cuando las variables están fuertemente correlacionadas. Sin embargo, aún es posible reescribir la regresión para usar solo variables no correlacionadas realizando un cambio de base .
    • Para términos polinomiales en particular, es posible reescribir la regresión como una función de variables no correlacionadas usando polinomios ortogonales .

Efectos sobre las estimaciones de coeficientes

Además de causar problemas numéricos, la colinealidad imperfecta dificulta la estimación precisa de las variables. En otras palabras, las variables altamente correlacionadas dan lugar a estimaciones deficientes y errores estándar grandes.

Como ejemplo, digamos que notamos que Alice usa botas cuando llueve y que solo hay charcos cuando llueve. Entonces, no podemos decir si usa botas para evitar que la lluvia caiga sobre sus pies o para mantenerlos secos si pisa un charco.

El problema de intentar identificar cuánto importa cada una de las dos variables es que se confunden entre sí: nuestras observaciones se explican igualmente bien por cualquiera de las variables, por lo que no sabemos cuál de ellas causa las correlaciones observadas.

Hay dos formas de descubrir esta información:

  1. Utilizar información o teoría previa. Por ejemplo, si notamos que Alicia nunca pisa los charcos, podemos argumentar razonablemente que los charcos no son la razón por la que usa botas, ya que no las necesita para evitar los charcos.
  2. Recopilando más datos. Si observamos a Alice suficientes veces, eventualmente la veremos en los días en que hay charcos pero no llueve (por ejemplo, porque la lluvia cesa antes de que ella salga de casa).

Esta confusión empeora sustancialmente cuando los investigadores intentan ignorarla o suprimirla excluyendo estas variables de la regresión (consulte #Misuse). Excluir variables multicolineales de las regresiones invalidará la inferencia causal y producirá peores estimaciones al eliminar importantes factores de confusión.

Remedios

Hay muchas formas de evitar que la multicolinealidad afecte los resultados planificando con anticipación. Sin embargo, estos métodos requieren que los investigadores decidan un procedimiento y un análisis antes de que se recopilen los datos (consulte análisis post hoc y #Misuse).

Estimadores regularizados

Muchos métodos de regresión son naturalmente "robustos" a la multicolinealidad y generalmente funcionan mejor que la regresión de mínimos cuadrados ordinaria , incluso cuando las variables son independientes. Las técnicas de regresión regularizada , como la regresión de crestas , LASSO , la regresión neta elástica o la regresión de puntas y losas , son menos sensibles a la inclusión de predictores "inútiles", una causa común de colinealidad. Estas técnicas pueden detectar y eliminar estos predictores automáticamente para evitar problemas. Los modelos jerárquicos bayesianos (proporcionados por software como BRMS ) pueden realizar dicha regularización automáticamente, aprendiendo información previa a partir de los datos.

A menudo, los problemas causados ​​por el uso de la estimación frecuentista se malinterpretan o se diagnostican erróneamente como relacionados con la multicolinealidad. [3] Los investigadores a menudo se sienten frustrados no por la multicolinealidad, sino por su incapacidad para incorporar información previa relevante en las regresiones. Por ejemplo, las quejas de que los coeficientes tienen "signos incorrectos" o intervalos de confianza que "incluyen valores poco realistas" indican que hay información previa importante que no se está incorporando al modelo. Cuando esta información esté disponible, debe incorporarse a la anterior utilizando técnicas de regresión bayesiana . [3]

La regresión por pasos (el procedimiento de exclusión de variables "colineales" o "insignificantes") es especialmente vulnerable a la multicolinealidad y es uno de los pocos procedimientos totalmente invalidado por ella (cualquier colinealidad da como resultado estimaciones muy sesgadas y valores p invalidados). [2]

Diseño experimental mejorado.

Al realizar experimentos en los que los investigadores tienen control sobre las variables predictivas, a menudo pueden evitar la colinealidad eligiendo un diseño experimental óptimo en consulta con un estadístico.

Aceptación

Si bien las estrategias anteriores funcionan en algunas situaciones, normalmente no tienen un efecto sustancial. Las técnicas más avanzadas aún pueden dar lugar a grandes errores estándar. Por tanto, la respuesta más común a la multicolinealidad debería ser "no hacer nada". [1] El proceso científico implica muchas veces resultados nulos o no concluyentes; no todos los experimentos serán "exitosos" en el sentido de proporcionar una confirmación decisiva de la hipótesis original del investigador.

Edward Leamer señala que "La solución al problema de la evidencia débil es más y mejores datos. Dentro de los límites del conjunto de datos dado, no hay nada que se pueda hacer con respecto a la evidencia débil"; [3] Los investigadores que creen que hay un problema con los resultados de la regresión deben observar la probabilidad previa , no la función de verosimilitud .

Damodar Gujarati escribe que "debemos aceptar con razón que [nuestros datos] a veces no son muy informativos sobre los parámetros de interés". [1] Olivier Blanchard bromea diciendo que "la multicolinealidad es la voluntad de Dios, no un problema con OLS "; [7] en otras palabras, cuando trabajan con datos de observación , los investigadores no pueden "arreglar" la multicolinealidad, sólo aceptarla.

Mal uso

Los factores de inflación de varianza a menudo se utilizan incorrectamente como criterios en la regresión por pasos (es decir, para la inclusión/exclusión de variables), un uso que "carece de base lógica pero que también es fundamentalmente engañoso como regla general". [2]

La exclusión de variables colineales conduce a estimaciones artificialmente pequeñas de los errores estándar, pero no reduce los errores estándar verdaderos (no estimados) de los coeficientes de regresión. [1] La exclusión de variables con un factor de inflación de alta varianza también invalida los errores estándar calculados y los valores p, al convertir los resultados de la regresión en un análisis post hoc . [13]

Debido a que la colinealidad genera grandes errores estándar y valores p, lo que puede dificultar la publicación de artículos, algunos investigadores intentarán suprimir datos inconvenientes eliminando variables fuertemente correlacionadas de su regresión. Este procedimiento cae dentro de las categorías más amplias de p-hacking , dragado de datos y análisis post hoc . Eliminar los predictores colineales (útiles) generalmente empeorará la precisión del modelo y las estimaciones de los coeficientes.

De manera similar, probar muchos modelos o procedimientos de estimación diferentes (por ejemplo, mínimos cuadrados ordinarios , regresión de crestas, etc.) hasta encontrar uno que pueda "tratar" la colinealidad crea un problema de bifurcación . Los valores p y los intervalos de confianza derivados de los análisis post hoc se invalidan al ignorar la incertidumbre en el procedimiento de selección del modelo.

Es razonable excluir los predictores sin importancia si se sabe de antemano que tienen poco o ningún efecto sobre el resultado; por ejemplo, la producción local de queso no debería utilizarse para predecir la altura de los rascacielos. Sin embargo, esto debe hacerse al especificar por primera vez el modelo, antes de observar cualquier dato, y siempre deben incluirse variables potencialmente informativas.

Ver también

Referencias

  1. ^ abcdef Gujarati, Damodar (2009). "Multicolinealidad: ¿qué pasa si los regresores están correlacionados?". Econometría básica (4ª ed.). McGraw-Hill. págs.363 . ISBN 9780073375779.
  2. ^ abcd Kalnins, Arturs; Praitis Hill, Kendall (13 de diciembre de 2023). "La puntuación VIF. ¿Para qué sirve? Absolutamente nada". Métodos de investigación organizacional . doi :10.1177/10944281231216381. ISSN  1094-4281.
  3. ^ ABCDE Leamer, Edward E. (1973). "Multicolinealidad: una interpretación bayesiana". La Revista de Economía y Estadística . 55 (3): 371–380. doi :10.2307/1927962. ISSN  0034-6535.
  4. ^ ab Giles, Dave (15 de septiembre de 2011). "Econometría Beat: Blog de Dave Giles: Micronumerosidad". Beat de econometría . Consultado el 3 de septiembre de 2023 .
  5. ^ Goldberger, (1964), COMO (1964). Teoría econométrica . Nueva York: Wiley.{{cite book}}: CS1 maint: numeric names: authors list (link)
  6. ^ ab Goldberger, AS "Capítulo 23.3". Un curso de econometría . Cambridge MA: Harvard University Press.
  7. ^ ab Blanchard, Olivier Jean (octubre de 1987). "Comentario". Revista de estadísticas económicas y empresariales . 5 (4): 449–451. doi :10.1080/07350015.1987.10509611. ISSN  0735-0015.
  8. ^ "Trampa de variable ficticia - LearnDataSci". www.learndatasci.com . Consultado el 18 de enero de 2024 .
  9. ^ Belsley, David (1991). Diagnóstico de condicionamiento: colinealidad y datos débiles en regresión . Nueva York: Wiley. ISBN 978-0-471-52889-0.
  10. ^ "12.6 - Reducción de la multicolinealidad estructural | STAT 501". nuevoscursosenlinea.ciencia.psu.edu . Consultado el 16 de marzo de 2019 .
  11. ^ ab "Trucos computacionales con Turing (parametrización no centrada y descomposición QR)". storopoli.io . Consultado el 3 de septiembre de 2023 .
  12. ^ Gelman, Andrés; Imbens, Guido (3 de julio de 2019). "Por qué no deberían utilizarse polinomios de orden superior en diseños de discontinuidades de regresión". Revista de estadísticas económicas y empresariales . 37 (3): 447–456. doi :10.1080/07350015.2017.1366909. ISSN  0735-0015.
  13. ^ Gelman, Andrés; Loken, Eric (14 de noviembre de 2013). «El jardín de los caminos que se bifurcan» (PDF) . Inédito - vía Columbia.


Otras lecturas

enlaces externos