Relación espuria

En estadística , una relación espuria o correlación espuria ^[1]^[2] es una relación matemática en la que dos o más eventos o variables están asociados pero no relacionados causalmente , debido a la coincidencia o a la presencia de un tercer factor invisible (al que se hace referencia como "variable de respuesta común", "factor de confusión" o " variable oculta ").

Ejemplos

Un ejemplo de una relación espuria se puede encontrar en la literatura de series temporales , donde una regresión espuria es aquella que proporciona evidencia estadística engañosa de una relación lineal entre variables independientes no estacionarias . De hecho, la no estacionariedad puede deberse a la presencia de una raíz unitaria en ambas variables. ^[3]^[4] En particular, es probable que dos variables económicas nominales cualesquiera estén correlacionadas entre sí, incluso cuando ninguna tenga un efecto causal sobre la otra, porque cada una es igual a una variable real multiplicada por el nivel de precios , y la presencia común del nivel de precios en las dos series de datos les imparte correlación. (Véase también correlación espuria de ratios ).

Otro ejemplo de una relación espuria se puede ver al examinar las ventas de helados de una ciudad . Las ventas pueden ser más altas cuando la tasa de ahogamientos en las piscinas de la ciudad es más alta. Afirmar que las ventas de helados causan ahogamientos, o viceversa, sería insinuar una relación espuria entre los dos. En realidad, una ola de calor puede haber causado ambos. La ola de calor es un ejemplo de una variable oculta o invisible, también conocida como variable de confusión .

Otro ejemplo que se ha observado con frecuencia es una serie de estadísticas holandesas que muestran una correlación positiva entre el número de cigüeñas que anidan en una serie de primaveras y el número de bebés humanos nacidos en esa época. Por supuesto, no había una conexión causal; estaban correlacionadas entre sí solo debido a dos coincidencias independientes. Durante la era pagana, que se remonta al menos a la época medieval, hace más de 600 años, era común que las parejas se casaran durante el solsticio de verano anual, porque el verano estaba asociado con la fertilidad. Al mismo tiempo, las cigüeñas comenzaban su migración anual, volando desde Europa hasta África. Las aves regresaban luego la primavera siguiente, exactamente nueve meses después. ^[5]

En casos raros, puede ocurrir una relación espuria entre dos variables completamente no relacionadas sin ninguna variable de confusión, como fue el caso entre el éxito del equipo de fútbol profesional Washington Commanders en un juego específico antes de cada elección presidencial y el éxito del partido político del presidente en ejercicio en dicha elección. Durante 16 elecciones consecutivas entre 1940 y 2000, la Regla de los Redskins coincidió correctamente si el partido político del presidente en ejercicio retendría o perdería la presidencia. La regla finalmente falló poco después de que Elias Sports Bureau descubriera la correlación en 2000; en 2004, 2012 y 2016, los resultados del juego de los Commanders y la elección no coincidieron. ^[6]^[7]^[8] En una relación espuria similar que involucraba a la Liga Nacional de Fútbol , en la década de 1970, Leonard Koppett notó una correlación entre la dirección del mercado de valores y la conferencia ganadora del Super Bowl de ese año , el indicador del Super Bowl ; La relación se mantuvo durante la mayor parte del siglo XX antes de volver a un comportamiento más aleatorio en el siglo XXI. ^[9]

Prueba de hipótesis

A menudo, se prueba una hipótesis nula de que no hay correlación entre dos variables y se elige de antemano rechazar la hipótesis si la correlación calculada a partir de una muestra de datos se hubiera producido en menos de (por ejemplo) el 5% de las muestras de datos si la hipótesis nula fuera verdadera. Si bien una hipótesis nula verdadera se aceptará el 95% de las veces, el otro 5% de las veces que tenga una hipótesis nula verdadera de que no hay correlación, se rechazará erróneamente una correlación cero, lo que provocará la aceptación de una correlación que es espuria (un evento conocido como error de tipo I ). Aquí, la correlación espuria en la muestra resultó de la selección aleatoria de una muestra que no reflejaba las propiedades verdaderas de la población subyacente.

Detección de relaciones espurias

El término "relación espuria" se utiliza comúnmente en estadística y, en particular, en técnicas de investigación experimental , que intentan comprender y predecir relaciones causales directas (X → Y). Una correlación no causal puede ser creada espuriamente por un antecedente que causa ambas (W → X y W → Y). Las variables mediadoras (X → W → Y), si no se detectan, estiman un efecto total en lugar de un efecto directo sin ajuste para la variable mediadora M. Debido a esto, las correlaciones identificadas experimentalmente no representan relaciones causales a menos que se puedan descartar relaciones espurias.

Experimentos

En los experimentos, las relaciones espurias pueden identificarse a menudo controlando otros factores, incluidos aquellos que se han identificado teóricamente como posibles factores de confusión. Por ejemplo, supongamos que un investigador intenta determinar si un nuevo fármaco mata bacterias; cuando el investigador aplica el fármaco a un cultivo bacteriano, las bacterias mueren. Pero para ayudar a descartar la presencia de una variable de confusión, se somete otro cultivo a condiciones que sean lo más idénticas posible a las del primer cultivo mencionado, pero el segundo cultivo no se somete al fármaco. Si hay un factor de confusión no observado en esas condiciones, este cultivo de control también morirá, de modo que no se puede extraer ninguna conclusión sobre la eficacia del fármaco a partir de los resultados del primer cultivo. Por otro lado, si el cultivo de control no muere, entonces el investigador no puede rechazar la hipótesis de que el fármaco es eficaz.

Análisis estadísticos no experimentales

Las disciplinas cuyos datos son en su mayoría no experimentales, como la economía , suelen emplear datos observacionales para establecer relaciones causales. El conjunto de técnicas estadísticas utilizadas en economía se denomina econometría . El principal método estadístico en econometría es el análisis de regresión multivariable . Normalmente, se utiliza una relación lineal como

y=a_{0}+a_{1}x_{1}+a_{2}x_{2}+\cdots +a_{k}x_{k}+e

se plantea la hipótesis, en la que es la variable dependiente (que se supone que es la variable causada), para j = 1, ..., k es la j ^ésima variable independiente (que se supone que es una variable causal), y es el término de error (que contiene los efectos combinados de todas las demás variables causales, que deben no estar correlacionadas con las variables independientes incluidas). Si hay razones para creer que ninguna de las s es causada por y , entonces se obtienen estimaciones de los coeficientes . Si se rechaza la hipótesis nula que , entonces la hipótesis alternativa de que y equivalentemente que causa y no puede rechazarse. Por otro lado, si la hipótesis nula que no puede rechazarse, entonces equivalentemente la hipótesis de que no hay efecto causal de sobre y no puede rechazarse. Aquí la noción de causalidad es una de causalidad contributiva : si el valor verdadero , entonces un cambio en resultará en un cambio en y a menos que alguna otra variable causal, ya sea incluida en la regresión o implícita en el término de error, cambie de tal manera que compense exactamente su efecto; por lo tanto, un cambio en no es suficiente para cambiar y . De la misma manera, no es necesario que haya un cambio en para cambiar y , porque un cambio en y podría ser causado por algo implícito en el término de error (o por alguna otra variable explicativa causal incluida en el modelo). ${\estilo de visualización y}$ $estilo de visualización x_{j}}$ ${\estilo de visualización e}$ $estilo de visualización x_{j}}$ $Estilo de visualización a_ {j}}$ $a_{j}=0$ $a_{j}\neq 0$ $estilo de visualización x_{j}}$ $a_{j}=0$ $estilo de visualización x_{j}}$ $a_{j}\neq 0$ $estilo de visualización x_{j}}$ $estilo de visualización x_{j}}$ $estilo de visualización x_{j}}$

El análisis de regresión controla otras variables relevantes al incluirlas como regresores (variables explicativas). Esto ayuda a evitar la inferencia errónea de causalidad debido a la presencia de una tercera variable subyacente que influye tanto en la variable potencialmente causal como en la variable potencialmente causada: su efecto sobre la variable potencialmente causada se captura al incluirla directamente en la regresión, de modo que ese efecto no se detectará como un efecto espurio de la variable potencialmente causal de interés. Además, el uso de la regresión multivariante ayuda a evitar la inferencia errónea de que un efecto indirecto de, digamos x ₁ (p. ej., x ₁ → x ₂ → y ) es un efecto directo ( x ₁ → y ).

Así como un experimentador debe tener cuidado de emplear un diseño experimental que controle cada factor de confusión, también el usuario de la regresión múltiple debe tener cuidado de controlar todos los factores de confusión incluyéndolos entre los regresores. Si se omite un factor de confusión de la regresión, su efecto se captura en el término de error por defecto, y si el término de error resultante está correlacionado con uno (o más) de los regresores incluidos, entonces la regresión estimada puede estar sesgada o ser inconsistente (ver sesgo de variable omitida ).

Además del análisis de regresión, se pueden examinar los datos para determinar si existe causalidad de Granger . La presencia de causalidad de Granger indica que x precede a y y que x contiene información única sobre y .

Otras relaciones

Existen otras relaciones definidas en el análisis estadístico como se indica a continuación.

Véase también

Literatura

David A. Freedman (1983) Una nota sobre el cribado de ecuaciones de regresión, The American Statistician, 37:2, 152-155, DOI: 10.1080/00031305.1983.10482729

Notas al pie

^ Burns, William C., " Correlaciones espurias ", 1997.
^ Pearl, Judea . "UCLA 81st Faculty Research Lecture Series". singapore.cs.ucla.edu . Consultado el 10 de noviembre de 2019 .
^ Yule, G. Udny (1 de enero de 1926). "¿Por qué a veces obtenemos correlaciones sin sentido entre series temporales? Un estudio sobre muestreo y la naturaleza de las series temporales". Journal of the Royal Statistical Society . 89 (1): 1–63. doi :10.2307/2341482. JSTOR 2341482. S2CID 126346450.
^ Granger, Clive WJ; Ghysels, Eric; Swanson, Norman R.; Watson, Mark W. (2001). Ensayos sobre econometría: documentos recopilados de Clive WJ Granger . Cambridge University Press. ISBN 978-0521796491.
^ Sapsford, Roger; Jupp, Victor, eds. (2006). Recopilación y análisis de datos . Sage. ISBN 0-7619-4362-5.
^ Hofheimer, Bill (30 de octubre de 2012). "'Redskins Rule': Hirdt de MNF sobre la intersección del fútbol y la política". ESPN . Consultado el 16 de octubre de 2016 .
^ Manker, Rob (7 de noviembre de 2012). "Los Redskins mandan: la victoria de Barack Obama sobre Mitt Romney supone su primera derrota". Chicago Tribune . Consultado el 8 de noviembre de 2012 .
^ Pohl, Robert S. (2013). Leyendas urbanas y tradiciones históricas de Washington. The History Press. págs. 78-80. ISBN 978-1625846648.^{[ enlace muerto permanente ]}
^ Don Peppers. "Big Data. Super Bowl. Small Minds" . Consultado el 31 de diciembre de 2015 .

Referencias

Gumbel, EJ (1926), "Correlación espuria y su importancia para la fisiología", Journal of the American Statistical Association , 21 (154): 179–194, doi :10.1080/01621459.1926.10502169
Banerjee, A.; Dolado, J.; Galbraith, J. W.; Hendry, DF (1993). Cointegración, corrección de errores y análisis econométrico de datos no estacionarios . Oxford University Press. págs. 70–81. ISBN. 0-19-828810-7.
Pearl, Judea (2000). Causalidad: modelos, razonamiento e inferencia . Cambridge University Press. ISBN 0521773628.

Enlaces externos

https://www.tylervigen.com/spurious-correlations, un sitio web que enumera ejemplos de correlaciones espurias