stringtranslate.com

relación espuria

Mientras que un mediador es un factor en la cadena causal (arriba), un factor de confusión es un factor espurio que implica incorrectamente causalidad (abajo).

En estadística , una relación espuria o correlación espuria [1] [2] es una relación matemática en la que dos o más eventos o variables están asociados pero no relacionados causalmente , ya sea por coincidencia o por la presencia de un tercer factor invisible (denominado "variable de respuesta común", "factor de confusión" o " variable oculta ").

Ejemplos

Un ejemplo de relación espuria se puede encontrar en la literatura sobre series temporales , donde una regresión espuria es aquella que proporciona evidencia estadística engañosa de una relación lineal entre variables independientes no estacionarias . De hecho, la no estacionariedad puede deberse a la presencia de una raíz unitaria en ambas variables. [3] [4] En particular, es probable que dos variables económicas nominales cualesquiera estén correlacionadas entre sí, incluso cuando ninguna tiene un efecto causal sobre la otra, porque cada una es igual a una variable real multiplicada por el nivel de precios , y la presencia común de el nivel de precios en las dos series de datos les imparte correlación. (Véase también correlación espuria de proporciones ).

Otro ejemplo de relación espuria se puede ver al examinar las ventas de helados de una ciudad . Las ventas podrían ser mayores cuando la tasa de ahogamientos en las piscinas de la ciudad sea mayor. Alegar que la venta de helados provoca ahogamientos, o viceversa, sería implicar una relación espuria entre ambos. En realidad, una ola de calor pudo haber causado ambas cosas. La ola de calor es un ejemplo de variable oculta o invisible, también conocida como variable de confusión .

Otro ejemplo comúnmente observado es una serie de estadísticas holandesas que muestran una correlación positiva entre el número de cigüeñas que anidan en una serie de manantiales y el número de bebés humanos nacidos en ese momento. Por supuesto, no había ninguna conexión causal; se correlacionaron entre sí sólo porque se correlacionaron con el clima nueve meses antes de las observaciones. [5]

En casos raros, puede ocurrir una relación espuria entre dos variables completamente no relacionadas y sin ninguna variable de confusión, como fue el caso entre el éxito del equipo de fútbol profesional Washington Commanders en un juego específico antes de cada elección presidencial y el éxito del partido político del presidente en ejercicio. en dicha elección. Durante 16 elecciones consecutivas entre 1940 y 2000, la regla de los Redskins correspondía correctamente a si el partido político del presidente en ejercicio retendría o perdería la presidencia. La regla finalmente falló poco después de que Elias Sports Bureau descubriera la correlación en 2000; en 2004, 2012 y 2016, los resultados del juego de Comandantes y las elecciones no coincidieron. [6] [7] [8] En una relación espuria similar que involucra a la Liga Nacional de Fútbol Americano , en la década de 1970, Leonard Koppett notó una correlación entre la dirección del mercado de valores y la conferencia ganadora del Super Bowl de ese año , el indicador del Super Bowl. ; la relación se mantuvo durante la mayor parte del siglo XX antes de volver a un comportamiento más aleatorio en el XXI. [9]

Evaluación de la hipótesis

A menudo, uno prueba una hipótesis nula de ausencia de correlación entre dos variables y elige de antemano rechazar la hipótesis si la correlación calculada a partir de una muestra de datos habría ocurrido en menos de (digamos) el 5% de las muestras de datos si la hipótesis nula fuera cierta. Mientras que una hipótesis nula verdadera será aceptada el 95% de las veces, el otro 5% de las veces teniendo una hipótesis nula verdadera de no correlación una correlación cero será rechazada erróneamente, provocando la aceptación de una correlación que es espuria (un evento conocido como Tipo Me equivoco ). En este caso, la correlación espuria en la muestra resultó de la selección aleatoria de una muestra que no reflejaba las verdaderas propiedades de la población subyacente.

Detectar relaciones espurias

El término "relación espuria" se utiliza comúnmente en estadística y, en particular, en técnicas de investigación experimental , las cuales intentan comprender y predecir relaciones causales directas (X → Y). Una correlación no causal puede ser creada falsamente por un antecedente que causa ambos (W → X y W → Y). Las variables mediadoras , (X → W → Y), si no se detectan, estiman un efecto total en lugar de un efecto directo sin ajuste para la variable mediadora M. Debido a esto, las correlaciones identificadas experimentalmente no representan relaciones causales a menos que se puedan descartar relaciones espurias.

experimentos

En los experimentos, a menudo se pueden identificar relaciones espurias controlando otros factores, incluidos aquellos que teóricamente han sido identificados como posibles factores de confusión. Por ejemplo, consideremos a un investigador que intenta determinar si un nuevo fármaco mata las bacterias; cuando el investigador aplica el fármaco a un cultivo bacteriano, las bacterias mueren. Pero para ayudar a descartar la presencia de una variable de confusión, otra cultura se somete a condiciones que son lo más idénticas posible a las que enfrenta la cultura mencionada en primer lugar, pero la segunda cultura no está sometida a la droga. Si hay un factor de confusión invisible en esas condiciones, este cultivo de control también morirá, de modo que no se puede sacar ninguna conclusión sobre la eficacia del fármaco a partir de los resultados del primer cultivo. Por otro lado, si la cultura de control no muere, entonces el investigador no puede rechazar la hipótesis de que el fármaco es eficaz.

Análisis estadísticos no experimentales.

Las disciplinas cuyos datos son en su mayoría no experimentales, como la economía , suelen emplear datos observacionales para establecer relaciones causales. El conjunto de técnicas estadísticas utilizadas en economía se denomina econometría . El principal método estadístico en econometría es el análisis de regresión multivariable . Normalmente una relación lineal como

se hipotetiza, en la cual es la variable dependiente (se supone que es la variable causada), para j  = 1, ...,  k es la j -ésima variable independiente (se supone que es una variable causante), y es el término de error (que contiene los efectos combinados de todas las demás variables causales, que no deben estar correlacionadas con las variables independientes incluidas). Si hay motivos para creer que ninguno de los s es causado por y , entonces se obtienen estimaciones de los coeficientes . Si se rechaza la hipótesis nula , entonces la hipótesis alternativa que y equivalentemente causa y no se puede rechazar. Por otro lado, si la hipótesis nula no se puede rechazar, entonces, de manera equivalente, no se puede rechazar la hipótesis de que no hay efecto causal de sobre y . Aquí la noción de causalidad es una de causalidad contributiva : si el valor verdadero es , entonces un cambio en dará como resultado un cambio en y a menos que alguna otra variable causal, ya sea incluida en la regresión o implícita en el término de error, cambie en de tal manera que compense exactamente su efecto; por tanto, un cambio en no es suficiente para cambiar  y . Del mismo modo, no es necesario un cambio en para cambiar y , porque un cambio en y podría ser causado por algo implícito en el término de error (o por alguna otra variable explicativa causal incluida en el modelo).

El análisis de regresión controla otras variables relevantes incluyéndolas como regresores (variables explicativas). Esto ayuda a evitar la inferencia errónea de causalidad debido a la presencia de una tercera variable subyacente que influye tanto en la variable potencialmente causante como en la variable potencialmente causada: su efecto sobre la variable potencialmente causada se captura incluyéndola directamente en la regresión, por lo que ese efecto no será captado como un efecto espurio de la variable de interés potencialmente causante. Además, el uso de la regresión multivariada ayuda a evitar inferir erróneamente que un efecto indirecto de, digamos x 1 (por ejemplo, x 1x 2y ) es un efecto directo ( x 1y ).

Así como un experimentador debe tener cuidado al emplear un diseño experimental que controle todos los factores de confusión, el usuario de la regresión múltiple también debe tener cuidado de controlar todos los factores de confusión incluyéndolos entre los regresores. Si se omite un factor de confusión de la regresión, su efecto se captura en el término de error de forma predeterminada, y si el término de error resultante se correlaciona con uno (o más) de los regresores incluidos, entonces la regresión estimada puede estar sesgada o ser inconsistente ( ver sesgo de variable omitida ).

Además del análisis de regresión, los datos se pueden examinar para determinar si existe causalidad de Granger . La presencia de causalidad de Granger indica que x precede a y y que x contiene información única sobre  y .

Otras relaciones

Hay varias otras relaciones definidas en el análisis estadístico de la siguiente manera.

Ver también

Literatura

Notas a pie de página

  1. ^ Burns, William C., " Correlaciones espurias ", 1997.
  2. ^ Perla, Judea . "Serie de conferencias de investigación docente 81 de UCLA". singapore.cs.ucla.edu . Consultado el 10 de noviembre de 2019 .
  3. ^ Navidad, G. Udny (1 de enero de 1926). "¿Por qué a veces obtenemos correlaciones sin sentido entre series temporales? Un estudio sobre el muestreo y la naturaleza de las series temporales". Revista de la Real Sociedad de Estadística . 89 (1): 1–63. doi :10.2307/2341482. JSTOR  2341482. S2CID  126346450.
  4. ^ Granger, Clive WJ; Ghysels, Eric; Swanson, Norman R.; Watson, Mark W. (2001). Ensayos de econometría: artículos recopilados de Clive WJ Granger . Prensa de la Universidad de Cambridge. ISBN 978-0521796491.
  5. ^ Sapsford, Roger; Jupp, Víctor, eds. (2006). Recogida y análisis de datos . Sabio. ISBN 0-7619-4362-5.
  6. ^ Hofheimer, Bill (30 de octubre de 2012). "'Redskins Rule ': Hirdt de MNF en la intersección del fútbol y la política ". ESPN . Consultado el 16 de octubre de 2016 .
  7. ^ Manker, Rob (7 de noviembre de 2012). "Regla de los Redskins: la victoria de Barack Obama sobre Mitt Romney aborda el predictor presidencial de su primera derrota". Tribuna de Chicago . Consultado el 8 de noviembre de 2012 .
  8. ^ Pohl, Robert S. (2013). Leyendas urbanas y tradiciones históricas de Washington. La prensa histórica. págs. 78–80. ISBN 978-1625846648.[ enlace muerto permanente ]
  9. ^ Don pimientos. "Big Data. Super Bowl. Mentes pequeñas" . Consultado el 31 de diciembre de 2015 .

Referencias

enlaces externos