stringtranslate.com

Correlación espuria de ratios

Esta figura, que ilustra una correlación espuria, muestra 500 observaciones de x / z representadas frente a y / z . La correlación muestral es 0,53, aunque x , y y z son estadísticamente independientes entre sí (es decir, las correlaciones por pares entre cada uno de ellos son cero). Los valores z están resaltados en una escala de colores.

En estadística , la correlación espuria de razones es una forma de correlación espuria que surge entre razones de medidas absolutas que en sí mismas no están correlacionadas. [1] [2]

El fenómeno de la correlación espuria de ratios es uno de los principales motivos del campo del análisis compositivo de datos , que se ocupa del análisis de variables que contienen sólo información relativa, como proporciones, porcentajes y partes por millón. [3] [4]

La correlación espuria es distinta de los conceptos erróneos sobre correlación y causalidad .

Ilustración de correlación espuria

Pearson presenta un ejemplo simple de correlación espuria: [1]

Seleccione tres números dentro de ciertos rangos al azar, digamos x , y , z , estos serán pares y pares no correlacionados. Forme las fracciones adecuadas x / z e y / z para cada triplete y se encontrará la correlación entre estos índices.

El diagrama de dispersión anterior ilustra este ejemplo utilizando 500 observaciones de x , y y z . Las variables x , y y z se extraen de distribuciones normales con medias 10, 10 y 30, respectivamente, y desviaciones estándar 1, 1 y 3 respectivamente, es decir,

Aunque x , y y z son estadísticamente independientes y, por lo tanto, no están correlacionados, en la muestra típica representada las proporciones x / z e y / z tienen una correlación de 0,53. Esto se debe al divisor común ( z ) y se puede entender mejor si coloreamos los puntos en el diagrama de dispersión según el valor z . Los tríos de ( xyz ) con valores z relativamente grandes tienden a aparecer en la parte inferior izquierda del gráfico; Los tríos con valores z relativamente pequeños tienden a aparecer en la parte superior derecha.

Cantidad aproximada de correlación espuria

Pearson derivó una aproximación de la correlación que se observaría entre dos índices ( y ), es decir, proporciones de las mediciones absolutas :

donde es el coeficiente de variación de y la correlación de Pearson entre y .

Esta expresión se puede simplificar para situaciones en las que hay un divisor común estableciendo y no están correlacionados, dando la correlación espuria:

Para el caso especial en el que todos los coeficientes de variación son iguales (como es el caso en las ilustraciones de la derecha),

Relevancia para la biología y otras ciencias.

A Pearson se unieron Sir Francis Galton [5] y Walter Frank Raphael Weldon [1] para advertir a los científicos que tengan cuidado con las correlaciones espurias, especialmente en biología, donde es común [6] escalar o normalizar las mediciones dividiéndolas por una variable particular. o total. El peligro que vio fue que se sacarían conclusiones de correlaciones que son artefactos del método de análisis, en lugar de relaciones “orgánicas” reales.

Sin embargo, parecería que la correlación espuria (y su potencial para inducir a error) aún no se comprende ampliamente. En 1986, John Aitchison , pionero del enfoque de relación logarítmica para el análisis de datos compositivos, escribió: [3]

Parece sorprendente que las advertencias de tres científicos estadísticos tan eminentes como Pearson, Galton y Weldon hayan pasado desapercibidas durante tanto tiempo: incluso hoy en día se informan regularmente sobre aplicaciones acríticas de métodos estadísticos inapropiados a datos de composición con las consiguientes inferencias dudosas.

Publicaciones más recientes sugieren que esta falta de conciencia prevalece, al menos en la biociencia molecular. [7] [8]

Referencias

  1. ^ a b C Pearson, Karl (1896). "Contribuciones matemáticas a la teoría de la evolución: sobre una forma de correlación espuria que puede surgir cuando se utilizan índices en la medición de órganos". Actas de la Royal Society de Londres . 60 (359–367): 489–498. doi :10.1098/rspl.1896.0076. JSTOR  115879.
  2. ^ Aldrich, Juan (1995). "Correlaciones genuinas y espurias en Pearson y Yule". Ciencia estadística . 10 (4): 364–376. doi : 10.1214/ss/1177009870 .
  3. ^ ab Aitchison, John (1986). El análisis estadístico de datos compositivos . Chapman y Hall. ISBN 978-0-412-28060-3.
  4. ^ Pawlowsky-Glahn, Vera; Buccianti, Antonella , eds. (2011). Análisis de datos composicionales: teoría y aplicaciones . Wiley. doi :10.1002/9781119976462. ISBN 978-0470711354.
  5. ^ Galton, Francisco (1896). "Nota a las memorias del profesor Karl Pearson, FRS, sobre correlación espuria". Actas de la Royal Society de Londres . 60 (359–367): 498–502. doi :10.1098/rspl.1896.0077. S2CID  170846631.
  6. ^ Jackson, fiscal del distrito; Somers, KM (1991). "El espectro de la correlación 'espuria'". Ecología . 86 (1): 147-151. Código bibliográfico : 1991Oecol..86..147J. doi :10.1007/bf00317404. JSTOR  4219582. PMID  28313173. S2CID  1116627.
  7. ^ Lovell, David; Müller, Warren; Taylor, Jen; Zwart, Alec; Helliwell, Chris (2011). "Capítulo 14: Proporciones, porcentajes, PPM: ¿Las biociencias moleculares tratan correctamente los datos de composición?". En Pawlowsky-Glahn, Vera; Buccianti, Antonella (eds.). Análisis de datos composicionales: teoría y aplicaciones . Wiley. doi :10.1002/9781119976462. ISBN 9780470711354.
  8. ^ Lovell, David; Pawlowsky-Glahn, Vera; Egozcue, Juan José; Marguerat, Samuel; Bähler, Jürg (16 de marzo de 2015). "Proporcionalidad: una alternativa válida a la correlación de datos relativos". PLOS Biología Computacional . 11 (3): e1004075. Código Bib : 2015PLSCB..11E4075L. doi : 10.1371/journal.pcbi.1004075 . PMC 4361748 . PMID  25775355.