Coeficiente de correlación de Pearson

En estadística , el coeficiente de correlación de Pearson ( PCC ) ^[a] es un coeficiente de correlación que mide la correlación lineal entre dos conjuntos de datos. Es la relación entre la covarianza de dos variables y el producto de sus desviaciones estándar ; por lo tanto, es esencialmente una medida normalizada de la covarianza, de modo que el resultado siempre tiene un valor entre −1 y 1. Al igual que con la covarianza en sí, la medida sólo puede reflejar una correlación lineal de variables e ignora muchos otros tipos de relaciones o correlaciones. Como ejemplo simple, uno esperaría que la edad y la altura de una muestra de niños de una escuela primaria tuvieran un coeficiente de correlación de Pearson significativamente mayor que 0, pero menor que 1 (ya que 1 representaría una correlación irrealmente perfecta).

Denominación e historia

Fue desarrollado por Karl Pearson a partir de una idea relacionada introducida por Francis Galton en la década de 1880, y cuya fórmula matemática fue derivada y publicada por Auguste Bravais en 1844. ^[b]^[6]^[7]^[8]^[9] La La denominación del coeficiente es, por tanto, un ejemplo de la ley de Stigler .

Definición

El coeficiente de correlación de Pearson es la covarianza de las dos variables dividida por el producto de sus desviaciones estándar. La forma de la definición implica un "momento del producto", es decir, la media (el primer momento alrededor del origen) del producto de las variables aleatorias ajustadas a la media; de ahí el modificador momento-producto en el nombre. ^{[ se necesita verificación ]}

Para una población

El coeficiente de correlación de Pearson, cuando se aplica a una población , se representa comúnmente con la letra griega ρ (rho) y puede denominarse coeficiente de correlación poblacional o coeficiente de correlación poblacional de Pearson . Dado un par de variables aleatorias (por ejemplo, altura y peso), la fórmula para ρ ^[10] es ^[11] $(X,Y)$

$\rho _{X,Y}={\frac {\operatorname {cov} (X,Y)}{\sigma _{X}\sigma _{Y}}}$

dónde

$\operatorname {cov}$ es la covarianza
$\sigma _{X}$ es la desviación estándar de $X$
$\sigma _ {Y}$ es la desviación estándar de . $Y$

La fórmula para se puede expresar en términos de media y expectativa . Desde ^[10] $\operatorname {cov} (X,Y)$

\operatorname {cov} (X,Y)=\operatorname {\mathbb {E} } [(X-\mu _{X})(Y-\mu _{Y})],

la fórmula para también se puede escribir como ${\displaystyle\rho}$

$\rho _{X,Y}={\frac {\operatorname {\mathbb {E} } [(X-\mu _{X})(Y-\mu _{Y})]}{\ sigma _{X}\sigma _{Y}}}$

dónde

$\sigma _ {Y}$ y se definen como arriba $\sigma _{X}$
$\mu _{X}$ es la media de $X$
$\mu _{Y}$ es la media de $Y$
$\operatorname {\mathbb {E} }$ es la expectativa.

La fórmula para se puede expresar en términos de momentos no centrados. Desde ${\displaystyle\rho}$

{\begin{aligned}\mu _{X}={}&\operatorname {\mathbb {E} } [\,X\,]\\\mu _{Y}={}&\operatorname {\mathbb {E} } [\,Y\,]\\\sigma _{X}^{2}={}&\operatorname {\mathbb {E} } \left[\,\left(X-\operatorname {\mathbb {E} } [X]\right)^{2}\,\right]=\operatorname {\mathbb {E} } \left[\,X^{2}\,\right]-\left(\operatorname {\mathbb {E} } [\,X\,]\right)^{2}\\\sigma _{Y}^{2}={}&\operatorname {\mathbb {E} } \left[\,\left(Y-\operatorname {\mathbb {E} } [Y]\right)^{2}\,\right]=\operatorname {\mathbb {E} } \left[\,Y^{2}\,\right]-\left(\,\operatorname {\mathbb {E} } [\,Y\,]\right)^{2}\\&\operatorname {\mathbb {E} } [\,\left(X-\mu _{X}\right)\left(Y-\mu _{Y}\right)\,]=\operatorname {\mathbb {E} } [\,\left(X-\operatorname {\mathbb {E} } [\,X\,]\right)\left(Y-\operatorname {\mathbb {E} } [\,Y\,]\right)\,]=\operatorname {\mathbb {E} } [\,X\,Y\,]-\operatorname {\mathbb {E} } [\,X\,]\operatorname {\mathbb {E} } [\,Y\,]\,,\end{aligned}}

la fórmula para también se puede escribir como $\rho$ $\rho _{X,Y}={\frac {\operatorname {\mathbb {E} } [\,X\,Y\,]-\operatorname {\mathbb {E} } [\,X\,]\operatorname {\mathbb {E} } [\,Y\,]}{{\sqrt {\operatorname {\mathbb {E} } \left[\,X^{2}\,\right]-\left(\operatorname {\mathbb {E} } [\,X\,]\right)^{2}}}~{\sqrt {\operatorname {\mathbb {E} } \left[\,Y^{2}\,\right]-\left(\operatorname {\mathbb {E} } [\,Y\,]\right)^{2}}}}}.$

para una muestra

El coeficiente de correlación de Pearson, cuando se aplica a una muestra , se representa comúnmente y puede denominarse coeficiente de correlación de la muestra o coeficiente de correlación de Pearson de la muestra . Podemos obtener una fórmula sustituyendo en la fórmula anterior estimaciones de las covarianzas y varianzas basadas en una muestra. Dados datos pareados que constan de pares, se define como $r_{xy}$ $r_{xy}$ $\left\{(x_{1},y_{1}),\ldots ,(x_{n},y_{n})\right\}$ $n$ $r_{xy}$

$r_{xy}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{{\sqrt {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}{\sqrt {\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}}}$

dónde

$n$ es el tamaño de la muestra
$x_{i},y_{i}$ ¿Están los puntos de muestra individuales indexados con i?
${\textstyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}}$ (la media muestral); y análogamente para . ${\bar {y}}$

La reorganización nos da esta fórmula ^[10] para : $r_{xy}$

r_{xy}={\frac {\sum _{i}x_{i}y_{i}-n{\bar {x}}{\bar {y}}}{{\sqrt {\sum _{i}x_{i}^{2}-n{\bar {x}}^{2}}}~{\sqrt {\sum _{i}y_{i}^{2}-n{\bar {y}}^{2}}}}},

donde se definen como arriba. $n,x_{i},y_{i},{\bar {x}},{\bar {y}}$

Reorganizando nuevamente nos da esta fórmula para : $r_{xy}$

r_{xy}={\frac {n\sum x_{i}y_{i}-\sum x_{i}\sum y_{i}}{{\sqrt {n\sum x_{i}^{2}-\left(\sum x_{i}\right)^{2}}}~{\sqrt {n\sum y_{i}^{2}-\left(\sum y_{i}\right)^{2}}}}},

donde se definen como arriba. $n,x_{i},y_{i}$

Esta fórmula sugiere un algoritmo conveniente de un solo paso para calcular correlaciones de muestras, aunque dependiendo de los números involucrados, a veces puede ser numéricamente inestable .

Una expresión equivalente da la fórmula para la media de los productos de las puntuaciones estándar de la siguiente manera: $r_{xy}$

r_{xy}={\frac {1}{n-1}}\sum _{i=1}^{n}\left({\frac {x_{i}-{\bar {x}}}{s_{x}}}\right)\left({\frac {y_{i}-{\bar {y}}}{s_{y}}}\right)

dónde

$n,x_{i},y_{i},{\bar {x}},{\bar {y}}$ se definen como arriba y se definen a continuación $s_{x},s_{y}$
${\textstyle \left({\frac {x_{i}-{\bar {x}}}{s_{x}}}\right)}$ es la puntuación estándar (y de manera análoga para la puntuación estándar de ). $y$

También se encuentran disponibles fórmulas alternativas . Por ejemplo, se puede utilizar la siguiente fórmula para : $r_{xy}$ $r_{xy}$

r_{xy}={\frac {\sum x_{i}y_{i}-n{\bar {x}}{\bar {y}}}{(n-1)s_{x}s_{y}}}

dónde

$n,x_{i},y_{i},{\bar {x}},{\bar {y}}$ se definen como arriba y:
${\textstyle s_{x}={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}$ (la desviación estándar de la muestra ); y análogamente para . $s_{y}$

Para distribuciones conjuntas gaussianas

Si es conjuntamente gaussiano , con media cero y varianza , entonces . $(X,Y)$ $\Sigma$ $\Sigma ={\begin{bmatrix}\sigma _{X}^{2}&\rho _{X,Y}\sigma _{X}\sigma _{Y}\\\rho _{X,Y}\sigma _{X}\sigma _{Y}&\sigma _{Y}^{2}\\\end{bmatrix}}$

Cuestiones prácticas

En condiciones de mucho ruido, extraer el coeficiente de correlación entre dos conjuntos de variables estocásticas no es trivial, en particular cuando el Análisis de Correlación Canónica informa valores de correlación degradados debido a las fuertes contribuciones de ruido. En otra parte se ofrece una generalización del enfoque. ^[12]

En caso de que faltaran datos, Garren derivó el estimador de máxima verosimilitud . ^[13]

Algunas distribuciones (p. ej., distribuciones estables distintas de una distribución normal ) no tienen una varianza definida.

Propiedades matemáticas

Los valores de los coeficientes de correlación de Pearson tanto de la muestra como de la población están en o entre −1 y 1. Las correlaciones iguales a +1 o −1 corresponden a puntos de datos que se encuentran exactamente en una línea (en el caso de la correlación de la muestra), o a una Distribución bivariada enteramente apoyada en una recta (en el caso de la correlación poblacional). El coeficiente de correlación de Pearson es simétrico: corr( X , Y ) = corr( Y , X ).

Una propiedad matemática clave del coeficiente de correlación de Pearson es que es invariante ante cambios separados en la ubicación y la escala de las dos variables. Es decir, podemos transformar X en $a + bX$ y transformar Y en $c + dY$ , donde a , b , c y d son constantes con $b, d > 0$ , sin cambiar el coeficiente de correlación. (Esto es válido tanto para los coeficientes de correlación de Pearson de la población como de la muestra). Las transformaciones lineales más generales cambian la correlación: consulte § Descorrelación de n variables aleatorias para una aplicación de esto.

Interpretación

El coeficiente de correlación varía de −1 a 1. Un valor absoluto de exactamente 1 implica que una ecuación lineal describe perfectamente la relación entre X e Y , con todos los puntos de datos sobre una línea . El signo de correlación está determinado por la pendiente de regresión : un valor de +1 implica que todos los puntos de datos se encuentran en una línea en la que Y aumenta a medida que X aumenta, mientras que un valor de -1 implica una línea en la que Y aumenta mientras X disminuye. ^[14] Un valor de 0 implica que no existe dependencia lineal entre las variables. ^[15]

De manera más general, $(X i - X)(Y i - Y)$ es positivo si y sólo si X _i y Y _i se encuentran en el mismo lado de sus respectivas medias. Por tanto, el coeficiente de correlación es positivo si X _i y Y _i tienden a ser simultáneamente mayores o simultáneamente menores que sus medias respectivas. El coeficiente de correlación es negativo ( anticorrelación ) si X _i e Y _i tienden a estar en lados opuestos de sus respectivas medias. Además, cuanto más fuerte sea cualquiera de las tendencias, mayor será el valor absoluto del coeficiente de correlación.

Rodgers y Nicewander ^[16] catalogaron trece formas de interpretar la correlación o funciones simples de la misma:

Función de puntuaciones brutas y medias.
Covarianza estandarizada
Pendiente estandarizada de la recta de regresión
Media geométrica de las dos pendientes de regresión
Raíz cuadrada de la relación de dos varianzas
Producto cruzado medio de variables estandarizadas
Función del ángulo entre dos líneas de regresión estandarizadas
Función del ángulo entre dos vectores variables.
Varianza reescalada de la diferencia entre puntuaciones estandarizadas
Estimado a partir de la regla del globo
Relacionado con las elipses bivariadas de isoconcentración.
Función de las estadísticas de prueba de experimentos diseñados.
Relación de dos medias

Interpretación geométrica

Para datos no centrados, existe una relación entre el coeficiente de correlación y el ángulo φ entre las dos líneas de regresión, y = g _X ( x ) y x = g _Y ( y ) , obtenida al hacer la regresión de y en x y x en y respectivamente. (Aquí, φ se mide en sentido antihorario dentro del primer cuadrante formado alrededor del punto de intersección de las líneas si $r > 0$ , o en sentido antihorario desde el cuarto al segundo cuadrante si r < 0 ). Se puede demostrar ^[17] que si las desviaciones estándar son igual, entonces r = sec φ − tan φ , donde sec y tan son funciones trigonométricas .

Para datos centrados (es decir, datos que han sido desplazados por las medias muestrales de sus respectivas variables para tener un promedio de cero para cada variable), el coeficiente de correlación también puede verse como el coseno del ángulo θ entre los dos datos observados. vectores en N -espacio dimensional (para N observaciones de cada variable). ^[18]

Para un conjunto de datos se pueden determinar tanto los coeficientes de correlación no centrados (no conformes con Pearson) como los centrados. Como ejemplo, supongamos que cinco países tienen un producto nacional bruto de 1, 2, 3, 5 y 8 mil millones de dólares, respectivamente. Supongamos que estos mismos cinco países (en el mismo orden) tienen un 11%, 12%, 13%, 15% y 18% de pobreza. Luego, sean x e y vectores ordenados de 5 elementos que contienen los datos anteriores: x = (1, 2, 3, 5, 8) e y = (0,11, 0,12, 0,13, 0,15, 0,18) .

Según el procedimiento habitual para encontrar el ángulo θ entre dos vectores (ver producto escalar ), el coeficiente de correlación no centrado es

\cos \theta ={\frac {\mathbf {x} \cdot \mathbf {y} }{\left\|\mathbf {x} \right\|\left\|\mathbf {y} \right\|}}={\frac {2.93}{{\sqrt {103}}{\sqrt {0.0983}}}}=0.920814711.

Este coeficiente de correlación no centrado es idéntico a la similitud del coseno . Los datos anteriores se eligieron deliberadamente para que estuvieran perfectamente correlacionados: $y = 0,10 + 0,01 x$ . Por tanto, el coeficiente de correlación de Pearson debe ser exactamente uno. Al centrar los datos (desplazando x por $ℰ(x) = 3,8$ e y por $ℰ(y) = 0,138$ ) se obtiene $x = (-2,8, -1,8, -0,8, 1,2, 4,2)$ e $y = (-0,028, -0,018, -0,008, 0,012, 0,042)$ , de donde

\cos \theta ={\frac {\mathbf {x} \cdot \mathbf {y} }{\left\|\mathbf {x} \right\|\left\|\mathbf {y} \right\|}}={\frac {0.308}{{\sqrt {30.8}}{\sqrt {0.00308}}}}=1=\rho _{xy},

como se esperaba.

Interpretación del tamaño de una correlación.

Varios autores han ofrecido pautas para la interpretación de un coeficiente de correlación. ^[19]^[20] Sin embargo, todos estos criterios son en cierto modo arbitrarios. ^[20] La interpretación de un coeficiente de correlación depende del contexto y los propósitos. Una correlación de 0,8 puede ser muy baja si se verifica una ley física utilizando instrumentos de alta calidad, pero puede considerarse muy alta en las ciencias sociales, donde puede haber una mayor contribución de factores complicados.

Inferencia

La inferencia estadística basada en el coeficiente de correlación de Pearson a menudo se centra en uno de los dos objetivos siguientes:

Un objetivo es probar la hipótesis nula de que el verdadero coeficiente de correlación ρ es igual a 0, según el valor del coeficiente de correlación muestral r .
El otro objetivo es derivar un intervalo de confianza que, en muestreos repetidos, tenga una probabilidad determinada de contener ρ .

A continuación se analizan los métodos para lograr uno o ambos de estos objetivos.

Usando una prueba de permutación

Las pruebas de permutación proporcionan un enfoque directo para realizar pruebas de hipótesis y construir intervalos de confianza. Una prueba de permutación para el coeficiente de correlación de Pearson implica los dos pasos siguientes:

Usando los datos emparejados originales ( x _i , y _i ), redefina aleatoriamente los pares para crear un nuevo conjunto de datos ( x _i , y _i′ ), donde los i′ son una permutación del conjunto {1,..., n }. La permutación i′ se selecciona aleatoriamente, con iguales probabilidades para todos los n ! posibles permutaciones. Esto equivale a extraer la i′ aleatoriamente sin reemplazo del conjunto {1, ..., n }. En el bootstrapping , un enfoque estrechamente relacionado, i y i′ son iguales y se extraen con reemplazo de {1, ..., n };
Construya un coeficiente de correlación r a partir de los datos aleatorios.

Para realizar la prueba de permutación, repita los pasos (1) y (2) una gran cantidad de veces. El valor p para la prueba de permutación es la proporción de los valores r generados en el paso (2) que son mayores que el coeficiente de correlación de Pearson que se calculó a partir de los datos originales. Aquí "más grande" puede significar que el valor es mayor en magnitud o mayor en valor con signo, dependiendo de si se desea una prueba bilateral o unilateral .

Usando un arranque

El bootstrap se puede utilizar para construir intervalos de confianza para el coeficiente de correlación de Pearson. En el bootstrap "no paramétrico", se vuelven a muestrear n pares ( x _i , y _i ) "con reemplazo" del conjunto observado de n pares, y el coeficiente de correlación r se calcula en función de los datos remuestreados. Este proceso se repite una gran cantidad de veces y la distribución empírica de los valores r remuestreados se utiliza para aproximar la distribución muestral de la estadística. Un intervalo de confianza del 95% para ρ se puede definir como el intervalo que abarca desde el percentil 2,5 al 97,5 de los valores de r remuestreados .

Error estándar

Si y son variables aleatorias, con una relación lineal simple entre ellas con un ruido normal aditivo (es decir, y= a + bx + e), entonces un error estándar asociado a la correlación es $x$ $y$

\sigma _{r}={\sqrt {\frac {1-r^{2}}{n-2}}}

¿Dónde está la correlación y el tamaño de la muestra? ^[21]^[22] $r$ $n$

Pruebas usando Student'st-distribución

Para pares de una distribución normal bivariada no correlacionada , la distribución muestral del coeficiente de correlación de Pearson estudentizado sigue la distribución t de Student con grados de libertad n − 2. Específicamente, si las variables subyacentes tienen una distribución normal bivariada, la variable

t={\frac {r}{\sigma _{r}}}=r{\sqrt {\frac {n-2}{1-r^{2}}}}

tiene una distribución t de Student en el caso nulo (correlación cero). ^[23] Esto es válido aproximadamente en el caso de valores observados no normales si los tamaños de muestra son lo suficientemente grandes. ^[24] Para determinar los valores críticos de r se necesita la función inversa:

r={\frac {t}{\sqrt {n-2+t^{2}}}}.

Alternativamente, se pueden utilizar enfoques asintóticos de muestras grandes.

Otro artículo inicial ^[25] proporciona gráficos y tablas para valores generales de ρ , para tamaños de muestra pequeños, y analiza enfoques computacionales.

En el caso de que las variables subyacentes no sean normales, la distribución muestral del coeficiente de correlación de Pearson sigue una distribución t de Student , pero los grados de libertad se reducen. ^[26]

Usando la distribución exacta

Para datos que siguen una distribución normal bivariada , la función de densidad exacta f ( r ) para el coeficiente de correlación muestral r de una distribución bivariada normal es ^[27]^[28]^[29]

f(r)={\frac {(n-2)\,\mathrm {\Gamma } (n-1)\left(1-\rho ^{2}\right)^{\frac {n-1}{2}}\left(1-r^{2}\right)^{\frac {n-4}{2}}}{{\sqrt {2\pi }}\,\operatorname {\Gamma } {\mathord {\left(n-{\tfrac {1}{2}}\right)}}(1-\rho r)^{n-{\frac {3}{2}}}}}{}_{2}\mathrm {F} _{1}{\mathord {\left({\tfrac {1}{2}},{\tfrac {1}{2}};{\tfrac {1}{2}}(2n-1);{\tfrac {1}{2}}(\rho r+1)\right)}}

donde es la función gamma y es la función hipergeométrica gaussiana . $\Gamma$ ${}_{2}\mathrm {F} _{1}(a,b;c;z)$

En el caso especial cuando (correlación de población cero), la función de densidad exacta f ( r ) se puede escribir como $\rho =0$

f(r)={\frac {\left(1-r^{2}\right)^{\frac {n-1}{2}}}{\operatorname {\mathrm {B} } {\mathord {\left({\tfrac {1}{2}},{\tfrac {n+1}{2}}\right)}}}},

donde está la función beta , que es una forma de escribir la densidad de una distribución t de Student para un coeficiente de correlación de muestra estudentizada , como se indicó anteriormente. $\mathrm {B}$

Usando la distribución de confianza exacta

Los intervalos de confianza y las pruebas se pueden calcular a partir de una distribución de confianza . Una densidad de confianza exacta para ρ es ^[30]

$\pi (\rho \mid r)={\frac {\nu (\nu -1)\Gamma (\nu -1)}{{\sqrt {2\pi }}\Gamma \left(\nu +{\frac {1}{2}}\right)}}\left(1-r^{2}\right)^{\frac {\nu -1}{2}}\cdot \left(1-\rho ^{2}\right)^{\frac {\nu -2}{2}}\cdot \left(1-r\rho \right)^{\frac {1-2\nu }{2}}\operatorname {F} \left({\tfrac {3}{2}},-{\tfrac {1}{2}};\nu +{\tfrac {1}{2}};{\tfrac {1+r\rho }{2}}\right)$

donde está la función hipergeométrica gaussiana y . $\operatorname {F}$ $\nu =n-1>1$

Usando la transformación de Fisher

En la práctica, los intervalos de confianza y las pruebas de hipótesis relacionadas con ρ generalmente se llevan a cabo utilizando la transformación estabilizadora de la varianza , transformación de Fisher ,: $F$

F(r)\equiv {\tfrac {1}{2}}\,\ln \left({\frac {1+r}{1-r}}\right)=\operatorname {artanh} (r)

F ( r ) sigue aproximadamente una distribución normal con

{\text{mean}}=F(\rho )=\operatorname {artanh} (\rho )

y error estándar

={\text{SE}}={\frac {1}{\sqrt {n-3}}},

donde n es el tamaño de la muestra. El error de aproximación es mínimo para un tamaño de muestra grande y pequeño y aumenta en caso contrario. $n$ $r$ $\rho _{0}$

Usando la aproximación, una puntuación z es

z={\frac {x-{\text{mean}}}{\text{SE}}}=[F(r)-F(\rho _{0})]{\sqrt {n-3}}

bajo la hipótesis nula de que , dado el supuesto de que los pares de muestras son independientes y están distribuidos idénticamente y siguen una distribución normal bivariada . Por tanto , se puede obtener un valor p aproximado a partir de una tabla de probabilidad normal. Por ejemplo, si se observa z = 2,2 y se desea un valor p bilateral para probar la hipótesis nula de que , el valor p es 2 Φ(−2,2) = 0,028 , donde Φ es la función de distribución acumulativa normal estándar . $\rho =\rho _{0}$ $\rho =0$

Para obtener un intervalo de confianza para ρ, primero calculamos un intervalo de confianza para F ( ): $\rho$

100(1-\alpha )\%{\text{CI}}:\operatorname {artanh} (\rho )\in [\operatorname {artanh} (r)\pm z_{\alpha /2}{\text{SE}}]

La transformación inversa de Fisher devuelve el intervalo a la escala de correlación.

100(1-\alpha )\%{\text{CI}}:\rho \in [\tanh(\operatorname {artanh} (r)-z_{\alpha /2}{\text{SE}}),\tanh(\operatorname {artanh} (r)+z_{\alpha /2}{\text{SE}})]

Por ejemplo, supongamos que observamos r = 0,7 con un tamaño de muestra de n = 50 y deseamos obtener un intervalo de confianza del 95% para ρ . El valor transformado es , por lo que el intervalo de confianza en la escala transformada es , o (0,5814, 1,1532). Volviendo a la escala de correlación se obtiene (0,5237, 0,8188). ${\textstyle \operatorname {arctanh} \left(r\right)=0.8673}$ $0.8673\pm {\frac {1.96}{\sqrt {47}}}$

Análisis de regresión en mínimos cuadrados.

El cuadrado del coeficiente de correlación muestral normalmente se denota como r ² y es un caso especial del coeficiente de determinación . En este caso, estima la fracción de la varianza en Y que se explica por X en una regresión lineal simple . Entonces, si tenemos el conjunto de datos observado y el conjunto de datos ajustado , entonces, como punto de partida, la variación total en Y _i alrededor de su valor promedio se puede descomponer de la siguiente manera $Y_{1},\dots ,Y_{n}$ ${\hat {Y}}_{1},\dots ,{\hat {Y}}_{n}$

\sum _{i}(Y_{i}-{\bar {Y}})^{2}=\sum _{i}(Y_{i}-{\hat {Y}}_{i})^{2}+\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2},

donde son los valores ajustados del análisis de regresión. Esto se puede reorganizar para dar ${\hat {Y}}_{i}$

1={\frac {\sum _{i}(Y_{i}-{\hat {Y}}_{i})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}+{\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}.

Los dos sumandos anteriores son la fracción de la varianza en Y que se explica por X (derecha) y que no se explica por X (izquierda).

A continuación, aplicamos una propiedad de los modelos de regresión de mínimos cuadrados , que es que la covarianza muestral entre y es cero. Por lo tanto, se puede escribir el coeficiente de correlación muestral entre los valores de respuesta observados y ajustados en la regresión (el cálculo está por debajo de lo esperado, se supone estadística gaussiana). ${\hat {Y}}_{i}$ $Y_{i}-{\hat {Y}}_{i}$

{\begin{aligned}r(Y,{\hat {Y}})&={\frac {\sum _{i}(Y_{i}-{\bar {Y}})({\hat {Y}}_{i}-{\bar {Y}})}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\[6pt]&={\frac {\sum _{i}(Y_{i}-{\hat {Y}}_{i}+{\hat {Y}}_{i}-{\bar {Y}})({\hat {Y}}_{i}-{\bar {Y}})}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\[6pt]&={\frac {\sum _{i}[(Y_{i}-{\hat {Y}}_{i})({\hat {Y}}_{i}-{\bar {Y}})+({\hat {Y}}_{i}-{\bar {Y}})^{2}]}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\[6pt]&={\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\[6pt]&={\sqrt {\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}}.\end{aligned}}

De este modo

r(Y,{\hat {Y}})^{2}={\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}

donde es la proporción de varianza en Y explicada por una función lineal de X. $r(Y,{\hat {Y}})^{2}$

En la derivación anterior, el hecho de que

\sum _{i}(Y_{i}-{\hat {Y}}_{i})({\hat {Y}}_{i}-{\bar {Y}})=0

se puede probar observando que las derivadas parciales de la suma residual de cuadrados ( $RSS$ ) sobre β ₀ y β ₁ son iguales a 0 en el modelo de mínimos cuadrados, donde

{\text{RSS}}=\sum _{i}(Y_{i}-{\hat {Y}}_{i})^{2}

Al final, la ecuación se puede escribir como

r(Y,{\hat {Y}})^{2}={\frac {{\text{SS}}_{\text{reg}}}{{\text{SS}}_{\text{tot}}}}

dónde

${\text{SS}}_{\text{reg}}=\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}$
${\text{SS}}_{\text{tot}}=\sum _{i}(Y_{i}-{\bar {Y}})^{2}$ .

El símbolo se llama suma de cuadrados de regresión, también llamada suma de cuadrados explicada , y es la suma total de cuadrados (proporcional a la varianza de los datos). ${\text{SS}}_{\text{reg}}$ ${\text{SS}}_{\text{tot}}$

Sensibilidad a la distribución de datos.

Existencia

El coeficiente de correlación poblacional de Pearson se define en términos de momentos y, por lo tanto, existe para cualquier distribución de probabilidad bivariada para la cual la covarianza poblacional está definida y las varianzas marginales de la población están definidas y son distintas de cero. Algunas distribuciones de probabilidad, como la distribución de Cauchy , tienen una varianza indefinida y, por tanto, ρ no está definida si X o Y siguen dicha distribución. En algunas aplicaciones prácticas, como aquellas que involucran datos que se sospecha que siguen una distribución de cola pesada , esta es una consideración importante. Sin embargo, la existencia del coeficiente de correlación no suele ser motivo de preocupación; por ejemplo, si el rango de la distribución está acotado, ρ siempre está definido.

Tamaño de la muestra

Si el tamaño de la muestra es moderado o grande y la población es normal, entonces, en el caso de la distribución normal bivariada , el coeficiente de correlación muestral es la estimación de máxima verosimilitud del coeficiente de correlación poblacional y es asintóticamente imparcial y eficiente , lo que aproximadamente significa que es imposible construir una estimación más precisa que el coeficiente de correlación muestral.
Si el tamaño de la muestra es grande y la población no es normal, entonces el coeficiente de correlación muestral permanece aproximadamente insesgado, pero puede no ser eficiente.
Si el tamaño de la muestra es grande, entonces el coeficiente de correlación muestral es un estimador consistente del coeficiente de correlación poblacional siempre que las medias, varianzas y covarianzas de la muestra sean consistentes (lo cual está garantizado cuando se puede aplicar la ley de los números grandes ).
Si el tamaño de la muestra es pequeño, entonces el coeficiente de correlación muestral r no es una estimación insesgada de ρ . ^[10] En su lugar, se debe utilizar el coeficiente de correlación ajustado: consulte la definición en otra parte de este artículo.
Las correlaciones pueden ser diferentes para datos dicotómicos desequilibrados cuando hay error de varianza en la muestra. ^[31]

Robustez

Como muchas estadísticas de uso común, la estadística de muestra r no es robusta , ^[32] por lo que su valor puede ser engañoso si hay valores atípicos presentes. ^[33]^[34] Específicamente, el PMCC no es distributivamente robusto, ^[35] ni resistente a valores atípicos ^[32] (ver Estadísticas robustas § Definición ). La inspección del diagrama de dispersión entre X e Y normalmente revelará una situación en la que la falta de solidez podría ser un problema y, en tales casos, puede ser aconsejable utilizar una medida sólida de asociación. Sin embargo, tenga en cuenta que, si bien los estimadores de asociación más robustos miden la dependencia estadística de alguna manera, generalmente no son interpretables en la misma escala que el coeficiente de correlación de Pearson.

La inferencia estadística del coeficiente de correlación de Pearson es sensible a la distribución de los datos. Se pueden aplicar pruebas exactas y pruebas asintóticas basadas en la transformación de Fisher si los datos tienen una distribución aproximadamente normal, pero en caso contrario pueden ser engañosos. En algunas situaciones, se puede aplicar el bootstrap para construir intervalos de confianza y se pueden aplicar pruebas de permutación para realizar pruebas de hipótesis. Estos enfoques no paramétricos pueden dar resultados más significativos en algunas situaciones donde la normalidad bivariada no se cumple. Sin embargo, las versiones estándar de estos enfoques se basan en la intercambiabilidad de los datos, lo que significa que no hay ningún orden o agrupación de los pares de datos analizados que pueda afectar el comportamiento de la estimación de correlación.

Un análisis estratificado es una forma de adaptarse a la falta de normalidad bivariada o de aislar la correlación resultante de un factor mientras se controla otro. Si W representa la pertenencia a un grupo u otro factor que es deseable controlar, podemos estratificar los datos según el valor de W y luego calcular un coeficiente de correlación dentro de cada estrato. Las estimaciones a nivel de estrato pueden luego combinarse para estimar la correlación general controlando al mismo tiempo W . ^[36]

Variantes

Las variaciones del coeficiente de correlación se pueden calcular para diferentes propósitos. Aquí hay unos ejemplos.

Coeficiente de correlación ajustado

El coeficiente de correlación muestral $r$ no es una estimación insesgada de $ρ$ . Para datos que siguen una distribución normal bivariada , la expectativa $E[r]$ para el coeficiente de correlación muestral $r$ de una distribución bivariada normal es ^[37]

\operatorname {\mathbb {E} } \left[r\right]=\rho -{\frac {\rho \left(1-\rho ^{2}\right)}{2n}}+\cdots ,\quad

por lo tanto

r

es un estimador sesgado de

\rho .

El estimador insesgado de varianza mínima única $r adj$ viene dado por ^[38]

dónde:

$r,n$ se definen como arriba,
$\mathbf {_{2}F_{1}} (a,b;c;z)$ es la función hipergeométrica gaussiana .

Se puede obtener un estimador $r adj$ aproximadamente insesgado ^{[ cita necesaria ]} truncando $E[r]$ y resolviendo esta ecuación truncada:

Una solución aproximada ^{[ cita necesaria ]} a la ecuación ( 2 ) es

donde en ( 3 )

$r,n$ se definen como arriba,
$r adj$ es un estimador subóptimo,^{[ cita necesaria ]}^{[ aclaración necesaria ]}
$r adj$ también se puede obtener maximizando log( f ( r )),
$r adj$ tiene una varianza mínima para valores grandes de $n$ ,
$r adj$ tiene un sesgo de orden $.mw-parser-output .frac{white-space:nowrap}.mw-parser-output .frac .num,.mw-parser-output .frac .den{font-size:80%;line-height:0;vertical-align:super}.mw-parser-output .frac .den{vertical-align:sub}.mw-parser-output .sr-only{border:0;clip:rect(0,0,0,0);clip-path:polygon(0px 0px,0px 0px,0px 0px);height:1px;margin:-1px;overflow:hidden;padding:0;position:absolute;width:1px} 1 ⁄ ( n − 1 )$ .

Otro coeficiente de correlación ajustado propuesto ^{[10] es}^{[ cita necesaria ]}

r_{\text{adj}}={\sqrt {1-{\frac {(1-r^{2})(n-1)}{(n-2)}}}}.

$r adj \approx r$ para valores grandes de $n$ .

Coeficiente de correlación ponderado

Supongamos que las observaciones que se van a correlacionar tienen diferentes grados de importancia que pueden expresarse con un vector de peso w . Para calcular la correlación entre los vectores x e y con el vector de peso w (todos de longitud n ), ^[39]^[40]

Media ponderada: $\operatorname {m} (x;w)={\frac {\sum _{i}w_{i}x_{i}}{\sum _{i}w_{i}}}.$
Covarianza ponderada $\operatorname {cov} (x,y;w)={\frac {\sum _{i}w_{i}\cdot (x_{i}-\operatorname {m} (x;w))(y_{i}-\operatorname {m} (y;w))}{\sum _{i}w_{i}}}.$
Correlación ponderada $\operatorname {corr} (x,y;w)={\frac {\operatorname {cov} (x,y;w)}{\sqrt {\operatorname {cov} (x,x;w)\operatorname {cov} (y,y;w)}}}.$

Coeficiente de correlación reflectante

La correlación reflexiva es una variante de la correlación de Pearson en la que los datos no se centran en torno a sus valores medios. ^{[ cita necesaria ]} La correlación reflexiva de la población es

\operatorname {corr} _{r}(X,Y)={\frac {\operatorname {\mathbb {E} } [\,X\,Y\,]}{\sqrt {\operatorname {\mathbb {E} } [\,X^{2}\,]\cdot \operatorname {\mathbb {E} } [\,Y^{2}\,]}}}.

La correlación reflexiva es simétrica, pero no es invariante bajo traducción:

\operatorname {corr} _{r}(X,Y)=\operatorname {corr} _{r}(Y,X)=\operatorname {corr} _{r}(X,bY)\neq \operatorname {corr} _{r}(X,a+bY),\quad a\neq 0,b>0.

La correlación reflexiva de la muestra es equivalente a la similitud del coseno :

rr_{xy}={\frac {\sum x_{i}y_{i}}{\sqrt {(\sum x_{i}^{2})(\sum y_{i}^{2})}}}.

La versión ponderada de la correlación reflexiva de la muestra es

rr_{xy,w}={\frac {\sum w_{i}x_{i}y_{i}}{\sqrt {(\sum w_{i}x_{i}^{2})(\sum w_{i}y_{i}^{2})}}}.

Coeficiente de correlación escalado

La correlación escalada es una variante de la correlación de Pearson en la que el rango de los datos se restringe intencionalmente y de manera controlada para revelar correlaciones entre componentes rápidos en series de tiempo . ^[41] La correlación escalada se define como la correlación promedio entre segmentos cortos de datos.

Sea el número de segmentos que pueden caber en la longitud total de la señal para una escala determinada : $K$ $T$ $s$

K=\operatorname {round} \left({\frac {T}{s}}\right).

La correlación escalada entre todas las señales se calcula luego como ${\bar {r}}_{s}$

{\bar {r}}_{s}={\frac {1}{K}}\sum \limits _{k=1}^{K}r_{k},

donde es el coeficiente de correlación de Pearson para el segmento . $r_{k}$ $k$

Al elegir el parámetro , se reduce el rango de valores y se filtran las correlaciones en escalas de tiempo largas, revelándose sólo las correlaciones en escalas de tiempo cortas. De este modo, se eliminan las contribuciones de los componentes lentos y se retienen las de los componentes rápidos. $s$

La distancia de Pearson

Una métrica de distancia para dos variables X e Y conocida como distancia de Pearson se puede definir a partir de su coeficiente de correlación como ^[42]

d_{X,Y}=1-\rho _{X,Y}.

Considerando que el coeficiente de correlación de Pearson se encuentra entre [−1, +1], la distancia de Pearson se encuentra en [0, 2]. La distancia de Pearson se ha utilizado en análisis de conglomerados y detección de datos para comunicaciones y almacenamiento con ganancia y compensación desconocidas. ^[43]

La "distancia" de Pearson definida de esta manera asigna una distancia mayor que 1 a las correlaciones negativas. En realidad, tanto la correlación positiva fuerte como las correlaciones negativas son significativas, por lo que se debe tener cuidado cuando se utiliza la "distancia" de Pearson para el algoritmo del vecino más cercano, ya que dicho algoritmo solo incluirá vecinos con correlación positiva y excluirá a los vecinos con correlación negativa. Alternativamente, se puede aplicar una distancia de valor absoluto, , que tendrá en cuenta correlaciones tanto positivas como negativas. La información sobre la asociación positiva y negativa se puede extraer por separado más adelante. $d_{X,Y}=1-|\rho _{X,Y}|$

Coeficiente de correlación circular

Para las variables X = { x ₁ ,..., x _n } e Y = { y ₁ ,..., y _n } que están definidas en el círculo unitario $[0, 2π)$ , es posible definir un análogo circular del coeficiente de Pearson. ^[44] Esto se hace transformando puntos de datos en X e Y con una función seno de modo que el coeficiente de correlación esté dado como:

r_{\text{circular}}={\frac {\sum _{i=1}^{n}\sin(x_{i}-{\bar {x}})\sin(y_{i}-{\bar {y}})}{{\sqrt {\sum _{i=1}^{n}\sin(x_{i}-{\bar {x}})^{2}}}{\sqrt {\sum _{i=1}^{n}\sin(y_{i}-{\bar {y}})^{2}}}}}

donde y son las medias circulares de X e Y. Esta medida puede resultar útil en campos como la meteorología donde la dirección angular de los datos es importante. ${\bar {x}}$ ${\bar {y}}$

Correlación parcial

Si una población o conjunto de datos se caracteriza por más de dos variables, un coeficiente de correlación parcial mide la fuerza de la dependencia entre un par de variables que no se explica por la forma en que ambas cambian en respuesta a variaciones en un subconjunto seleccionado. de las otras variables.

Descorrelación denortevariables aleatorias

Siempre es posible eliminar las correlaciones entre todos los pares de un número arbitrario de variables aleatorias mediante el uso de una transformación de datos, incluso si la relación entre las variables no es lineal. Cox & Hinkley ofrecen una presentación de este resultado para distribuciones de población. ^[45]

Existe un resultado correspondiente para reducir las correlaciones muestrales a cero. Supongamos que un vector de n variables aleatorias se observa m veces. Sea X una matriz donde está la j -ésima variable de observación i . Sea una matriz cuadrada de m por m con cada elemento 1. Entonces D son los datos transformados para que cada variable aleatoria tenga media cero, y T son los datos transformados para que todas las variables tengan media cero y correlación cero con todas las demás variables: la correlación de la muestra. La matriz de T será la matriz identidad. Esto debe dividirse aún más por la desviación estándar para obtener la varianza unitaria. Las variables transformadas no estarán correlacionadas, aunque no sean independientes . $X_{i,j}$ $Z_{m,m}$

D=X-{\frac {1}{m}}Z_{m,m}X

T=D(D^{\mathsf {T}}D)^{-{\frac {1}{2}}},

donde un exponente de -+1 ⁄ 2 representa la raíz cuadrada de la matriz de la inversa de una matriz. La matriz de correlación de T será la matriz identidad. Si una nueva observación de datos x es un vector fila de n elementos, entonces se puede aplicar la misma transformación a x para obtener los vectores transformados d y t :

d=x-{\frac {1}{m}}Z_{1,m}X,

t=d(D^{\mathsf {T}}D)^{-{\frac {1}{2}}}.

Esta descorrelación está relacionada con el análisis de componentes principales para datos multivariados.

Implementaciones de software

El paquete base de estadísticas de Rcor(x, y) implementa el coeficiente de correlación con , o (también con el valor P) con cor.test(x, y).
La biblioteca SciPy Python a través de pearsonr(x, y).
La biblioteca Pandas Python implementa el cálculo del coeficiente de correlación de Pearson como opción predeterminada para el método pandas.DataFrame.corr.
Wolfram Mathematica a través de la función Correlación o (con el valor P) con CorrelationTest.
La biblioteca Boost C++ a través de la función coeficiente_correlación.
Excel tiene una función correl(array1, array2) incorporada para calcular el coeficiente de correlación de Pearson.

Ver también

Notas a pie de página

^ También conocido como r de Pearson , coeficiente de correlación momento-producto de Pearson ( PPMCC ), correlación bivariada , ^[1] o simplemente coeficiente de correlación no calificado ^[2]
^ Ya en 1877, Galton utilizaba el término "reversión" y el símbolo " r " para lo que se convertiría en "regresión". ^[3]^[4]^[5]

Referencias

^ "Tutoriales de SPSS: correlación de Pearson".
^ "Coeficiente de correlación: definición simple, fórmula, pasos sencillos". Estadísticas Cómo .
^ Galton, F. (5 a 19 de abril de 1877). "Leyes típicas de la herencia". Naturaleza . 15 (388, 389, 390): 492–495, 512–514, 532–533. Bibcode : 1877Natur..15..492.. doi : 10.1038/015492a0 . S2CID 4136393.En el "Apéndice" de la página 532, Galton utiliza el término "reversión" y el símbolo r .
^ Galton, F. (24 de septiembre de 1885). "La Asociación Británica: Sección II, Antropología: Discurso de apertura de Francis Galton, FRS, etc., Presidente del Instituto de Antropología, Presidente de la Sección". Naturaleza . 32 (830): 507–510.
^ Galton, F. (1886). "Regresión hacia la mediocridad en la estatura hereditaria". Revista del Instituto Antropológico de Gran Bretaña e Irlanda . 15 : 246–263. doi :10.2307/2841583. JSTOR 2841583.
^ Pearson, Karl (20 de junio de 1895). "Apuntes sobre regresión y herencia en el caso de dos padres". Actas de la Royal Society de Londres . 58 : 240–242. Código Bib : 1895RSPS...58..240P.
^ Stigler, Stephen M. (1989). "El relato de Francis Galton sobre la invención de la correlación". Ciencia estadística . 4 (2): 73–79. doi : 10.1214/ss/1177012580 . JSTOR 2245329.
^ "Analyse mathematique sur les probabilités des errores de situación de un punto". Memoria. Acad. Roy. Ciencia. Inst. Francia . Ciencia. Matemáticas y Física. (en francés). 9 : 255–332. 1844 - a través de Google Books.
^ Wright, S. (1921). "Correlación y causalidad". Revista de Investigación Agrícola . 20 (7): 557–585.
^ abcde Real Statistics usando Excel, "Conceptos básicos de correlación", consultado el 22 de febrero de 2015.
^ Weisstein, Eric W. "Correlación estadística". Wolfram MathWorld . Consultado el 22 de agosto de 2020 .
^ Moriya, N. (2008). "Análisis conjunto óptimo multivariado relacionado con el ruido en procesos estocásticos longitudinales". En Yang, Fengshan (ed.). Avances en la Modelización Matemática Aplicada . Nova Science Publishers, Inc. págs. 223–260. ISBN 978-1-60021-976-4.
^ Garren, Steven T. (15 de junio de 1998). "Estimación de máxima verosimilitud del coeficiente de correlación en un modelo normal bivariado, con datos faltantes". Cartas de estadística y probabilidad . 38 (3): 281–288. doi :10.1016/S0167-7152(98)00035-2.
^ "2.6 - Coeficiente de correlación (Pearson) r". ESTADÍSTICA 462 . Consultado el 10 de julio de 2021 .
^ "Introducción a las estadísticas empresariales: el coeficiente de correlación r". opentextbc.ca . Consultado el 21 de agosto de 2020 .
^ Rodgers; Buen viajero (1988). "Trece formas de observar el coeficiente de correlación" (PDF) . El estadístico estadounidense . 42 (1): 59–66. doi :10.2307/2685263. JSTOR 2685263.
^ Schmid, John Jr. (diciembre de 1947). "La relación entre el coeficiente de correlación y el ángulo incluido entre las líneas de regresión". La Revista de Investigación Educativa . 41 (4): 311–313. doi :10.1080/00220671.1947.10881608. JSTOR 27528906.
^ Rummel, RJ (1976). "Comprensión de la correlación". cap. 5 (como se ilustra para un caso especial en el siguiente párrafo).
^ Buda, Andrzej; Jarynowski, Andrzej (diciembre de 2010). Vida útil de las correlaciones y sus aplicaciones . Wydawnictwo Niezależne. págs. 5-21. ISBN 9788391527290.
^ ab Cohen, J. (1988). Análisis de poder estadístico para las ciencias del comportamiento (2ª ed.).
^ Bowley, Alabama (1928). "La desviación estándar del coeficiente de correlación". Revista de la Asociación Estadounidense de Estadística . 23 (161): 31–34. doi :10.2307/2277400. ISSN 0162-1459. JSTOR 2277400.
^ "Derivación del error estándar del coeficiente de correlación de Pearson". Validación cruzada . Consultado el 30 de julio de 2021 .
^ Rahman, NA (1968) Un curso de estadística teórica , Charles Griffin and Company, 1968
^ Kendall, MG, Stuart, A. (1973) La teoría avanzada de la estadística, volumen 2: inferencia y relación , Griffin. ISBN 0-85264-215-6 (Sección 31.19)
^ Soper, ÉL ; Joven, AW; Cueva, BM; Lee, A.; Pearson, K. (1917). "Sobre la distribución del coeficiente de correlación en muestras pequeñas. Apéndice II de los artículos de "Student" y RA Fisher. Un estudio cooperativo". Biometrika . 11 (4): 328–413. doi :10.1093/biomet/11.4.328.
^ Davey, Catherine E.; Grayden, David B.; Egan, Gary F.; Johnston, Leigh A. (enero de 2013). "El filtrado induce correlación en los datos del estado de reposo de la resonancia magnética funcional". NeuroImagen . 64 : 728–740. doi : 10.1016/j.neuroimage.2012.08.022. hdl : 11343/44035 . PMID 22939874. S2CID 207184701.
^ Hotelling, Harold (1953). "Nueva luz sobre el coeficiente de correlación y sus transformaciones". Revista de la Real Sociedad de Estadística . Serie B (Metodológica). 15 (2): 193–232. doi :10.1111/j.2517-6161.1953.tb00135.x. JSTOR 2983768.
^ Kenney, JF; Manteniendo, ES (1951). Matemáticas de la Estadística . vol. Parte 2 (2ª ed.). Princeton, Nueva Jersey: Van Nostrand.
^ Weisstein, Eric W. "Coeficiente de correlación: distribución normal bivariada". Wolfram MathWorld .
^ Taraldsen, Gunnar (2020). "Confianza en la correlación". doi : 10.13140/RG.2.2.23673.49769 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Lai, Chun Sing; Tao, Yingshan; Xu, Fangyuan; Ng, ala WY; Jia, Youwei; Yuan, Haoliang; Huang, Chao; Lai, Loi Lei; Xu, Zhao; Locatelli, Giorgio (enero de 2019). "Un marco sólido de análisis de correlación para datos dicotómicos y desequilibrados con incertidumbre" (PDF) . Ciencias de la Información . 470 : 58–77. doi :10.1016/j.ins.2018.08.017. S2CID 52878443.
^ ab Wilcox, Rand R. (2005). Introducción a la estimación robusta y prueba de hipótesis . Prensa académica.
^ Devlin, Susan J .; Gnanadesikan, R.; Kettenring J.R. (1975). "Estimación robusta y detección de valores atípicos con coeficientes de correlación". Biometrika . 62 (3): 531–545. doi :10.1093/biomet/62.3.531. JSTOR 2335508.
^ Huber, Pedro. J. (2004). Estadísticas sólidas . Wiley.^{[ página necesaria ]}
^ Vaart, AW van der (13 de octubre de 1998). Estadísticas asintóticas. Prensa de la Universidad de Cambridge. doi :10.1017/cbo9780511802256. ISBN 978-0-511-80225-6.
^ Katz., Mitchell H. (2006) Análisis multivariable: una guía práctica para médicos . 2da Edición. Prensa de la Universidad de Cambridge. ISBN 978-0-521-54985-1 . ISBN 0-521-54985-X
^ Hotelling, H. (1953). "Nueva luz sobre el coeficiente de correlación y sus transformaciones". Revista de la Real Sociedad de Estadística. Serie B (Metodológica) . 15 (2): 193–232. doi :10.1111/j.2517-6161.1953.tb00135.x. JSTOR 2983768.
^ Olkin, Ingram; Pratt, John W. (marzo de 1958). "Estimación imparcial de ciertos coeficientes de correlación". Los anales de la estadística matemática . 29 (1): 201–211. doi : 10.1214/aoms/1177706717 . JSTOR 2237306..
^ "Re: Calcular una correlación ponderada". sci.tech-archive.net .
^ "Matriz de correlación ponderada - Intercambio de archivos - MATLAB Central".
^ Nikolic, D; Muresan, RC; Feng, W; Cantante, W (2012). "Análisis de correlación escalada: una mejor manera de calcular un correlograma cruzado" (PDF) . Revista europea de neurociencia . 35 (5): 1–21. doi :10.1111/j.1460-9568.2011.07987.x. PMID 22324876. S2CID 4694570.
^ Fulekar (Ed.), MH (2009) Bioinformática: aplicaciones en ciencias biológicas y ambientales , Springer (págs. 110) ISBN 1-4020-8879-5
^ Immink, K. Schouhamer; Weber, J. (octubre de 2010). "Detección de distancia mínima de Pearson para canales multinivel con desajuste de ganancia y/o compensación". Transacciones IEEE sobre teoría de la información . 60 (10): 5966–5974. CiteSeerX 10.1.1.642.9971 . doi :10.1109/tit.2014.2342744. S2CID 1027502 . Consultado el 11 de febrero de 2018 .
^ Jammalamadaka, S. Rao; SenGupta, A. (2001). Temas de estadística circular. Nueva Jersey: World Scientific. pag. 176.ISBN 978-981-02-3778-3. Consultado el 21 de septiembre de 2016 .
^ Cox, DR; Hinkley, DV (1974). Estadística Teórica . Chapman y Hall. Apéndice 3. ISBN 0-412-12420-3.

enlaces externos

Wikiversidad tiene recursos de aprendizaje sobre correlación lineal.

"coco". comparandocorrelaciones.org .– Una interfaz web gratuita y un paquete R para la comparación estadística de dos correlaciones dependientes o independientes con variables superpuestas o no superpuestas.
"Correlación". nagysandor.eu .– una simulación Flash interactiva sobre la correlación de dos variables normalmente distribuidas.
"Calculadora de coeficientes de correlación". hackmath.net . Regresión lineal.
"Valores críticos del coeficiente de correlación de Pearson" (PDF) . frank.mtsu.edu/~dkfuller .- mesa grande.
"Adivina la correlación".– Un juego en el que los jugadores adivinan qué tan correlacionadas están dos variables en un diagrama de dispersión, para comprender mejor el concepto de correlación.