En teoría de probabilidad y estadística , la correlación parcial mide el grado de asociación entre dos variables aleatorias , con el efecto de un conjunto de variables aleatorias de control eliminadas. Al determinar la relación numérica entre dos variables de interés, el uso de su coeficiente de correlación dará resultados engañosos si hay otra variable de confusión que esté numéricamente relacionada con ambas variables de interés. Esta información engañosa se puede evitar controlando la variable de confusión, lo que se hace calculando el coeficiente de correlación parcial. Esta es precisamente la motivación para incluir otras variables del lado derecho en una regresión múltiple ; pero mientras que la regresión múltiple da resultados imparciales para el tamaño del efecto , no da un valor numérico de una medida de la fuerza de la relación entre las dos variables de interés.
Por ejemplo, si se dan datos económicos sobre el consumo, los ingresos y la riqueza de varias personas, se puede considerar la relación entre el consumo y los ingresos. Si no se tiene en cuenta la riqueza al calcular un coeficiente de correlación entre el consumo y los ingresos, se obtendría un resultado engañoso, ya que los ingresos podrían estar relacionados numéricamente con la riqueza, que a su vez podría estar relacionada numéricamente con el consumo; una correlación medida entre el consumo y los ingresos podría estar contaminada por estas otras correlaciones. El uso de una correlación parcial evita este problema.
Al igual que el coeficiente de correlación, el coeficiente de correlación parcial toma un valor en el rango de –1 a 1. El valor –1 transmite una correlación negativa perfecta controlando algunas variables (es decir, una relación lineal exacta en la que los valores más altos de una variable están asociados con valores más bajos de la otra); el valor 1 transmite una relación lineal positiva perfecta, y el valor 0 transmite que no hay relación lineal.
La correlación parcial coincide con la correlación condicional si las variables aleatorias se distribuyen conjuntamente como distribución normal multivariada , otra elíptica , hipergeométrica multivariada , hipergeométrica negativa multivariada , multinomial o de Dirichlet , pero no en general en otros casos. [1]
Formalmente, la correlación parcial entre X e Y dado un conjunto de n variables de control Z = { Z 1 , Z 2 , ..., Z n }, escrita ρ XY · Z , es la correlación entre los residuos e X y e Y resultantes de la regresión lineal de X con Z y de Y con Z , respectivamente. La correlación parcial de primer orden (es decir, cuando n = 1) es la diferencia entre una correlación y el producto de las correlaciones removibles dividido por el producto de los coeficientes de alienación de las correlaciones removibles. El coeficiente de alienación y su relación con la varianza conjunta a través de la correlación están disponibles en Guilford (1973, pp. 344–345). [2]
Una forma sencilla de calcular la correlación parcial de la muestra para algunos datos es resolver los dos problemas de regresión lineal asociados y calcular la correlación entre los residuos. Sean X e Y variables aleatorias que toman valores reales, y sea Z la variable aleatoria de valor vectorial n -dimensional. Sean x i , y i y z i las i -ésimas observaciones de alguna distribución de probabilidad conjunta sobre variables aleatorias reales X , Y y Z , con z i aumentado con un 1 para permitir un término constante en la regresión. Resolver el problema de regresión lineal equivale a encontrar vectores de coeficientes de regresión ( n + 1)-dimensionales y tales que
donde es el número de observaciones, y es el producto escalar entre los vectores y .
Los residuos son entonces
y la correlación parcial de la muestra se da entonces mediante la fórmula habitual para la correlación de la muestra , pero entre estos nuevos valores derivados :
En la primera expresión, los tres términos después de los signos menos son todos iguales a 0, ya que cada uno contiene la suma de los residuos de una regresión de mínimos cuadrados ordinaria .
Considere los siguientes datos sobre tres variables, X , Y y Z :
El cálculo del coeficiente de correlación de Pearson entre las variables X e Y da como resultado aproximadamente 0,970, mientras que el cálculo de la correlación parcial entre X e Y , utilizando la fórmula dada anteriormente, da como resultado una correlación parcial de 0,919. Los cálculos se realizaron utilizando R con el siguiente código.
> X <- c ( 2 , 4 , 15 , 20 ) > Y < - c ( 1 , 2 , 3 , 4 ) > Z < - c ( 0 , 0 , 1 , 1 ) > mm1 <- lm ( X ~ Z ) > res1 <- mm1 $ residuales > mm2 <- lm ( Y ~ Z ) > res2 <- mm2 $ residuales > cor ( res1 , res2 ) [1] 0.919145 > cor ( X , Y ) [1] 0.9695016 > generalCorr :: parcorMany ( cbind ( X , Y , Z )) nami namj partij partji rijMrji [1,] "X" "Y" "0.8844" "1" "-0.1156" [2,] "X" "Z" "0,1581" "1" "-0,8419"
La parte inferior del código anterior informa que el coeficiente de correlación parcial no lineal generalizado entre X e Y después de eliminar el efecto no lineal de Z es 0,8844. Además, el coeficiente de correlación parcial generalizado entre X y Z después de eliminar el efecto no lineal de Y es 0,1581. Consulte el paquete R `generalCorr' y sus viñetas para obtener más detalles. La simulación y otros detalles se encuentran en Vinod (2017) "Generalized correlation and kernel causality with applications in development economics", Communications in Statistics - Simulation and Computation, vol. 46, [4513, 4534], disponible en línea: 29 de diciembre de 2015, URL https://doi.org/10.1080/03610918.2015.1122048.
La resolución de problemas de regresión lineal puede resultar costosa en términos computacionales. En realidad, la correlación parcial de orden n (es decir, con | Z | = n ) se puede calcular fácilmente a partir de tres correlaciones parciales de orden ( n - 1). La correlación parcial de orden cero ρ XY ·Ø se define como el coeficiente de correlación regular ρ XY .
Se cumple, para cualquier que [3]
Implementar este cálculo de manera ingenua como un algoritmo recursivo produce una complejidad temporal exponencial . Sin embargo, este cálculo tiene la propiedad de superposición de subproblemas , de modo que usar programación dinámica o simplemente almacenar en caché los resultados de las llamadas recursivas produce una complejidad de .
Nótese que en el caso en que Z es una sola variable, esto se reduce a: [ cita requerida ]
La correlación parcial también se puede escribir en términos de la matriz de precisión conjunta. Consideremos un conjunto de variables aleatorias, de cardinalidad n . Queremos la correlación parcial entre dos variables y dadas todas las demás, es decir, . Supongamos que la matriz de covarianza (conjunta/completa) es definida positiva y, por lo tanto, invertible . Si la matriz de precisión se define como , entonces
Para calcular esto se requiere , la inversa de la matriz de covarianza que se ejecuta en el tiempo (utilizando la matriz de covarianza de muestra para obtener una correlación parcial de muestra). Tenga en cuenta que solo se requiere una única inversión de matriz para obtener todas las correlaciones parciales entre pares de variables en .
Para demostrar la ecuación ( 1 ), regrese a la notación anterior (es decir , ) y comience con la definición de correlación parcial: ρ XY · Z es la correlación entre los residuos e X y e Y resultantes de la regresión lineal de X con Z y de Y con Z , respectivamente.
En primer lugar, supongamos que son los coeficientes de ajuste de la regresión lineal; es decir,
Escriba la matriz de covarianza conjunta para el vector como
donde Entonces la fórmula estándar para la regresión lineal da
Por lo tanto, los residuos se pueden escribir como
Tenga en cuenta que tiene una expectativa de cero debido a la inclusión de un término de intersección en . Calcular la covarianza ahora da
A continuación, escriba la matriz de precisión en una forma de bloque similar:
Luego, por la fórmula de Schur para la inversión de la matriz de bloques ,
Las entradas de la matriz del lado derecho son precisamente las covarianzas calculadas previamente en ( 2 ), dando
Usando la fórmula para la inversa de una matriz 2×2 se obtiene
De hecho, la correlación parcial es
como se reivindica en ( 1 ).
Sean tres variables X , Y , Z (donde Z es la variable "de control" o "extra") elegidas de una distribución de probabilidad conjunta sobre n variables V . Además, sean v i , 1 ≤ i ≤ N , N observaciones iid n -dimensionales tomadas de la distribución de probabilidad conjunta sobre V . La interpretación geométrica proviene de considerar los vectores N -dimensionales x (formado por los valores sucesivos de X sobre las observaciones), y (formado por los valores de Y ), y z (formado por los valores de Z ).
Se puede demostrar que los residuos e X,i provenientes de la regresión lineal de X sobre Z , si también se consideran como un vector N -dimensional e X (denotado r X en el gráfico adjunto), tienen un producto escalar cero con el vector z generado por Z . Esto significa que el vector de residuos se encuentra en un hiperplano ( N –1)-dimensional S z que es perpendicular a z .
Lo mismo se aplica a los residuos e Y,i que generan un vector e Y . La correlación parcial deseada es entonces el coseno del ángulo φ entre las proyecciones e X y e Y de x e y , respectivamente, sobre el hiperplano perpendicular a z . [4] : cap. 7
Suponiendo que todas las variables involucradas son gaussianas multivariadas , la correlación parcial ρ XY · Z es cero si y solo si X es condicionalmente independiente de Y dado Z . [1] Esta propiedad no se cumple en el caso general.
Para comprobar si una correlación parcial de muestra implica que la correlación parcial de población real difiere de 0, se puede utilizar la transformada z de Fisher de la correlación parcial:
La hipótesis nula es , que se probará frente a la alternativa de dos colas . puede rechazarse si
donde es la función de distribución acumulada de una distribución gaussiana con media cero y desviación estándar unitaria , es el nivel de significancia de y es el tamaño de la muestra . Esta transformada z es aproximada y la distribución real del coeficiente de correlación (parcial) de la muestra no es sencilla. Sin embargo, está disponible una prueba t exacta basada en una combinación del coeficiente de regresión parcial, el coeficiente de correlación parcial y las varianzas parciales. [5]
La distribución de la correlación parcial de la muestra fue descrita por Fisher. [6]
La estadística de correlación semiparcial (o parcial) es similar a la estadística de correlación parcial; ambas comparan variaciones de dos variables después de controlar ciertos factores. Sin embargo, para calcular la correlación semiparcial, se mantiene constante la tercera variable para X o Y, pero no para ambas; mientras que para la correlación parcial, se mantiene constante la tercera variable para ambas. [7] La correlación semiparcial compara la variación única de una variable (habiendo eliminado la variación asociada con la (s) variable(s) Z ) con la variación sin filtrar de la otra, mientras que la correlación parcial compara la variación única de una variable con la variación única de la otra.
La correlación semiparcial puede considerarse más relevante en la práctica "porque está escalada a (es decir, en relación con) la variabilidad total en la variable dependiente (de respuesta)". [8] Por el contrario, es menos útil en teoría porque es menos precisa acerca del papel de la contribución única de la variable independiente.
El valor absoluto de la correlación semiparcial de X con Y es siempre menor o igual que el de la correlación parcial de X con Y . La razón es la siguiente: supongamos que la correlación de X con Z se ha eliminado de X , lo que da el vector residual e x . Al calcular la correlación semiparcial, Y todavía contiene varianza única y varianza debida a su asociación con Z . Pero e x , al no estar correlacionado con Z , solo puede explicar parte de la parte única de la varianza de Y y no la parte relacionada con Z . Por el contrario, con la correlación parcial, solo e y (la parte de la varianza de Y que no está relacionada con Z ) debe explicarse, por lo que hay menos varianza del tipo que e x no puede explicar.
En el análisis de series de tiempo , la función de autocorrelación parcial (a veces "función de correlación parcial") de una serie de tiempo se define, para el rezago , como [ cita requerida ]
Esta función se utiliza para determinar la longitud de retraso adecuada para una autorregresión .