stringtranslate.com

Correlación parcial

En teoría de la probabilidad y estadística , la correlación parcial mide el grado de asociación entre dos variables aleatorias , eliminando el efecto de un conjunto de variables aleatorias controladoras. Al determinar la relación numérica entre dos variables de interés, el uso de su coeficiente de correlación dará resultados engañosos si hay otra variable de confusión que esté numéricamente relacionada con ambas variables de interés. Esta información engañosa se puede evitar controlando la variable de confusión, lo que se hace calculando el coeficiente de correlación parcial. Ésta es precisamente la motivación para incluir otras variables del lado derecho en una regresión múltiple ; pero si bien la regresión múltiple proporciona resultados insesgados para el tamaño del efecto , no proporciona un valor numérico de una medida de la fuerza de la relación entre las dos variables de interés.

Por ejemplo, dados los datos económicos sobre el consumo, el ingreso y la riqueza de varios individuos, considere la relación entre consumo e ingreso. No controlar la riqueza al calcular un coeficiente de correlación entre consumo e ingreso daría un resultado engañoso, ya que el ingreso podría estar relacionado numéricamente con la riqueza, la cual a su vez podría estar relacionada numéricamente con el consumo; una correlación medida entre consumo e ingreso podría en realidad estar contaminada por estas otras correlaciones. El uso de una correlación parcial evita este problema.

Al igual que el coeficiente de correlación, el coeficiente de correlación parcial toma un valor en el rango de –1 a 1. El valor –1 transmite una correlación negativa perfecta que controla algunas variables (es decir, una relación lineal exacta en la que los valores más altos de una variable están asociados con valores más bajos del otro); el valor 1 transmite una relación lineal positiva perfecta y el valor 0 transmite que no existe una relación lineal.

La correlación parcial coincide con la correlación condicional si las variables aleatorias se distribuyen conjuntamente como distribución normal multivariada , otra elíptica , hipergeométrica multivariada , hipergeométrica negativa multivariada , multinomial o Dirichlet , pero no en general en caso contrario. [1]

Definicion formal

Formalmente, la correlación parcial entre X e Y dado un conjunto de n variables de control Z = { Z 1 , Z 2 , ..., Z n }, escrita ρ XY · Z , es la correlación entre los residuos e X y e Y resultante de la regresión lineal de X con Z y de Y con Z , respectivamente. La correlación parcial de primer orden (es decir, cuando n = 1) es la diferencia entre una correlación y el producto de las correlaciones removibles dividida por el producto de los coeficientes de alienación de las correlaciones removibles. El coeficiente de alienación y su relación con la varianza conjunta a través de la correlación están disponibles en Guilford (1973, págs. 344-345). [2]

Cálculo

Usando regresión lineal

Una forma sencilla de calcular la correlación parcial muestral para algunos datos es resolver los dos problemas de regresión lineal asociados y calcular la correlación entre los residuos. Sean X e Y variables aleatorias que toman valores reales, y sea Z la variable aleatoria de n dimensiones con valores vectoriales. Sean x i , y i y z i denotan la iésima de las observaciones iid de alguna distribución de probabilidad conjunta sobre variables aleatorias reales X , Y y Z , habiéndose aumentado z i con un 1 para permitir un término constante en la regresión . Resolver el problema de regresión lineal equivale a encontrar vectores de coeficientes de regresión ( n +1) dimensionales y tales que

donde es el número de observaciones y es el producto escalar entre los vectores y .

Los residuos son entonces

y la correlación parcial de la muestra viene dada por la fórmula habitual para la correlación de la muestra , pero entre estos nuevos valores derivados :

En la primera expresión, los tres términos después del signo menos son todos iguales a 0, ya que cada uno contiene la suma de los residuos de una regresión de mínimos cuadrados ordinaria .

Ejemplo

Considere los siguientes datos sobre tres variables, X , Y y Z :

Calcular el coeficiente de correlación de Pearson entre las variables X e Y da como resultado aproximadamente 0,970, mientras que calcular la correlación parcial entre X e Y , utilizando la fórmula dada anteriormente, da una correlación parcial de 0,919. Los cálculos se realizaron usando R con el siguiente código.

> X <- c ( 2 , 4 , 15 , 20 ) > Y <- c ( 1 , 2 , 3 , 4 ) > Z <- c ( 0 , 0 , 1 , 1 ) > mm1 <- lm ( X ~ Z ) > res1 <- mm1 $ residuales > mm2 <- lm ( Y ~ Z ) > res2 <- mm2 $ residuales > cor ( res1 , res2 ) [1] 0.919145 > cor ( X , Y ) [1] 0.9695016 > generalCorr :: parcorMany ( cbind ( X , Y , Z ))  nami namj partij partji rijMrji [1,] "X" "Y" "0.8844" "1" "-0.1156" [2,] "X" "Z" "0.1581 " "1" "-0,8419"               

La parte inferior del código anterior informa que el coeficiente de correlación parcial no lineal generalizado entre X e Y después de eliminar el efecto no lineal de Z es 0,8844. Además, el coeficiente de correlación parcial generalizado entre X y Z después de eliminar el efecto no lineal de Y es 0,1581. Consulte el paquete R `generalCorr' y sus viñetas para obtener más detalles. La simulación y otros detalles se encuentran en Vinod (2017) "Correlación generalizada y causalidad del núcleo con aplicaciones en economía del desarrollo", Comunicaciones en estadística - Simulación y computación, vol. 46, [4513, 4534], disponible en línea: 29 de diciembre de 2015, URL https://doi.org/10.1080/03610918.2015.1122048.

Usando fórmula recursiva

Puede resultar computacionalmente costoso resolver los problemas de regresión lineal. En realidad, la correlación parcial de orden n (es decir, con | Z | = n ) se puede calcular fácilmente a partir de tres correlaciones parciales de orden ( n - 1 ). La correlación parcial de orden cero ρ XY · Ø se define como el coeficiente de correlación regular ρ XY .

Es válido para cualquiera que [3]

La implementación ingenua de este cálculo como un algoritmo recursivo produce una complejidad temporal exponencial . Sin embargo, este cálculo tiene la propiedad de subproblemas superpuestos , de modo que usar programación dinámica o simplemente almacenar en caché los resultados de las llamadas recursivas produce una complejidad de .

Tenga en cuenta que en el caso de que Z sea una sola variable, esto se reduce a: [ cita necesaria ]

Usando inversión de matrices

La correlación parcial también se puede escribir en términos de la matriz de precisión conjunta. Considere un conjunto de variables aleatorias, de cardinalidad n . Queremos la correlación parcial entre dos variables y dadas todas las demás, es decir, . Supongamos que la matriz de covarianza (conjunta/completa) es positiva definida y, por tanto, invertible . Si la matriz de precisión se define como , entonces

Calcular esto requiere la inversa de la matriz de covarianza que se ejecuta en el tiempo (usando la matriz de covarianza de muestra para obtener una correlación parcial de muestra). Tenga en cuenta que solo se requiere una inversión de matriz para obtener todas las correlaciones parciales entre pares de variables en .

Para probar la Ecuación ( 1 ), regrese a la notación anterior (ie ) y comience con la definición de correlación parcial: ρ XY · Z es la correlación entre los residuos e X y e Y resultantes de la regresión lineal de X con Z y de Y con Z , respectivamente.

Primero, supongamos que son los coeficientes de ajuste de regresión lineal; eso es,

Escriba la matriz de covarianza conjunta para el vector como

dónde

Por lo tanto, los residuos se pueden escribir como

Tenga en cuenta que tiene expectativa cero debido a la inclusión de un término de intersección en . Calcular la covarianza ahora da

A continuación, escriba la matriz de precisión en forma de bloque similar:

Luego, según la fórmula de Schur para la inversión de matriz de bloques ,

Las entradas de la matriz del lado derecho son precisamente las covarianzas calculadas previamente en ( 2 ), dando

Usando la fórmula para la inversa de una matriz de 2 × 2 se obtiene

De hecho, la correlación parcial es

como se afirma en ( 1 ).

Interpretación

Interpretación geométrica de la correlación parcial para el caso de N = 3 observaciones y, por tanto, un hiperplano bidimensional

Geométrico

Elijamos tres variables X , Y , Z (donde Z es el "control" o la "variable adicional") de una distribución de probabilidad conjunta sobre n variables V. Además, sean vi , 1 ≤ iN , N observaciones iid n -dimensionales tomadas de la distribución de probabilidad conjunta sobre V. La interpretación geométrica proviene de considerar los vectores N -dimensionales x (formado por los valores sucesivos de X a lo largo de las observaciones), y (formado por los valores de Y ), y z (formado por los valores de Z ).

Se puede demostrar que los residuos e X,i provenientes de la regresión lineal de X sobre Z , si también se consideran como un vector N -dimensional e X (denotado r X en el gráfico adjunto), tienen un producto escalar cero con el vector z generado por Z . Esto significa que el vector de residuos se encuentra en un hiperplano S z de dimensión ( N –1) que es perpendicular a z .

Lo mismo se aplica también a los residuos e Y,i que generan un vector e Y . La correlación parcial deseada es entonces el coseno del ángulo φ entre las proyecciones e X y e Y de x e y , respectivamente, sobre el hiperplano perpendicular a z . [4] : cap. 7 

Como prueba de independencia condicional

Con el supuesto de que todas las variables involucradas son gaussianas multivariadas , la correlación parcial ρ XY · Z es cero si y sólo si X es condicionalmente independiente de Y dado Z. [1] Esta propiedad no se cumple en el caso general.

Para probar si una correlación parcial de muestra implica que la verdadera correlación parcial de la población difiere de 0, se puede utilizar la transformada z de Fisher de la correlación parcial :

La hipótesis nula debe probarse frente a la alternativa de dos colas . puede ser rechazado si

donde es la función de distribución acumulada de una distribución gaussiana con media cero y desviación estándar unitaria , es el nivel de significancia de y es el tamaño de la muestra . Esta transformada z es aproximada y la distribución real del coeficiente de correlación muestral (parcial) no es sencilla. Sin embargo, está disponible una prueba t exacta basada en una combinación del coeficiente de regresión parcial, el coeficiente de correlación parcial y las varianzas parciales. [5]

Fisher describió la distribución de la correlación parcial de la muestra. [6]

Correlación semiparcial (correlación parcial)

La estadística de correlación semiparcial (o parcial) es similar a la estadística de correlación parcial; ambos comparan variaciones de dos variables después de controlar ciertos factores. Sin embargo, para calcular la correlación semiparcial, se mantiene constante la tercera variable para X o Y , pero no para ambas; mientras que para la correlación parcial, se mantiene constante la tercera variable para ambos. [7] La ​​correlación semiparcial compara la variación única de una variable (habiendo eliminado la variación asociada con la (s) variable(s) Z ) con la variación sin filtrar de la otra, mientras que la correlación parcial compara la variación única de una variable con la variación única de el otro.

La correlación semiparcial puede considerarse más relevante en la práctica "porque está escalada (es decir, en relación con) la variabilidad total en la variable dependiente (respuesta)". [8] Por el contrario, es menos útil teóricamente porque es menos preciso sobre el papel de la contribución única de la variable independiente.

El valor absoluto de la correlación semiparcial de X con Y es siempre menor o igual que el de la correlación parcial de X con Y. La razón es la siguiente: supongamos que la correlación de X con Z se ha eliminado de X , dando el vector residual e x . Al calcular la correlación semiparcial, Y todavía contiene varianza única y varianza debido a su asociación con Z. Pero e x , al no estar correlacionado con Z , sólo puede explicar parte de la parte única de la varianza de Y y no la parte relacionada con Z. En cambio, con la correlación parcial, sólo e y (la parte de la varianza de Y que no está relacionada con Z ) debe explicarse, por lo que hay menos varianza del tipo que e x no puede explicar.

Uso en análisis de series de tiempo.

En el análisis de series de tiempo , la función de autocorrelación parcial (a veces "función de correlación parcial") de una serie de tiempo se define, para el retraso , como [ cita necesaria ]

Esta función se utiliza para determinar la longitud de retraso adecuada para una autorregresión .

Ver también

Referencias

  1. ^ ab Baba, Kunihiro; Ritei Shibata; Masaaki Sibuya (2004). "Correlación parcial y correlación condicional como medidas de independencia condicional". Revista de estadística de Australia y Nueva Zelanda . 46 (4): 657–664. doi :10.1111/j.1467-842X.2004.00360.x. S2CID  123130024.
  2. ^ Guilford JP, Fruchter B. (1973). Estadística fundamental en psicología y educación . Tokio: McGraw-Hill Kogakusha, LTD.
  3. ^ Kim, Seongho (noviembre de 2015). "ppcor: un paquete R para un cálculo rápido de coeficientes de correlación semiparciales". Comunicaciones para aplicaciones y métodos estadísticos . 22 (6): 665–674. doi :10.5351/CSAM.2015.22.6.665. ISSN  2287-7843. PMC 4681537 . PMID  26688802. 
  4. ^ Rummel, RJ (1976). "Comprensión de la correlación".
  5. ^ Kendall MG, Stuart A. (1973) La teoría avanzada de la estadística , volumen 2 (tercera edición), ISBN 0-85264-215-6 , sección 27.22 
  6. ^ Pescador, RA (1924). "La distribución del coeficiente de correlación parcial". Metron . 3 (3–4): 329–332.
  7. ^ "Correlación parcial y semiparcial". Archivado desde el original el 6 de febrero de 2014.
  8. ^ StatSoft, Inc. (2010). "Correlación semiparcial (o parcial)", Libro de texto de estadística electrónica. Tulsa, OK: StatSoft, consultado el 15 de enero de 2011.

enlaces externos