Correlación de distancia

En estadística y en teoría de la probabilidad , la correlación de distancia o covarianza de distancia es una medida de dependencia entre dos vectores aleatorios pareados de dimensión arbitraria, no necesariamente igual . El coeficiente de correlación de distancia poblacional es cero si y solo si los vectores aleatorios son independientes . Por lo tanto, la correlación de distancia mide la asociación tanto lineal como no lineal entre dos variables aleatorias o vectores aleatorios. Esto contrasta con la correlación de Pearson , que solo puede detectar la asociación lineal entre dos variables aleatorias .

La correlación de distancias se puede utilizar para realizar una prueba estadística de dependencia con una prueba de permutación . Primero se calcula la correlación de distancias (que implica el recentrado de matrices de distancias euclidianas) entre dos vectores aleatorios y luego se compara este valor con las correlaciones de distancias de muchas mezclas de datos.

Fondo

La medida clásica de dependencia, el coeficiente de correlación de Pearson , ^[1] es principalmente sensible a una relación lineal entre dos variables. La correlación de distancia fue introducida en 2005 por Gábor J. Székely en varias conferencias para abordar esta deficiencia de la correlación de Pearson , es decir, que puede ser fácilmente cero para las variables dependientes. La correlación = 0 (no correlación) no implica independencia, mientras que la correlación de distancia = 0 sí implica independencia. Los primeros resultados sobre la correlación de distancia se publicaron en 2007 y 2009. ^[2]^[3] Se demostró que la covarianza de distancia es la misma que la covarianza browniana. ^[3] Estas medidas son ejemplos de distancias de energía .

La correlación de distancia se deriva de una serie de otras cantidades que se utilizan en su especificación, específicamente: varianza de distancia , desviación estándar de distancia y covarianza de distancia . Estas cantidades asumen los mismos roles que los momentos ordinarios con nombres correspondientes en la especificación del coeficiente de correlación de producto-momento de Pearson .

Definiciones

Covarianza de distancia

Comencemos con la definición de la covarianza de distancia de la muestra . Sea ( X _k , Y _k ), k = 1, 2, ..., n una muestra estadística de un par de variables aleatorias de valor real o de valor vectorial ( X , Y ). Primero, calcule las matrices de distancia n por n ( a _j_,_k ) y ( b _j_,_k ) que contienen todas las distancias por pares.

{\begin{aligned}a_{j,k}&=\|X_{j}-X_{k}\|,\qcuadrado j,k=1,2,\ldots ,n,\\b_{j,k}&=\|Y_{j}-Y_{k}\|,\qcuadrado j,k=1,2,\ldots ,n,\end{aligned}}

donde ||⋅ ||denota la norma euclidiana . Luego, tome todas las distancias doblemente centradas

A_{j,k}:=a_{j,k}-{\overline {a}}_{j\cdot }-{\overline {a}}_{\cdot k}+{\overline {a}}_{\cdot \cdot },\qquad B_{j,k}:=b_{j,k}-{\overline {b}}_{j\cdot }-{\overline {b}}_{\cdot k}+{\overline {b}}_{\cdot \cdot },

donde es la media de la fila $j$ , es la media de la columna $k$ y es la media general de la matriz de distancias de la muestra $X.$ La notación es similar para los valores $b$ . (En las matrices de distancias centradas ( A _j_,_k ) y ( B _j_,_k ) todas las filas y todas las columnas suman cero.) La covarianza de la distancia muestral al cuadrado (un escalar) es simplemente el promedio aritmético de los productos A _j_,_k B _j_,_k : $\textstyle {\overline {a}}_{j\cdot }$ $\textstyle {\overline {a}}_{\cdot k}$ $\textstyle {\overline {a}}_{\cdot \cdot }$

\operatorname {dCov} _{n}^{2}(X,Y):={\frac {1}{n^{2}}}\sum _{j=1}^{n}\sum _{k=1}^{n}A_{j,k}\,B_{j,k}.

La estadística T _n = n dCov ²_n ( X , Y ) determina una prueba multivariada consistente de independencia de vectores aleatorios en dimensiones arbitrarias. Para una implementación, consulte la función dcov.test en el paquete de energía para R . ^[4]

El valor de población de la covarianza de distancia se puede definir siguiendo las mismas líneas. Sea X una variable aleatoria que toma valores en un espacio euclidiano de dimensión p con distribución de probabilidad $μ$ y sea Y una variable aleatoria que toma valores en un espacio euclidiano de dimensión q con distribución de probabilidad $ν$ , y supongamos que X e Y tienen esperanzas finitas. Escriba

a_{\mu }(x):=\operatorname {E} [\|X-x\|],\quad D(\mu ):=\operatorname {E} [a_{\mu }(X)],\quad d_{\mu }(x,x'):=\|x-x'\|-a_{\mu }(x)-a_{\mu }(x')+D(\mu ).

Finalmente, defina el valor poblacional de la covarianza de la distancia al cuadrado de X e Y como

\operatorname {dCov} ^{2}(X,Y):=\operatorname {E} {\big [}d_{\mu }(X,X')d_{\nu }(Y,Y'){\big ]}.

Se puede demostrar que esto es equivalente a la siguiente definición:

{\begin{aligned}\operatorname {dCov} ^{2}(X,Y):={}&\operatorname {E} [\|X-X'\|\,\|Y-Y'\|]+\operatorname {E} [\|X-X'\|]\,\operatorname {E} [\|Y-Y'\|]\\&\qquad {}-\operatorname {E} [\|X-X'\|\,\|Y-Y''\|]-\operatorname {E} [\|X-X''\|\,\|Y-Y'\|]\\={}&\operatorname {E} [\|X-X'\|\,\|Y-Y'\|]+\operatorname {E} [\|X-X'\|]\,\operatorname {E} [\|Y-Y'\|]\\&\qquad {}-2\operatorname {E} [\|X-X'\|\,\|Y-Y''\|],\end{aligned}}

donde E denota valor esperado, y y son independientes y distribuidas de forma idéntica. Las variables aleatorias cebadas y denotan copias independientes e idénticamente distribuidas (iid) de las variables y y son igualmente iid. ^[5] La covarianza de distancia se puede expresar en términos de la covarianza clásica de Pearson , cov , de la siguiente manera: $\textstyle (X,Y),$ $\textstyle (X',Y'),$ $\textstyle (X'',Y'')$ $\textstyle (X',Y')$ $\textstyle (X'',Y'')$ $X$ $Y$

\operatorname {dCov} ^{2}(X,Y)=\operatorname {cov} (\|X-X'\|,\|Y-Y'\|)-2\operatorname {cov} (\|X-X'\|,\|Y-Y''\|).

Esta identidad muestra que la covarianza de la distancia no es la misma que la covarianza de las distancias, cov(‖ X − X' ‖, ‖ Y − Y' ‖ ). Esta puede ser cero incluso si X e Y no son independientes.

Alternativamente, la covarianza de la distancia se puede definir como la norma L 2 ponderada de la distancia entre la función característica conjunta de las variables aleatorias y el producto de sus funciones características marginales: ^[6]

\operatorname {dCov} ^{2}(X,Y)={\frac {1}{c_{p}c_{q}}}\int _{\mathbb {R} ^{p+q}}{\frac {\left|\varphi _{X,Y}(s,t)-\varphi _{X}(s)\varphi _{Y}(t)\right|^{2}}{|s|_{p}^{1+p}|t|_{q}^{1+q}}}\,dt\,ds

donde , , y son las funciones características de ( X , Y ), X , e Y , respectivamente, p , q denotan la dimensión euclidiana de X e Y , y por tanto de s y t , y c _p , c _q son constantes. La función de peso se elige para producir una medida equivariante de escala e invariante de rotación que no vaya a cero para las variables dependientes. ^[6]^[7] Una interpretación de la definición de la función característica es que las variables e ^isX y e ^itY son representaciones cíclicas de X e Y con diferentes periodos dados por s y t , y la expresión ϕ _X_,_Y ( s , t ) − ϕ _X ( s ) ϕ _Y ( t ) en el numerador de la definición de la función característica de la covarianza de la distancia es simplemente la covarianza clásica de e ^isX y e ^itY . La definición de la función característica muestra claramente que dCov ² ( X , Y ) = 0 si y solo si X e Y son independientes. $\varphi _{X,Y}(s,t)$ $\varphi _{X}(s)$ $\varphi _{Y}(t)$ $({c_{p}c_{q}}{|s|_{p}^{1+p}|t|_{q}^{1+q}})^{-1}$

Varianza de la distancia y desviación estándar de la distancia

La varianza de la distancia es un caso especial de covarianza de la distancia cuando las dos variables son idénticas. El valor de la población de la varianza de la distancia es la raíz cuadrada de

\operatorname {dVar} ^{2}(X):=\operatorname {E} [\|X-X'\|^{2}]+\operatorname {E} ^{2}[\|X-X'\|]-2\operatorname {E} [\|X-X'\|\,\|X-X''\|],

donde , , y son variables aleatorias independientes e idénticamente distribuidas , denota el valor esperado , y para la función , por ejemplo, . $X$ $X'$ $X''$ $\operatorname {E}$ $f^{2}(\cdot )=(f(\cdot ))^{2}$ $f(\cdot )$ $\operatorname {E} ^{2}[\cdot ]=(\operatorname {E} [\cdot ])^{2}$

La varianza de la distancia de la muestra es la raíz cuadrada de

\operatorname {dVar} _{n}^{2}(X):=\operatorname {dCov} _{n}^{2}(X,X)={\tfrac {1}{n^{2}}}\sum _{k,\ell }A_{k,\ell }^{2},

que es un pariente de la diferencia de medias de Corrado Gini introducida en 1912 (pero Gini no trabajaba con distancias centradas). ^[8]

La desviación estándar de la distancia es la raíz cuadrada de la varianza de la distancia .

Correlación de distancia

La correlación de distancia ^[2]^[3] de dos variables aleatorias se obtiene dividiendo su covarianza de distancia por el producto de sus desviaciones estándar de distancia . La correlación de distancia es la raíz cuadrada de

\operatorname {dCor} ^{2}(X,Y)={\frac {\operatorname {dCov} ^{2}(X,Y)}{\sqrt {\operatorname {dVar} ^{2}(X)\,\operatorname {dVar} ^{2}(Y)}}},

y la correlación de la distancia de muestra se define sustituyendo la covarianza de la distancia de muestra y las varianzas de la distancia por los coeficientes de población anteriores.

Para un cálculo sencillo de la correlación de la distancia de muestra , consulte la función dcor en el paquete de energía para R. ^[4]

Propiedades

Correlación de distancia

$0\leq \operatorname {dCor} _{n}(X,Y)\leq 1$ y esto contrasta con la correlación de Pearson, que puede ser negativa. $0\leq \operatorname {dCor} (X,Y)\leq 1$
$\operatorname {dCor} (X,Y)=0$ si y sólo si $X$ e $Y$ son independientes.
$\operatorname {dCor} _{n}(X,Y)=1$ implica que las dimensiones de los subespacios lineales abarcados por las muestras $X$ e $Y$ respectivamente son casi seguramente iguales y si asumimos que estos subespacios son iguales, entonces en este subespacio para algún vector $A$ , escalar $b$ y matriz ortonormal . $Y=A+b\,\mathbf {C} X$ $\mathbf {C}$

Covarianza de distancia

$\operatorname {dCov} (X,Y)\geq 0$ y ; $\operatorname {dCov} _{n}(X,Y)\geq 0$
$\operatorname {dCov} ^{2}(a_{1}+b_{1}\,\mathbf {C} _{1}\,X,a_{2}+b_{2}\,\mathbf {C} _{2}\,Y)=|b_{1}\,b_{2}|\operatorname {dCov} ^{2}(X,Y)$ para todos los vectores constantes , escalares y matrices ortonormales . $a_{1},a_{2}$ $b_{1},b_{2}$ $\mathbf {C} _{1},\mathbf {C} _{2}$
Si los vectores aleatorios y son independientes entonces $(X_{1},Y_{1})$ $(X_{2},Y_{2})$
$\operatorname {dCov} (X_{1}+X_{2},Y_{1}+Y_{2})\leq \operatorname {dCov} (X_{1},Y_{1})+\operatorname {dCov} (X_{2},Y_{2}).$
La igualdad se cumple si y sólo si y son ambos constantes, o y son ambos constantes, o son mutuamente independientes. $X_{1}$ $Y_{1}$ $X_{2}$ $Y_{2}$ $X_{1},X_{2},Y_{1},Y_{2}$
$\operatorname {dCov} (X,Y)=0$ si y sólo si $X$ e $Y$ son independientes.

Esta última propiedad es el efecto más importante de trabajar con distancias centradas.

La estadística es un estimador sesgado de . Bajo independencia de X e Y ^[9] $\operatorname {dCov} _{n}^{2}(X,Y)$ $\operatorname {dCov} ^{2}(X,Y)$

{\begin{aligned}\operatorname {E} [\operatorname {dCov} _{n}^{2}(X,Y)]&={\frac {n-1}{n^{2}}}\left\{(n-2)\operatorname {dCov} ^{2}(X,Y)+\operatorname {E} [\|X-X'\|]\,\operatorname {E} [\|Y-Y'\|]\right\}\\[6pt]&={\frac {n-1}{n^{2}}}\operatorname {E} [\|X-X'\|]\,\operatorname {E} [\|Y-Y'\|].\end{aligned}}

Székely y Rizzo ofrecen un estimador imparcial de ^{[10] .} $\operatorname {dCov} ^{2}(X,Y)$

Variación de la distancia

$\operatorname {dVar} (X)=0$ Si y sólo si casi con seguridad. $X=\operatorname {E} [X]$
$\operatorname {dVar} _{n}(X)=0$ si y sólo si cada observación de muestra es idéntica.
$\operatorname {dVar} (A+b\,\mathbf {C} \,X)=|b|\operatorname {dVar} (X)$ para todos los vectores constantes $A$ , escalares $b$ y matrices ortonormales . $\mathbf {C}$
Si $X$ e $Y$ son independientes entonces . $\operatorname {dVar} (X+Y)\leq \operatorname {dVar} (X)+\operatorname {dVar} (Y)$

La igualdad se cumple en (iv) si y sólo si una de las variables aleatorias $X$ o $Y$ es una constante.

Generalización

La covarianza de distancia se puede generalizar para incluir potencias de la distancia euclidiana. Definir

{\begin{aligned}\operatorname {dCov} ^{2}(X,Y;\alpha ):={}&\operatorname {E} [\|X-X'\|^{\alpha }\,\|Y-Y'\|^{\alpha }]+\operatorname {E} [\|X-X'\|^{\alpha }]\,\operatorname {E} [\|Y-Y'\|^{\alpha }]\\&\qquad {}-2\operatorname {E} [\|X-X'\|^{\alpha }\,\|Y-Y''\|^{\alpha }].\end{aligned}}

Entonces, para cada , y son independientes si y solo si . Es importante notar que esta caracterización no se cumple para el exponente ; en este caso para bivariado , es una función determinista de la correlación de Pearson. ^[2] Si y son potencias de las distancias correspondientes, , entonces la covarianza de la distancia muestral se puede definir como el número no negativo para el cual $0<\alpha <2$ $X$ $Y$ $\operatorname {dCov} ^{2}(X,Y;\alpha )=0$ $\alpha =2$ $(X,Y)$ $\operatorname {dCor} (X,Y;\alpha =2)$ $a_{k,\ell }$ $b_{k,\ell }$ $\alpha$ $0<\alpha \leq 2$ $\alpha$

\operatorname {dCov} _{n}^{2}(X,Y;\alpha ):={\frac {1}{n^{2}}}\sum _{k,\ell }A_{k,\ell }\,B_{k,\ell }.

Se puede extender a variables aleatorias con valores en el espacio métrico y : Si tiene una ley en un espacio métrico con métrica , entonces defina , , y (siempre que sea finito, es decir, tenga un primer momento finito), . Entonces, si tiene una ley (en un espacio métrico posiblemente diferente con un primer momento finito), defina $\operatorname {dCov}$ $X$ $Y$ $X$ $\mu$ $d$ $a_{\mu }(x):=\operatorname {E} [d(X,x)]$ $D(\mu ):=\operatorname {E} [a_{\mu }(X)]$ $a_{\mu }$ $X$ $d_{\mu }(x,x'):=d(x,x')-a_{\mu }(x)-a_{\mu }(x')+D(\mu )$ $Y$ $\nu$

\operatorname {dCov} ^{2}(X,Y):=\operatorname {E} {\big [}d_{\mu }(X,X')d_{\nu }(Y,Y'){\big ]}.

Esto no es negativo para todos estos espacios métricos si y solo si tienen tipo negativo. ^[11] Aquí, un espacio métrico tiene tipo negativo si es isométrico a un subconjunto de un espacio de Hilbert . ^[12] Si ambos espacios métricos tienen un tipo negativo fuerte, entonces si y solo si son independientes. ^[11] $X,Y$ $(M,d)$ $(M,d^{1/2})$ $\operatorname {dCov} ^{2}(X,Y)=0$ $X,Y$

Definición alternativa de covarianza de distancia

La covarianza de distancia original se ha definido como la raíz cuadrada de , en lugar del propio coeficiente al cuadrado. tiene la propiedad de ser la distancia de energía entre la distribución conjunta de y el producto de sus marginales. Sin embargo, según esta definición, la varianza de distancia, en lugar de la desviación estándar de distancia, se mide en las mismas unidades que las distancias. $\operatorname {dCov} ^{2}(X,Y)$ $\operatorname {dCov} (X,Y)$ $\operatorname {X} ,Y$ $\operatorname {X}$

Alternativamente, se podría definir la covarianza de la distancia como el cuadrado de la distancia de energía: En este caso, la desviación estándar de la distancia se mide en las mismas unidades que la distancia, y existe un estimador imparcial para la covarianza de la distancia de la población. ^[10] $\operatorname {dCov} ^{2}(X,Y).$ $X$ $X$

Según estas definiciones alternativas, la correlación de distancia también se define como el cuadrado , en lugar de la raíz cuadrada. $\operatorname {dCor} ^{2}(X,Y)$

Formulación alternativa: covarianza browniana

La covarianza browniana está motivada por la generalización del concepto de covarianza a los procesos estocásticos. El cuadrado de la covarianza de las variables aleatorias X e Y se puede escribir de la siguiente forma:

\operatorname {cov} (X,Y)^{2}=\operatorname {E} \left[{\big (}X-\operatorname {E} (X){\big )}{\big (}X^{\mathrm {'} }-\operatorname {E} (X^{\mathrm {'} }){\big )}{\big (}Y-\operatorname {E} (Y){\big )}{\big (}Y^{\mathrm {'} }-\operatorname {E} (Y^{\mathrm {'} }){\big )}\right]

donde E denota el valor esperado y el primo denota copias independientes e idénticamente distribuidas. Necesitamos la siguiente generalización de esta fórmula. Si U(s), V(t) son procesos aleatorios arbitrarios definidos para todos los s y t reales, entonces definamos la versión de X centrada en U mediante

X_{U}:=U(X)-\operatorname {E} _{X}\left[U(X)\mid \left\{U(t)\right\}\right]

siempre que exista el valor esperado condicional restado y denotemos por Y _V la versión centrada en V de Y. ^[3]^[13]^[14] La covarianza (U,V) de (X,Y) se define como el número no negativo cuyo cuadrado es

\operatorname {cov} _{U,V}^{2}(X,Y):=\operatorname {E} \left[X_{U}X_{U}^{\mathrm {'} }Y_{V}Y_{V}^{\mathrm {'} }\right]

siempre que el lado derecho sea no negativo y finito. El ejemplo más importante es cuando U y V son movimientos brownianos independientes bilaterales / procesos de Wiener con expectativa cero y covarianza | s | + | t | − | s − t | = 2 min( s , t ) (solo para s, t no negativos). (Esto es el doble de la covarianza del proceso de Wiener estándar; aquí el factor 2 simplifica los cálculos). En este caso, la covarianza ( U , V ) se denomina covarianza browniana y se denota por

\operatorname {cov} _{W}(X,Y).

Hay una coincidencia sorprendente: la covarianza browniana es la misma que la covarianza de la distancia:

\operatorname {cov} _{\mathrm {W} }(X,Y)=\operatorname {dCov} (X,Y),

y por lo tanto la correlación browniana es lo mismo que la correlación de distancia.

Por otro lado, si reemplazamos el movimiento browniano con la función identidad determinista id entonces Cov _id ( X , Y ) es simplemente el valor absoluto de la covarianza clásica de Pearson ,

\operatorname {cov} _{\mathrm {id} }(X,Y)=\left\vert \operatorname {cov} (X,Y)\right\vert .

Métricas relacionadas

Otras métricas correlacionales, incluidas las métricas correlacionales basadas en kernel (como el criterio de independencia de Hilbert-Schmidt o HSIC), también pueden detectar interacciones lineales y no lineales. Tanto la correlación de distancia como las métricas basadas en kernel se pueden utilizar en métodos como el análisis de correlación canónica y el análisis de componentes independientes para generar una mayor potencia estadística .

Véase también

Coeficiente RV
Para una estadística de tercer orden relacionada, consulte Asimetría de distancia .

Notas

^ Pearson 1895a, 1895b
^ abc Székely, Rizzo y Bakirov 2007.
^ abcd Székely y Rizzo 2009a.
^Por Rizzo & Székely 2021.
^ Székely y Rizzo 2014, pag. 11.
^ ab Székely y Rizzo 2009a, pág. 1249, Teorema 7, (3.7).
^ Székely y Rizzo 2012.
^ Coeficiente de Gini 1912.
^ Székely y Rizzo 2009b.
^ por Székely & Rizzo 2014.
^ desde Lyons 2014.
^ Klebanov 2005, p. ^{[ página necesaria ]} .
^ Bickel y Xu 2009.
^ Kosorok 2009.

Referencias

Bickel, Peter J.; Xu, Ying (2009). "Discusión de: covarianza de la distancia browniana". Anales de estadística aplicada . 3 (4): 1266–1269. arXiv : 0912.3295 . doi : 10.1214/09-AOAS312A .
Gini, C. (1912). Variabilidad y mutabilidad . Bolonia: Tipografia di Paolo Cuppini. Código bibliográfico : 1912vamu.book.....G.
1995.Distancias N y sus aplicaciones . Praga: Karolinum Press , Charles University. ISBN 9788024611525.
Kosorok, Michael R. (2009). "Discusión sobre: covarianza de distancia browniana". Los anales de la estadística aplicada . 3 (4): 1270–1278. arXiv : 1010.0822 . doi :10.1214/09-AOAS312B. S2CID 88518490.
Lyons, Russell (2014). "Covarianza de distancias en espacios métricos". Anales de probabilidad . 41 (5): 3284–3305. arXiv : 1106.5758 . doi :10.1214/12-AOP803. S2CID 73677891.
Pearson, K. (1895a). "Nota sobre regresión y herencia en el caso de dos progenitores". Actas de la Royal Society . 58 : 240–242. Código Bibliográfico :1895RSPS...58..240P.
Pearson, K. (1895b). "Notas sobre la historia de la correlación". Biometrika . 13 : 25–45. doi :10.1093/biomet/13.1.25.
Rizzo, Maria; Székely, Gábor (22 de febrero de 2021). "Energía: E-Estadísticas: Inferencia multivariante a través de la energía de los datos". Versión: 1.7-8 . Consultado el 31 de octubre de 2021 .
Székely, Gábor J.; Rizzo, Maria L.; Bakirov, Nail K. (2007). "Medición y prueba de la independencia mediante correlación de distancias". Anales de estadística . 35 (6): 2769–2794. arXiv : 0803.4101 . doi :10.1214/009053607000000505. S2CID 5661488.
Székely, Gábor J.; Rizzo, Maria L. (2009a). "Covarianza de la distancia browniana". Anales de estadística aplicada . 3 (4): 1236–1265. doi :10.1214/09-AOAS312. PMC 2889501 . PMID 20574547.
Székely, Gábor J.; Rizzo, María L. (2009b). "Dúplica: covarianza de distancia browniana". Los anales de la estadística aplicada . 3 (4): 1303–1308. arXiv : 1010.0844 . doi : 10.1214/09-AOAS312REJ .
Székely, Gábor J.; Rizzo, Maria L. (2012). "Sobre la unicidad de la covarianza de distancia". Statistics & Probability Letters . 82 (12): 2278–2282. doi :10.1016/j.spl.2012.08.007.
Székely, Gabor J.; Rizzo, Maria L. (2014). "Correlación de distancia parcial con métodos para disimilitudes". Anales de estadística . 42 (6): 2382–2412. arXiv : 1310.2926 . Código Bibliográfico :2014arXiv1310.2926S. doi :10.1214/14-AOS1255. S2CID 55801702.

Enlaces externos

Estadísticas electrónicas (estadísticas energéticas) Archivado el 13 de septiembre de 2019 en Wayback Machine.