stringtranslate.com

Correlación de distancia

En estadística y en teoría de la probabilidad , la correlación de distancia o covarianza de distancia es una medida de dependencia entre dos vectores aleatorios emparejados de dimensión arbitraria, no necesariamente igual . El coeficiente de correlación de distancia de la población es cero si y sólo si los vectores aleatorios son independientes . Por tanto, la correlación de distancia mide la asociación tanto lineal como no lineal entre dos variables aleatorias o vectores aleatorios. Esto contrasta con la correlación de Pearson , que sólo puede detectar una asociación lineal entre dos variables aleatorias .

La correlación de distancias se puede utilizar para realizar una prueba estadística de dependencia con una prueba de permutación . Primero se calcula la correlación de distancia (que implica el recentrado de matrices de distancia euclidianas) entre dos vectores aleatorios y luego se compara este valor con las correlaciones de distancia de muchas combinaciones de datos.

Varios conjuntos de puntos ( xy ), con el coeficiente de correlación de distancia de xey para cada conjunto. Comparar con el gráfico de correlación

Fondo

La medida clásica de dependencia, el coeficiente de correlación de Pearson , [1] es principalmente sensible a una relación lineal entre dos variables. La correlación de distancia fue introducida en 2005 por Gábor J. Székely en varias conferencias para abordar esta deficiencia de la correlación de Pearson , es decir, que puede ser fácilmente cero para las variables dependientes. Correlación = 0 (falta de correlación) no implica independencia, mientras que correlación de distancia = 0 sí implica independencia. Los primeros resultados sobre correlación de distancia se publicaron en 2007 y 2009. [2] [3] Se demostró que la covarianza de distancia es la misma que la covarianza browniana. [3] Estas medidas son ejemplos de distancias energéticas .

La correlación de distancia se deriva de otras cantidades que se utilizan en su especificación, específicamente: varianza de distancia , desviación estándar de distancia y covarianza de distancia . Estas cantidades asumen las mismas funciones que los momentos ordinarios con nombres correspondientes en la especificación del coeficiente de correlación producto-momento de Pearson .

Definiciones

Covarianza de distancia

Comencemos con la definición de la covarianza de la distancia muestral . Sea ( X kY k ), k  = 1, 2, ..., n una muestra estadística de un par de variables aleatorias de valor real o vectorial ( XY ). Primero, calcule las matrices de distancia n por n ( a j , k ) y ( b j , k ) que contienen todas las distancias por pares

donde ||⋅ ||denota norma euclidiana . Luego tome todas las distancias doblemente centradas.

donde es la media de la j -ésima fila, es la media de la k -ésima columna y es la media general de la matriz de distancias de la muestra X. La notación es similar para los valores b . (En las matrices de distancias centradas ( A j , k ) y ( B j , k ) todas las filas y todas las columnas suman cero.) La covarianza de distancia muestral al cuadrado (un escalar) es simplemente el promedio aritmético de los productos A j , k B j , k :

El estadístico T n = n dCov 2 n ( X , Y ) determina una prueba multivariada consistente de independencia de vectores aleatorios en dimensiones arbitrarias. Para ver una implementación, consulte la función dcov.test en el paquete de energía para R. [4]

El valor poblacional de la covarianza de la distancia se puede definir de la misma manera. Sea X una variable aleatoria que toma valores en un espacio euclidiano de dimensión p con distribución de probabilidad μ y sea Y una variable aleatoria que toma valores en un espacio euclidiano de dimensión q con distribución de probabilidad ν , y supongamos que X e Y tienen valores finitos Expectativas. Escribir

Finalmente, defina el valor poblacional de la covarianza de distancia al cuadrado de X e Y como

Se puede demostrar que esto es equivalente a la siguiente definición:

donde E denota el valor esperado, y y son independientes y están distribuidos de manera idéntica. Las variables aleatorias primadas y denotan copias independientes e idénticamente distribuidas (iid) de las variables y y son igualmente iid. [5] La covarianza de distancia se puede expresar en términos de la covarianza clásica de Pearson , cov , de la siguiente manera:

Esta identidad muestra que la covarianza de distancia no es lo mismo que la covarianza de distancias, cov(‖ XX' ‖, ‖ YY' ). Puede ser cero incluso si X e Y no son independientes.

Alternativamente, la covarianza de distancia se puede definir como la norma L 2 ponderada de la distancia entre la función característica conjunta de las variables aleatorias y el producto de sus funciones características marginales: [6]

donde , y son las funciones características de ( X , Y ), X e Y , respectivamente, p , q denotan la dimensión euclidiana de X e Y , y por tanto de s y t , y c p , c q son constantes. La función de ponderación se elige para producir una medida equivariante de escala e invariante de rotación que no llega a cero para las variables dependientes. [6] [7] Una interpretación de la definición de la función característica es que las variables e isX y e itY son representaciones cíclicas de X e Y con diferentes períodos dados por s y t , y la expresión ϕ X , Y ( s , t ) − ϕ X ( s ) ϕ Y ( t ) en el numerador de la definición de función característica de covarianza de distancia es simplemente la covarianza clásica de e isX ye itY . La definición de la función característica muestra claramente que dCov 2 ( X , Y ) = 0 si y sólo si X e Y son independientes.

Variación de distancia y desviación estándar de distancia

La varianza de la distancia es un caso especial de covarianza de la distancia cuando las dos variables son idénticas. El valor poblacional de la varianza de la distancia es la raíz cuadrada de

donde , y son variables aleatorias independientes e idénticamente distribuidas , denota el valor esperado , y para la función , por ejemplo ,.

La varianza de la distancia muestral es la raíz cuadrada de

que es pariente de la diferencia de medias de Corrado Gini introducida en 1912 (pero Gini no trabajó con distancias centradas). [8]

La desviación estándar de la distancia es la raíz cuadrada de la varianza de la distancia .

Correlación de distancia

La correlación de distancia [2] [3] de dos variables aleatorias se obtiene dividiendo su covarianza de distancia por el producto de sus desviaciones estándar de distancia . La correlación de distancia es la raíz cuadrada de

y la correlación de distancia muestral se define sustituyendo la covarianza de distancia muestral y las varianzas de distancia por los coeficientes poblacionales anteriores.

Para calcular fácilmente la correlación de la distancia de la muestra, consulte la función dcor en el paquete de energía para R. [4]

Propiedades

Correlación de distancia

  1. y ; esto contrasta con la correlación de Pearson, que puede ser negativa.
  2. si y sólo si X e Y son independientes.
  3. implica que las dimensiones de los subespacios lineales abarcados por las muestras X e Y respectivamente son casi seguramente iguales y si asumimos que estos subespacios son iguales, entonces en este subespacio para algún vector A , escalar b y matriz ortonormal .

Covarianza de distancia

  1. y ;
  2. para todos los vectores constantes , escalares y matrices ortonormales .
  3. Si los vectores aleatorios y son independientes entonces
    La igualdad se cumple si y sólo si y son ambos constantes, o y son ambos constantes, o son mutuamente independientes.
  4. si y sólo si X e Y son independientes.

Esta última propiedad es el efecto más importante de trabajar con distancias centradas.

El estadístico es un estimador sesgado de . Bajo independencia de X e Y [9]

Székely y Rizzo dan un estimador insesgado de . [10]

variación de distancia

  1. si y sólo si casi con seguridad.
  2. si y sólo si cada observación de la muestra es idéntica.
  3. para todos los vectores constantes A , escalares b y matrices ortonormales .
  4. Si X e Y son independientes entonces .

La igualdad se cumple en (iv) si y sólo si una de las variables aleatorias X o Y es una constante.

Generalización

La covarianza de la distancia se puede generalizar para incluir potencias de distancia euclidiana. Definir

Entonces para cada , y son independientes si y sólo si . Es importante señalar que esta caracterización no es válida para el exponente ; en este caso para bivariado , es una función determinista de la correlación de Pearson. [2] Si y son potencias de las distancias correspondientes, entonces la covarianza de la distancia muestral se puede definir como el número no negativo para el cual

Se puede extender a variables aleatorias valoradas en el espacio métrico y : Si tiene ley en un espacio métrico con métrica , entonces defina , y (siempre que sea finito, es decir, tenga un primer momento finito) ,. Entonces, si tiene ley (en un espacio métrico posiblemente diferente con un primer momento finito), defina

Esto no es negativo para todos esos espacios si y solo ambos espacios métricos tienen un tipo negativo. [11] Aquí, un espacio métrico tiene tipo negativo si es isométrico a un subconjunto de un espacio de Hilbert . [12] Si ambos espacios métricos tienen un tipo negativo fuerte, entonces si y no son independientes. [11]

Definición alternativa de covarianza de distancia

La covarianza de distancia original se ha definido como la raíz cuadrada de , en lugar del coeficiente al cuadrado en sí. tiene la propiedad de que es la distancia energética entre la distribución conjunta de y el producto de sus marginales. Sin embargo, según esta definición, la varianza de la distancia, en lugar de la desviación estándar de la distancia, se mide en las mismas unidades que las distancias.

Alternativamente, se podría definir la covarianza de la distancia como el cuadrado de la distancia de energía: en este caso, la desviación estándar de la distancia se mide en las mismas unidades que la distancia, y existe un estimador insesgado para la covarianza de la distancia de la población. [10]

Según estas definiciones alternativas, la correlación de distancia también se define como el cuadrado , en lugar de la raíz cuadrada.

Formulación alternativa: covarianza browniana

La covarianza browniana está motivada por la generalización de la noción de covarianza a procesos estocásticos. El cuadrado de la covarianza de las variables aleatorias X e Y se puede escribir de la siguiente forma:

donde E denota el valor esperado y el número primo denota copias independientes e idénticamente distribuidas. Necesitamos la siguiente generalización de esta fórmula. Si U(s), V(t) son procesos aleatorios arbitrarios definidos para todos los s y t reales, entonces defina la versión centrada en U de X por

siempre que exista el valor esperado condicional restado y denote por Y V la versión centrada en V de Y. [3] [13] [14] La covarianza (U,V) de (X,Y) se define como el número no negativo cuyo cuadrado es

siempre que el lado derecho sea no negativo y finito. El ejemplo más importante es cuando U y V son movimientos brownianos independientes de dos lados / procesos de Wiener con expectativa cero y covarianza | s | + | t | − | st | = 2 min( s , t ) (solo para s, t no negativos). (Esto es el doble de la covarianza del proceso estándar de Wiener; aquí el factor 2 simplifica los cálculos). En este caso, la covarianza ( U , V ) se llama covarianza browniana y se denota por

Hay una coincidencia sorprendente: la covarianza browniana es la misma que la covarianza de distancia:

y por tanto la correlación browniana es lo mismo que la correlación de distancia.

Por otro lado, si reemplazamos el movimiento browniano con la función de identidad determinista id, entonces Cov id ( X , Y ) es simplemente el valor absoluto de la covarianza clásica de Pearson ,

Métricas relacionadas

Otras métricas correlacionales, incluidas las métricas correlacionales basadas en kernel (como el Criterio de Independencia de Hilbert-Schmidt o HSIC) también pueden detectar interacciones lineales y no lineales. Tanto la correlación de distancia como las métricas basadas en kernel se pueden utilizar en métodos como el análisis de correlación canónica y el análisis de componentes independientes para generar un mayor poder estadístico .

Ver también

Notas

  1. ^ Pearson 1895a, 1895b
  2. ^ abc Székely, Rizzo y Bakirov 2007.
  3. ^ abcd Székely y Rizzo 2009a.
  4. ^ ab Rizzo y Székely 2021.
  5. ^ Székely y Rizzo 2014, pag. 11.
  6. ^ ab Székely y Rizzo 2009a, pág. 1249, Teorema 7, (3.7).
  7. ^ Székely y Rizzo 2012.
  8. ^ Gini 1912.
  9. ^ Székely y Rizzo 2009b.
  10. ^ ab Székely y Rizzo 2014.
  11. ^ ab Lyon 2014.
  12. ^ Klebanov 2005, pag.  [ página necesaria ] .
  13. ^ Bickel y Xu 2009.
  14. ^ Kosorok 2009.

Referencias

enlaces externos