Correlación canónica

En estadística , el análisis de correlación canónica ( CCA ), también llamado análisis de variables canónicas , es una forma de inferir información a partir de matrices de covarianza cruzada . Si tenemos dos vectores X = ( X ₁ , ..., X _n ) e Y = ( Y ₁ , ..., Y _m ) de variables aleatorias , y hay correlaciones entre las variables, entonces el análisis de correlación canónica Encuentre combinaciones lineales de X e Y que tengan una correlación máxima entre sí. ^[1] TR Knapp señala que "prácticamente todas las pruebas paramétricas de significancia que se encuentran comúnmente pueden tratarse como casos especiales de análisis de correlación canónica, que es el procedimiento general para investigar las relaciones entre dos conjuntos de variables". ^[2] El método fue introducido por primera vez por Harold Hotelling en 1936, ^[3] aunque en el contexto de los ángulos entre planos el concepto matemático fue publicado por Camille Jordan en 1875. ^[4]

CCA es ahora una piedra angular de las estadísticas multivariadas y el aprendizaje de múltiples vistas, y se han propuesto una gran cantidad de interpretaciones y extensiones, como CCA probabilística, CCA dispersa, CCA de múltiples vistas, CCA profunda y DeepGeoCCA. ^[5] Desafortunadamente, tal vez debido a su popularidad, la literatura puede ser inconsistente con la notación; intentamos resaltar tales inconsistencias en este artículo para ayudar al lector a hacer el mejor uso de la literatura y las técnicas existentes.

Al igual que su método hermano PCA , el CCA se puede ver en forma de población (correspondiente a vectores aleatorios y sus matrices de covarianza) o en forma de muestra (correspondiente a conjuntos de datos y sus matrices de covarianza de muestra). Estas dos formas son análogos casi exactos entre sí, razón por la cual a menudo se pasa por alto su distinción, pero pueden comportarse de manera muy diferente en entornos de alta dimensión. ^[6] A continuación damos definiciones matemáticas explícitas para el problema de población y resaltamos los diferentes objetos en la llamada descomposición canónica ; comprender las diferencias entre estos objetos es crucial para la interpretación de la técnica.

Definición de ACC poblacional mediante correlaciones

Dados dos vectores de columna y de variables aleatorias con segundos momentos finitos , se puede definir la covarianza cruzada como la matriz cuya entrada es la covarianza . En la práctica, estimaríamos la matriz de covarianza basándose en datos muestreados de y (es decir, de un par de matrices de datos). $X=(x_{1},\dots ,x_{n})^{T}$ $Y=(y_{1},\dots ,y_{m})^{T}$ $\Sigma _{XY}=\operatorname {cov} (X,Y)$ $n\times m$ $(i,j)$ $\operatorname {cov} (x_{i},y_{j})$ $X$ $Y$

El análisis de correlación canónica busca una secuencia de vectores ( ) y ( ) tal que las variables aleatorias maximicen la correlación . Las variables aleatorias (escalares) y son el primer par de variables canónicas . Luego se buscan vectores que maximicen la misma correlación sujetos a la restricción de que no deben estar correlacionados con el primer par de variables canónicas; esto da el segundo par de variables canónicas . Este procedimiento podrá continuarse hasta veces. $a_{k}$ $a_{k}\in \mathbb {R} ^{n}$ $b_{k}$ $b_{k}\in \mathbb {R} ^{m}$ $a_{k}^{T}X$ $b_{k}^{T}Y$ $\rho =\operatorname {corr} (a_{k}^{T}X,b_{k}^{T}Y)$ $U=a_{k}^{T}X$ $V=b_{k}^{T}Y$ $\min\{m,n\}$

(a_{k},b_{k})={\underset {a,b}{\operatorname {argmax} }}\operatorname {corr} (a^{T}X,b^{T}Y)\quad {\text{ subject to }}\operatorname {cov} (a^{T}X,a_{j}^{T}X)=\operatorname {cov} (b^{T}Y,b_{j}^{T}Y)=0{\text{ for }}j=1,\dots ,k-1

Los conjuntos de vectores se denominan direcciones canónicas o vectores de pesos o simplemente pesos . Los conjuntos 'duales' de vectores se denominan vectores de carga canónicos o simplemente cargas ; Estos suelen ser más sencillos de interpretar que los pesos. ^[7] $a_{k},b_{k}$ $\Sigma _{XX}a_{k},\Sigma _{YY}b_{k}$

Cálculo

Derivación

Sea la matriz de covarianza cruzada para cualquier par de variables aleatorias (en forma de vector) y . La función objetivo a maximizar es $\Sigma _{XY}$ $X$ $Y$

\rho ={\frac {a^{T}\Sigma _{XY}b}{{\sqrt {a^{T}\Sigma _{XX}a}}{\sqrt {b^{T}\Sigma _{YY}b}}}}.

El primer paso es definir un cambio de base y definir

c=\Sigma _{XX}^{1/2}a,

d=\Sigma _{YY}^{1/2}b,

donde y se puede obtener a partir de la descomposición propia (o por diagonalización ): $\Sigma _{XX}^{1/2}$ $\Sigma _{YY}^{1/2}$

\Sigma _{XX}^{1/2}=V_{X}D_{X}^{1/2}V_{X}^{\top },\qquad V_{X}D_{X}V_{X}^{\top }=\Sigma _{XX},

\Sigma _{YY}^{1/2}=V_{Y}D_{Y}^{1/2}V_{Y}^{\top },\qquad V_{Y}D_{Y}V_{Y}^{\top }=\Sigma _{YY}.

De este modo

\rho ={\frac {c^{T}\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1/2}d}{{\sqrt {c^{T}c}}{\sqrt {d^{T}d}}}}.

Por la desigualdad de Cauchy-Schwarz ,

\left(c^{T}\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1/2}\right)(d)\leq \left(c^{T}\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1/2}\Sigma _{YY}^{-1/2}\Sigma _{YX}\Sigma _{XX}^{-1/2}c\right)^{1/2}\left(d^{T}d\right)^{1/2},

\rho \leq {\frac {\left(c^{T}\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1/2}c\right)^{1/2}}{\left(c^{T}c\right)^{1/2}}}.

Hay igualdad si los vectores y son colineales. Además, el máximo de correlación se alcanza si es el vector propio con el valor propio máximo para la matriz (ver cociente de Rayleigh ). Los pares subsiguientes se encuentran utilizando valores propios de magnitudes decrecientes. La ortogonalidad está garantizada por la simetría de las matrices de correlación. $d$ $\Sigma _{YY}^{-1/2}\Sigma _{YX}\Sigma _{XX}^{-1/2}c$ $c$ $\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1/2}$

Otra forma de ver este cálculo es que y son los vectores singulares izquierdo y derecho de la matriz de correlación de X e Y correspondientes al valor singular más alto. $c$ $d$

Solución

La solución por tanto es:

$c$ es un vector propio de $\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1/2}$
$d$ es proporcional a $\Sigma _{YY}^{-1/2}\Sigma _{YX}\Sigma _{XX}^{-1/2}c$

Recíprocamente, también existe:

$d$ es un vector propio de $\Sigma _{YY}^{-1/2}\Sigma _{YX}\Sigma _{XX}^{-1}\Sigma _{XY}\Sigma _{YY}^{-1/2}$
$c$ es proporcional a $\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1/2}d$

Invirtiendo el cambio de coordenadas, tenemos que

$a$ es un vector propio de , $\Sigma _{XX}^{-1}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}$
$b$ es proporcional a $\Sigma _{YY}^{-1}\Sigma _{YX}a;$
$b$ es un vector propio de $\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1}\Sigma _{XY},$
$a$ es proporcional a . $\Sigma _{XX}^{-1}\Sigma _{XY}b$

Las variables canónicas están definidas por:

U=c^{T}\Sigma _{XX}^{-1/2}X=a^{T}X

V=d^{T}\Sigma _{YY}^{-1/2}Y=b^{T}Y

Implementación

El CCA se puede calcular mediante la descomposición de valores singulares en una matriz de correlación. ^[8] Está disponible como función en ^[9]

MATLAB como canoncorr (también en Octave )
R como función estándar cancor y varios otros paquetes, incluidos CCA y vegan. CCP para prueba de hipótesis estadísticas en análisis de correlación canónica.
SAS como proc cancorr
Python en la biblioteca scikit-learn , como descomposición cruzada y en statsmodels, como CanCorr. La biblioteca CCA-Zoo ^[10] implementa extensiones de CCA, como CCA probabilístico, CCA disperso, CCA de vista múltiple y CCA profundo.
SPSS como macro CanCorr se envía con el software principal
Julia (lenguaje de programación) en el paquete MultivariateStats.jl.

El cálculo de CCA mediante descomposición de valores singulares en una matriz de correlación está relacionado con el coseno de los ángulos entre pisos . La función coseno está mal condicionada para ángulos pequeños, lo que lleva a un cálculo muy inexacto de vectores principales altamente correlacionados en aritmética informática de precisión finita . Para solucionar este problema , hay algoritmos alternativos ^{[11] disponibles en}

SciPy como función de álgebra lineal subspace_angles
MATLAB como subespacio de función FileExchangea

Evaluación de la hipótesis

Se puede probar la importancia de cada fila con el siguiente método. Dado que las correlaciones están ordenadas, decir que la fila es cero implica que todas las correlaciones adicionales también son cero. Si tenemos observaciones independientes en una muestra y es la correlación estimada para . Para la fila, el estadístico de prueba es: $i$ $p$ ${\widehat {\rho }}_{i}$ $i=1,\dots ,\min\{m,n\}$ $i$

\chi ^{2}=-\left(p-1-{\frac {1}{2}}(m+n+1)\right)\ln \prod _{j=i}^{\min\{m,n\}}(1-{\widehat {\rho }}_{j}^{2}),

que se distribuye asintóticamente como chi-cuadrado con grados de libertad para grandes . ^[12] Dado que todas las correlaciones desde hasta son lógicamente cero (y se estiman de esa manera también), el producto de los términos posteriores a este punto es irrelevante. $(m-i+1)(n-i+1)$ $p$ $\min\{m,n\}$ $p$

Tenga en cuenta que en el límite de tamaño de muestra pequeño tenemos la garantía de que las correlaciones superiores serán idénticas a 1 y, por lo tanto, la prueba no tiene sentido. ^[13] $p<n+m$ $m+n-p$

Usos prácticos

Un uso típico de la correlación canónica en el contexto experimental es tomar dos conjuntos de variables y ver qué hay en común entre los dos conjuntos. ^[14] Por ejemplo, en las pruebas psicológicas, se podrían tomar dos pruebas de personalidad multidimensionales bien establecidas , como el Inventario Multifásico de Personalidad de Minnesota (MMPI-2) y el NEO . Al ver cómo se relacionan los factores MMPI-2 con los factores NEO, se podría obtener una idea de qué dimensiones eran comunes entre las pruebas y cuánta varianza se compartió. Por ejemplo, se podría encontrar que una dimensión de extraversión o neuroticismo explica una cantidad sustancial de varianza compartida entre las dos pruebas.

También se puede utilizar el análisis de correlación canónica para producir una ecuación modelo que relacione dos conjuntos de variables, por ejemplo, un conjunto de medidas de desempeño y un conjunto de variables explicativas, o un conjunto de resultados y un conjunto de insumos. Se pueden imponer restricciones a dicho modelo para garantizar que refleje requisitos teóricos o condiciones intuitivamente obvias. Este tipo de modelo se conoce como modelo de máxima correlación. ^[15]

La visualización de los resultados de la correlación canónica suele realizarse mediante diagramas de barras de los coeficientes de los dos conjuntos de variables para los pares de variables canónicas que muestran una correlación significativa. Algunos autores sugieren que se visualizan mejor trazándolos como heliógrafos, un formato circular con barras en forma de rayos, donde cada mitad representa los dos conjuntos de variables. ^[dieciséis]

Ejemplos

Sea con valor esperado cero , es decir ,. $X=x_{1}$ $\operatorname {E} (X)=0$

Si , es decir, y están perfectamente correlacionados, entonces, por ejemplo, y , de modo que el primer (y único en este ejemplo) par de variables canónicas sea y . $Y=X$ $X$ $Y$ $a=1$ $b=1$ $U=X$ $V=Y=X$
Si , es decir, y están perfectamente anticorrelacionados, entonces, por ejemplo, y , de modo que el primer (y único en este ejemplo) par de variables canónicas es y . $Y=-X$ $X$ $Y$ $a=1$ $b=-1$ $U=X$ $V=-Y=X$

Notamos que en ambos casos , lo que ilustra que el análisis de correlación canónica trata las variables correlacionadas y anticorrelacionadas de manera similar. $U=V$

Conexión a ángulos principales.

Suponiendo que y tienen valores esperados cero , es decir , sus matrices de covarianza y pueden verse como matrices de Gram en un producto interno para las entradas de y , correspondientemente. En esta interpretación, las variables aleatorias, entradas de y de, se tratan como elementos de un espacio vectorial con un producto interno dado por la covarianza ; consulte Covarianza#Relación con los productos internos . $X=(x_{1},\dots ,x_{n})^{T}$ $Y=(y_{1},\dots ,y_{m})^{T}$ $\operatorname {E} (X)=\operatorname {E} (Y)=0$ $\Sigma _{XX}=\operatorname {Cov} (X,X)=\operatorname {E} [XX^{T}]$ $\Sigma _{YY}=\operatorname {Cov} (Y,Y)=\operatorname {E} [YY^{T}]$ $X$ $Y$ $x_{i}$ $X$ $y_{j}$ $Y$ $\operatorname {cov} (x_{i},y_{j})$

La definición de las variables canónicas y es entonces equivalente a la definición de vectores principales para el par de subespacios abarcados por las entradas de y con respecto a este producto interno . Las correlaciones canónicas es igual al coseno de los ángulos principales . $U$ $V$ $X$ $Y$ $\operatorname {corr} (U,V)$

Blanqueamiento y análisis probabilístico de correlación canónica.

CCA también puede verse como una transformación de blanqueamiento especial en la que los vectores aleatorios y se transforman simultáneamente de tal manera que la correlación cruzada entre los vectores blanqueados y sea diagonal. ^[17] Las correlaciones canónicas se interpretan entonces como coeficientes de regresión que vinculan y y también pueden ser negativos. La vista de regresión de CCA también proporciona una manera de construir un modelo generativo probabilístico de variable latente para CCA, con variables ocultas no correlacionadas que representan la variabilidad compartida y no compartida. $X$ $Y$ $X^{CCA}$ $Y^{CCA}$ $X^{CCA}$ $Y^{CCA}$

Ver también

Referencias

^ Härdle, Wolfgang; Simar, Leopoldo (2007). "Análisis de correlación canónica". Análisis Estadístico Multivariado Aplicado . págs. 321–330. CiteSeerX 10.1.1.324.403 . doi :10.1007/978-3-540-72244-1_14. ISBN 978-3-540-72243-4.
^ Knapp, TR (1978). "Análisis de correlación canónica: un sistema de prueba de significación paramétrica general". Boletín Psicológico . 85 (2): 410–416. doi :10.1037/0033-2909.85.2.410.
^ Hotelling, H. (1936). "Relaciones entre dos conjuntos de variables". Biometrika . 28 (3–4): 321–377. doi :10.1093/biomet/28.3-4.321. JSTOR 2333955.
^ Jordania, C. (1875). "Essai sur la géométrie à n {\ Displaystyle n} dimensiones". Toro. Soc. Matemáticas. Francia . 3 : 103.
^ Ju, Ce; Kobler, Reinmar J; Tang, Liyao; Guan, Cuntai; Kawanabe, Motoaki (2024). Análisis de correlación canónica geodésica profunda para datos de neuroimagen basados en covarianza. La Duodécima Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR 2024, foco de atención).
^ "Aprendizaje estadístico con escasez: el lazo y las generalizaciones". hastie.su.dominios . Consultado el 12 de septiembre de 2023 .
^ Gu, Fei; Wu, Hao (1 de abril de 2018). "Análisis de correlación canónica simultáneo con cargas canónicas invariantes". Comportamientometrika . 45 (1): 111-132. doi :10.1007/s41237-017-0042-8. ISSN 1349-6964.
^ Hsu, D.; Kakade, SM; Zhang, T. (2012). "Un algoritmo espectral para aprender modelos ocultos de Markov" (PDF) . Revista de Ciencias de la Computación y de Sistemas . 78 (5): 1460. arXiv : 0811.4413 . doi :10.1016/j.jcss.2011.12.025. S2CID 220740158.
^ Huang, SY; Lee, MH; Hsiao, CK (2009). "Medidas no lineales de asociación con aplicaciones y análisis de correlación canónica del kernel" (PDF) . Revista de planificación e inferencia estadística . 139 (7): 2162. doi :10.1016/j.jspi.2008.10.011. Archivado desde el original (PDF) el 13 de marzo de 2017 . Consultado el 4 de septiembre de 2015 .
^ Chapman, James; Wang, Hao-Ting (18 de diciembre de 2021). "CCA-Zoo: una colección de métodos CCA regularizados, basados en aprendizaje profundo, kernel y probabilísticos en un marco de estilo scikit-learn". Revista de software de código abierto . 6 (68): 3823. doi : 10.21105/joss.03823 . ISSN 2475-9066.
^ Knyazev, AV; Argentati, ME (2002), "Ángulos principales entre subespacios en un producto escalar basado en A: algoritmos y estimaciones de perturbaciones", Revista SIAM de Computación Científica , 23 (6): 2009–2041, Bibcode :2002SJSC...23.2008K, CiteSeerX 10.1.1.73.2914 , doi : 10.1137/S1064827500377332
^ Kanti V. Mardia , JT Kent y JM Bibby (1979). Analisis multivariable . Prensa académica .
^ Yang Song, Peter J. Schreier, David Ram´ırez y Tanuj Hasija Análisis de correlación canónica de datos de alta dimensión con soporte de muestra muy pequeña arXiv :1604.02047
^ Sieranoja, S.; Sahidullah, Maryland; Kinnunen, T.; Komulainen, J.; Hadid, A. (julio de 2018). "Detección de sincronía audiovisual con funciones de audio optimizadas" (PDF) . 2018 IEEE Tercera Conferencia Internacional sobre Procesamiento de Señales e Imágenes (ICSIP). págs. 377–381. doi :10.1109/SIPROCESS.2018.8600424. ISBN 978-1-5386-6396-7. S2CID 51682024.
^ Tofallis, C. (1999). "Construcción de modelos con múltiples variables dependientes y restricciones". Revista de la Royal Statistical Society, Serie D. 48 (3): 371–378. arXiv : 1109.0725 . doi :10.1111/1467-9884.00195. S2CID 8942357.
^ Degani, A.; Shafto, M.; Olson, L. (2006). "Análisis de correlación canónica: uso de heliógrafos compuestos para representar múltiples patrones" (PDF) . Representación Diagramática e Inferencia . Apuntes de conferencias sobre informática. vol. 4045. pág. 93. CiteSeerX 10.1.1.538.5217 . doi :10.1007/11783183_11. ISBN 978-3-540-35623-3.
^ Jendoubi, T.; Strimmer, K. (2018). "Un enfoque blanqueador para el análisis de correlación canónica probabilística para la integración de datos ómicos". Bioinformática BMC . 20 (1): 15. arXiv : 1802.03490 . doi : 10.1186/s12859-018-2572-9 . PMC 6327589 . PMID 30626338.

enlaces externos

Análisis de correlación discriminante (DCA) ^[1] ( MATLAB )
Hardoon, República Dominicana; Szedmak, S.; Shawe-Taylor, J. (2004). "Análisis de correlación canónica: una descripción general con aplicación a métodos de aprendizaje". Computación neuronal . 16 (12): 2639–2664. CiteSeerX 10.1.1.14.6452 . doi :10.1162/0899766042321814. PMID 15516276. S2CID 202473.
Una nota sobre el análisis de correlación canónica ordinal de dos conjuntos de puntuaciones de clasificación (también proporciona un programa FORTRAN ) - en Journal of Quantitative Economics 7(2), 2009, págs. 173-199
Análisis de correlación canónica restringida por representación: una hibridación de correlación canónica y análisis de componentes principales (también proporciona un programa FORTRAN ), en Journal of Applied Economic Sciences 4(1), 2009, págs. 115-124

^ Haghighat, Mohammad; Abdel-Mottaleb, Mohamed; Alhalabi, Wadee (2016). "Análisis de correlación discriminante: fusión de niveles de funciones en tiempo real para el reconocimiento biométrico multimodal". Transacciones IEEE sobre seguridad y análisis de la información . 11 (9): 1984–1996. doi :10.1109/TIFS.2016.2569061. S2CID 15624506.