Correlación canónica

En estadística , el análisis de correlación canónica ( CCA ), también llamado análisis de variables canónicas , es una forma de inferir información a partir de matrices de covarianza cruzada . Si tenemos dos vectores X = ( X ₁ , ..., X _n ) e Y = ( Y ₁ , ..., Y _m ) de variables aleatorias , y existen correlaciones entre las variables, entonces el análisis de correlación canónica encontrará combinaciones lineales de X e Y que tengan una correlación máxima entre sí. ^[1] TR Knapp señala que "prácticamente todas las pruebas paramétricas de significación que se encuentran comúnmente pueden tratarse como casos especiales de análisis de correlación canónica, que es el procedimiento general para investigar las relaciones entre dos conjuntos de variables". ^[2] El método fue introducido por primera vez por Harold Hotelling en 1936, ^[3] aunque en el contexto de los ángulos entre planos el concepto matemático fue publicado por Camille Jordan en 1875. ^[4]

El CCA es ahora una piedra angular de las estadísticas multivariadas y el aprendizaje de múltiples vistas, y se han propuesto una gran cantidad de interpretaciones y extensiones, como el CCA probabilístico, el CCA disperso, el CCA de múltiples vistas, el CCA profundo y el DeepGeoCCA. ^[5] Desafortunadamente, quizás debido a su popularidad, la literatura puede ser inconsistente con la notación, intentamos resaltar tales inconsistencias en este artículo para ayudar al lector a hacer el mejor uso de la literatura y las técnicas existentes disponibles.

Al igual que su método hermano PCA , CCA se puede ver en forma de población (correspondiente a vectores aleatorios y sus matrices de covarianza) o en forma de muestra (correspondiente a conjuntos de datos y sus matrices de covarianza de muestra). Estas dos formas son análogas casi exactas entre sí, por lo que a menudo se pasa por alto su distinción, pero pueden comportarse de manera muy diferente en entornos de alta dimensión. ^[6] A continuación, damos definiciones matemáticas explícitas para el problema de la población y destacamos los diferentes objetos en la llamada descomposición canónica : comprender las diferencias entre estos objetos es crucial para la interpretación de la técnica.

Definición de CCA poblacional mediante correlaciones

Dados dos vectores de columna y de variables aleatorias con segundos momentos finitos , se puede definir la covarianza cruzada como la matriz cuya entrada es la covarianza . En la práctica, estimaríamos la matriz de covarianza en función de los datos muestreados de y (es decir, de un par de matrices de datos). $X=(x_{1},\dots ,x_{n})^{T}$ $Y=(y_{1},\dots ,y_{m})^{T}$ $\Sigma _{XY}=\operatorname {cov} (X,Y)$ $n\times m$ $(i,j)$ $\operatorname {cov} (x_{i},y_{j})$ $X$ $Y$

El análisis de correlación canónica busca una secuencia de vectores ( ) y ( ) tales que las variables aleatorias y maximicen la correlación . Las variables aleatorias (escalares) y son el primer par de variables canónicas . Luego se buscan vectores que maximicen la misma correlación sujeta a la restricción de que no deben estar correlacionados con el primer par de variables canónicas; esto da el segundo par de variables canónicas . Este procedimiento puede continuar hasta veces. $a_{k}$ $a_{k}\in \mathbb {R} ^{n}$ $b_{k}$ $b_{k}\in \mathbb {R} ^{m}$ $a_{k}^{T}X$ $b_{k}^{T}Y$ $\rho =\operatorname {corr} (a_{k}^{T}X,b_{k}^{T}Y)$ $U=a_{1}^{T}X$ $V=b_{1}^{T}Y$ $\min\{m,n\}$

(a_{k},b_{k})={\underset {a,b}{\operatorname {argmax} }}\operatorname {corr} (a^{T}X,b^{T}Y)\quad {\text{ subject to }}\operatorname {cov} (a^{T}X,a_{j}^{T}X)=\operatorname {cov} (b^{T}Y,b_{j}^{T}Y)=0{\text{ for }}j=1,\dots ,k-1

Los conjuntos de vectores se denominan direcciones canónicas o vectores de peso o simplemente pesos . Los conjuntos de vectores "duales" se denominan vectores de carga canónica o simplemente cargas ; estos suelen ser más sencillos de interpretar que los pesos. ^[7] $a_{k},b_{k}$ $\Sigma _{XX}a_{k},\Sigma _{YY}b_{k}$

Cálculo

Derivación

Sea la matriz de covarianza cruzada para cualquier par de variables aleatorias (con forma de vector) y . La función objetivo a maximizar es $\Sigma _{XY}$ $X$ $Y$

\rho ={\frac {a^{T}\Sigma _{XY}b}{{\sqrt {a^{T}\Sigma _{XX}a}}{\sqrt {b^{T}\Sigma _{YY}b}}}}.

El primer paso es definir un cambio de base y definir

c=\Sigma _{XX}^{1/2}a,

d=\Sigma _{YY}^{1/2}b,

donde y se pueden obtener a partir de la descomposición propia (o por diagonalización ): $\Sigma _{XX}^{1/2}$ $\Sigma _{YY}^{1/2}$

\Sigma _{XX}^{1/2}=V_{X}D_{X}^{1/2}V_{X}^{\top },\qquad V_{X}D_{X}V_{X}^{\top }=\Sigma _{XX},

\Sigma _{YY}^{1/2}=V_{Y}D_{Y}^{1/2}V_{Y}^{\top },\qquad V_{Y}D_{Y}V_{Y}^{\top }=\Sigma _{YY}.

De este modo

\rho ={\frac {c^{T}\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1/2}d}{{\sqrt {c^{T}c}}{\sqrt {d^{T}d}}}}.

Por la desigualdad de Cauchy-Schwarz ,

\left(c^{T}\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1/2}\right)(d)\leq \left(c^{T}\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1/2}\Sigma _{YY}^{-1/2}\Sigma _{YX}\Sigma _{XX}^{-1/2}c\right)^{1/2}\left(d^{T}d\right)^{1/2},

\rho \leq {\frac {\left(c^{T}\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1/2}c\right)^{1/2}}{\left(c^{T}c\right)^{1/2}}}.

Existe igualdad si los vectores y son colineales. Además, se alcanza el máximo de correlación si es el vector propio con el valor propio máximo de la matriz (véase el cociente de Rayleigh ). Los pares subsiguientes se encuentran utilizando valores propios de magnitudes decrecientes. La ortogonalidad está garantizada por la simetría de las matrices de correlación. $d$ $\Sigma _{YY}^{-1/2}\Sigma _{YX}\Sigma _{XX}^{-1/2}c$ $c$ $\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1/2}$

Otra forma de ver este cálculo es que y son los vectores singulares izquierdo y derecho de la matriz de correlación de X e Y correspondientes al valor singular más alto. $c$ $d$

Solución

La solución por tanto es:

$c$ es un vector propio de $\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1/2}$
$d$ es proporcional a $\Sigma _{YY}^{-1/2}\Sigma _{YX}\Sigma _{XX}^{-1/2}c$

Recíprocamente, también existe:

$d$ es un vector propio de $\Sigma _{YY}^{-1/2}\Sigma _{YX}\Sigma _{XX}^{-1}\Sigma _{XY}\Sigma _{YY}^{-1/2}$
$c$ es proporcional a $\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1/2}d$

Invirtiendo el cambio de coordenadas, tenemos que

$a$ es un vector propio de , $\Sigma _{XX}^{-1}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}$
$b$ es proporcional a $\Sigma _{YY}^{-1}\Sigma _{YX}a;$
$b$ es un vector propio de $\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1}\Sigma _{XY},$
$a$ es proporcional a . $\Sigma _{XX}^{-1}\Sigma _{XY}b$

Las variables canónicas están definidas por:

U=c^{T}\Sigma _{XX}^{-1/2}X=a^{T}X

V=d^{T}\Sigma _{YY}^{-1/2}Y=b^{T}Y

Implementación

El CCA se puede calcular utilizando la descomposición en valores singulares en una matriz de correlación. ^[8] Está disponible como función en ^[9]

MATLAB como canoncorr (también en Octave )
R como función estándar de cancor y varios otros paquetes, incluidos CCA y vegan. CCP para pruebas de hipótesis estadísticas en análisis de correlación canónica.
SAS como procedimiento cancorr
Python en la biblioteca scikit-learn , como descomposición cruzada y en statsmodels, como CanCorr. La biblioteca CCA-Zoo ^[10] implementa extensiones CCA, como CCA probabilístico, CCA disperso, CCA de múltiples vistas y CCA profundo.
SPSS como macro CanCorr se entrega con el software principal
Julia (lenguaje de programación) en el paquete MultivariateStats.jl.

El cálculo de CCA mediante descomposición en valores singulares en una matriz de correlación está relacionado con el coseno de los ángulos entre planos . La función coseno está mal acondicionada para ángulos pequeños, lo que conduce a un cálculo muy inexacto de vectores principales altamente correlacionados en aritmética informática de precisión finita . Para solucionar este problema , hay algoritmos alternativos ^[11] disponibles en

SciPy como función de álgebra lineal subespacio_ángulos
MATLAB como subespacio de funciones FileExchange

Prueba de hipótesis

Cada fila puede probarse para determinar su significancia con el siguiente método. Dado que las correlaciones están ordenadas, decir que la fila es cero implica que todas las correlaciones posteriores también son cero. Si tenemos observaciones independientes en una muestra y es la correlación estimada para . Para la fila n, la estadística de prueba es: $i$ $p$ ${\widehat {\rho }}_{i}$ $i=1,\dots ,\min\{m,n\}$ $i$

\chi ^{2}=-\left(p-1-{\frac {1}{2}}(m+n+1)\right)\ln \prod _{j=i}^{\min\{m,n\}}(1-{\widehat {\rho }}_{j}^{2}),

que se distribuye asintóticamente como un chi-cuadrado con grados de libertad para valores grandes . ^[12] Dado que todas las correlaciones de a son lógicamente cero (y también se estiman de esa manera), el producto de los términos después de este punto es irrelevante. $(m-i+1)(n-i+1)$ $p$ $\min\{m,n\}$ $p$

Tenga en cuenta que en el pequeño límite de tamaño de muestra, entonces tenemos la garantía de que las correlaciones superiores serán idénticas a 1 y, por lo tanto, la prueba no tiene sentido. ^[13] $p<n+m$ $m+n-p$

Usos prácticos

Un uso típico de la correlación canónica en el contexto experimental es tomar dos conjuntos de variables y ver qué es común entre los dos conjuntos. ^[14] Por ejemplo, en las pruebas psicológicas, se podrían tomar dos pruebas de personalidad multidimensionales bien establecidas , como el Inventario Multifásico de Personalidad de Minnesota (MMPI-2) y el NEO . Al ver cómo se relacionan los factores del MMPI-2 con los factores del NEO, se podría obtener una idea de qué dimensiones eran comunes entre las pruebas y cuánta varianza se compartía. Por ejemplo, se podría encontrar que una dimensión de extroversión o neuroticismo explicaba una cantidad sustancial de varianza compartida entre las dos pruebas.

También se puede utilizar el análisis de correlación canónica para producir una ecuación modelo que relacione dos conjuntos de variables, por ejemplo, un conjunto de medidas de rendimiento y un conjunto de variables explicativas, o un conjunto de resultados y un conjunto de datos de entrada. Se pueden imponer restricciones a un modelo de este tipo para garantizar que refleje los requisitos teóricos o las condiciones intuitivamente obvias. Este tipo de modelo se conoce como modelo de correlación máxima. ^[15]

La visualización de los resultados de la correlación canónica se realiza habitualmente mediante gráficos de barras de los coeficientes de los dos conjuntos de variables para los pares de variables canónicas que muestran una correlación significativa. Algunos autores sugieren que se visualizan mejor si se los representa como heliógrafos, un formato circular con barras en forma de rayos, en el que cada mitad representa los dos conjuntos de variables. ^[16]

Ejemplos

Sea con valor esperado cero , es decir, . $X=x_{1}$ $\operatorname {E} (X)=0$

Si , es decir, y están perfectamente correlacionados, entonces, por ejemplo, y , de modo que el primer (y único en este ejemplo) par de variables canónicas es y . $Y=X$ $X$ $Y$ $a=1$ $b=1$ $U=X$ $V=Y=X$
Si , es decir, y están perfectamente anticorrelacionados, entonces, por ejemplo, y , de modo que el primer (y único en este ejemplo) par de variables canónicas es y . $Y=-X$ $X$ $Y$ $a=1$ $b=-1$ $U=X$ $V=-Y=X$

Observamos que en ambos casos , lo que ilustra que el análisis de correlación canónica trata las variables correlacionadas y anticorrelacionadas de manera similar. $U=V$

Conexión con los ángulos principales

Suponiendo que y tienen valores esperados cero , es decir, , sus matrices de covarianza y pueden verse como matrices de Gram en un producto interno para las entradas de y , correspondientemente. En esta interpretación, las variables aleatorias, entradas de y de se tratan como elementos de un espacio vectorial con un producto interno dado por la covarianza ; consulte Covarianza#Relación con productos internos . $X=(x_{1},\dots ,x_{n})^{T}$ $Y=(y_{1},\dots ,y_{m})^{T}$ $\operatorname {E} (X)=\operatorname {E} (Y)=0$ $\Sigma _{XX}=\operatorname {Cov} (X,X)=\operatorname {E} [XX^{T}]$ $\Sigma _{YY}=\operatorname {Cov} (Y,Y)=\operatorname {E} [YY^{T}]$ $X$ $Y$ $x_{i}$ $X$ $y_{j}$ $Y$ $\operatorname {cov} (x_{i},y_{j})$

La definición de las variables canónicas y es entonces equivalente a la definición de vectores principales para el par de subespacios generados por las entradas de y con respecto a este producto interno . La correlación canónica es igual al coseno de los ángulos principales . $U$ $V$ $X$ $Y$ $\operatorname {corr} (U,V)$

Blanqueamiento y análisis de correlación canónica probabilística

El CCA también puede verse como una transformación de blanqueamiento especial donde los vectores aleatorios y se transforman simultáneamente de tal manera que la correlación cruzada entre los vectores blanqueados y es diagonal. ^[17] Las correlaciones canónicas se interpretan entonces como coeficientes de regresión que vinculan y y también pueden ser negativos. La vista de regresión del CCA también proporciona una manera de construir un modelo generativo probabilístico de variable latente para el CCA, con variables ocultas no correlacionadas que representan variabilidad compartida y no compartida. $X$ $Y$ $X^{CCA}$ $Y^{CCA}$ $X^{CCA}$ $Y^{CCA}$

Véase también

Referencias

^ Härdle, Wolfgang; Simar, Léopold (2007). "Análisis de correlación canónica". Análisis estadístico multivariante aplicado . págs. 321–330. CiteSeerX 10.1.1.324.403 . doi :10.1007/978-3-540-72244-1_14. ISBN . 978-3-540-72243-4.
^ Knapp, TR (1978). "Análisis de correlación canónica: un sistema general de prueba de significación paramétrica". Psychological Bulletin . 85 (2): 410–416. doi :10.1037/0033-2909.85.2.410.
^ Hotelling, H. (1936). "Relaciones entre dos conjuntos de variables". Biometrika . 28 (3–4): 321–377. doi :10.1093/biomet/28.3-4.321. JSTOR 2333955.
^ Jordania, C. (1875). "Essai sur la géométrie à n {\ Displaystyle n} dimensiones". Toro. Soc. Matemáticas. Francia . 3 : 103.
^ Ju, Ce; Kobler, Reinmar J; Tang, Liyao; Guan, Cuntai; Kawanabe, Motoaki (2024). Análisis de correlación canónica geodésica profunda para datos de neuroimagen basados en covarianza. Duodécima Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR 2024, spotlight).
^ "Aprendizaje estadístico con escasez: el lazo y las generalizaciones". hastie.su.domains . Consultado el 12 de septiembre de 2023 .
^ Gu, Fei; Wu, Hao (1 de abril de 2018). "Análisis de correlación canónica simultánea con cargas canónicas invariantes". Behaviormetrika . 45 (1): 111–132. doi :10.1007/s41237-017-0042-8. ISSN 1349-6964.
^ Hsu, D.; Kakade, SM; Zhang, T. (2012). "Un algoritmo espectral para el aprendizaje de modelos ocultos de Markov" (PDF) . Revista de Ciencias de la Computación y de Sistemas . 78 (5): 1460. arXiv : 0811.4413 . doi :10.1016/j.jcss.2011.12.025. S2CID 220740158.
^ Huang, SY; Lee, MH; Hsiao, CK (2009). "Medidas no lineales de asociación con análisis de correlación canónica de kernel y aplicaciones" (PDF) . Journal of Statistical Planning and Inference . 139 (7): 2162. doi :10.1016/j.jspi.2008.10.011. Archivado desde el original (PDF) el 2017-03-13 . Consultado el 2015-09-04 .
^ Chapman, James; Wang, Hao-Ting (18 de diciembre de 2021). "CCA-Zoo: una colección de métodos CCA regularizados, basados en aprendizaje profundo, kernel y probabilísticos en un marco de trabajo de estilo scikit-learn". Revista de software de código abierto . 6 (68): 3823. Bibcode :2021JOSS....6.3823C. doi : 10.21105/joss.03823 . ISSN 2475-9066.
^ Knyazev, AV; Argentati, ME (2002), "Ángulos principales entre subespacios en un producto escalar basado en A: algoritmos y estimaciones de perturbación", SIAM Journal on Scientific Computing , 23 (6): 2009–2041, Bibcode :2002SJSC...23.2008K, CiteSeerX 10.1.1.73.2914 , doi :10.1137/S1064827500377332
^ Kanti V. Mardia , JT Kent y JM Bibby (1979). Análisis multivariado . Academic Press .
^ Yang Song, Peter J. Schreier, David Ram´ırez y Tanuj Hasija Análisis de correlación canónica de datos de alta dimensión con un soporte de muestra muy pequeño arXiv :1604.02047
^ Sieranoja, S.; Sahidullah, Md; Kinnunen, T.; Komulainen, J.; Hadid, A. (julio de 2018). "Detección de sincronía audiovisual con funciones de audio optimizadas" (PDF) . 2018 IEEE 3rd International Conference on Signal and Image Processing (ICSIP). págs. 377–381. doi :10.1109/SIPROCESS.2018.8600424. ISBN 978-1-5386-6396-7. Número de identificación del sujeto 51682024.
^ Tofallis, C. (1999). "Construcción de modelos con múltiples variables dependientes y restricciones". Revista de la Royal Statistical Society, Serie D. 48 ( 3): 371–378. arXiv : 1109.0725 . doi :10.1111/1467-9884.00195. S2CID : 8942357.
^ Degani, A.; Shafto, M.; Olson, L. (2006). "Análisis de correlación canónica: uso de heliógrafos compuestos para representar múltiples patrones" (PDF) . Representación diagramática e inferencia . Apuntes de clase en informática. Vol. 4045. pág. 93. CiteSeerX 10.1.1.538.5217 . doi :10.1007/11783183_11. ISBN. 978-3-540-35623-3.
^ Jendoubi, T.; Strimmer, K. (2018). "Un enfoque de blanqueamiento para el análisis de correlación canónica probabilística para la integración de datos ómicos". BMC Bioinformatics . 20 (1): 15. arXiv : 1802.03490 . doi : 10.1186/s12859-018-2572-9 . PMC 6327589 . PMID 30626338.

Enlaces externos

Análisis de correlación discriminante (DCA) ^[1] ( MATLAB )
Hardoon, DR; Szedmak, S.; Shawe-Taylor, J. (2004). "Análisis de correlación canónica: una descripción general con aplicación a los métodos de aprendizaje". Computación neuronal . 16 (12): 2639–2664. CiteSeerX 10.1.1.14.6452 . doi :10.1162/0899766042321814. PMID 15516276. S2CID 202473.
Una nota sobre el análisis de correlación canónica ordinal de dos conjuntos de puntuaciones de clasificación (también proporciona un programa FORTRAN ) en Journal of Quantitative Economics 7(2), 2009, pp. 173–199
Análisis de correlación canónica con restricciones de representación: una hibridación de correlación canónica y análisis de componentes principales (también incluye un programa FORTRAN ) en Journal of Applied Economic Sciences 4(1), 2009, págs. 115-124

^ Haghighat, Mohammad; Abdel-Mottaleb, Mohamed; Alhalabi, Wadee (2016). "Análisis de correlación discriminante: fusión de niveles de características en tiempo real para reconocimiento biométrico multimodal". IEEE Transactions on Information Forensics and Security . 11 (9): 1984–1996. doi :10.1109/TIFS.2016.2569061. S2CID 15624506.