Análisis de componentes principales

El análisis de componentes principales ( PCA ) es una técnica de reducción de dimensionalidad lineal con aplicaciones en el análisis exploratorio de datos , visualización y preprocesamiento de datos .

Los datos se transforman linealmente en un nuevo sistema de coordenadas de modo que las direcciones (componentes principales) que capturan la mayor variación en los datos se puedan identificar fácilmente.

Los componentes principales de una colección de puntos en un espacio de coordenadas real son una secuencia de vectores unitarios , donde el -ésimo vector es la dirección de una línea que se ajusta mejor a los datos mientras es ortogonal a los primeros vectores. Aquí, una línea de mejor ajuste se define como aquella que minimiza la distancia perpendicular al cuadrado promedio de los puntos a la línea . Estas direcciones (es decir, componentes principales) constituyen una base ortonormal en la que diferentes dimensiones individuales de los datos no están correlacionadas linealmente . Muchos estudios utilizan los dos primeros componentes principales para representar gráficamente los datos en dos dimensiones e identificar visualmente grupos de puntos de datos estrechamente relacionados. ^[1] $p$ $i$ $i-1$

PCA de una distribución gaussiana multivariada centrada en (1,3) con una desviación estándar de 3 aproximadamente en la dirección (0,866, 0,5) y de 1 en la dirección ortogonal. Los vectores que se muestran son los vectores propios de la matriz de covarianza escalada por la raíz cuadrada del valor propio correspondiente y desplazados de modo que sus colas se encuentren en la media.

El análisis de componentes principales tiene aplicaciones en muchos campos, como la genética de poblaciones , los estudios del microbioma y la ciencia atmosférica .

Descripción general

Al realizar el ACP, el primer componente principal de un conjunto de variables es la variable derivada formada como una combinación lineal de las variables originales que explica la mayor varianza. El segundo componente principal explica la mayor varianza de lo que queda una vez que se elimina el efecto del primer componente, y podemos continuar con iteraciones hasta que se explique toda la varianza. El ACP se utiliza con más frecuencia cuando muchas de las variables están altamente correlacionadas entre sí y es deseable reducir su número a un conjunto independiente. El primer componente principal se puede definir de manera equivalente como una dirección que maximiza la varianza de los datos proyectados. El -ésimo componente principal se puede tomar como una dirección ortogonal a los primeros componentes principales que maximiza la varianza de los datos proyectados. $p$ $p$ $i$ $i-1$

Para cualquiera de los objetivos, se puede demostrar que los componentes principales son vectores propios de la matriz de covarianza de los datos . Por lo tanto, los componentes principales a menudo se calculan mediante la descomposición propia de la matriz de covarianza de los datos o la descomposición en valores singulares de la matriz de datos. El PCA es el más simple de los verdaderos análisis multivariados basados en vectores propios y está estrechamente relacionado con el análisis factorial . El análisis factorial normalmente incorpora suposiciones más específicas del dominio sobre la estructura subyacente y resuelve vectores propios de una matriz ligeramente diferente. El PCA también está relacionado con el análisis de correlación canónica (CCA) . El CCA define sistemas de coordenadas que describen de manera óptima la covarianza cruzada entre dos conjuntos de datos, mientras que el PCA define un nuevo sistema de coordenadas ortogonales que describe de manera óptima la varianza en un único conjunto de datos. ^[2]^[3]^[4]^[5] También se han propuesto variantes robustas y basadas en la norma L1 del PCA estándar. ^[6]^[7]^[8]^[5]

Historia

El PCA fue inventado en 1901 por Karl Pearson , ^[9] como un análogo del teorema del eje principal en mecánica; luego fue desarrollado independientemente y nombrado por Harold Hotelling en la década de 1930. ^[10] Dependiendo del campo de aplicación, también se le denomina transformada discreta de Karhunen–Loève (KLT) en procesamiento de señales , transformada de Hotelling en control de calidad multivariante, descomposición ortogonal adecuada (POD) en ingeniería mecánica, descomposición en valores singulares (SVD) de X (inventada en el último cuarto del siglo XIX ^[11] ), descomposición en valores propios (EVD) de X ^TX en álgebra lineal, análisis factorial (para una discusión de las diferencias entre PCA y análisis factorial, consulte el Cap. 7 del Análisis de componentes principales de Jolliffe ), ^[12] teorema de Eckart–Young (Harman, 1960) o funciones ortogonales empíricas (EOF) en ciencia meteorológica (Lorenz, 1956), descomposición empírica de funciones propias (Sirovich, 1987), modos cuasairmónicos (Brooks et al., 1988), descomposición espectral en ruido y vibración, y análisis modal empírico en dinámica estructural.

Intuición

Se puede pensar en el PCA como el ajuste de un elipsoide p -dimensional a los datos, donde cada eje del elipsoide representa un componente principal. Si algún eje del elipsoide es pequeño, entonces la varianza a lo largo de ese eje también es pequeña.

Para encontrar los ejes del elipsoide, primero debemos centrar los valores de cada variable en el conjunto de datos en 0 restando la media de los valores observados de la variable de cada uno de esos valores. Estos valores transformados se utilizan en lugar de los valores observados originales para cada una de las variables. Luego, calculamos la matriz de covarianza de los datos y calculamos los valores propios y los vectores propios correspondientes de esta matriz de covarianza. Luego debemos normalizar cada uno de los vectores propios ortogonales para convertirlos en vectores unitarios. Una vez hecho esto, cada uno de los vectores propios unitarios mutuamente ortogonales puede interpretarse como un eje del elipsoide ajustado a los datos. Esta elección de base transformará la matriz de covarianza en una forma diagonalizada, en la que los elementos diagonales representan la varianza de cada eje. La proporción de la varianza que representa cada vector propio puede calcularse dividiendo el valor propio correspondiente a ese vector propio por la suma de todos los valores propios.

Los diagramas de biplots y de sedimentación (grado de varianza explicada ) se utilizan para interpretar los resultados del PCA.

Detalles

PCA se define como una transformación lineal ortogonal en un espacio de producto interno real que transforma los datos a un nuevo sistema de coordenadas de modo que la mayor varianza según alguna proyección escalar de los datos llegue a estar en la primera coordenada (llamada primer componente principal), la segunda mayor varianza en la segunda coordenada, y así sucesivamente. ^[12]

Consideremos una matriz de datos , X , con media empírica cero en cada columna (la media de la muestra de cada columna se ha desplazado a cero), donde cada una de las n filas representa una repetición diferente del experimento y cada una de las p columnas proporciona un tipo particular de característica (por ejemplo, los resultados de un sensor particular). $n\times p$

Matemáticamente, la transformación se define mediante un conjunto de tamaños de vectores p -dimensionales de pesos o coeficientes que asignan cada vector de fila de X a un nuevo vector de puntuaciones de componentes principales , dado por $l$ $\mathbf {w} _{(k)}=(w_{1},\dots ,w_{p})_{(k)}$ $\mathbf {x} _{(i)}=(x_{1},\dots ,x_{p})_{(i)}$ $\mathbf {t} _{(i)}=(t_{1},\dots ,t_{l})_{(i)}$

{t_{k}}_{(i)}=\mathbf {x} _{(i)}\cdot \mathbf {w} _{(k)}\qquad \mathrm {for} \qquad i=1,\dots ,n\qquad k=1,\dots ,l

de tal manera que las variables individuales de t consideradas sobre el conjunto de datos heredan sucesivamente la máxima varianza posible de X , con cada vector de coeficientes w restringido a ser un vector unitario (donde usualmente se selecciona para que sea estrictamente menor que para reducir la dimensionalidad). $t_{1},\dots ,t_{l}$ $l$ $p$

Lo anterior puede escribirse de manera equivalente en forma matricial como

\mathbf {T} =\mathbf {X} \mathbf {W}

donde , , y . ${\mathbf {T} }_{ik}={t_{k}}_{(i)}$ ${\mathbf {X} }_{ij}={x_{j}}_{(i)}$ ${\mathbf {W} }_{jk}={w_{j}}_{(k)}$

Primer componente

Para maximizar la varianza, el primer vector de peso w ₍₁₎ debe satisfacer

\mathbf {w} _{(1)}=\arg \max _{\Vert \mathbf {w} \Vert =1}\,\left\{\sum _{i}(t_{1})_{(i)}^{2}\right\}=\arg \max _{\Vert \mathbf {w} \Vert =1}\,\left\{\sum _{i}\left(\mathbf {x} _{(i)}\cdot \mathbf {w} \right)^{2}\right\}

De manera equivalente, escribir esto en forma de matriz da

\mathbf {w} _{(1)}=\arg \max _{\left\|\mathbf {w} \right\|=1}\left\{\left\|\mathbf {Xw} \right\|^{2}\right\}=\arg \max _{\left\|\mathbf {w} \right\|=1}\left\{\mathbf {w} ^{\mathsf {T}}\mathbf {X} ^{\mathsf {T}}\mathbf {Xw} \right\}

Dado que w ₍₁₎ se ha definido como un vector unitario, también satisface de manera equivalente

\mathbf {w} _{(1)}=\arg \max \left\{{\frac {\mathbf {w} ^{\mathsf {T}}\mathbf {X} ^{\mathsf {T}}\mathbf {Xw} }{\mathbf {w} ^{\mathsf {T}}\mathbf {w} }}\right\}

La cantidad que se debe maximizar se puede reconocer como un cociente de Rayleigh . Un resultado estándar para una matriz semidefinida positiva como X ^TX es que el valor máximo posible del cociente es el valor propio más grande de la matriz, lo que ocurre cuando w es el vector propio correspondiente .

Con w ₍₁₎ encontrado, el primer componente principal de un vector de datos x _{( i )} se puede dar como una puntuación t _{1( i )} = x _{( i )} ⋅ w ₍₁₎ en las coordenadas transformadas, o como el vector correspondiente en las variables originales, { x _{( i )} ⋅ w ₍₁₎ } w ₍₁₎ .

Otros componentes

El componente k -ésimo se puede encontrar restando los primeros k − 1 componentes principales de X :

\mathbf {\hat {X}} _{k}=\mathbf {X} -\sum _{s=1}^{k-1}\mathbf {X} \mathbf {w} _{(s)}\mathbf {w} _{(s)}^{\mathsf {T}}

y luego encontrar el vector de peso que extrae la varianza máxima de esta nueva matriz de datos

\mathbf {w} _{(k)}=\mathop {\operatorname {arg\,max} } _{\left\|\mathbf {w} \right\|=1}\left\{\left\|\mathbf {\hat {X}} _{k}\mathbf {w} \right\|^{2}\right\}=\arg \max \left\{{\tfrac {\mathbf {w} ^{\mathsf {T}}\mathbf {\hat {X}} _{k}^{\mathsf {T}}\mathbf {\hat {X}} _{k}\mathbf {w} }{\mathbf {w} ^{T}\mathbf {w} }}\right\}

Resulta que esto da los vectores propios restantes de X ^TX , con los valores máximos para la cantidad entre paréntesis dados por sus valores propios correspondientes. Por lo tanto, los vectores de peso son vectores propios de X ^TX .

Por lo tanto, el k -ésimo componente principal de un vector de datos x _{( i )} se puede dar como una puntuación t _{k ( i )} = x _{( i )} ⋅ w _{( k )} en las coordenadas transformadas, o como el vector correspondiente en el espacio de las variables originales, { x _{( i )} ⋅ w _{( k )} } w _{( k )} , donde w _{( k )} es el k -ésimo vector propio de X ^TX .

Por lo tanto, la descomposición completa de los componentes principales de X se puede expresar como

\mathbf {T} =\mathbf {X} \mathbf {W}

donde W es una matriz p por p de pesos cuyas columnas son los vectores propios de X ^TX . La transpuesta de W a veces se denomina transformación de blanqueamiento o esferización . Las columnas de W multiplicadas por la raíz cuadrada de los valores propios correspondientes, es decir, los vectores propios ampliados por las varianzas, se denominan cargas en el ACP o en el análisis factorial.

Covarianzas

X ^TX en sí puede reconocerse como proporcional a la matriz de covarianza de muestra empírica del conjunto de datos X ^T . ^[12]^{: 30–31}

La covarianza de muestra Q entre dos de los diferentes componentes principales del conjunto de datos viene dada por:

{\begin{aligned}Q(\mathrm {PC} _{(j)},\mathrm {PC} _{(k)})&\propto (\mathbf {X} \mathbf {w} _{(j)})^{\mathsf {T}}(\mathbf {X} \mathbf {w} _{(k)})\\&=\mathbf {w} _{(j)}^{\mathsf {T}}\mathbf {X} ^{\mathsf {T}}\mathbf {X} \mathbf {w} _{(k)}\\&=\mathbf {w} _{(j)}^{\mathsf {T}}\lambda _{(k)}\mathbf {w} _{(k)}\\&=\lambda _{(k)}\mathbf {w} _{(j)}^{\mathsf {T}}\mathbf {w} _{(k)}\end{aligned}}

donde la propiedad de valor propio de w _{( k )} se ha utilizado para pasar de la línea 2 a la línea 3. Sin embargo, los vectores propios w _{( j )} y w _{( k )} correspondientes a los valores propios de una matriz simétrica son ortogonales (si los valores propios son diferentes), o pueden ortogonalizarse (si los vectores comparten un valor repetido igual). Por lo tanto, el producto en la línea final es cero; no hay covarianza muestral entre los diferentes componentes principales en el conjunto de datos.

Otra forma de caracterizar la transformación de componentes principales es, por tanto, como la transformación en coordenadas que diagonalizan la matriz de covarianza de la muestra empírica.

En forma de matriz, la matriz de covarianza empírica para las variables originales se puede escribir

\mathbf {Q} \propto \mathbf {X} ^{\mathsf {T}}\mathbf {X} =\mathbf {W} \mathbf {\Lambda } \mathbf {W} ^{\mathsf {T}}

La matriz de covarianza empírica entre los componentes principales se convierte en

\mathbf {W} ^{\mathsf {T}}\mathbf {Q} \mathbf {W} \propto \mathbf {W} ^{\mathsf {T}}\mathbf {W} \,\mathbf {\Lambda } \,\mathbf {W} ^{\mathsf {T}}\mathbf {W} =\mathbf {\Lambda }

donde Λ es la matriz diagonal de valores propios λ _{( k )} de X ^TX . λ _{( k )} es igual a la suma de los cuadrados sobre el conjunto de datos asociado con cada componente k , es decir, λ _{( k )} = Σ _i t _k²_{( i )} = Σ _i ( x _{( i )} ⋅ w _{( k )} ) ² .

Reducción de dimensionalidad

La transformación T = X W asigna un vector de datos x _{( i )} de un espacio original de p variables a un nuevo espacio de p variables que no están correlacionadas en el conjunto de datos. Sin embargo, no es necesario conservar todos los componentes principales. Si se conservan solo los primeros L componentes principales, obtenidos utilizando solo los primeros L vectores propios, se obtiene la transformación truncada.

\mathbf {T} _{L}=\mathbf {X} \mathbf {W} _{L}

donde la matriz T _L ahora tiene n filas pero solo L columnas. En otras palabras, PCA aprende una transformación lineal donde las columnas de la matriz $p$ $\times$ $L$ forman una base ortogonal para las L características (los componentes de la representación t ) que están decorrelacionadas. ^[13] Por construcción, de todas las matrices de datos transformadas con solo L columnas, esta matriz de puntuación maximiza la varianza en los datos originales que se han conservado, mientras minimiza el error de reconstrucción cuadrático total o . $t=W_{L}^{\mathsf {T}}x,x\in \mathbb {R} ^{p},t\in \mathbb {R} ^{L},$ $W_{L}$ $\|\mathbf {T} \mathbf {W} ^{T}-\mathbf {T} _{L}\mathbf {W} _{L}^{T}\|_{2}^{2}$ $\|\mathbf {X} -\mathbf {X} _{L}\|_{2}^{2}$

Esta reducción de la dimensionalidad puede ser un paso muy útil para visualizar y procesar conjuntos de datos de alta dimensión, manteniendo al mismo tiempo la mayor cantidad posible de varianza en el conjunto de datos. Por ejemplo, al seleccionar L = 2 y mantener solo los dos primeros componentes principales, se encuentra el plano bidimensional a través del conjunto de datos de alta dimensión en el que los datos están más dispersos, de modo que si los datos contienen conglomerados, estos también pueden estar más dispersos y, por lo tanto, ser más visibles para ser representados en un diagrama bidimensional; mientras que si se eligen al azar dos direcciones a través de los datos (o dos de las variables originales), los conglomerados pueden estar mucho menos dispersos entre sí y, de hecho, puede ser mucho más probable que se superpongan sustancialmente entre sí, haciéndolos indistinguibles.

De manera similar, en el análisis de regresión , cuanto mayor sea el número de variables explicativas permitidas, mayor será la probabilidad de sobreajustar el modelo, lo que produciría conclusiones que no se pueden generalizar a otros conjuntos de datos. Un enfoque, especialmente cuando existen fuertes correlaciones entre diferentes posibles variables explicativas, es reducirlas a unos pocos componentes principales y luego ejecutar la regresión en función de ellas, un método llamado regresión de componentes principales .

La reducción de la dimensionalidad también puede ser apropiada cuando las variables en un conjunto de datos son ruidosas. Si cada columna del conjunto de datos contiene ruido gaussiano distribuido idénticamente e independiente, entonces las columnas de T también contendrán ruido gaussiano distribuido idénticamente de manera similar (tal distribución es invariante bajo los efectos de la matriz W , que puede considerarse como una rotación de alta dimensión de los ejes de coordenadas). Sin embargo, con una mayor parte de la varianza total concentrada en los primeros componentes principales en comparación con la misma varianza del ruido, el efecto proporcional del ruido es menor: los primeros componentes logran una mayor relación señal-ruido . Por lo tanto, el PCA puede tener el efecto de concentrar gran parte de la señal en los primeros componentes principales, que pueden capturarse de manera útil mediante la reducción de la dimensionalidad; mientras que los componentes principales posteriores pueden estar dominados por el ruido y, por lo tanto, eliminarse sin grandes pérdidas. Si el conjunto de datos no es demasiado grande, la importancia de los componentes principales se puede probar utilizando el bootstrap paramétrico , como una ayuda para determinar cuántos componentes principales retener. ^[14]

Descomposición en valores singulares

La transformación de componentes principales también se puede asociar con otra factorización matricial, la descomposición en valores singulares (SVD) de X ,

\mathbf {X} =\mathbf {U} \mathbf {\Sigma } \mathbf {W} ^{T}

Aquí Σ es una matriz diagonal rectangular de n por p de números positivos σ ₍_k₎ , llamados valores singulares de X ; U es una matriz de n por n , cuyas columnas son vectores unitarios ortogonales de longitud n llamados vectores singulares izquierdos de X ; y W es una matriz de p por p cuyas columnas son vectores unitarios ortogonales de longitud p y llamados vectores singulares derechos de X .

En términos de esta factorización, la matriz X ^TX puede escribirse

{\begin{aligned}\mathbf {X} ^{T}\mathbf {X} &=\mathbf {W} \mathbf {\Sigma } ^{\mathsf {T}}\mathbf {U} ^{\mathsf {T}}\mathbf {U} \mathbf {\Sigma } \mathbf {W} ^{\mathsf {T}}\\&=\mathbf {W} \mathbf {\Sigma } ^{\mathsf {T}}\mathbf {\Sigma } \mathbf {W} ^{\mathsf {T}}\\&=\mathbf {W} \mathbf {\hat {\Sigma }} ^{2}\mathbf {W} ^{\mathsf {T}}\end{aligned}}

donde es la matriz diagonal cuadrada con los valores singulares de X y los ceros sobrantes recortados que satisface . La comparación con la factorización de vectores propios de X ^TX establece que los vectores singulares derechos W de X son equivalentes a los vectores propios de X ^TX , mientras que los valores singulares σ ₍_k₎ de son iguales a la raíz cuadrada de los valores propios λ ₍_k₎ de X ^TX . $\mathbf {\hat {\Sigma }}$ $\mathbf {{\hat {\Sigma }}^{2}} =\mathbf {\Sigma } ^{\mathsf {T}}\mathbf {\Sigma }$ $\mathbf {X}$

Utilizando la descomposición en valores singulares, la matriz de puntuación T se puede escribir

{\begin{aligned}\mathbf {T} &=\mathbf {X} \mathbf {W} \\&=\mathbf {U} \mathbf {\Sigma } \mathbf {W} ^{\mathsf {T}}\mathbf {W} \\&=\mathbf {U} \mathbf {\Sigma } \end{aligned}}

De modo que cada columna de T está dada por uno de los vectores singulares izquierdos de X multiplicado por el valor singular correspondiente. Esta forma es también la descomposición polar de T.

Existen algoritmos eficientes para calcular la SVD de X sin tener que formar la matriz X ^TX , por lo que calcular la SVD es ahora la forma estándar de calcular un análisis de componentes principales a partir de una matriz de datos, ^[15] a menos que solo se requieran unos pocos componentes.

Al igual que con la descomposición propia, se puede obtener una matriz de puntuación truncada $n \times L$ T _L considerando solo los primeros L valores singulares más grandes y sus vectores singulares:

\mathbf {T} _{L}=\mathbf {U} _{L}\mathbf {\Sigma } _{L}=\mathbf {X} \mathbf {W} _{L}

El truncamiento de una matriz M o T utilizando una descomposición en valores singulares truncados de esta manera produce una matriz truncada que es la matriz de rango L más cercana posible a la matriz original, en el sentido de que la diferencia entre las dos tiene la norma de Frobenius más pequeña posible , un resultado conocido como el teorema de Eckart-Young [1936].

Consideraciones adicionales

Los valores singulares (en Σ ) son las raíces cuadradas de los valores propios de la matriz X ^TX . Cada valor propio es proporcional a la porción de la "varianza" (más correctamente de la suma de las distancias al cuadrado de los puntos desde su media multidimensional) que está asociada con cada vector propio. La suma de todos los valores propios es igual a la suma de las distancias al cuadrado de los puntos desde su media multidimensional. El PCA esencialmente rota el conjunto de puntos alrededor de su media para alinearlo con los componentes principales. Esto mueve la mayor parte posible de la varianza (usando una transformación ortogonal) a las primeras dimensiones. Los valores en las dimensiones restantes, por lo tanto, tienden a ser pequeños y pueden eliminarse con una pérdida mínima de información (ver más abajo ). El PCA se usa a menudo de esta manera para la reducción de dimensionalidad . El PCA tiene la distinción de ser la transformación ortogonal óptima para mantener el subespacio que tiene la "varianza" más grande (como se define arriba). Esta ventaja, sin embargo, se produce a costa de mayores requisitos computacionales si se compara, por ejemplo, y cuando es aplicable, con la transformada discreta del coseno , y en particular con la DCT-II, que se conoce simplemente como "DCT". Las técnicas de reducción de dimensionalidad no lineal tienden a ser más exigentes computacionalmente que el PCA.

El PCA es sensible a la escala de las variables. Si tenemos sólo dos variables y tienen la misma varianza muestral y están completamente correlacionadas, entonces el PCA implicará una rotación de 45° y los "pesos" (son los cosenos de rotación) para las dos variables con respecto al componente principal serán iguales. Pero si multiplicamos todos los valores de la primera variable por 100, entonces el primer componente principal será casi el mismo que esa variable, con una pequeña contribución de la otra variable, mientras que el segundo componente estará casi alineado con la segunda variable original. Esto significa que siempre que las diferentes variables tengan unidades diferentes (como temperatura y masa), el PCA es un método de análisis algo arbitrario. (Se obtendrían resultados diferentes si se utilizara Fahrenheit en lugar de Celsius, por ejemplo). El artículo original de Pearson se titulaba "Sobre líneas y planos de ajuste más cercano a sistemas de puntos en el espacio"; "en el espacio" implica el espacio euclidiano físico donde no surgen tales preocupaciones. Una forma de hacer que el PCA sea menos arbitrario es utilizar variables escaladas de modo que tengan una varianza unitaria, estandarizando los datos y, por lo tanto, utilizando la matriz de autocorrelación en lugar de la matriz de autocovarianza como base para el PCA. Sin embargo, esto comprime (o expande) las fluctuaciones en todas las dimensiones del espacio de la señal a una varianza unitaria.

La resta de la media (también conocida como "centrado de la media") es necesaria para realizar el PCA clásico a fin de garantizar que el primer componente principal describa la dirección de la varianza máxima. Si no se realiza la resta de la media, el primer componente principal podría corresponder más o menos a la media de los datos. Se necesita una media de cero para encontrar una base que minimice el error cuadrático medio de la aproximación de los datos. ^[16]

El centrado en la media no es necesario si se realiza un análisis de componentes principales en una matriz de correlación, ya que los datos ya están centrados después de calcular las correlaciones. Las correlaciones se derivan del producto cruzado de dos puntuaciones estándar (puntuaciones Z) o momentos estadísticos (de ahí el nombre: correlación producto-momento de Pearson ). Véase también el artículo de Kromrey y Foster-Johnson (1998) sobre "Centrado en la media en la regresión moderada: mucho ruido y pocas nueces" . Dado que las covarianzas son correlaciones de variables normalizadas ( puntuaciones Z o estándar ), un PCA basado en la matriz de correlación de X es igual a un PCA basado en la matriz de covarianza de Z , la versión estandarizada de X.

El PCA es una técnica primaria popular en el reconocimiento de patrones . Sin embargo, no está optimizada para la separabilidad de clases. ^[17] Sin embargo, se ha utilizado para cuantificar la distancia entre dos o más clases calculando el centro de masa para cada clase en el espacio de componentes principales y reportando la distancia euclidiana entre el centro de masa de dos o más clases. ^[18] El análisis discriminante lineal es una alternativa que está optimizada para la separabilidad de clases.

Tabla de símbolos y abreviaturas

Propiedades y limitaciones

Propiedades

Algunas propiedades del PCA incluyen: ^[12]^{[ página necesaria ]}

Propiedad 1 : Para cualquier enteroq, 1 ≤q≤p, considere latransformación lineal

y=\mathbf {B'} x

donde es un vector de q elementos y es una matriz ( q × p ), y sea la matriz de varianza - covarianza para . Entonces, la traza de , denotada , se maximiza tomando , donde consiste en las primeras q columnas de es la transpuesta de . ( no se define aquí)

y

\mathbf {B'}

\mathbf {\Sigma } _{y}=\mathbf {B'} \mathbf {\Sigma } \mathbf {B}

y

\mathbf {\Sigma } _{y}

\operatorname {tr} (\mathbf {\Sigma } _{y})

\mathbf {B} =\mathbf {A} _{q}

\mathbf {A} _{q}

\mathbf {A}

(\mathbf {B'}

\mathbf {B} )

\mathbf {A}

Propiedad 2 : Consideremos nuevamente latransformación ortonormal

y=\mathbf {B'} x

con y definido como antes. Luego se minimiza tomando donde consta de las últimas q columnas de .

x,\mathbf {B} ,\mathbf {A}

\mathbf {\Sigma } _{y}

\operatorname {tr} (\mathbf {\Sigma } _{y})

\mathbf {B} =\mathbf {A} _{q}^{*},

\mathbf {A} _{q}^{*}

\mathbf {A}

La implicación estadística de esta propiedad es que los últimos PC no son simplemente restos no estructurados después de eliminar los PC importantes. Debido a que estos últimos PC tienen varianzas lo más pequeñas posibles, son útiles por sí mismos. Pueden ayudar a detectar relaciones lineales casi constantes insospechadas entre los elementos de $x$ , y también pueden ser útiles en la regresión , en la selección de un subconjunto de variables de $x$ y en la detección de valores atípicos.

Propiedad 3 : (Descomposición espectral de

Σ

)

\mathbf {\Sigma } =\lambda _{1}\alpha _{1}\alpha _{1}'+\cdots +\lambda _{p}\alpha _{p}\alpha _{p}'

Antes de analizar su uso, veamos primero los elementos diagonales ,

\operatorname {Var} (x_{j})=\sum _{k=1}^{P}\lambda _{k}\alpha _{kj}^{2}

Entonces, quizás la principal implicación estadística del resultado es que no solo podemos descomponer las varianzas combinadas de todos los elementos de $x$ en contribuciones decrecientes debidas a cada PC, sino que también podemos descomponer toda la matriz de covarianza en contribuciones de cada PC. Aunque no son estrictamente decrecientes, los elementos de tenderán a volverse más pequeños a medida que aumenta, ya que no son crecientes para , mientras que los elementos de tienden a permanecer aproximadamente del mismo tamaño debido a las restricciones de normalización: . $\lambda _{k}\alpha _{k}\alpha _{k}'$ $\lambda _{k}\alpha _{k}\alpha _{k}'$ $k$ $\lambda _{k}\alpha _{k}\alpha _{k}'$ $k$ $\alpha _{k}$ $\alpha _{k}'\alpha _{k}=1,k=1,\dots ,p$

Limitaciones

Como se señaló anteriormente, los resultados del PCA dependen de la escala de las variables. Esto se puede solucionar escalando cada característica por su desviación estándar, de modo que se obtengan características adimensionales con varianza unitaria. ^[19]

La aplicabilidad del PCA como se describió anteriormente está limitada por ciertas suposiciones (tácitas) ^[20] realizadas en su derivación. En particular, el PCA puede capturar correlaciones lineales entre las características, pero falla cuando se viola esta suposición (consulte la Figura 6a en la referencia). En algunos casos, las transformaciones de coordenadas pueden restaurar la suposición de linealidad y luego se puede aplicar el PCA (consulte el PCA del núcleo ).

Otra limitación es el proceso de eliminación de la media antes de construir la matriz de covarianza para PCA. En campos como la astronomía, todas las señales son no negativas, y el proceso de eliminación de la media forzará a que la media de algunas exposiciones astrofísicas sea cero, lo que en consecuencia crea flujos negativos no físicos, ^[21] y se debe realizar un modelado hacia adelante para recuperar la verdadera magnitud de las señales. ^[22] Como método alternativo, la factorización matricial no negativa se centra solo en los elementos no negativos de las matrices, lo que es muy adecuado para las observaciones astrofísicas. ^[23]^[24]^[25] Ver más en Relación entre PCA y factorización matricial no negativa.

El PCA está en desventaja si los datos no han sido estandarizados antes de aplicarles el algoritmo. El PCA transforma los datos originales en datos que son relevantes para los componentes principales de esos datos, lo que significa que las nuevas variables de datos no pueden interpretarse de la misma manera que las originales. Son interpretaciones lineales de las variables originales. Además, si el PCA no se realiza correctamente, existe una alta probabilidad de pérdida de información. ^[26]

El PCA se basa en un modelo lineal. Si un conjunto de datos tiene un patrón oculto en su interior que no es lineal, el PCA puede en realidad dirigir el análisis en la dirección completamente opuesta al progreso. ^[27]^{[ página necesaria ]} Los investigadores de la Universidad Estatal de Kansas descubrieron que el error de muestreo en sus experimentos influía en el sesgo de los resultados del PCA. "Si el número de sujetos o bloques es menor de 30, y/o el investigador está interesado en los PC más allá del primero, puede ser mejor corregir primero la correlación serial, antes de realizar el PCA". ^[28] Los investigadores de la Universidad Estatal de Kansas también descubrieron que el PCA podría estar "seriamente sesgado si la estructura de autocorrelación de los datos no se maneja correctamente". ^[28]

PCA y teoría de la información

En general, la reducción de dimensionalidad produce una pérdida de información. La reducción de dimensionalidad basada en PCA tiende a minimizar esa pérdida de información en determinados modelos de señal y ruido.

Bajo el supuesto de que

\mathbf {x} =\mathbf {s} +\mathbf {n} ,

es decir, que el vector de datos es la suma de la señal portadora de información deseada y una señal de ruido. Se puede demostrar que PCA puede ser óptimo para la reducción de dimensionalidad, desde un punto de vista de teoría de la información. $\mathbf {x}$ $\mathbf {s}$ $\mathbf {n}$

En particular, Linsker demostró que si es gaussiano y es ruido gaussiano con una matriz de covarianza proporcional a la matriz identidad, el PCA maximiza la información mutua entre la información deseada y la salida de dimensionalidad reducida . ^[29] $\mathbf {s}$ $\mathbf {n}$ $I(\mathbf {y} ;\mathbf {s} )$ $\mathbf {s}$ $\mathbf {y} =\mathbf {W} _{L}^{T}\mathbf {x}$

Si el ruido sigue siendo gaussiano y tiene una matriz de covarianza proporcional a la matriz identidad (es decir, los componentes del vector son iid ), pero la señal portadora de información no es gaussiana (lo cual es un escenario común), PCA al menos minimiza un límite superior en la pérdida de información , que se define como ^[30]^[31] $\mathbf {n}$ $\mathbf {s}$

I(\mathbf {x} ;\mathbf {s} )-I(\mathbf {y} ;\mathbf {s} ).

La optimalidad de PCA también se conserva si el ruido es iid y al menos más gaussiano (en términos de la divergencia de Kullback–Leibler ) que la señal portadora de información . ^[32] En general, incluso si se cumple el modelo de señal anterior, PCA pierde su optimalidad teórica de la información tan pronto como el ruido se vuelve dependiente. $\mathbf {n}$ $\mathbf {s}$ $\mathbf {n}$

Cálculo mediante el método de covarianza

A continuación se presenta una descripción detallada del PCA utilizando el método de covarianza ^[33] en oposición al método de correlación. ^[34]

El objetivo es transformar un conjunto de datos X de dimensión p en un conjunto de datos alternativo Y de dimensión menor L. De manera equivalente, buscamos encontrar la matriz Y , donde Y es la transformada de Karhunen–Loève (KLT) de la matriz X :

$\mathbf {Y} =\mathbb {KLT} \{\mathbf {X} \}$

Organizar el conjunto de datos
Supongamos que disponemos de datos que comprenden un conjunto de observaciones de p variables y que queremos reducir los datos de modo que cada observación pueda describirse con solo L variables, L < p . Supongamos, además, que los datos están organizados como un conjunto de n vectores de datos , cada uno de los cuales representa una única observación agrupada de las p variables. $\mathbf {x} _{1}\ldots \mathbf {x} _{n}$ $\mathbf {x} _{i}$
- Escribe como vectores fila, cada uno con p elementos. $\mathbf {x} _{1}\ldots \mathbf {x} _{n}$
- Coloque los vectores de fila en una sola matriz X de dimensiones n × p .
Calcular la media empírica
- Encuentra la media empírica a lo largo de cada columna j = 1, ..., p .
- Coloque los valores medios calculados en un vector de media empírica u de dimensiones p × 1. $u_{j}={\frac {1}{n}}\sum _{i=1}^{n}X_{ij}$
Calcular las desviaciones de la media
La resta de la media es una parte integral de la solución para encontrar una base de componentes principales que minimice el error cuadrático medio al aproximar los datos. ^[35] Por lo tanto, procedemos centrando los datos de la siguiente manera:
- Restar el vector de media empírica de cada fila de la matriz de datos X. $\mathbf {u} ^{T}$
- Almacene los datos con la media restada en la matriz n × p B , donde h es un vector columna $n$ $\times 1$ de todos 1: $\mathbf {B} =\mathbf {X} -\mathbf {h} \mathbf {u} ^{T}$ $h_{i}=1\,\qquad \qquad {\text{for }}i=1,\ldots ,n$
En algunas aplicaciones, cada variable (columna de B ) también puede escalarse para tener una varianza igual a 1 (ver puntuación Z ). ^[36] Este paso afecta a los componentes principales calculados, pero los hace independientes de las unidades utilizadas para medir las diferentes variables.
Encuentra la matriz de covarianza
- Encuentre la matriz de covarianza empírica p × p C a partir de la matriz B : donde es el operador de transposición conjugada . Si B consiste completamente en números reales, lo que sucede en muchas aplicaciones, la "transposición conjugada" es lo mismo que la transposición regular . $\mathbf {C} ={1 \over {n-1}}\mathbf {B} ^{*}\mathbf {B}$ $*$
- El razonamiento detrás del uso de $n - 1$ en lugar de n para calcular la covarianza es la corrección de Bessel .
Encuentra los vectores propios y los valores propios de la matriz de covarianza
- Calcular la matriz V de vectores propios que diagonaliza la matriz de covarianza C : donde D es la matriz diagonal de valores propios de C . Este paso normalmente implicará el uso de un algoritmo informático para calcular vectores propios y valores propios . Estos algoritmos están disponibles como subcomponentes de la mayoría de los sistemas de álgebra matricial , como SAS , ^[37]R , MATLAB , ^[38]^[39]Mathematica , ^[40]SciPy , IDL ( Interactive Data Language ) o GNU Octave , así como OpenCV . $\mathbf {V} ^{-1}\mathbf {C} \mathbf {V} =\mathbf {D}$
- La matriz D tomará la forma de una matriz diagonal p × p , donde es el j -ésimo valor propio de la matriz de covarianza C , y $D_{k\ell }=\lambda _{k}\qquad {\text{for }}k=\ell$ $D_{k\ell }=0\qquad {\text{for }}k\neq \ell .$
- La matriz V , también de dimensión p × p , contiene p vectores columna, cada uno de longitud p , que representan los p vectores propios de la matriz de covarianza C.
- Los valores propios y los vectores propios están ordenados y emparejados. El j -ésimo valor propio corresponde al j -ésimo vector propio.
- La matriz V denota la matriz de vectores propios derechos (en contraposición a los vectores propios izquierdos ). En general, la matriz de vectores propios derechos no necesita ser la transpuesta (conjugada) de la matriz de vectores propios izquierdos.
Reorganizar los vectores propios y los valores propios
- Ordene las columnas de la matriz de vectores propios V y la matriz de valores propios D en orden decreciente de valores propios.
- Asegúrese de mantener los emparejamientos correctos entre las columnas de cada matriz.
Calcular el contenido de energía acumulada para cada vector propio
- Los valores propios representan la distribución de la energía de los datos de origen ^{[ aclaración necesaria ]} entre cada uno de los vectores propios, donde los vectores propios forman una base para los datos. El contenido de energía acumulada g para el j -ésimo vector propio es la suma del contenido de energía en todos los valores propios desde 1 hasta j : ^{[ cita requerida ]} $g_{j}=\sum _{k=1}^{j}D_{kk}\qquad {\text{for }}j=1,\dots ,p$
Seleccione un subconjunto de los vectores propios como vectores base
- Guarde las primeras L columnas de V como la matriz p × L W : donde $W_{kl}=V_{k\ell }\qquad {\text{for }}k=1,\dots ,p\qquad \ell =1,\dots ,L$ $1\leq L\leq p.$
- Utilice el vector g como guía para elegir un valor adecuado para L. El objetivo es elegir un valor de L lo más pequeño posible y lograr un valor de g razonablemente alto en términos porcentuales. Por ejemplo, puede elegir L de modo que la energía acumulada g sea superior a un cierto umbral, como el 90 por ciento. En este caso, elija el valor más pequeño de L de modo que ${\frac {g_{L}}{g_{p}}}\geq 0.9$
Proyectar los datos sobre la nueva base
- Los puntos de datos proyectados son las filas de la matriz. $\mathbf {T} =\mathbf {B} \cdot \mathbf {W}$
Es decir, la primera columna es la proyección de los puntos de datos sobre el primer componente principal, la segunda columna es la proyección sobre el segundo componente principal, etc. $\mathbf {T}$

Derivación mediante el método de covarianza

Sea X un vector aleatorio de dimensión d expresado como vector columna. Sin pérdida de generalidad, supongamos que X tiene media cero.

Queremos encontrar una matriz de transformación ortonormal P $d$ $\times$ $d$ tal que PX tenga una matriz de covarianza diagonal (es decir, PX es un vector aleatorio con todos sus componentes distintos no correlacionados por pares). $(\ast )$

Un cálculo rápido suponiendo que los rendimientos son unitarios: $P$

{\begin{aligned}\operatorname {cov} (PX)&=\operatorname {E} [PX~(PX)^{*}]\\&=\operatorname {E} [PX~X^{*}P^{*}]\\&=P\operatorname {E} [XX^{*}]P^{*}\\&=P\operatorname {cov} (X)P^{-1}\\\end{aligned}}

Por lo tanto, se cumple si y sólo si fueran diagonalizables por . $(\ast )$ $\operatorname {cov} (X)$ $P$

Esto es muy constructivo, ya que se garantiza que cov( X ) es una matriz definida no negativa y, por lo tanto, se garantiza que es diagonalizable por alguna matriz unitaria.

Cálculo sin covarianza

En implementaciones prácticas, especialmente con datos de alta dimensión ( $p$ grande ), el método de covarianza ingenuo rara vez se utiliza porque no es eficiente debido a los altos costos computacionales y de memoria de determinar explícitamente la matriz de covarianza. El enfoque libre de covarianza evita las $np 2$ operaciones de calcular y almacenar explícitamente la matriz de covarianza $X T X$ , en su lugar utiliza uno de los métodos libres de matriz , por ejemplo, basado en la función que evalúa el producto $X T (X r)$ al costo de $2 np$ operaciones.

Computación iterativa

Una forma de calcular el primer componente principal de manera eficiente ^[41] se muestra en el siguiente pseudocódigo, para una matriz de datos $X$ con media cero, sin calcular nunca su matriz de covarianza.

 $r$  = un vector aleatorio de longitud $p$ r = r / norma( r )hacer  $c$  veces:  $s = 0$  (un vector de longitud  $p$  ) para cada fila x en X  s = s + ( x ⋅ r ) x  λ = r ^Ts  // λ es el valor propio  error = |λ ⋅ r − s |  r = s / norm( s )  salir si error < tolerancia
devolver λ, r

Este algoritmo de iteración de potencia simplemente calcula el vector $X T (X r)$ , normaliza y coloca el resultado nuevamente en $r$ . El valor propio se aproxima por $r T (X T X) r$ , que es el cociente de Rayleigh en el vector unitario $r$ para la matriz de covarianza $X T X$ . Si el valor singular más grande está bien separado del siguiente más grande, el vector $r$ se acerca al primer componente principal de $X$ dentro del número de iteraciones $c$ , que es pequeño en relación con $p$ , al costo total $2cnp$ . La convergencia de iteración de potencia se puede acelerar sin sacrificar notablemente el pequeño costo por iteración utilizando métodos sin matriz más avanzados , como el algoritmo de Lanczos o el método de gradiente conjugado preacondicionado de bloque localmente óptimo ( LOBPCG ).

Los componentes principales subsiguientes se pueden calcular uno por uno a través de deflación o simultáneamente como un bloque. En el primer enfoque, las imprecisiones en los componentes principales aproximados ya calculados afectan de manera aditiva la precisión de los componentes principales calculados posteriormente, aumentando así el error con cada nuevo cálculo. El último enfoque en el método de potencia de bloque reemplaza los vectores individuales $r$ y $s$ con vectores de bloque, matrices $R$ y $S$ . Cada columna de $R$ aproxima uno de los componentes principales principales, mientras que todas las columnas se iteran simultáneamente. El cálculo principal es la evaluación del producto $X T (XR)$ . Implementado, por ejemplo, en LOBPCG , el bloqueo eficiente elimina la acumulación de errores, permite usar funciones de producto matriz-matriz BLAS de alto nivel y generalmente conduce a una convergencia más rápida, en comparación con la técnica de vector único uno por uno.

El método NIPALS

Los mínimos cuadrados parciales iterativos no lineales (NIPALS) son una variante de la iteración de potencia clásica con deflación de matriz por sustracción implementada para calcular los primeros componentes en un análisis de componentes principales o de mínimos cuadrados parciales . Para conjuntos de datos de muy alta dimensión, como los generados en las ciencias *ómicas (por ejemplo, genómica , metabolómica ), generalmente solo es necesario calcular los primeros PC. El algoritmo de mínimos cuadrados parciales iterativos no lineales (NIPALS) actualiza las aproximaciones iterativas a las puntuaciones y cargas principales t ₁ y r ₁^T mediante la iteración de potencia que se multiplica en cada iteración por X a la izquierda y a la derecha, es decir, se evita el cálculo de la matriz de covarianza, al igual que en la implementación sin matriz de las iteraciones de potencia a $X T X$ , con base en la función que evalúa el producto $X T (X r) = ((X r) T X) T$ .

La deflación de la matriz por sustracción se realiza restando el producto externo, t ₁r ₁^T de X dejando la matriz residual deflacionada utilizada para calcular los PC principales posteriores. ^[42] Para matrices de datos grandes, o matrices que tienen un alto grado de colinealidad de columna, NIPALS sufre pérdida de ortogonalidad de los PC debido a errores de redondeo de precisión de la máquina acumulados en cada iteración y deflación de la matriz por sustracción. ^[43] Se aplica un algoritmo de reortogonalización de Gram-Schmidt tanto a las puntuaciones como a las cargas en cada paso de iteración para eliminar esta pérdida de ortogonalidad. ^[44] La dependencia de NIPALS de multiplicaciones de un solo vector no puede aprovechar BLAS de alto nivel y da como resultado una convergencia lenta para valores singulares principales agrupados; ambas deficiencias se resuelven en solucionadores de bloques sin matriz más sofisticados, como el método de gradiente conjugado preacondicionado de bloque localmente óptimo ( LOBPCG ).

Estimación en línea/secuencial

En una situación de “transmisión en línea” o “en tiempo real” en la que los datos llegan pieza por pieza en lugar de almacenarse en un solo lote, es útil realizar una estimación de la proyección de PCA que se pueda actualizar de forma secuencial. Esto se puede hacer de manera eficiente, pero requiere algoritmos diferentes. ^[45]

Variables cualitativas

En el ACP, es habitual que queramos introducir variables cualitativas como elementos complementarios. Por ejemplo, se han medido muchas variables cuantitativas en plantas. Para estas plantas, existen algunas variables cualitativas como, por ejemplo, la especie a la que pertenece la planta. Estos datos se sometieron al ACP para variables cuantitativas. Al analizar los resultados, es natural conectar los componentes principales con la variable cualitativa especie . Para ello, se producen los siguientes resultados.

Identificación, en los planos factoriales, de las diferentes especies, por ejemplo, utilizando diferentes colores.
Representación, en los planos factoriales, de los centros de gravedad de plantas pertenecientes a una misma especie.
Para cada centro de gravedad y cada eje, valor p para juzgar la importancia de la diferencia entre el centro de gravedad y el origen.

Estos resultados son lo que se denomina introducir una variable cualitativa como elemento suplementario . Este procedimiento se detalla en Husson, Lê, & Pagès (2009) y Pagès (2013). Pocos software ofrecen esta opción de forma “automática”. Es el caso de SPAD que históricamente, siguiendo el trabajo de Ludovic Lebart , fue el primero en proponer esta opción, y del paquete R FactoMineR.

Aplicaciones

Inteligencia

La primera aplicación del análisis factorial fue la localización y medición de los componentes de la inteligencia humana. Se creía que la inteligencia tenía varios componentes no correlacionados, como la inteligencia espacial, la inteligencia verbal, la inducción, la deducción, etc., y que las puntuaciones de estos componentes podían deducirse mediante el análisis factorial a partir de los resultados de varias pruebas, para dar un índice único conocido como el cociente intelectual (CI). El psicólogo estadístico pionero Spearman desarrolló el análisis factorial en 1904 para su teoría de dos factores de la inteligencia, añadiendo una técnica formal a la ciencia de la psicometría . En 1924, Thurstone buscó 56 factores de inteligencia, desarrollando el concepto de edad mental. Las pruebas de CI estándar actuales se basan en este trabajo temprano. ^[46]

Diferenciación residencial

En 1949, Shevky y Williams introdujeron la teoría de la ecología factorial , que dominó los estudios de diferenciación residencial desde la década de 1950 hasta la de 1970. ^[47] Los barrios de una ciudad eran reconocibles o podían distinguirse entre sí por varias características que podían reducirse a tres mediante el análisis factorial. Estas se conocían como "rango social" (un índice de estatus ocupacional), "familismo" o tamaño de la familia y "etnicidad"; el análisis de conglomerados podía entonces aplicarse para dividir la ciudad en conglomerados o distritos según los valores de las tres variables factoriales clave. Se desarrolló una extensa literatura en torno a la ecología factorial en la geografía urbana, pero el enfoque pasó de moda después de 1980 por ser metodológicamente primitivo y tener poco lugar en los paradigmas geográficos posmodernos.

Uno de los problemas del análisis factorial siempre ha sido encontrar nombres convincentes para los diversos factores artificiales. En 2000, Flood revivió el enfoque de la ecología factorial para demostrar que el análisis de componentes principales realmente brindaba respuestas significativas de manera directa, sin recurrir a la rotación de factores. Los componentes principales eran en realidad variables duales o precios sombra de las "fuerzas" que empujan a las personas a acercarse o alejarse en las ciudades. El primer componente era la "accesibilidad", la clásica disyuntiva entre la demanda de viajes y la demanda de espacio, en torno a la cual se basa la economía urbana clásica. Los dos componentes siguientes eran la "desventaja", que mantiene a las personas de estatus similar en barrios separados (mediada por la planificación), y la etnicidad, donde las personas de orígenes étnicos similares tratan de ubicarse en el mismo lugar. ^[48]

Casi al mismo tiempo, la Oficina Australiana de Estadísticas definió distintos índices de ventajas y desventajas tomando el primer componente principal de conjuntos de variables clave que se consideraban importantes. Estos índices SEIFA se publican periódicamente para varias jurisdicciones y se utilizan con frecuencia en el análisis espacial. ^[49]

Índices de desarrollo

El PCA puede utilizarse como método formal para el desarrollo de índices. Como alternativa, se ha propuesto el análisis compuesto confirmatorio para desarrollar y evaluar índices. ^[50]

El Índice de Desarrollo Urbano fue desarrollado por PCA a partir de unos 200 indicadores de resultados de las ciudades en una encuesta de 1996 de 254 ciudades globales. El primer componente principal fue sujeto a una regresión iterativa, agregando las variables originales una por una hasta que se tuvo en cuenta aproximadamente el 90% de su variación. El índice finalmente utilizó unos 15 indicadores, pero fue un buen predictor de muchas más variables. Su valor comparativo concordó muy bien con una evaluación subjetiva de la condición de cada ciudad. Los coeficientes sobre los elementos de infraestructura fueron aproximadamente proporcionales a los costos promedio de proporcionar los servicios subyacentes, lo que sugiere que el Índice era en realidad una medida de la inversión física y social efectiva en la ciudad.

El Índice de Desarrollo Humano (IDH) a nivel de país del PNUD , que se publica desde 1990 y se utiliza ampliamente en estudios de desarrollo, ^[51] tiene coeficientes muy similares en indicadores similares, lo que sugiere firmemente que originalmente se construyó utilizando PCA.

Genética de poblaciones

En 1978, Cavalli-Sforza y otros fueron pioneros en el uso del análisis de componentes principales (PCA) para resumir datos sobre la variación de las frecuencias de los genes humanos en las distintas regiones. Los componentes mostraron patrones distintivos, incluidos gradientes y ondas sinusoidales. Ellos interpretaron estos patrones como resultado de eventos migratorios antiguos específicos.

Desde entonces, el PCA ha sido omnipresente en la genética de poblaciones, con miles de artículos que lo utilizan como mecanismo de visualización. La genética varía en gran medida según la proximidad, por lo que los dos primeros componentes principales en realidad muestran la distribución espacial y pueden usarse para mapear la ubicación geográfica relativa de diferentes grupos de población, mostrando así a los individuos que se han alejado de sus ubicaciones originales. ^[52]

El PCA en genética ha sido técnicamente controvertido, ya que la técnica se ha aplicado a variables discretas no normales y, a menudo, a marcadores alélicos binarios. La falta de medidas de error estándar en el PCA también es un impedimento para un uso más consistente. En agosto de 2022, el biólogo molecular Eran Elhaik publicó un artículo teórico en Scientific Reports en el que analizaba 12 aplicaciones del PCA. Concluyó que era fácil manipular el método, lo que, en su opinión, generaba resultados "erróneos, contradictorios y absurdos". En concreto, argumentó que los resultados obtenidos en genética de poblaciones se caracterizaban por la selección de los mejores resultados y el razonamiento circular . ^[53]

Investigación de mercados e índices de actitud

La investigación de mercado ha sido un amplio uso del PCA. Se utiliza para desarrollar puntuaciones de satisfacción o lealtad del cliente para productos y, mediante la agrupación, para desarrollar segmentos de mercado a los que se puedan dirigir campañas publicitarias, de la misma manera que la ecología factorial ubica áreas geográficas con características similares. ^[54]

El PCA transforma rápidamente grandes cantidades de datos en variables más pequeñas y fáciles de digerir que pueden analizarse con mayor rapidez y facilidad. En cualquier cuestionario de consumo hay una serie de preguntas diseñadas para obtener las actitudes de los consumidores, y los componentes principales buscan variables latentes subyacentes a esas actitudes. Por ejemplo, la Encuesta de Internet de Oxford de 2013 preguntó a 2000 personas sobre sus actitudes y creencias, y de estas preguntas los analistas extrajeron cuatro dimensiones de componentes principales, que identificaron como "escape", "redes sociales", "eficiencia" y "creación de problemas". ^[55]

Otro ejemplo de Joe Flood en 2008 extrajo un índice de actitud hacia la vivienda a partir de 28 preguntas sobre actitudes en una encuesta nacional de 2697 hogares en Australia. El primer componente principal representaba una actitud general hacia la propiedad y la posesión de una vivienda. El índice, o las preguntas sobre actitudes que incorporaba, podían incorporarse a un modelo lineal general de elección de tenencia. El determinante más fuerte del alquiler privado fue, con diferencia, el índice de actitud, más que los ingresos, el estado civil o el tipo de hogar. ^[56]

Finanzas cuantitativas

En finanzas cuantitativas , el PCA se utiliza ^[57] en la gestión del riesgo financiero y se ha aplicado a otros problemas como la optimización de carteras .

El PCA se utiliza comúnmente en problemas que involucran valores de renta fija y carteras , y derivados de tipos de interés . Las valoraciones aquí dependen de toda la curva de rendimiento , que comprende numerosos instrumentos altamente correlacionados, y el PCA se utiliza para definir un conjunto de componentes o factores que explican los movimientos de los tipos, ^[58] facilitando así el modelado. Una aplicación común de la gestión de riesgos es el cálculo del valor en riesgo , VaR, aplicando el PCA a la simulación de Monte Carlo . ^[59] Aquí, para cada muestra de simulación, los componentes se estresan, y los tipos, y a su vez los valores de las opciones , se reconstruyen; con el VaR calculado, finalmente, sobre toda la ejecución. El PCA también se utiliza para cubrir la exposición al riesgo de tipos de interés , dadas las duraciones parciales y otras sensibilidades. ^[58] En ambos casos, los primeros tres, típicamente, componentes principales del sistema son de interés ( que representan "desplazamiento", "giro" y "curvatura"). Estos componentes principales se derivan de una descomposición propia de la matriz de covarianza del rendimiento en vencimientos predefinidos; ^[60] y donde la varianza de cada componente es su valor propio (y como los componentes son ortogonales , no es necesario incorporar correlación en el modelado posterior).

En el caso de las acciones , una cartera óptima es aquella en la que se maximiza el rendimiento esperado para un nivel de riesgo determinado o, alternativamente, en la que se minimiza el riesgo para un rendimiento determinado; véase el modelo de Markowitz para una discusión. Por lo tanto, un enfoque es reducir el riesgo de la cartera, donde las estrategias de asignación se aplican a las "carteras principales" en lugar de a las acciones subyacentes . Un segundo enfoque es mejorar el rendimiento de la cartera, utilizando los componentes principales para seleccionar las acciones de las empresas con potencial alcista. ^[61] ^[62] El PCA también se ha utilizado para comprender las relaciones ^{[57] entre}los mercados de acciones internacionales y dentro de los mercados entre grupos de empresas en industrias o sectores .

El PCA también puede aplicarse a las pruebas de estrés , ^[63] que son esencialmente un análisis de la capacidad de un banco para soportar un escenario económico adverso hipotético . Su utilidad consiste en "destilar la información contenida en [varias] variables macroeconómicas en un conjunto de datos más manejable, que luego puede [utilizarse] para el análisis". ^[63] Aquí, los factores resultantes se vinculan, por ejemplo, a las tasas de interés (basándose en los elementos más grandes del vector propio del factor ) y luego se observa cómo un "shock" a cada uno de los factores afecta los activos implícitos de cada uno de los bancos.

Neurociencia

Una variante del análisis de componentes principales se utiliza en neurociencia para identificar las propiedades específicas de un estímulo que aumenta la probabilidad de una neurona de generar un potencial de acción . ^[64]^[65] Esta técnica se conoce como análisis de covarianza desencadenado por picos . En una aplicación típica, un experimentador presenta un proceso de ruido blanco como estímulo (generalmente como una entrada sensorial a un sujeto de prueba o como una corriente inyectada directamente en la neurona) y registra un tren de potenciales de acción, o picos, producidos por la neurona como resultado. Presumiblemente, ciertas características del estímulo hacen que la neurona tenga más probabilidades de generar picos. Para extraer estas características, el experimentador calcula la matriz de covarianza del conjunto desencadenado por picos , el conjunto de todos los estímulos (definidos y discretizados en una ventana de tiempo finita, típicamente del orden de 100 ms) que precedieron inmediatamente a un pico. Los vectores propios de la diferencia entre la matriz de covarianza activada por picos y la matriz de covarianza del conjunto de estímulos anterior (el conjunto de todos los estímulos, definidos en la misma ventana de tiempo) indican entonces las direcciones en el espacio de estímulos a lo largo de las cuales la varianza del conjunto activado por picos difería más de la del conjunto de estímulos anterior. Específicamente, los vectores propios con los valores propios positivos más grandes corresponden a las direcciones a lo largo de las cuales la varianza del conjunto activado por picos mostró el cambio positivo más grande en comparación con la varianza del anterior. Dado que estas fueron las direcciones en las que la variación del estímulo condujo a un pico, a menudo son buenas aproximaciones de las características relevantes del estímulo buscadas.

En neurociencia, el PCA también se utiliza para discernir la identidad de una neurona a partir de la forma de su potencial de acción. La clasificación de picos es un procedimiento importante porque las técnicas de registro extracelular a menudo captan señales de más de una neurona. En la clasificación de picos, primero se utiliza el PCA para reducir la dimensionalidad del espacio de las formas de onda del potencial de acción y luego se realiza un análisis de agrupamiento para asociar potenciales de acción específicos con neuronas individuales.

El PCA como técnica de reducción de dimensión es particularmente adecuado para detectar actividades coordinadas de grandes conjuntos neuronales. Se ha utilizado para determinar variables colectivas, es decir, parámetros de orden , durante las transiciones de fase en el cerebro. ^[66]

Relación con otros métodos

Análisis de correspondencia

El análisis de correspondencias (AC) fue desarrollado por Jean-Paul Benzécri ^[67] y es conceptualmente similar al PCA, pero escala los datos (que deben ser no negativos) de modo que las filas y columnas se tratan de manera equivalente. Se aplica tradicionalmente a las tablas de contingencia . El AC descompone la estadística de chi-cuadrado asociada a esta tabla en factores ortogonales. ^[68] Debido a que el AC es una técnica descriptiva, se puede aplicar a tablas para las que la estadística de chi-cuadrado es apropiada o no. Hay varias variantes del AC disponibles, incluido el análisis de correspondencias sin tendencia y el análisis de correspondencias canónico . Una extensión especial es el análisis de correspondencias múltiples , que puede verse como la contraparte del análisis de componentes principales para datos categóricos. ^[69]

Análisis factorial

El análisis de componentes principales crea variables que son combinaciones lineales de las variables originales. Las nuevas variables tienen la propiedad de que todas son ortogonales. La transformación PCA puede ser útil como paso de preprocesamiento antes de la agrupación. El PCA es un enfoque centrado en la varianza que busca reproducir la varianza total de la variable, en el que los componentes reflejan tanto la varianza común como la única de la variable. El PCA se prefiere generalmente para fines de reducción de datos (es decir, traducir el espacio de variables en un espacio factorial óptimo), pero no cuando el objetivo es detectar el constructo o los factores latentes.

El análisis factorial es similar al análisis de componentes principales, en el sentido de que el análisis factorial también implica combinaciones lineales de variables. A diferencia del PCA, el análisis factorial es un enfoque centrado en la correlación que busca reproducir las intercorrelaciones entre variables, en las que los factores "representan la varianza común de las variables, excluyendo la varianza única". ^[70] En términos de la matriz de correlación, esto corresponde con centrarse en explicar los términos fuera de la diagonal (es decir, covarianza compartida), mientras que el PCA se centra en explicar los términos que se encuentran en la diagonal. Sin embargo, como resultado secundario, al intentar reproducir los términos en la diagonal, el PCA también tiende a ajustarse relativamente bien a las correlaciones fuera de la diagonal. ^[12]^{: 158} Los resultados dados por el PCA y el análisis factorial son muy similares en la mayoría de las situaciones, pero este no siempre es el caso, y hay algunos problemas donde los resultados son significativamente diferentes. El análisis factorial se utiliza generalmente cuando el propósito de la investigación es detectar la estructura de los datos (es decir, constructos o factores latentes) o el modelado causal . Si el modelo factorial está incorrectamente formulado o no se cumplen los supuestos, entonces el análisis factorial arrojará resultados erróneos. ^[71]

K-significa agrupamiento

Se ha afirmado que la solución relajada del agrupamiento de k -medias , especificada por los indicadores de agrupamiento, está dada por los componentes principales, y el subespacio PCA abarcado por las direcciones principales es idéntico al subespacio del centroide del agrupamiento. ^[72]^[73] Sin embargo, que el PCA es una relajación útil del agrupamiento $de k$ -medias no era un resultado nuevo, ^[74] y es sencillo descubrir contraejemplos a la afirmación de que el subespacio del centroide del agrupamiento está abarcado por las direcciones principales. ^[75]

Factorización de matrices no negativas

La factorización matricial no negativa (NMF) es un método de reducción de dimensión en el que solo se utilizan elementos no negativos en las matrices, lo que lo convierte en un método prometedor en astronomía, ^[23]^[24]^[25] en el sentido de que las señales astrofísicas no son negativas. Los componentes de PCA son ortogonales entre sí, mientras que los componentes de NMF son todos no negativos y, por lo tanto, construyen una base no ortogonal.

In PCA, the contribution of each component is ranked based on the magnitude of its corresponding eigenvalue, which is equivalent to the fractional residual variance (FRV) in analyzing empirical data.^[21] For NMF, its components are ranked based only on the empirical FRV curves.^[25] The residual fractional eigenvalue plots, that is, $1-\sum _{i=1}^{k}\lambda _{i}{\Big /}\sum _{j=1}^{n}\lambda _{j}$ as a function of component number $k$ given a total of $n$ components, for PCA have a flat plateau, where no data is captured to remove the quasi-static noise, then the curves drop quickly as an indication of over-fitting (random noise).^[21] The FRV curves for NMF is decreasing continuously^[25] when the NMF components are constructed sequentially,^[24] indicating the continuous capturing of quasi-static noise; then converge to higher levels than PCA,^[25] indicating the less over-fitting property of NMF.

Iconography of correlations

It is often difficult to interpret the principal components when the data include many variables of various origins, or when some variables are qualitative. This leads the PCA user to a delicate elimination of several variables. If observations or variables have an excessive impact on the direction of the axes, they should be removed and then projected as supplementary elements. In addition, it is necessary to avoid interpreting the proximities between the points close to the center of the factorial plane.

The iconography of correlations, on the contrary, which is not a projection on a system of axes, does not have these drawbacks. We can therefore keep all the variables.

The principle of the diagram is to underline the "remarkable" correlations of the correlation matrix, by a solid line (positive correlation) or dotted line (negative correlation).

A strong correlation is not "remarkable" if it is not direct, but caused by the effect of a third variable. Conversely, weak correlations can be "remarkable". For example, if a variable Y depends on several independent variables, the correlations of Y with each of them are weak and yet "remarkable".

Generalizations

Sparse PCA

A particular disadvantage of PCA is that the principal components are usually linear combinations of all input variables. Sparse PCA overcomes this disadvantage by finding linear combinations that contain just a few input variables. It extends the classic method of principal component analysis (PCA) for the reduction of dimensionality of data by adding sparsity constraint on the input variables. Several approaches have been proposed, including

a regression framework,^[76]
a convex relaxation/semidefinite programming framework,^[77]
a generalized power method framework^[78]
an alternating maximization framework^[79]
forward-backward greedy search and exact methods using branch-and-bound techniques,^[80]
Bayesian formulation framework.^[81]

The methodological and theoretical developments of Sparse PCA as well as its applications in scientific studies were recently reviewed in a survey paper.^[82]

Nonlinear PCA

Most of the modern methods for nonlinear dimensionality reduction find their theoretical and algorithmic roots in PCA or K-means. Pearson's original idea was to take a straight line (or plane) which will be "the best fit" to a set of data points. Trevor Hastie expanded on this concept by proposing Principal curves^[86] as the natural extension for the geometric interpretation of PCA, which explicitly constructs a manifold for data approximation followed by projecting the points onto it. See also the elastic map algorithm and principal geodesic analysis.^[87] Another popular generalization is kernel PCA, which corresponds to PCA performed in a reproducing kernel Hilbert space associated with a positive definite kernel.

In multilinear subspace learning,^[88]^[89]^[90] PCA is generalized to multilinear PCA (MPCA) that extracts features directly from tensor representations. MPCA is solved by performing PCA in each mode of the tensor iteratively. MPCA has been applied to face recognition, gait recognition, etc. MPCA is further extended to uncorrelated MPCA, non-negative MPCA and robust MPCA.

N-way principal component analysis may be performed with models such as Tucker decomposition, PARAFAC, multiple factor analysis, co-inertia analysis, STATIS, and DISTATIS.

Robust PCA

While PCA finds the mathematically optimal method (as in minimizing the squared error), it is still sensitive to outliers in the data that produce large errors, something that the method tries to avoid in the first place. It is therefore common practice to remove outliers before computing PCA. However, in some contexts, outliers can be difficult to identify^[91]. For example, in data mining algorithms like correlation clustering, the assignment of points to clusters and outliers is not known beforehand. A recently proposed generalization of PCA^[92] based on a weighted PCA increases robustness by assigning different weights to data objects based on their estimated relevancy.

Outlier-resistant variants of PCA have also been proposed, based on L1-norm formulations (L1-PCA).^[6]^[4]

Robust principal component analysis (RPCA) via decomposition in low-rank and sparse matrices is a modification of PCA that works well with respect to grossly corrupted observations.^[93]^[94]^[95]

Similar techniques

Independent component analysis

Independent component analysis (ICA) is directed to similar problems as principal component analysis, but finds additively separable components rather than successive approximations.

Network component analysis

Given a matrix $E$ , it tries to decompose it into two matrices such that $E=AP$ . A key difference from techniques such as PCA and ICA is that some of the entries of $A$ are constrained to be 0. Here $P$ is termed the regulatory layer. While in general such a decomposition can have multiple solutions, they prove that if the following conditions are satisfied :

$A$ has full column rank
Each column of $A$ must have at least $L-1$ zeroes where $L$ is the number of columns of $A$ (or alternatively the number of rows of $P$ ). The justification for this criterion is that if a node is removed from the regulatory layer along with all the output nodes connected to it, the result must still be characterized by a connectivity matrix with full column rank.
$P$ must have full row rank.

then the decomposition is unique up to multiplication by a scalar.^[96]

Discriminant analysis of principal components

Discriminant analysis of principal components (DAPC) is a multivariate method used to identify and describe clusters of genetically related individuals. Genetic variation is partitioned into two components: variation between groups and within groups, and it maximizes the former. Linear discriminants are linear combinations of alleles which best separate the clusters. Alleles that most contribute to this discrimination are therefore those that are the most markedly different across groups. The contributions of alleles to the groupings identified by DAPC can allow identifying regions of the genome driving the genetic divergence among groups^[97]In DAPC, data is first transformed using a principal components analysis (PCA) and subsequently clusters are identified using discriminant analysis (DA).

A DAPC can be realized on R using the package Adegenet. (more info: adegenet on the web)

Directional component analysis

Directional component analysis (DCA) is a method used in the atmospheric sciences for analysing multivariate datasets.^[98]Like PCA, it allows for dimension reduction, improved visualization and improved interpretability of large data-sets. Also like PCA, it is based on a covariance matrix derived from the input dataset. The difference between PCA and DCA is that DCA additionally requires the input of a vector direction, referred to as the impact. Whereas PCA maximises explained variance, DCA maximises probability density given impact. The motivation for DCA is to find components of a multivariate dataset that are both likely (measured using probability density) and important (measured using the impact). DCA has been used to find the most likely and most serious heat-wave patterns in weather prediction ensembles ,^[99] and the most likely and most impactful changes in rainfall due to climate change .^[100]

Software/source code

ALGLIB – a C++ and C# library that implements PCA and truncated PCA
Analytica – The built-in EigenDecomp function computes principal components.
ELKI – includes PCA for projection, including robust variants of PCA, as well as PCA-based clustering algorithms.
Gretl – principal component analysis can be performed either via the pca command or via the princomp() function.
Julia – Supports PCA with the pca function in the MultivariateStats package
KNIME – A java based nodal arranging software for Analysis, in this the nodes called PCA, PCA compute, PCA Apply, PCA inverse make it easily.
Maple (software) – The PCA command is used to perform a principal component analysis on a set of data.
Mathematica – Implements principal component analysis with the PrincipalComponents command using both covariance and correlation methods.
MathPHP – PHP mathematics library with support for PCA.
MATLAB – The SVD function is part of the basic system. In the Statistics Toolbox, the functions princomp and pca (R2012b) give the principal components, while the function pcares gives the residuals and reconstructed matrix for a low-rank PCA approximation.
Matplotlib – Python library have a PCA package in the .mlab module.
mlpack – Provides an implementation of principal component analysis in C++.
mrmath – A high performance math library for Delphi and FreePascal can perform PCA; including robust variants.
NAG Library – Principal components analysis is implemented via the g03aa routine (available in both the Fortran versions of the Library).
NMath – Proprietary numerical library containing PCA for the .NET Framework.
GNU Octave – Free software computational environment mostly compatible with MATLAB, the function princomp gives the principal component.
OpenCV
Oracle Database 12c – Implemented via DBMS_DATA_MINING.SVDS_SCORING_MODE by specifying setting value SVDS_SCORING_PCA
Orange (software) – Integrates PCA in its visual programming environment. PCA displays a scree plot (degree of explained variance) where user can interactively select the number of principal components.
Origin – Contains PCA in its Pro version.
Qlucore – Commercial software for analyzing multivariate data with instant response using PCA.
R – Free statistical package, the functions princomp and prcomp can be used for principal component analysis; prcomp uses singular value decomposition which generally gives better numerical accuracy. Some packages that implement PCA in R, include, but are not limited to: ade4, vegan, ExPosition, dimRed, and FactoMineR.
SAS – Proprietary software; for example, see^[101]
scikit-learn – Python library for machine learning which contains PCA, Probabilistic PCA, Kernel PCA, Sparse PCA and other techniques in the decomposition module.
Scilab – Free and open-source, cross-platform numerical computational package, the function princomp computes principal component analysis, the function pca computes principal component analysis with standardized variables.
SPSS – Proprietary software most commonly used by social scientists for PCA, factor analysis and associated cluster analysis.
Weka – Java library for machine learning which contains modules for computing principal components.

References

^ Jolliffe, Ian T.; Cadima, Jorge (2016-04-13). "Principal component analysis: a review and recent developments". Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences. 374 (2065): 20150202. Bibcode:2016RSPTA.37450202J. doi:10.1098/rsta.2015.0202. PMC 4792409. PMID 26953178.
^ Barnett, T. P. & R. Preisendorfer. (1987). "Origins and levels of monthly and seasonal forecast skill for United States surface air temperatures determined by canonical correlation analysis". Monthly Weather Review. 115 (9): 1825. Bibcode:1987MWRv..115.1825B. doi:10.1175/1520-0493(1987)115<1825:oaloma>2.0.co;2.
^ Hsu, Daniel; Kakade, Sham M.; Zhang, Tong (2008). A spectral algorithm for learning hidden markov models. arXiv:0811.4413. Bibcode:2008arXiv0811.4413H.
^ a b Markopoulos, Panos P.; Kundu, Sandipan; Chamadia, Shubham; Pados, Dimitris A. (15 August 2017). "Efficient L1-Norm Principal-Component Analysis via Bit Flipping". IEEE Transactions on Signal Processing. 65 (16): 4252–4264. arXiv:1610.01959. Bibcode:2017ITSP...65.4252M. doi:10.1109/TSP.2017.2708023. S2CID 7931130.
^ a b Chachlakis, Dimitris G.; Prater-Bennette, Ashley; Markopoulos, Panos P. (22 November 2019). "L1-norm Tucker Tensor Decomposition". IEEE Access. 7: 178454–178465. arXiv:1904.06455. doi:10.1109/ACCESS.2019.2955134.
^ a b Markopoulos, Panos P.; Karystinos, George N.; Pados, Dimitris A. (October 2014). "Optimal Algorithms for L1-subspace Signal Processing". IEEE Transactions on Signal Processing. 62 (19): 5046–5058. arXiv:1405.6785. Bibcode:2014ITSP...62.5046M. doi:10.1109/TSP.2014.2338077. S2CID 1494171.
^ Zhan, J.; Vaswani, N. (2015). "Robust PCA With Partial Subspace Knowledge". IEEE Transactions on Signal Processing. 63 (13): 3332–3347. arXiv:1403.1591. Bibcode:2015ITSP...63.3332Z. doi:10.1109/tsp.2015.2421485. S2CID 1516440.
^ Kanade, T.; Ke, Qifa (June 2005). "Robust L₁ Norm Factorization in the Presence of Outliers and Missing Data by Alternative Convex Programming". 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). Vol. 1. IEEE. pp. 739–746. CiteSeerX 10.1.1.63.4605. doi:10.1109/CVPR.2005.309. ISBN 978-0-7695-2372-9. S2CID 17144854.
^ Pearson, K. (1901). "On Lines and Planes of Closest Fit to Systems of Points in Space". Philosophical Magazine. 2 (11): 559–572. doi:10.1080/14786440109462720. S2CID 125037489.
^ Hotelling, H. (1933). Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology, 24, 417–441, and 498–520.
Hotelling, H (1936). "Relations between two sets of variates". Biometrika. 28 (3/4): 321–377. doi:10.2307/2333955. JSTOR 2333955.
^ Stewart, G. W. (1993). "On the early history of the singular value decomposition". SIAM Review. 35 (4): 551–566. doi:10.1137/1035134. hdl:1903/566.
^ a b c d e Jolliffe, I. T. (2002). Principal Component Analysis. Springer Series in Statistics. New York: Springer-Verlag. doi:10.1007/b98835. ISBN 978-0-387-95442-4.
^ Bengio, Y.; et al. (2013). "Representation Learning: A Review and New Perspectives". IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798–1828. arXiv:1206.5538. doi:10.1109/TPAMI.2013.50. PMID 23787338. S2CID 393948.
^ Forkman J., Josse, J., Piepho, H. P. (2019). "Hypothesis tests for principal component analysis when variables are standardized". Journal of Agricultural, Biological, and Environmental Statistics. 24 (2): 289–308. doi:10.1007/s13253-019-00355-5.{{cite journal}}: CS1 maint: multiple names: authors list (link)
^ Boyd, Stephen; Vandenberghe, Lieven (2004-03-08). Convex Optimization. Cambridge University Press. doi:10.1017/cbo9780511804441. ISBN 978-0-521-83378-3.
^ A. A. Miranda, Y. A. Le Borgne, and G. Bontempi. New Routes from Minimal Approximation Error to Principal Components, Volume 27, Number 3 / June, 2008, Neural Processing Letters, Springer
^ Fukunaga, Keinosuke (1990). Introduction to Statistical Pattern Recognition. Elsevier. ISBN 978-0-12-269851-4.
^ Alizadeh, Elaheh; Lyons, Samanthe M; Castle, Jordan M; Prasad, Ashok (2016). "Measuring systematic changes in invasive cancer cell shape using Zernike moments". Integrative Biology. 8 (11): 1183–1193. doi:10.1039/C6IB00100A. PMID 27735002.
^ Leznik, M; Tofallis, C. 2005 Estimating Invariant Principal Components Using Diagonal Regression.
^ Jonathon Shlens, A Tutorial on Principal Component Analysis.
^ a b c Soummer, Rémi; Pueyo, Laurent; Larkin, James (2012). "Detection and Characterization of Exoplanets and Disks Using Projections on Karhunen-Loève Eigenimages". The Astrophysical Journal Letters. 755 (2): L28. arXiv:1207.4197. Bibcode:2012ApJ...755L..28S. doi:10.1088/2041-8205/755/2/L28. S2CID 51088743.
^ Pueyo, Laurent (2016). "Detection and Characterization of Exoplanets using Projections on Karhunen Loeve Eigenimages: Forward Modeling". The Astrophysical Journal. 824 (2): 117. arXiv:1604.06097. Bibcode:2016ApJ...824..117P. doi:10.3847/0004-637X/824/2/117. S2CID 118349503.
^ a b Blanton, Michael R.; Roweis, Sam (2007). "K-corrections and filter transformations in the ultraviolet, optical, and near infrared". The Astronomical Journal. 133 (2): 734–754. arXiv:astro-ph/0606170. Bibcode:2007AJ....133..734B. doi:10.1086/510127. S2CID 18561804.
^ a b c Zhu, Guangtun B. (2016-12-19). "Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data". arXiv:1612.06037 [astro-ph.IM].
^ a b c d e f Ren, Bin; Pueyo, Laurent; Zhu, Guangtun B.; Duchêne, Gaspard (2018). "Non-negative Matrix Factorization: Robust Extraction of Extended Structures". The Astrophysical Journal. 852 (2): 104. arXiv:1712.10317. Bibcode:2018ApJ...852..104R. doi:10.3847/1538-4357/aaa1f2. S2CID 3966513.
^ "What are the Pros and cons of the PCA?". i2tutorials. September 1, 2019. Retrieved June 4, 2021.
^ Abbott, Dean (May 2014). Applied Predictive Analytics. Wiley. ISBN 9781118727966.
^ a b Jiang, Hong; Eskridge, Kent M. (2000). "Bias in Principal Components Analysis Due to Correlated Observations". Conference on Applied Statistics in Agriculture. doi:10.4148/2475-7772.1247. ISSN 2475-7772.
^ Linsker, Ralph (March 1988). "Self-organization in a perceptual network". IEEE Computer. 21 (3): 105–117. doi:10.1109/2.36. S2CID 1527671.
^ Deco & Obradovic (1996). An Information-Theoretic Approach to Neural Computing. New York, NY: Springer. ISBN 9781461240167.
^ Plumbley, Mark (1991). Information theory and unsupervised neural networks.Tech Note
^ Geiger, Bernhard; Kubin, Gernot (January 2013). "Signal Enhancement as Minimization of Relevant Information Loss". Proc. ITG Conf. On Systems, Communication and Coding. arXiv:1205.6935. Bibcode:2012arXiv1205.6935G.
^ See also the tutorial here
^ "Engineering Statistics Handbook Section 6.5.5.2". Retrieved 19 January 2015.
^ A.A. Miranda, Y.-A. Le Borgne, and G. Bontempi. New Routes from Minimal Approximation Error to Principal Components, Volume 27, Number 3 / June, 2008, Neural Processing Letters, Springer
^ Abdi. H. & Williams, L.J. (2010). "Principal component analysis". Wiley Interdisciplinary Reviews: Computational Statistics. 2 (4): 433–459. arXiv:1108.4372. doi:10.1002/wics.101. S2CID 122379222.
^ "SAS/STAT(R) 9.3 User's Guide".
^ eig function Matlab documentation
^ "Face Recognition System-PCA based". www.mathworks.com. 19 June 2023.
^ Eigenvalues function Mathematica documentation
^ Roweis, Sam. "EM Algorithms for PCA and SPCA." Advances in Neural Information Processing Systems. Ed. Michael I. Jordan, Michael J. Kearns, and Sara A. Solla The MIT Press, 1998.
^ Geladi, Paul; Kowalski, Bruce (1986). "Partial Least Squares Regression:A Tutorial". Analytica Chimica Acta. 185: 1–17. doi:10.1016/0003-2670(86)80028-9.
^ Kramer, R. (1998). Chemometric Techniques for Quantitative Analysis. New York: CRC Press. ISBN 9780203909805.
^ Andrecut, M. (2009). "Parallel GPU Implementation of Iterative PCA Algorithms". Journal of Computational Biology. 16 (11): 1593–1599. arXiv:0811.1081. doi:10.1089/cmb.2008.0221. PMID 19772385. S2CID 1362603.
^ Warmuth, M. K.; Kuzmin, D. (2008). "Randomized online PCA algorithms with regret bounds that are logarithmic in the dimension" (PDF). Journal of Machine Learning Research. 9: 2287–2320.
^ Kaplan, R.M., & Saccuzzo, D.P. (2010). Psychological Testing: Principles, Applications, and Issues. (8th ed.). Belmont, CA: Wadsworth, Cengage Learning.
^ Shevky, Eshref; Williams, Marilyn (1949). The Social Areas of Los Angeles: Analysis and Typology. University of California Press.
^ Flood, J (2000). Sydney divided: factorial ecology revisited. Paper to the APA Conference 2000, Melbourne, November and to the 24th ANZRSAI Conference, Hobart, December 2000.[1]
^ "Socio-Economic Indexes for Areas". Australian Bureau of Statistics. 2011. Retrieved 2022-05-05.
^ Schamberger, Tamara; Schuberth, Florian; Henseler, Jörg. "Confirmatory composite analysis in human development research". International Journal of Behavioral Development. 47 (1): 88–100. doi:10.1177/01650254221117506.
^ Human Development Reports. "Human Development Index". United Nations Development Programme. Retrieved 2022-05-06.
^ Novembre, John; Stephens, Matthew (2008). "Interpreting principal component analyses of spatial population genetic variation". Nat Genet. 40 (5): 646–49. doi:10.1038/ng.139. PMC 3989108. PMID 18425127.
^ Elhaik, Eran (2022). "Principal Component Analyses (PCA)‑based findings in population genetic studies are highly biased and must be reevaluated". Scientific Reports. 12 (1). 14683. Bibcode:2022NatSR..1214683E. doi:10.1038/s41598-022-14395-4. PMC 9424212. PMID 36038559. S2CID 251932226.
^ DeSarbo, Wayne; Hausmann, Robert; Kukitz, Jeffrey (2007). "Restricted principal components analysis for marketing research". Journal of Marketing in Management. 2: 305–328 – via Researchgate.
^ Dutton, William H; Blank, Grant (2013). Cultures of the Internet: The Internet in Britain (PDF). Oxford Internet Institute. p. 6.
^ Flood, Joe (2008). "Multinomial Analysis for Housing Careers Survey". Paper to the European Network for Housing Research Conference, Dublin. Retrieved 6 May 2022.
^ a b See Ch. 9 in Michael B. Miller (2013). Mathematics and Statistics for Financial Risk Management, 2nd Edition. Wiley ISBN 978-1-118-75029-2
^ a b §9.7 in John Hull (2018). Risk Management and Financial Institutions, 5th Edition. Wiley. ISBN 1119448115
^ §III.A.3.7.2 in Carol Alexander and Elizabeth Sheedy, eds. (2004). The Professional Risk Managers’ Handbook. PRMIA. ISBN 978-0976609704
^ example decomposition, John Hull
^ Libin Yang. An Application of Principal Component Analysis to Stock Portfolio Management. Department of Economics and Finance, University of Canterbury, January 2015.
^ Giorgia Pasini (2017); Principal Component Analysis for Stock Portfolio Management. International Journal of Pure and Applied Mathematics. Volume 115 No. 1 2017, 153–167
^ a b See Ch. 25 § "Scenario testing using principal component analysis" in Li Ong (2014). "A Guide to IMF Stress Testing Methods and Models", International Monetary Fund
^ Chapin, John; Nicolelis, Miguel (1999). "Principal component analysis of neuronal ensemble activity reveals multidimensional somatosensory representations". Journal of Neuroscience Methods. 94 (1): 121–140. doi:10.1016/S0165-0270(99)00130-2. PMID 10638820. S2CID 17786731.
^ Brenner, N., Bialek, W., & de Ruyter van Steveninck, R.R. (2000).
^ Jirsa, Victor; Friedrich, R; Haken, Herman; Kelso, Scott (1994). "A theoretical model of phase transitions in the human brain". Biological Cybernetics. 71 (1): 27–35. doi:10.1007/bf00198909. PMID 8054384. S2CID 5155075.
^ Benzécri, J.-P. (1973). L'Analyse des Données. Volume II. L'Analyse des Correspondances. Paris, France: Dunod.
^ Greenacre, Michael (1983). Theory and Applications of Correspondence Analysis. London: Academic Press. ISBN 978-0-12-299050-2.
^ Le Roux; Brigitte and Henry Rouanet (2004). Geometric Data Analysis, From Correspondence Analysis to Structured Data Analysis. Dordrecht: Kluwer. ISBN 9781402022357.
^ Timothy A. Brown. Confirmatory Factor Analysis for Applied Research Methodology in the social sciences. Guilford Press, 2006
^ Meglen, R.R. (1991). "Examining Large Databases: A Chemometric Approach Using Principal Component Analysis". Journal of Chemometrics. 5 (3): 163–179. doi:10.1002/cem.1180050305. S2CID 120886184.
^ H. Zha; C. Ding; M. Gu; X. He; H.D. Simon (Dec 2001). "Spectral Relaxation for K-means Clustering" (PDF). Neural Information Processing Systems Vol.14 (NIPS 2001): 1057–1064.
^ Chris Ding; Xiaofeng He (July 2004). "K-means Clustering via Principal Component Analysis" (PDF). Proc. Of Int'l Conf. Machine Learning (ICML 2004): 225–232.
^ Drineas, P.; A. Frieze; R. Kannan; S. Vempala; V. Vinay (2004). "Clustering large graphs via the singular value decomposition" (PDF). Machine Learning. 56 (1–3): 9–33. doi:10.1023/b:mach.0000033113.59016.96. S2CID 5892850. Retrieved 2012-08-02.
^ Cohen, M.; S. Elder; C. Musco; C. Musco; M. Persu (2014). Dimensionality reduction for k-means clustering and low rank approximation (Appendix B). arXiv:1410.6801. Bibcode:2014arXiv1410.6801C.
^ Hui Zou; Trevor Hastie; Robert Tibshirani (2006). "Sparse principal component analysis" (PDF). Journal of Computational and Graphical Statistics. 15 (2): 262–286. CiteSeerX 10.1.1.62.580. doi:10.1198/106186006x113430. S2CID 5730904.
^ Alexandre d'Aspremont; Laurent El Ghaoui; Michael I. Jordan; Gert R. G. Lanckriet (2007). "A Direct Formulation for Sparse PCA Using Semidefinite Programming" (PDF). SIAM Review. 49 (3): 434–448. arXiv:cs/0406021. doi:10.1137/050645506. S2CID 5490061.
^ Michel Journee; Yurii Nesterov; Peter Richtarik; Rodolphe Sepulchre (2010). "Generalized Power Method for Sparse Principal Component Analysis" (PDF). Journal of Machine Learning Research. 11: 517–553. arXiv:0811.4724. Bibcode:2008arXiv0811.4724J. CORE Discussion Paper 2008/70.
^ Peter Richtarik; Martin Takac; S. Damla Ahipasaoglu (2012). "Alternating Maximization: Unifying Framework for 8 Sparse PCA Formulations and Efficient Parallel Codes". arXiv:1212.4137 [stat.ML].
^ Baback Moghaddam; Yair Weiss; Shai Avidan (2005). "Spectral Bounds for Sparse PCA: Exact and Greedy Algorithms" (PDF). Advances in Neural Information Processing Systems. Vol. 18. MIT Press.
^ Yue Guan; Jennifer Dy (2009). "Sparse Probabilistic Principal Component Analysis" (PDF). Journal of Machine Learning Research Workshop and Conference Proceedings. 5: 185.
^ Hui Zou; Lingzhou Xue (2018). "A Selective Overview of Sparse Principal Component Analysis". Proceedings of the IEEE. 106 (8): 1311–1320. doi:10.1109/JPROC.2018.2846588.
^ A. N. Gorban, A. Y. Zinovyev, "Principal Graphs and Manifolds", In: Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods and Techniques, Olivas E.S. et al Eds. Information Science Reference, IGI Global: Hershey, PA, USA, 2009. 28–59.
^ Wang, Y.; Klijn, J. G.; Zhang, Y.; Sieuwerts, A. M.; Look, M. P.; Yang, F.; Talantov, D.; Timmermans, M.; Meijer-van Gelder, M. E.; Yu, J.; et al. (2005). "Gene expression profiles to predict distant metastasis of lymph-node-negative primary breast cancer". The Lancet. 365 (9460): 671–679. doi:10.1016/S0140-6736(05)17947-1. PMID 15721472. S2CID 16358549. Data online
^ Zinovyev, A. "ViDaExpert – Multidimensional Data Visualization Tool". Institut Curie. Paris. (free for non-commercial use)
^ Hastie, T.; Stuetzle, W. (June 1989). "Principal Curves" (PDF). Journal of the American Statistical Association. 84 (406): 502–506. doi:10.1080/01621459.1989.10478797.
^ A.N. Gorban, B. Kegl, D.C. Wunsch, A. Zinovyev (Eds.), Principal Manifolds for Data Visualisation and Dimension Reduction, LNCSE 58, Springer, Berlin – Heidelberg – New York, 2007. ISBN 978-3-540-73749-0
^ Vasilescu, M.A.O.; Terzopoulos, D. (2003). Multilinear Subspace Analysis of Image Ensembles (PDF). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR’03). Madison, WI.
^ Vasilescu, M.A.O.; Terzopoulos, D. (2002). Multilinear Analysis of Image Ensembles: TensorFaces (PDF). Lecture Notes in Computer Science 2350; (Presented at Proc. 7th European Conference on Computer Vision (ECCV'02), Copenhagen, Denmark). Springer, Berlin, Heidelberg. doi:10.1007/3-540-47969-4_30. ISBN 978-3-540-43745-1.
^ Vasilescu, M.A.O.; Terzopoulos, D. (June 2005). Multilinear Independent Component Analysis (PDF). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR’05). Vol. 1. San Diego, CA. pp. 547–553.
^ Kirill Simonov, Fedor V. Fomin, Petr A. Golovach, Fahad Panolan (June 9–15, 2019). "Refined Complexity of PCA with Outliers". In Kamalika Chaudhuri, Ruslan Salakhutdinov (ed.). Proceedings of the 36th International Conference on Machine Learning (ICML 2019). Vol. 97. Long Beach, California, USA: PMLR. pp. 5818–5826.{{cite conference}}: CS1 maint: multiple names: authors list (link)
^ Kriegel, H. P.; Kröger, P.; Schubert, E.; Zimek, A. (2008). "A General Framework for Increasing the Robustness of PCA-Based Correlation Clustering Algorithms". Scientific and Statistical Database Management. Lecture Notes in Computer Science. Vol. 5069. pp. 418–435. CiteSeerX 10.1.1.144.4864. doi:10.1007/978-3-540-69497-7_27. ISBN 978-3-540-69476-2.
^ Emmanuel J. Candes; Xiaodong Li; Yi Ma; John Wright (2011). "Robust Principal Component Analysis?". Journal of the ACM. 58 (3): 11. arXiv:0912.3599. doi:10.1145/1970392.1970395. S2CID 7128002.
^ T. Bouwmans; E. Zahzah (2014). "Robust PCA via Principal Component Pursuit: A Review for a Comparative Evaluation in Video Surveillance". Computer Vision and Image Understanding. 122: 22–34. doi:10.1016/j.cviu.2013.11.009.
^ T. Bouwmans; A. Sobral; S. Javed; S. Jung; E. Zahzah (2015). "Decomposition into Low-rank plus Additive Matrices for Background/Foreground Separation: A Review for a Comparative Evaluation with a Large-Scale Dataset". Computer Science Review. 23: 1–71. arXiv:1511.01245. Bibcode:2015arXiv151101245B. doi:10.1016/j.cosrev.2016.11.001. S2CID 10420698.
^ Liao, J. C.; Boscolo, R.; Yang, Y.-L.; Tran, L. M.; Sabatti, C.; Roychowdhury, V. P. (2003). "Network component analysis: Reconstruction of regulatory signals in biological systems". Proceedings of the National Academy of Sciences. 100 (26): 15522–15527. Bibcode:2003PNAS..10015522L. doi:10.1073/pnas.2136632100. PMC 307600. PMID 14673099.
^ Liao, T.; Jombart, S.; Devillard, F.; Balloux (2010). "Discriminant analysis of principal components: a new method for the analysis of genetically structured populations". BMC Genetics. 11: 11:94. doi:10.1186/1471-2156-11-94. PMC 2973851. PMID 20950446.
^ Jewson, S. (2020). "An Alternative to PCA for Estimating Dominant Patterns of Climate Variability and Extremes, with Application to U.S. and China Seasonal Rainfall". Atmosphere. 11 (4): 354. Bibcode:2020Atmos..11..354J. doi:10.3390/atmos11040354.
^ Scher, S.; Jewson, S.; Messori, G. (2021). "Robust Worst-Case Scenarios from Ensemble Forecasts". Weather and Forecasting. 36 (4): 1357–1373. Bibcode:2021WtFor..36.1357S. doi:10.1175/WAF-D-20-0219.1. S2CID 236300040.
^ Jewson, S.; Messori, G.; Barbato, G.; Mercogliano, P.; Mysiak, J.; Sassi, M. (2022). "Developing Representative Impact Scenarios From Climate Projection Ensembles, With Application to UKCP18 and EURO-CORDEX Precipitation". Journal of Advances in Modeling Earth Systems. 15 (1). doi:10.1029/2022MS003038. S2CID 254965361.
^ "Principal Components Analysis". Institute for Digital Research and Education. UCLA. Retrieved 29 May 2018.

External links

Wikimedia Commons has media related to Principal component analysis.

University of Copenhagen video by Rasmus Bro on YouTube
Stanford University video by Andrew Ng on YouTube
A Tutorial on Principal Component Analysis
A layman's introduction to principal component analysis on YouTube (a video of less than 100 seconds.)
StatQuest: StatQuest: Principal Component Analysis (PCA), Step-by-Step on YouTube
See also the list of Software implementations