stringtranslate.com

Análisis de componentes principales

El análisis de componentes principales ( PCA ) es una técnica de reducción de dimensionalidad lineal con aplicaciones en análisis exploratorio de datos , visualización y preprocesamiento de datos .

Los datos se transforman linealmente en un nuevo sistema de coordenadas de modo que las direcciones (componentes principales) que capturan la mayor variación en los datos puedan identificarse fácilmente.

Los componentes principales de una colección de puntos en un espacio de coordenadas real son una secuencia de vectores unitarios , donde el -ésimo vector es la dirección de una línea que mejor se ajusta a los datos y al mismo tiempo es ortogonal a los primeros vectores. Aquí, una línea de mejor ajuste se define como aquella que minimiza la distancia perpendicular al cuadrado promedio desde los puntos hasta la línea . Estas direcciones (es decir, componentes principales) constituyen una base ortonormal en la que diferentes dimensiones individuales de los datos no están linealmente correlacionadas . Muchos estudios utilizan los dos primeros componentes principales para trazar los datos en dos dimensiones e identificar visualmente grupos de puntos de datos estrechamente relacionados. [1]

PCA de una distribución gaussiana multivariada centrada en (1,3) con una desviación estándar de 3 aproximadamente en la dirección (0,866, 0,5) y de 1 en la dirección ortogonal. Los vectores mostrados son los vectores propios de la matriz de covarianza escalados por la raíz cuadrada del valor propio correspondiente y desplazados de modo que sus colas estén en la media.

El análisis de componentes principales tiene aplicaciones en muchos campos, como la genética de poblaciones , los estudios de microbiomas y las ciencias atmosféricas .

Descripción general

Al realizar el PCA, el primer componente principal de un conjunto de variables, que se supone que están distribuidas normalmente en conjunto, es la variable derivada formada como una combinación lineal de las variables originales que explica la mayor varianza. El segundo componente principal explica la mayor variación de lo que queda una vez que se elimina el efecto del primer componente, y podemos continuar mediante iteraciones hasta que se explique toda la variación. PCA se utiliza más comúnmente cuando muchas de las variables están altamente correlacionadas entre sí y es deseable reducir su número a un conjunto independiente.

El primer componente principal puede definirse de manera equivalente como una dirección que maximiza la varianza de los datos proyectados. El -ésimo componente principal se puede tomar como una dirección ortogonal a los primeros componentes principales que maximiza la varianza de los datos proyectados.

Para cualquiera de los objetivos, se puede demostrar que los componentes principales son vectores propios de la matriz de covarianza de los datos . Por lo tanto, los componentes principales a menudo se calculan mediante descomposición propia de la matriz de covarianza de datos o descomposición en valores singulares de la matriz de datos. PCA es el más simple de los verdaderos análisis multivariados basados ​​en vectores propios y está estrechamente relacionado con el análisis factorial . El análisis factorial normalmente incorpora supuestos más específicos de dominio sobre la estructura subyacente y resuelve vectores propios de una matriz ligeramente diferente. PCA también está relacionado con el análisis de correlación canónica (CCA) . CCA define sistemas de coordenadas que describen de manera óptima la covarianza cruzada entre dos conjuntos de datos, mientras que PCA define un nuevo sistema de coordenadas ortogonales que describe de manera óptima la varianza en un único conjunto de datos. [2] [3] [4] [5] También se han propuesto variantes robustas y basadas en la norma L1 de PCA estándar. [6] [7] [8] [5]

Historia

El PCA fue inventado en 1901 por Karl Pearson , [9] como análogo del teorema del eje principal en mecánica; Más tarde , Harold Hotelling lo desarrolló y nombró de forma independiente en la década de 1930. [10] Dependiendo del campo de aplicación, también se denomina transformada discreta de Karhunen-Loève (KLT) en procesamiento de señales , transformada de Hotelling en control de calidad multivariante, descomposición ortogonal adecuada (POD) en ingeniería mecánica, descomposición de valores singulares (SVD). ) de X (inventado en el último cuarto del siglo XIX [11] ), descomposición de valores propios (EVD) de X T X en álgebra lineal, análisis factorial (para una discusión de las diferencias entre PCA y análisis factorial, consulte el Capítulo 7 de Análisis de componentes principales de Jolliffe ), [12] teorema de Eckart-Young (Harman, 1960), o funciones ortogonales empíricas (EOF) en ciencia meteorológica (Lorenz, 1956), descomposición empírica de funciones propias (Sirovich, 1987), modos cuasiarmónicos (Brooks et al. ., 1988), descomposición espectral en ruido y vibración, y análisis modal empírico en dinámica estructural.

Intuición

Se puede considerar que PCA ajusta un elipsoide de dimensión p a los datos, donde cada eje del elipsoide representa un componente principal. Si algún eje del elipsoide es pequeño, entonces la varianza a lo largo de ese eje también es pequeña.

Para encontrar los ejes del elipsoide, primero debemos centrar los valores de cada variable en el conjunto de datos en 0 restando la media de los valores observados de la variable de cada uno de esos valores. Estos valores transformados se utilizan en lugar de los valores observados originales para cada una de las variables. Luego, calculamos la matriz de covarianza de los datos y calculamos los valores propios y los vectores propios correspondientes de esta matriz de covarianza. Luego debemos normalizar cada uno de los vectores propios ortogonales para convertirlos en vectores unitarios. Una vez hecho esto, cada uno de los vectores propios unitarios mutuamente ortogonales se puede interpretar como un eje del elipsoide ajustado a los datos. Esta elección de base transformará la matriz de covarianza en una forma diagonalizada, en la que los elementos diagonales representan la varianza de cada eje. La proporción de la varianza que representa cada vector propio se puede calcular dividiendo el valor propio correspondiente a ese vector propio por la suma de todos los valores propios.

Se utilizan biplots y diagramas de pedregal (grado de varianza explicada) para interpretar los hallazgos del PCA.

La imagen de arriba es de un diagrama de pedregal que está destinado a ayudar a interpretar el PCA y decidir cuántos componentes retener. El inicio de la curvatura en la línea (punto de inflexión o "rodilla") debe indicar cuántos componentes se retienen, por lo tanto, en este ejemplo, se deben retener tres factores.

Detalles

PCA se define como una transformación lineal ortogonal en un espacio de producto interno real que transforma los datos a un nuevo sistema de coordenadas de modo que la mayor varianza según alguna proyección escalar de los datos queda en la primera coordenada (llamada primer componente principal), la segunda variación más grande en la segunda coordenada, y así sucesivamente. [12]

Considere una matriz de datos , X , con media empírica cero por columnas (la media muestral de cada columna se ha desplazado a cero), donde cada una de las n filas representa una repetición diferente del experimento, y cada una de las p columnas da una tipo particular de característica (por ejemplo, los resultados de un sensor en particular).

Matemáticamente, la transformación se define por un conjunto de tamaños de vectores p -dimensionales de pesos o coeficientes que asignan cada vector de fila de X a un nuevo vector de puntuaciones de componentes principales , dado por

de tal manera que las variables individuales de t consideradas sobre el conjunto de datos hereden sucesivamente la máxima varianza posible de X , con cada vector de coeficientes w restringido a ser un vector unitario (donde generalmente se selecciona para que sea estrictamente menor que para reducir la dimensionalidad).

Primer componente

Para maximizar la varianza, el primer vector de peso w (1) tiene que satisfacer

De manera equivalente, escribir esto en forma matricial da

Dado que w (1) se ha definido como un vector unitario, también satisface de manera equivalente

La cantidad a maximizar se puede reconocer como un cociente de Rayleigh . Un resultado estándar para una matriz semidefinida positiva como X T X es que el valor máximo posible del cociente es el valor propio más grande de la matriz, lo que ocurre cuando w es el vector propio correspondiente .

Una vez encontrada w (1) , el primer componente principal de un vector de datos x ( i ) se puede dar como una puntuación t 1( i ) = x ( i )w (1) en las coordenadas transformadas, o como el vector correspondiente en las variables originales, { x ( i )w (1) } w (1) .

Otros componentes

El k -ésimo componente se puede encontrar restando los primeros k  − 1 componentes principales de X :

y luego encontrar el vector de peso que extrae la varianza máxima de esta nueva matriz de datos

Resulta que esto da los vectores propios restantes de X T X , con los valores máximos para la cantidad entre paréntesis dados por sus valores propios correspondientes. Por tanto, los vectores de peso son vectores propios de X T X .

Por lo tanto, el k -ésimo componente principal de un vector de datos x ( i ) se puede dar como una puntuación t k ( i ) = x ( i )w ( k ) en las coordenadas transformadas, o como el vector correspondiente en el espacio de las variables originales, { x ( i )w ( k ) } w ( k ) , donde w ( k ) es el késimo vector propio de X T X .

Por lo tanto , la descomposición completa de los componentes principales de X se puede dar como

donde W es una matriz p -por- p de pesos cuyas columnas son los vectores propios de X T X . La transpuesta de W a veces se denomina transformación blanqueadora o esférica . Las columnas de W multiplicadas por la raíz cuadrada de los valores propios correspondientes, es decir, vectores propios ampliados por las varianzas, se denominan cargas en PCA o en análisis factorial.

Covarianzas

El propio X T X puede reconocerse como proporcional a la matriz de covarianza de muestra empírica del conjunto de datos X T. [12] : 30–31 

La covarianza muestral Q entre dos de los diferentes componentes principales del conjunto de datos viene dada por:

donde la propiedad del valor propio de w ( k ) se ha utilizado para pasar de la línea 2 a la línea 3. Sin embargo, los vectores propios w ( j ) y w ( k ) correspondientes a los valores propios de una matriz simétrica son ortogonales (si los valores propios son diferentes), o se puede ortogonalizar (si los vectores comparten un valor repetido igual). Por tanto, el producto en la línea final es cero; no hay covarianza muestral entre los diferentes componentes principales del conjunto de datos.

Por lo tanto, otra forma de caracterizar la transformación de componentes principales es como la transformación a coordenadas que diagonalizan la matriz de covarianza de la muestra empírica.

En forma matricial, la matriz de covarianza empírica para las variables originales se puede escribir

La matriz de covarianza empírica entre los componentes principales se convierte en

donde Λ es la matriz diagonal de valores propios λ ( k ) de X T X. λ ( k ) es igual a la suma de los cuadrados sobre el conjunto de datos asociado con cada componente k , es decir, λ ( k ) = Σ i t k 2 ( i ) = Σ i ( x ( i )w ( k ) ) 2 .

Reducción de dimensionalidad

La transformación T = X W asigna un vector de datos x ( i ) de un espacio original de p variables a un nuevo espacio de p variables que no están correlacionadas en el conjunto de datos. Sin embargo, no es necesario conservar todos los componentes principales. Mantener solo los primeros L componentes principales, producidos usando solo los primeros L vectores propios, da la transformación truncada

donde la matriz T L ahora tiene n filas pero solo L columnas. En otras palabras, PCA aprende una transformación lineal donde las columnas de la matriz p × L forman una base ortogonal para las L características (los componentes de la representación t ) que están descorrelacionadas. [13] Por construcción, de todas las matrices de datos transformadas con solo L columnas, esta matriz de puntuación maximiza la varianza en los datos originales que se han conservado, al tiempo que minimiza el error total de reconstrucción al cuadrado o .

Un diagrama de dispersión del análisis de componentes principales de los haplotipos Y-STR calculado a partir de valores de recuento repetido para 37 marcadores STR del cromosoma Y de 354 individuos. PCA ha encontrado con éxito combinaciones lineales de marcadores que separan diferentes grupos correspondientes a diferentes líneas de ascendencia genética del cromosoma Y de los individuos.

Esta reducción de dimensionalidad puede ser un paso muy útil para visualizar y procesar conjuntos de datos de alta dimensión, manteniendo al mismo tiempo la mayor variación posible en el conjunto de datos. Por ejemplo, al seleccionar L  = 2 y mantener solo los dos primeros componentes principales, se encuentra el plano bidimensional a través del conjunto de datos de alta dimensión en el que los datos están más dispersos, por lo que si los datos contienen grupos , estos también pueden estar más dispersos. y por lo tanto es más visible si se traza en un diagrama bidimensional; mientras que si se eligen al azar dos direcciones a través de los datos (o dos de las variables originales), los grupos pueden estar mucho menos separados entre sí y, de hecho, es mucho más probable que se superpongan sustancialmente entre sí, haciéndolos indistinguibles.

De manera similar, en el análisis de regresión , cuanto mayor sea el número de variables explicativas permitidas, mayor será la posibilidad de sobreajustar el modelo, lo que producirá conclusiones que no se pueden generalizar a otros conjuntos de datos. Un enfoque, especialmente cuando existen fuertes correlaciones entre diferentes variables explicativas posibles, es reducirlas a unos pocos componentes principales y luego ejecutar la regresión contra ellos, un método llamado regresión de componentes principales .

La reducción de dimensionalidad también puede ser apropiada cuando las variables de un conjunto de datos son ruidosas. Si cada columna del conjunto de datos contiene ruido gaussiano independiente distribuido idénticamente, entonces las columnas de T también contendrán ruido gaussiano distribuido idénticamente (dicha distribución es invariante bajo los efectos de la matriz W , que puede considerarse como una matriz de alta dimensión). rotación de los ejes de coordenadas). Sin embargo, con una mayor variación total concentrada en los primeros componentes principales en comparación con la misma variación del ruido, el efecto proporcional del ruido es menor: los primeros componentes logran una relación señal-ruido más alta . Por lo tanto, PCA puede tener el efecto de concentrar gran parte de la señal en los primeros componentes principales, que pueden capturarse de manera útil mediante reducción de dimensionalidad; mientras que los últimos componentes principales pueden estar dominados por el ruido y, por lo tanto, eliminarse sin grandes pérdidas. Si el conjunto de datos no es demasiado grande, la importancia de los componentes principales se puede probar utilizando bootstrap paramétrico , como ayuda para determinar cuántos componentes principales se deben retener. [14]

Valor singular de descomposición

La transformación de componentes principales también se puede asociar con otra factorización matricial, la descomposición en valores singulares (SVD) de X ,

Aquí Σ es una matriz diagonal rectangular n -por- p de números positivos σ ( k ) , llamados valores singulares de X ; U es una matriz de n por n , cuyas columnas son vectores unitarios ortogonales de longitud n, llamados vectores singulares izquierdos de X ; y W es una matriz p -por- p cuyas columnas son vectores unitarios ortogonales de longitud p y se denominan vectores singulares derechos de X.

En términos de esta factorización, la matriz X T X se puede escribir

¿Dónde está la matriz diagonal cuadrada con los valores singulares de X y los ceros sobrantes eliminados que satisface ? La comparación con la factorización de vectores propios de X T X establece que los vectores singulares derechos W de X son equivalentes a los vectores propios de X T X , mientras que los valores singulares σ ( k ) de son iguales a la raíz cuadrada de los valores propios λ ( k ) de X T X .

Usando la descomposición en valores singulares, la matriz de puntuación T se puede escribir

entonces cada columna de T viene dada por uno de los vectores singulares izquierdos de X multiplicado por el valor singular correspondiente. Esta forma es también la descomposición polar de T.

Existen algoritmos eficientes para calcular el SVD de X sin tener que formar la matriz X T X , por lo que calcular el SVD es ahora la forma estándar de calcular un análisis de componentes principales a partir de una matriz de datos, [15] a menos que solo se requieran un puñado de componentes. .

Al igual que con la descomposición propia, se puede obtener una matriz de puntuación T L truncada de n × L considerando solo los primeros L valores singulares más grandes y sus vectores singulares:

El truncamiento de una matriz M o T usando una descomposición de valor singular truncado de esta manera produce una matriz truncada que es la matriz de rango L más cercana posible a la matriz original, en el sentido de que la diferencia entre las dos tiene la norma de Frobenius más pequeña posible. , resultado conocido como teorema de Eckart-Young [1936].

Consideraciones adicionales

Los valores singulares (en Σ ) son las raíces cuadradas de los valores propios de la matriz X T X. Cada valor propio es proporcional a la porción de la "varianza" (más correctamente, de la suma de las distancias al cuadrado de los puntos desde su media multidimensional) que está asociada con cada vector propio. La suma de todos los valores propios es igual a la suma de las distancias al cuadrado de los puntos desde su media multidimensional. Básicamente, PCA rota el conjunto de puntos alrededor de su media para alinearse con los componentes principales. Esto mueve la mayor cantidad de varianza posible (usando una transformación ortogonal) a las primeras dimensiones. Por lo tanto, los valores en las dimensiones restantes tienden a ser pequeños y pueden eliminarse con una pérdida mínima de información (ver más abajo ). PCA se utiliza a menudo de esta manera para la reducción de dimensionalidad . PCA tiene la distinción de ser la transformación ortogonal óptima para mantener el subespacio que tiene la mayor "varianza" (como se definió anteriormente). Esta ventaja, sin embargo, tiene el precio de mayores requisitos computacionales si se compara, por ejemplo, y cuando sea aplicable, con la transformada discreta del coseno y, en particular, con la DCT-II, que se conoce simplemente como "DCT". Las técnicas de reducción de dimensionalidad no lineal tienden a ser más exigentes computacionalmente que PCA.

PCA es sensible al escalamiento de las variables. Si tenemos sólo dos variables y tienen la misma varianza muestral y están completamente correlacionadas, entonces el PCA implicará una rotación de 45° y los "pesos" (son los cosenos de rotación) de las dos variables con respecto a la principal componente será igual. Pero si multiplicamos todos los valores de la primera variable por 100, entonces el primer componente principal será casi igual a esa variable, con una pequeña contribución de la otra variable, mientras que el segundo componente estará casi alineado con la segunda variable original. Esto significa que siempre que las diferentes variables tengan diferentes unidades (como temperatura y masa), el PCA es un método de análisis algo arbitrario. (Se obtendrían resultados diferentes si se utilizaran grados Fahrenheit en lugar de Celsius, por ejemplo). El artículo original de Pearson se titulaba "Sobre líneas y planos de ajuste más cercano a sistemas de puntos en el espacio". "En el espacio" implica un espacio físico euclidiano donde tales preocupaciones no no surgir. Una forma de hacer que el PCA sea menos arbitrario es utilizar variables escaladas de modo que tengan una varianza unitaria, estandarizando los datos y, por tanto, utilizando la matriz de autocorrelación en lugar de la matriz de autocovarianza como base para el PCA. Sin embargo, esto comprime (o expande) las fluctuaciones en todas las dimensiones del espacio de la señal a una varianza unitaria.

La resta de la media (también conocida como "centrado de la media") es necesaria para realizar el PCA clásico para garantizar que el primer componente principal describa la dirección de la varianza máxima. Si no se realiza la resta de la media, el primer componente principal podría corresponder más o menos a la media de los datos. Se necesita una media de cero para encontrar una base que minimice el error cuadrático medio de la aproximación de los datos. [dieciséis]

El centrado en la media es innecesario si se realiza un análisis de componentes principales en una matriz de correlación, ya que los datos ya están centrados después de calcular las correlaciones. Las correlaciones se derivan del producto cruzado de dos puntuaciones estándar (puntuaciones Z) o momentos estadísticos (de ahí el nombre: Correlación Producto-Momento de Pearson ). Véase también el artículo de Kromrey y Foster-Johnson (1998) sobre "Centrado en la media en regresión moderada: mucho ruido y pocas nueces" . Dado que las covarianzas son correlaciones de variables normalizadas ( puntuaciones Z o estándar ), un PCA basado en la matriz de correlación de X es igual a un PCA basado en la matriz de covarianza de Z , la versión estandarizada de X.

PCA es una técnica primaria popular en el reconocimiento de patrones . Sin embargo, no está optimizado para la separabilidad de clases. [17] Sin embargo, se ha utilizado para cuantificar la distancia entre dos o más clases calculando el centro de masa de cada clase en el espacio del componente principal e informando la distancia euclidiana entre el centro de masa de dos o más clases. [18] El análisis discriminante lineal es una alternativa optimizada para la separabilidad de clases.

Tabla de símbolos y abreviaturas.

Propiedades y limitaciones de PCA

Propiedades

Algunas propiedades de PCA incluyen: [12] [ página necesaria ]

Propiedad 1 : Para cualquier número enteroq, 1 ≤qp, considere latransformación lineal
donde es un vector de elemento q y es una matriz ( q × p ), y sea la matriz de varianza - covarianza para . Entonces la traza de , denotada , se maximiza tomando , donde consta de las primeras q columnas de es la transpuesta de . ( no está definido aquí)
Propiedad 2 : Considere nuevamente latransformación ortonormal.
con y definido como antes. Luego se minimiza tomando donde consta de las últimas q columnas de .

La implicación estadística de esta propiedad es que las últimas PC no son simplemente restos desestructurados después de retirar las PC importantes. Debido a que estas últimas PC tienen variaciones lo más pequeñas posible, son útiles por derecho propio. Pueden ayudar a detectar relaciones lineales casi constantes insospechadas entre los elementos de x y también pueden ser útiles en regresión , en la selección de un subconjunto de variables de x y en la detección de valores atípicos.

Propiedad 3 : (Descomposición espectral de Σ )

Antes de ver su uso, primero miramos los elementos diagonales ,

Entonces, quizás la principal implicación estadística del resultado es que no sólo podemos descomponer las varianzas combinadas de todos los elementos de x en contribuciones decrecientes debidas a cada PC, sino que también podemos descomponer toda la matriz de covarianza en contribuciones de cada PC. Aunque no son estrictamente decrecientes, los elementos de will tienden a volverse más pequeños a medida que aumenta, al igual que no aumentan cuando aumenta , mientras que los elementos de tienden a permanecer aproximadamente del mismo tamaño debido a las restricciones de normalización: .

Limitaciones

Como se señaló anteriormente, los resultados del PCA dependen de la escala de las variables. Esto se puede solucionar escalando cada característica según su desviación estándar, de modo que terminemos con características adimensionales con varianza unitaria. [19]

La aplicabilidad del PCA como se describe anteriormente está limitada por ciertos supuestos (tácitos) [20] hechos en su derivación. En particular, PCA puede capturar correlaciones lineales entre las características, pero falla cuando se viola esta suposición (consulte la Figura 6a en la referencia). En algunos casos, las transformaciones de coordenadas pueden restaurar el supuesto de linealidad y luego se puede aplicar PCA (consulte PCA del núcleo ).

Otra limitación es el proceso de eliminación de la media antes de construir la matriz de covarianza para PCA. En campos como la astronomía, todas las señales no son negativas y el proceso de eliminación de la media obligará a que la media de algunas exposiciones astrofísicas sea cero, lo que en consecuencia crea flujos negativos no físicos [21] y se debe realizar un modelado directo para recuperar la verdadera magnitud de las señales. [22] Como método alternativo, la factorización matricial no negativa se centra únicamente en los elementos no negativos de las matrices, lo cual es muy adecuado para observaciones astrofísicas. [23] [24] [25] Ver más en Relación entre PCA y factorización de matrices no negativas.

PCA está en desventaja si los datos no se han estandarizado antes de aplicarles el algoritmo. PCA transforma los datos originales en datos que son relevantes para los componentes principales de esos datos, lo que significa que las nuevas variables de datos no se pueden interpretar de la misma manera que los originales. Son interpretaciones lineales de las variables originales. Además, si la PCA no se realiza correctamente, existe una alta probabilidad de pérdida de información. [26]

PCA se basa en un modelo lineal. Si un conjunto de datos tiene un patrón oculto en su interior que no es lineal, entonces PCA puede en realidad dirigir el análisis en la dirección de progreso completamente opuesta. [27] [ página necesaria ] Investigadores de la Universidad Estatal de Kansas descubrieron que el error de muestreo en sus experimentos impactaba el sesgo de los resultados de PCA. "Si el número de sujetos o bloques es menor que 30, y/o el investigador está interesado en PC más allá del primero, puede ser mejor corregir primero la correlación serial, antes de realizar el PCA". [28] Los investigadores del estado de Kansas también descubrieron que el PCA podría estar "gravemente sesgado si la estructura de autocorrelación de los datos no se maneja correctamente". [28]

PCA y teoría de la información.

La reducción de dimensionalidad resulta en una pérdida de información, en general. La reducción de dimensionalidad basada en PCA tiende a minimizar esa pérdida de información, bajo ciertos modelos de señal y ruido.

Bajo el supuesto de que

es decir, que el vector de datos es la suma de la señal portadora de información deseada y una señal de ruido, se puede demostrar que PCA puede ser óptimo para la reducción de dimensionalidad, desde un punto de vista teórico de la información.

En particular, Linsker demostró que si es gaussiano y es ruido gaussiano con una matriz de covarianza proporcional a la matriz de identidad, el PCA maximiza la información mutua entre la información deseada y la salida de dimensionalidad reducida . [29]

Si el ruido sigue siendo gaussiano y tiene una matriz de covarianza proporcional a la matriz identidad (es decir, los componentes del vector son iid ), pero la señal que contiene información no es gaussiana (que es un escenario común), PCA al menos minimiza un límite superior en la pérdida de información , que se define como [30] [31]

La optimización de PCA también se conserva si el ruido es iid y al menos más gaussiano (en términos de la divergencia Kullback-Leibler ) que la señal portadora de información . [32] En general, incluso si el modelo de señal anterior se cumple, PCA pierde su optimización teórica de la información tan pronto como el ruido se vuelve dependiente.

Calcular PCA utilizando el método de covarianza

La siguiente es una descripción detallada del PCA utilizando el método de covarianza (ver también aquí) en lugar del método de correlación. [33]

El objetivo es transformar un conjunto de datos dado X de dimensión p en un conjunto de datos alternativo Y de dimensión más pequeña L. De manera equivalente, buscamos encontrar la matriz Y , donde Y es la transformada de Karhunen-Loève (KLT) de la matriz X :

  1. Organizar el conjunto de datos

    Suponga que tiene datos que comprenden un conjunto de observaciones de p variables y desea reducir los datos para que cada observación pueda describirse solo con L variables, L < p . Supongamos además que los datos están organizados como un conjunto de n vectores de datos , cada uno de los cuales representa una única observación agrupada de las p variables.

    • Escribe como vectores fila, cada uno con p elementos.
    • Coloque los vectores de fila en una única matriz X de dimensiones n × p .
  2. Calcular la media empírica
    • Encuentre la media empírica a lo largo de cada columna j = 1, ...,  p .
    • Coloque los valores medios calculados en un vector medio empírico u de dimensiones p × 1.
  3. Calcular las desviaciones de la media.

    La resta media es una parte integral de la solución para encontrar una base de componente principal que minimice el error cuadrático medio al aproximar los datos. [34] Por lo tanto procedemos centrando los datos de la siguiente manera:

    • Reste el vector medio empírico de cada fila de la matriz de datos X.
    • Almacene los datos restados de la media en la matriz B n × p .
      donde h es un vector columna n × 1 de todos los 1:

    En algunas aplicaciones, cada variable (columna de B ) también se puede escalar para tener una varianza igual a 1 (ver puntuación Z ). [35] Este paso afecta a los componentes principales calculados, pero los hace independientes de las unidades utilizadas para medir las diferentes variables.

  4. Encuentra la matriz de covarianza
    • Encuentre la matriz de covarianza empírica C p × p a partir de la matriz B :
      ¿ Dónde está el operador de transposición conjugado ? Si B se compone enteramente de números reales, como es el caso en muchas aplicaciones, la "transposición conjugada" es la misma que la transposición regular .
    • El razonamiento detrás del uso de n − 1 en lugar de n para calcular la covarianza es la corrección de Bessel .
  5. Encuentre los vectores propios y valores propios de la matriz de covarianza.
    • Calcule la matriz V de vectores propios que diagonaliza la matriz de covarianza C :
      donde D es la matriz diagonal de valores propios de C . Este paso normalmente implicará el uso de un algoritmo informático para calcular vectores propios y valores propios . Estos algoritmos están disponibles como subcomponentes de la mayoría de los sistemas de álgebra matricial , como SAS , [36] R , MATLAB , [37] [38] Mathematica , [39] SciPy , IDL ( lenguaje de datos interactivo ) o GNU Octave como así como OpenCV .
    • La matriz D tomará la forma de una matriz diagonal p × p , donde
      es el j el valor propio de la matriz de covarianza C , y
    • La matriz V , también de dimensión p × p , contiene p vectores de columna, cada uno de longitud p , que representan los p vectores propios de la matriz de covarianza C.
    • Los valores propios y los vectores propios están ordenados y emparejados. El j -ésimo valor propio corresponde al j- ésimo vector propio.
    • La matriz V denota la matriz de vectores propios derechos (a diferencia de los vectores propios izquierdos ). En general, la matriz de vectores propios derechos no necesita ser la transpuesta (conjugada) de la matriz de vectores propios izquierdos.
  6. Reorganizar los vectores propios y los valores propios.
    • Ordene las columnas de la matriz de vector propio V y de la matriz de valor propio D en orden de valor propio decreciente .
    • Asegúrese de mantener los emparejamientos correctos entre las columnas de cada matriz.
  7. Calcule el contenido de energía acumulada para cada vector propio.
    • Los valores propios representan la distribución de la energía de los datos de origen [ aclaración necesaria ] entre cada uno de los vectores propios, donde los vectores propios forman una base para los datos. El contenido de energía acumulativo g para el j el vector propio es la suma del contenido de energía en todos los valores propios del 1 al j : [ cita necesaria ]
  8. Seleccione un subconjunto de los vectores propios como vectores base.
    • Guarde las primeras L columnas de V como la matriz p × L W :
      dónde
    • Utilice el vector g como guía para elegir un valor apropiado para L. El objetivo es elegir un valor de L lo más pequeño posible y al mismo tiempo lograr un valor de g razonablemente alto en términos porcentuales. Por ejemplo, es posible que desee elegir L para que la energía acumulada g esté por encima de un cierto umbral, como el 90 por ciento. En este caso, elija el valor más pequeño de L tal que
  9. Proyectar los datos sobre la nueva base.
    • Los puntos de datos proyectados son las filas de la matriz.
    Es decir, la primera columna es la proyección de los puntos de datos sobre el primer componente principal, la segunda columna es la proyección sobre el segundo componente principal, etc.

Derivación de PCA utilizando el método de covarianza.

Sea X un vector aleatorio d -dimensional expresado como vector columna. Sin pérdida de generalidad, supongamos que X tiene media cero.

Queremos encontrar una matriz de transformación ortonormal P d × d de modo que PX tenga una matriz de covarianza diagonal (es decir, PX es un vector aleatorio con todos sus componentes distintos no correlacionados por pares).

Un cálculo rápido suponiendo que fueran rendimientos unitarios:

Por tanto, se cumple si y sólo si fueran diagonalizables por .

Esto es muy constructivo, ya que se garantiza que cov( X ) es una matriz definida no negativa y, por lo tanto, se garantiza que será diagonalizable mediante alguna matriz unitaria.

Cálculo sin covarianza

En implementaciones prácticas, especialmente con datos de alta dimensión ( p grande ), el método ingenuo de covarianza rara vez se usa porque no es eficiente debido a los altos costos computacionales y de memoria que implica determinar explícitamente la matriz de covarianza. El enfoque libre de covarianza evita las operaciones np 2 de calcular y almacenar explícitamente la matriz de covarianza X T X , en lugar de utilizar uno de los métodos sin matrices , por ejemplo, basado en la función que evalúa el producto X T (X r) al costo de 2 operaciones np .

Computación iterativa

Una forma de calcular el primer componente principal de manera eficiente [40] se muestra en el siguiente pseudocódigo, para una matriz de datos X con media cero, sin siquiera calcular su matriz de covarianza.

r = un vector aleatorio de longitud p r = r / norma( r )hacer c veces: s = 0 (un vector de longitud p ) para cada fila x en X  s = s + ( xr ) x  λ = r T s  // λ es el  error de valor propio = |λ ⋅ rs |  r = s / norma( s )  salir si error < tolerancia
regresar λ, r

Este algoritmo de iteración de potencia simplemente calcula el vector X T (X r) , lo normaliza y coloca el resultado nuevamente en r . El valor propio se aproxima mediante r T (X T X) r , que es el cociente de Rayleigh en el vector unitario r para la matriz de covarianza X T X. Si el valor singular más grande está bien separado del siguiente más grande, el vector r se acerca al primer componente principal de X dentro del número de iteraciones c , que es pequeño en relación con p , con un costo total de 2cnp . La convergencia de iteración de energía se puede acelerar sin sacrificar notablemente el pequeño costo por iteración utilizando métodos más avanzados sin matrices , como el algoritmo Lanczos o el método de gradiente conjugado precondicionado de bloque localmente óptimo ( LOBPCG ).

Los componentes principales posteriores se pueden calcular uno por uno mediante deflación o simultáneamente como un bloque. En el primer enfoque, las imprecisiones en los componentes principales aproximados ya calculados afectan de manera aditiva la precisión de los componentes principales calculados posteriormente, aumentando así el error con cada nuevo cálculo. El último enfoque en el método de potencia de bloques reemplaza los vectores únicos rys con vectores de bloques, matrices R y S. Cada columna de R se aproxima a uno de los componentes principales principales, mientras que todas las columnas se repiten simultáneamente. El cálculo principal es la evaluación del producto X T (XR) . Implementado, por ejemplo, en LOBPCG , el bloqueo eficiente elimina la acumulación de errores, permite utilizar funciones de producto matriz-matriz BLAS de alto nivel y, por lo general, conduce a una convergencia más rápida, en comparación con la técnica de vector único uno por uno.

El método NIPALS

Mínimos cuadrados parciales iterativos no lineales (NIPALS) es una variante de la iteración de potencia clásica con deflación de matriz por resta implementada para calcular los primeros componentes en un componente principal o análisis de mínimos cuadrados parciales . Para conjuntos de datos de muy altas dimensiones, como los generados en las ciencias *ómicas (por ejemplo, genómica , metabolómica ), generalmente solo es necesario calcular las primeras PC. El algoritmo de mínimos cuadrados iterativos no lineales (NIPALS) actualiza las aproximaciones iterativas a las puntuaciones y cargas principales t 1 y r 1 T multiplicando la iteración de potencia en cada iteración por X a la izquierda y a la derecha, es decir, el cálculo de se evita la matriz de covarianza, al igual que en la implementación libre de matrices de las iteraciones de potencia a X T X , basándose en la función que evalúa el producto X T (X r) = ((X r) T X) T .

La deflación de la matriz por resta se realiza restando el producto externo, t 1 r 1 T de X , dejando la matriz residual desinflada que se utiliza para calcular las PC principales posteriores. [41] Para matrices de datos grandes, o matrices que tienen un alto grado de colinealidad de columnas, NIPALS sufre de pérdida de ortogonalidad de las PC debido a errores de redondeo de precisión de la máquina acumulados en cada iteración y deflación de la matriz por resta. [42] Se aplica un algoritmo de reortogonalización de Gram-Schmidt tanto a las puntuaciones como a las cargas en cada paso de iteración para eliminar esta pérdida de ortogonalidad. [43] La dependencia de NIPALS en multiplicaciones de un solo vector no puede aprovechar BLAS de alto nivel y da como resultado una convergencia lenta para valores singulares principales agrupados; ambas deficiencias se resuelven en solucionadores de bloques sin matriz más sofisticados, como el bloque precondicionado localmente óptimo. Método de gradiente conjugado ( LOBPCG ).

Estimación en línea/secuencial

En una situación "en línea" o de "transmisión" en la que los datos llegan pieza por pieza en lugar de almacenarse en un solo lote, es útil hacer una estimación de la proyección PCA que se puede actualizar secuencialmente. Esto se puede hacer de manera eficiente, pero requiere algoritmos diferentes. [44]

PCA y variables cualitativas

En PCA es habitual que queramos introducir variables cualitativas como elementos complementarios. Por ejemplo, se han medido muchas variables cuantitativas en plantas. Para estas plantas se dispone de algunas variables cualitativas como, por ejemplo, la especie a la que pertenece la planta. Estos datos fueron sometidos a PCA para variables cuantitativas. Al analizar los resultados, es natural conectar los componentes principales con la variable cualitativa especie . Para ello se producen los siguientes resultados.

Estos resultados son lo que se llama introducir una variable cualitativa como elemento complementario . Este procedimiento se detalla en Husson, Lê & Pagès 2009 y Pagès 2013. Pocos software ofrecen esta opción de forma "automática". Este es el caso de SPAD que históricamente, siguiendo el trabajo de Ludovic Lebart , fue el primero en proponer esta opción, y el paquete R FactoMineR.

Aplicaciones

Inteligencia

La primera aplicación del análisis factorial fue la localización y medición de componentes de la inteligencia humana. Se creía que la inteligencia tenía varios componentes no correlacionados, como la inteligencia espacial, la inteligencia verbal, la inducción, la deducción, etc., y que las puntuaciones de estos podían obtenerse mediante análisis factorial a partir de los resultados de varias pruebas, para dar un índice único conocido como Cociente de Inteligencia (CI). ). El psicólogo estadístico pionero Spearman desarrolló el análisis factorial en 1904 para su teoría de la inteligencia de dos factores , añadiendo una técnica formal a la ciencia de la psicometría . En 1924 Thurstone buscó 56 factores de la inteligencia, desarrollando la noción de Edad Mental. Las pruebas de coeficiente intelectual estándar actuales se basan en estos primeros trabajos. [45]

Diferenciación residencial

En 1949, Shevky y Williams introdujeron la teoría de la ecología factorial , que dominó los estudios de diferenciación residencial desde los años cincuenta hasta los setenta. [46] Los barrios de una ciudad eran reconocibles o podían distinguirse entre sí por varias características que podían reducirse a tres mediante análisis factorial. Estos se conocían como "rango social" (un índice de estatus ocupacional), "familismo" o tamaño de la familia y "etnicidad"; Luego se podría aplicar el análisis de conglomerados para dividir la ciudad en conglomerados o distritos según los valores de las tres variables de factores clave. Se desarrolló una extensa literatura en torno a la ecología factorial en la geografía urbana, pero el enfoque pasó de moda después de 1980 por ser metodológicamente primitivo y tener poco lugar en los paradigmas geográficos posmodernos.

Uno de los problemas del análisis factorial siempre ha sido encontrar nombres convincentes para los diversos factores artificiales. En 2000, Flood revivió el enfoque de la ecología factorial para mostrar que el análisis de componentes principales en realidad daba respuestas significativas directamente, sin recurrir a la rotación de factores. Los componentes principales eran en realidad variables duales o precios sombra de "fuerzas" que unían o separaban a la gente en las ciudades. El primer componente fue la "accesibilidad", el clásico equilibrio entre la demanda de viajes y la demanda de espacio, en torno al cual se basa la economía urbana clásica. Los dos componentes siguientes fueron la "desventaja", que mantiene a personas de estatus similar en vecindarios separados (mediada por la planificación), y el origen étnico, donde personas de orígenes étnicos similares intentan coubicarse. [47]

Casi al mismo tiempo, la Oficina de Estadísticas de Australia definió distintos índices de ventajas y desventajas tomando el primer componente principal de conjuntos de variables clave que se consideraban importantes. Estos índices SEIFA se publican periódicamente para varias jurisdicciones y se utilizan con frecuencia en análisis espaciales. [48]

Índices de desarrollo

PCA ha sido el único método formal disponible para el desarrollo de índices, que de otro modo serían una tarea ad hoc impredecible .

El Índice de Desarrollo Urbano fue desarrollado por PCA a partir de unos 200 indicadores de resultados urbanos en una encuesta realizada en 1996 en 254 ciudades globales. El primer componente principal estuvo sujeto a una regresión iterativa, agregando las variables originales individualmente hasta que se tuvo en cuenta aproximadamente el 90% de su variación. En última instancia, el índice utilizó unos 15 indicadores, pero fue un buen predictor de muchas más variables. Su valor comparativo concordaba muy bien con una valoración subjetiva del estado de cada ciudad. Los coeficientes sobre elementos de infraestructura eran aproximadamente proporcionales a los costos promedio de proporcionar los servicios subyacentes, lo que sugiere que el Índice era en realidad una medida de la inversión física y social efectiva en la ciudad.

El Índice de Desarrollo Humano (IDH) a nivel de país del PNUD , que se publica desde 1990 y se utiliza ampliamente en estudios de desarrollo, [49] tiene coeficientes muy similares en indicadores similares, lo que sugiere fuertemente que se construyó originalmente utilizando el PCA.

Genética de poblaciones

En 1978, Cavalli-Sforza y ​​otros fueron pioneros en el uso del análisis de componentes principales (PCA) para resumir datos sobre la variación en las frecuencias de genes humanos entre regiones. Los componentes mostraron patrones distintivos, incluidos gradientes y ondas sinusoidales. Interpretaron estos patrones como resultado de eventos migratorios antiguos específicos.

Desde entonces, el PCA ha sido omnipresente en la genética de poblaciones, y miles de artículos lo utilizan como mecanismo de visualización. La genética varía en gran medida según la proximidad, por lo que los dos primeros componentes principales en realidad muestran la distribución espacial y pueden usarse para cartografiar la ubicación geográfica relativa de diferentes grupos de población, mostrando así los individuos que se han alejado de sus ubicaciones originales. [50]

La PCA en genética ha sido técnicamente controvertida, ya que la técnica se ha realizado en variables discretas no normales y, a menudo, en marcadores de alelos binarios. La falta de medidas de error estándar en PCA también es un impedimento para un uso más consistente. En agosto de 2022, el biólogo molecular Eran Elhaik publicó un artículo teórico en Scientific Reports analizando 12 aplicaciones de PCA. Concluyó que era fácil manipular el método, lo que, en su opinión, generaba resultados "erróneos, contradictorios y absurdos". Específicamente, argumentó, los resultados logrados en genética de poblaciones se caracterizaron por un razonamiento circular y selectivo . [51]

Estudios de mercado e índices de actitud.

La investigación de mercado ha sido un usuario extensivo de PCA. Se utiliza para desarrollar puntuaciones de satisfacción o lealtad del cliente para productos, y con agrupamiento, para desarrollar segmentos de mercado a los que se pueden dirigir campañas publicitarias, de manera muy similar a como la ecología factorial ubica áreas geográficas con características similares. [52]

PCA transforma rápidamente grandes cantidades de datos en variables más pequeñas y más fáciles de digerir que pueden analizarse más rápida y fácilmente. En cualquier cuestionario de consumo hay una serie de preguntas diseñadas para sondear las actitudes del consumidor, y los componentes principales buscan variables latentes que subyacen a estas actitudes. Por ejemplo, la Encuesta de Internet de Oxford de 2013 preguntó a 2000 personas sobre sus actitudes y creencias, y de estos analistas extrajeron cuatro dimensiones componentes principales, que identificaron como "escape", "redes sociales", "eficiencia" y "creación de problemas". . [53]

Otro ejemplo de Joe Flood en 2008 extrajo un índice de actitud hacia la vivienda a partir de 28 preguntas de actitud en una encuesta nacional de 2697 hogares en Australia. El primer componente principal representaba una actitud general hacia la propiedad y la propiedad de vivienda. El índice, o las preguntas de actitud que incorpora, podrían incorporarse a un modelo lineal general de elección de titularidad. El determinante más fuerte del alquiler privado fue, con diferencia, el índice de actitud, más que los ingresos, el estado civil o el tipo de hogar. [54]

Finanzas cuantitativas

En finanzas cuantitativas , PCA se utiliza [55] en la gestión de riesgos financieros y se ha aplicado a otros problemas como la optimización de carteras .

La PCA se utiliza comúnmente en problemas que involucran carteras y valores de renta fija y derivados de tasas de interés . En este caso, las valoraciones dependen de toda la curva de rendimiento , que comprende numerosos instrumentos altamente correlacionados, y el PCA se utiliza para definir un conjunto de componentes o factores que explican los movimientos de tipos, [56] facilitando así la modelización. Una aplicación común de gestión de riesgos es calcular el valor en riesgo , VaR, aplicando PCA a la simulación de Monte Carlo .[57] Aquí, para cada muestra de simulación, se estresan los componentes y luego se reconstruyen las tasas y, a su vez, los valores de las opciones ; con el VaR calculado, finalmente, sobre todo el plazo. La PCA también se utiliza para cubrir la exposición al riesgo de tipos de interés , dadas las duraciones parciales y otras sensibilidades.[56] En ambos casos, los tres primeros componentes, típicamente principales, del sistema son de interés ( que representan "desplazamiento", "giro" y "curvatura"). Estos componentes principales se derivan de una descomposición propia de la matriz de covarianza del rendimiento a vencimientos predefinidos; [58] y donde la varianza de cada componente es su valor propio (y como los componentes son ortogonales , no es necesario incorporar correlación en el modelado posterior).

Para la renta variable , una cartera óptima es aquella en la que el rendimiento esperado se maximiza para un determinado nivel de riesgo o, alternativamente, donde el riesgo se minimiza para un determinado rendimiento; consulte el modelo de Markowitz para una discusión. Por lo tanto, un enfoque es reducir el riesgo de la cartera, donde las estrategias de asignación se aplican a las "carteras principales" en lugar de a las acciones subyacentes . Un segundo enfoque consiste en mejorar el rendimiento de la cartera, utilizando los componentes principales para seleccionar acciones con potencial de crecimiento.[59] [60] PCA también se ha utilizado para comprender las relaciones [55] entre los mercados de valores internacionales y dentro de los mercados entre grupos de empresas en industrias o sectores .

La PCA también puede aplicarse a las pruebas de tensión , [61] esencialmente un análisis de la capacidad de un banco para soportar un hipotético escenario económico adverso . Su utilidad radica en "destilar la información contenida en [varias] variables macroeconómicas en un conjunto de datos más manejable, que luego puede [utilizarse] para el análisis". [61] En este caso, los factores resultantes están vinculados, por ejemplo, a las tasas de interés –basándose en los elementos más grandes del vector propio del factor– y luego se observa cómo un "shock" a cada uno de los factores afecta los activos implícitos de cada uno de los bancos.

Neurociencia

En neurociencia se utiliza una variante del análisis de componentes principales para identificar las propiedades específicas de un estímulo que aumenta la probabilidad de que una neurona genere un potencial de acción . [62] [63] Esta técnica se conoce como análisis de covarianza activado por picos . En una aplicación típica, un experimentador presenta un proceso de ruido blanco como estímulo (generalmente como una entrada sensorial a un sujeto de prueba o como una corriente inyectada directamente en la neurona) y registra una serie de potenciales de acción, o picos, producidos por el neurona como resultado. Presumiblemente, ciertas características del estímulo hacen que la neurona tenga más probabilidades de dispararse. Para extraer estas características, el experimentador calcula la matriz de covarianza del conjunto activado por picos , el conjunto de todos los estímulos (definidos y discretizados en una ventana de tiempo finita, generalmente del orden de 100 ms) que precedieron inmediatamente a un pico. Los vectores propios de la diferencia entre la matriz de covarianza activada por picos y la matriz de covarianza del conjunto de estímulos anterior (el conjunto de todos los estímulos, definidos en la misma ventana de tiempo) indican las direcciones en el espacio de estímulos a lo largo de las cuales la varianza de el conjunto activado por picos fue el que más difirió del conjunto de estímulo anterior. Específicamente, los vectores propios con los valores propios positivos más grandes corresponden a las direcciones a lo largo de las cuales la varianza del conjunto activado por picos mostró el mayor cambio positivo en comparación con la varianza del anterior. Dado que estas fueron las direcciones en las que la variación del estímulo condujo a un pico, a menudo son buenas aproximaciones de las características del estímulo relevantes buscadas.

En neurociencia, la PCA también se utiliza para discernir la identidad de una neurona a partir de la forma de su potencial de acción. La clasificación de picos es un procedimiento importante porque las técnicas de grabación extracelular a menudo captan señales de más de una neurona. En la clasificación de picos, primero se utiliza PCA para reducir la dimensionalidad del espacio de las formas de onda del potencial de acción y luego se realiza un análisis de agrupamiento para asociar potenciales de acción específicos con neuronas individuales.

PCA como técnica de reducción de dimensiones es particularmente adecuada para detectar actividades coordinadas de grandes conjuntos neuronales. Se ha utilizado para determinar variables colectivas, es decir, parámetros de orden , durante las transiciones de fase en el cerebro. [64]

Relación con otros métodos

Análisis de correspondencia

El análisis de correspondencia (CA) fue desarrollado por Jean-Paul Benzécri [65] y es conceptualmente similar al PCA, pero escala los datos (que no deben ser negativos) para que las filas y columnas se traten de manera equivalente. Se aplica tradicionalmente a las tablas de contingencia . CA descompone el estadístico chi-cuadrado asociado a esta tabla en factores ortogonales. [66] Debido a que CA es una técnica descriptiva, se puede aplicar a tablas para las cuales la estadística chi-cuadrado es apropiada o no. Hay varias variantes de CA disponibles, incluido el análisis de correspondencia sin tendencia y el análisis de correspondencia canónico . Una extensión especial es el análisis de correspondencias múltiples , que puede verse como la contraparte del análisis de componentes principales para datos categóricos. [67]

Análisis factorial

La imagen de arriba es un ejemplo de la diferencia entre PCA y análisis factorial. En el diagrama superior, el "factor" (p. ej., trayectoria profesional) representa las tres variables observadas (p. ej., médico, abogado, maestro), mientras que en el diagrama inferior las variables observadas (p. ej., maestro de preescolar, maestro de escuela intermedia, maestro de escuela secundaria). maestro) se reducen al componente de interés (por ejemplo, maestro).

El análisis de componentes principales crea variables que son combinaciones lineales de las variables originales. Las nuevas variables tienen la propiedad de que todas las variables son ortogonales. La transformación PCA puede resultar útil como paso de preprocesamiento antes de la agrupación. PCA es un enfoque centrado en la varianza que busca reproducir la varianza total de la variable, en el que los componentes reflejan la varianza común y única de la variable. Generalmente se prefiere el PCA para fines de reducción de datos (es decir, traducir el espacio variable en un espacio factorial óptimo), pero no cuando el objetivo es detectar el constructo o los factores latentes.

El análisis factorial es similar al análisis de componentes principales, en el sentido de que el análisis factorial también implica combinaciones lineales de variables. A diferencia del PCA, el análisis factorial es un enfoque centrado en la correlación que busca reproducir las intercorrelaciones entre variables, en el que los factores "representan la varianza común de las variables, excluyendo la varianza única". [68] En términos de la matriz de correlación, esto corresponde a centrarse en explicar los términos fuera de la diagonal (es decir, covarianza compartida), mientras que PCA se centra en explicar los términos que se encuentran en la diagonal. Sin embargo, como resultado secundario, al intentar reproducir los términos en diagonal, PCA también tiende a ajustarse relativamente bien a las correlaciones fuera de la diagonal. [12] : 158  Los resultados obtenidos por PCA y el análisis factorial son muy similares en la mayoría de las situaciones, pero no siempre es así y hay algunos problemas en los que los resultados son significativamente diferentes. El análisis factorial se utiliza generalmente cuando el propósito de la investigación es detectar la estructura de los datos (es decir, constructos o factores latentes) o modelado causal . Si el modelo factorial está formulado incorrectamente o no se cumplen los supuestos, el análisis factorial dará resultados erróneos. [69]

K -significa agrupamiento

Se ha afirmado que la solución relajada de la agrupación de k -medias , especificada por los indicadores del grupo, está dada por los componentes principales, y el subespacio PCA abarcado por las direcciones principales es idéntico al subespacio centroide del grupo. [70] [71] Sin embargo, que PCA sea una relajación útil de la agrupación de k -medias no fue un resultado nuevo, [72] y es sencillo descubrir contraejemplos a la afirmación de que el subespacio centroide del grupo está abarcado por las direcciones principales. [73]

Factorización matricial no negativa

Gráficos de varianza residual fraccional (FRV) para PCA y NMF; [25] para PCA, los valores teóricos son la contribución de los valores propios residuales. En comparación, las curvas FRV para PCA alcanzan una meseta donde no se captura ninguna señal de manera efectiva; mientras que las curvas NMF FRV disminuyen continuamente, lo que indica una mejor capacidad para capturar la señal. Las curvas FRV para NMF también convergen a niveles más altos que las de PCA, lo que indica la propiedad de NMF de menor sobreajuste.

La factorización matricial no negativa (NMF) es un método de reducción de dimensiones en el que solo se utilizan elementos no negativos en las matrices, por lo que es un método prometedor en astronomía, [23] [24] [25] en el sentido de que las señales astrofísicas son no negativo. Los componentes PCA son ortogonales entre sí, mientras que los componentes NMF son todos no negativos y, por lo tanto, construyen una base no ortogonal.

En PCA, la contribución de cada componente se clasifica en función de la magnitud de su valor propio correspondiente, que es equivalente a la varianza residual fraccionaria (FRV) en el análisis de datos empíricos. [21] Para NMF, sus componentes se clasifican basándose únicamente en las curvas empíricas FRV. [25] Los gráficos del valor propio fraccional residual, es decir, en función del número de componentes dado un total de componentes, para PCA tienen una meseta plana, donde no se capturan datos para eliminar el ruido cuasiestático, luego las curvas caen rápidamente a medida que una indicación de sobreajuste (ruido aleatorio). [21] Las curvas FRV para NMF disminuyen continuamente [25] cuando los componentes de NMF se construyen secuencialmente , [24] lo que indica la captura continua de ruido cuasiestático; luego convergen a niveles más altos que PCA, [25] lo que indica la propiedad menos sobreajustable de NMF.

Iconografía de correlaciones

A menudo resulta difícil interpretar los componentes principales cuando los datos incluyen muchas variables de diversos orígenes o cuando algunas variables son cualitativas. Esto lleva al usuario de PCA a una delicada eliminación de varias variables. Si las observaciones o variables tienen un impacto excesivo en la dirección de los ejes, se deben eliminar y luego proyectar como elementos suplementarios. Además, hay que evitar interpretar las proximidades entre los puntos cercanos al centro del plano factorial.

Iconografía de correlaciones – Geoquímica de aerosoles marinos

La iconografía de las correlaciones , por el contrario, que no es una proyección sobre un sistema de ejes, no presenta estos inconvenientes. Por lo tanto podemos conservar todas las variables.

El principio del diagrama es subrayar las correlaciones "notables" de la matriz de correlación, mediante una línea continua (correlación positiva) o una línea de puntos (correlación negativa).

Una correlación fuerte no es "notable" si no es directa, sino causada por el efecto de una tercera variable. Por el contrario, las correlaciones débiles pueden ser "notables". Por ejemplo, si una variable Y depende de varias variables independientes, las correlaciones de Y con cada una de ellas son débiles y, sin embargo, "notables".

Generalizaciones

PCA escasa

Una desventaja particular del PCA es que los componentes principales suelen ser combinaciones lineales de todas las variables de entrada. Sparse PCA supera esta desventaja al encontrar combinaciones lineales que contienen solo unas pocas variables de entrada. Amplía el método clásico de análisis de componentes principales (PCA) para la reducción de la dimensionalidad de los datos agregando restricciones de escasez en las variables de entrada. Se han propuesto varios enfoques, entre ellos

Los desarrollos metodológicos y teóricos de Sparse PCA, así como sus aplicaciones en estudios científicos, se revisaron recientemente en un artículo de encuesta. [80]

PCA no lineal

PCA lineal versus colectores principales no lineales [81] para la visualización de datos de microarrays de cáncer de mama : a) Configuración de nodos y superficie principal 2D en el colector lineal PCA 3D. El conjunto de datos es curvo y no se puede mapear adecuadamente en un plano principal 2D; b) La distribución en las coordenadas internas de la superficie principal no lineal 2D (ELMap2D) junto con una estimación de la densidad de puntos; c) Lo mismo que b), pero para el colector PCA lineal 2D (PCA2D). El subtipo de cáncer de mama "basal" se visualiza mejor con ELMap2D y algunas características de la distribución se resuelven mejor en comparación con PCA2D. Las variedades principales son producidas por el algoritmo de mapas elásticos . Los datos están disponibles para concurso público. [82] El software está disponible para uso no comercial gratuito. [83]

La mayoría de los métodos modernos para la reducción de dimensionalidad no lineal encuentran sus raíces teóricas y algorítmicas en PCA o K-means. La idea original de Pearson era tomar una línea recta (o plano) que fuera "el mejor ajuste" a un conjunto de puntos de datos. Trevor Hastie amplió este concepto al proponer las curvas principales [84] como la extensión natural para la interpretación geométrica de PCA, que construye explícitamente una variedad para la aproximación de datos y luego proyecta los puntos sobre ella, como se ilustra en la figura . Algoritmo cartográfico y análisis geodésico principal . [85] Otra generalización popular es la PCA del núcleo , que corresponde a la PCA realizada en un espacio de Hilbert del núcleo en reproducción asociado con un núcleo definido positivo.

En el aprendizaje subespacial multilineal , [86] [87] [88] PCA se generaliza a PCA multilineal (MPCA) que extrae características directamente de representaciones tensoriales. MPCA se resuelve realizando PCA en cada modo del tensor de forma iterativa. MPCA se ha aplicado al reconocimiento facial, reconocimiento de la marcha, etc. MPCA se extiende aún más a MPCA no correlacionado, MPCA no negativo y MPCA robusto.

El análisis de componentes principales de N vías se puede realizar con modelos como la descomposición de Tucker , PARAFAC , análisis de factores múltiples, análisis de coinercia, STATIS y DISTATIS.

PCA robusto

Si bien PCA encuentra el método matemáticamente óptimo (como minimizar el error al cuadrado), sigue siendo sensible a valores atípicos en los datos que producen grandes errores, algo que el método intenta evitar en primer lugar. Por lo tanto, es una práctica común eliminar los valores atípicos antes de calcular el PCA. Sin embargo, en algunos contextos, los valores atípicos pueden resultar difíciles de identificar. Por ejemplo, en algoritmos de minería de datos como el clustering de correlación , la asignación de puntos a clusters y valores atípicos no se conoce de antemano. Una generalización de PCA propuesta recientemente [89] basada en un PCA ponderado aumenta la robustez al asignar diferentes pesos a los objetos de datos en función de su relevancia estimada.

También se han propuesto variantes de PCA resistentes a valores atípicos, basadas en formulaciones de norma L1 ( L1-PCA ). [6] [4]

El análisis robusto de componentes principales (RPCA) mediante descomposición en matrices dispersas y de bajo rango es una modificación del PCA que funciona bien con respecto a observaciones muy corruptas. [90] [91] [92]

Técnicas similares

Análisis de componentes independientes

El análisis de componentes independientes (ICA) está dirigido a problemas similares al análisis de componentes principales, pero encuentra componentes separables de forma aditiva en lugar de aproximaciones sucesivas.

Análisis de componentes de red.

Dada una matriz , intenta descomponerla en dos matrices tales que . Una diferencia clave con respecto a técnicas como PCA e ICA es que algunas de las entradas de están restringidas a ser 0. Aquí se denomina capa regulatoria. Si bien en general dicha descomposición puede tener múltiples soluciones, demuestran que si se cumplen las siguientes condiciones:

  1. tiene rango de columna completo
  2. Cada columna de debe tener al menos ceros donde está el número de columnas de (o alternativamente el número de filas de ). La justificación de este criterio es que si se elimina un nodo de la capa regulatoria junto con todos los nodos de salida conectados a él, el resultado aún debe caracterizarse por una matriz de conectividad con rango de columna completo.
  3. debe tener rango de fila completo.

entonces la descomposición es única hasta la multiplicación por un escalar. [93]

Análisis discriminante de componentes principales.

El análisis discriminante de componentes principales (DAPC) es un método multivariado que se utiliza para identificar y describir grupos de individuos genéticamente relacionados. La variación genética se divide en dos componentes: variación entre grupos y dentro de grupos, y maximiza la primera. Los discriminantes lineales son combinaciones lineales de alelos que separan mejor los grupos. Por lo tanto, los alelos que más contribuyen a esta discriminación son aquellos que son más marcadamente diferentes entre grupos. Las contribuciones de los alelos a los agrupamientos identificados por DAPC pueden permitir identificar regiones del genoma que impulsan la divergencia genética entre grupos [94]. En DAPC, los datos se transforman primero mediante un análisis de componentes principales (PCA) y posteriormente los grupos se identifican mediante un análisis discriminante ( DA).

Se puede realizar un DAPC en R utilizando el paquete Adegenet. (más información: adegenet en la web)

Análisis de componentes direccionales.

El análisis de componentes direccionales (DCA) es un método utilizado en las ciencias atmosféricas para analizar conjuntos de datos multivariados. [95] Al igual que PCA, permite la reducción de dimensiones, una mejor visualización y una mejor interpretabilidad de grandes conjuntos de datos. Al igual que PCA, se basa en una matriz de covarianza derivada del conjunto de datos de entrada. La diferencia entre PCA y DCA es que DCA además requiere la entrada de una dirección vectorial, denominada impacto. Mientras que PCA maximiza la varianza explicada, DCA maximiza la densidad de probabilidad dado el impacto. La motivación para DCA es encontrar componentes de un conjunto de datos multivariado que sean a la vez probables (medidos usando la densidad de probabilidad) e importantes (medidos usando el impacto). El DCA se ha utilizado para encontrar los patrones de olas de calor más probables y graves en conjuntos de predicción meteorológica, [96] y los cambios más probables y de mayor impacto en las precipitaciones debido al cambio climático. [97]

Software/código fuente

Ver también

Referencias

  1. ^ Jolliffe, Ian T.; Cadima, Jorge (13 de abril de 2016). "Análisis de componentes principales: una revisión y desarrollos recientes". Transacciones filosóficas de la Royal Society A: Ciencias matemáticas, físicas y de ingeniería . 374 (2065): 20150202. Código bibliográfico : 2016RSPTA.37450202J. doi :10.1098/rsta.2015.0202. PMC  4792409 . PMID  26953178.
  2. ^ Barnett, TP y R. Preisendorfer. (1987). "Orígenes y niveles de habilidad de pronóstico mensual y estacional para las temperaturas del aire en la superficie de los Estados Unidos determinados mediante análisis de correlación canónica". Revisión meteorológica mensual . 115 (9): 1825. Código bibliográfico : 1987MWRv..115.1825B. doi : 10.1175/1520-0493(1987)115<1825:oaloma>2.0.co;2 .
  3. ^ Hsu, Daniel; Kakade, Sham M.; Zhang, Tong (2008). "Un algoritmo espectral para aprender modelos de Markov ocultos ". arXiv : 0811.4413 . Código Bib : 2008arXiv0811.4413H.
  4. ^ ab Markopoulos, Panos P.; Kundu, Sandipan; Chamadia, Shubham; Pados, Dimitris A. (15 de agosto de 2017). "Análisis eficiente de componentes principales de norma L1 mediante inversión de bits". Transacciones IEEE sobre procesamiento de señales . 65 (16): 4252–4264. arXiv : 1610.01959 . Código Bib : 2017ITSP...65.4252M. doi :10.1109/TSP.2017.2708023. S2CID  7931130.
  5. ^ ab Chachlakis, Dimitris G.; Prater-Bennette, Ashley; Markopoulos, Panos P. (22 de noviembre de 2019). "Descomposición del tensor de Tucker con norma L1". Acceso IEEE . 7 : 178454–178465. arXiv : 1904.06455 . doi : 10.1109/ACCESS.2019.2955134 .
  6. ^ ab Markopoulos, Panos P.; Karystinos, George N.; Pados, Dimitris A. (octubre de 2014). "Algoritmos óptimos para el procesamiento de señales del subespacio L1". Transacciones IEEE sobre procesamiento de señales . 62 (19): 5046–5058. arXiv : 1405.6785 . Código Bib : 2014ITSP...62.5046M. doi :10.1109/TSP.2014.2338077. S2CID  1494171.
  7. ^ Zhan, J.; Vaswani, N. (2015). "PCA robusto con conocimiento subespacial parcial". Transacciones IEEE sobre procesamiento de señales . 63 (13): 3332–3347. arXiv : 1403.1591 . Código Bib : 2015ITSP...63.3332Z. doi :10.1109/tsp.2015.2421485. S2CID  1516440.
  8. ^ Kanade, T.; Ke, Qifa (junio de 2005). "Factorización robusta de la norma L₁ en presencia de valores atípicos y datos faltantes mediante programación convexa alternativa". Conferencia de la IEEE Computer Society de 2005 sobre visión por computadora y reconocimiento de patrones (CVPR'05) . vol. 1. IEEE. págs. 739–746. CiteSeerX 10.1.1.63.4605 . doi :10.1109/CVPR.2005.309. ISBN  978-0-7695-2372-9. S2CID  17144854.
  9. ^ Pearson, K. (1901). "Sobre líneas y planos de máximo ajuste a sistemas de puntos en el espacio". Revista Filosófica . 2 (11): 559–572. doi :10.1080/14786440109462720. S2CID  125037489.
  10. ^ Hotelling, H. (1933). Análisis de un complejo de variables estadísticas en componentes principales. Revista de Psicología Educativa , 24 , 417–441 y 498–520. Hotelling, H (1936). "Relaciones entre dos conjuntos de variantes". Biometrika . 28 (3/4): 321–377. doi :10.2307/2333955. JSTOR  2333955.
  11. ^ Stewart, GW (1993). "Sobre la historia temprana de la descomposición del valor singular". Revisión SIAM . 35 (4): 551–566. doi :10.1137/1035134. hdl : 1903/566 .
  12. ^ abcde Jolliffe, TI (2002). Análisis de componentes principales. Serie Springer en Estadística. Nueva York: Springer-Verlag. doi :10.1007/b98835. ISBN 978-0-387-95442-4.
  13. ^ Bengio, Y.; et al. (2013). "Aprendizaje de representación: una revisión y nuevas perspectivas". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 35 (8): 1798–1828. arXiv : 1206.5538 . doi :10.1109/TPAMI.2013.50. PMID  23787338. S2CID  393948.
  14. ^ Forkman J., Josse, J., Piepho, HP (2019). "Pruebas de hipótesis para el análisis de componentes principales cuando las variables están estandarizadas". Revista de Estadísticas Agrícolas, Biológicas y Ambientales . 24 (2): 289–308. doi : 10.1007/s13253-019-00355-5 .{{cite journal}}: CS1 maint: multiple names: authors list (link)
  15. ^ Boyd, Esteban; Vandenberghe, Lieven (8 de marzo de 2004). Optimizacion convexa. Prensa de la Universidad de Cambridge. doi :10.1017/cbo9780511804441. ISBN 978-0-521-83378-3.
  16. ^ AA Miranda, YA Le Borgne y G. Bontempi. Nuevas rutas desde el error de aproximación mínimo a los componentes principales, volumen 27, número 3/junio de 2008, Neural Processing Letters, Springer
  17. ^ Fukunaga, Keinosuke (1990). Introducción al reconocimiento de patrones estadísticos. Elsevier. ISBN 978-0-12-269851-4.
  18. ^ Alizadeh, Elaheh; Lyons, Samantha M; Castillo, Jordania M; Prasad, Ashok (2016). "Medición de cambios sistemáticos en la forma de las células cancerosas invasivas utilizando momentos de Zernike". Biología Integrativa . 8 (11): 1183-1193. doi :10.1039/C6IB00100A. PMID  27735002.
  19. ^ Leznik, M; Tofallis, C. 2005 Estimación de componentes principales invariantes mediante regresión diagonal.
  20. ^ Jonathon Shlens, Tutorial sobre análisis de componentes principales.
  21. ^ abc Soummer, Rémi; Pueyo, Laurent; Larkin, James (2012). "Detección y caracterización de exoplanetas y discos mediante proyecciones sobre imágenes propias de Karhunen-Loève". Las cartas del diario astrofísico . 755 (2): L28. arXiv : 1207.4197 . Código Bib : 2012ApJ...755L..28S. doi :10.1088/2041-8205/755/2/L28. S2CID  51088743.
  22. ^ Pueyo, Laurent (2016). "Detección y caracterización de exoplanetas mediante proyecciones de imágenes propias de Karhunen Loeve: modelado directo". La revista astrofísica . 824 (2): 117. arXiv : 1604.06097 . Código Bib : 2016ApJ...824..117P. doi : 10.3847/0004-637X/824/2/117 . S2CID  118349503.
  23. ^ ab Blanton, Michael R.; Roweis, Sam (2007). "Correcciones K y transformaciones de filtros en ultravioleta, óptico e infrarrojo cercano". La Revista Astronómica . 133 (2): 734–754. arXiv : astro-ph/0606170 . Código Bib : 2007AJ....133..734B. doi :10.1086/510127. S2CID  18561804.
  24. ^ abc Zhu, Guangtun B. (19 de diciembre de 2016). "Factorización matricial no negativa (NMF) con incertidumbres heterocedásticas y datos faltantes". arXiv : 1612.06037 [astro-ph.IM].
  25. ^ abcdefRen , Bin; Pueyo, Laurent; Zhu, Guangtun B.; Duchêne, Gaspard (2018). "Factorización de matrices no negativas: extracción robusta de estructuras extendidas". La revista astrofísica . 852 (2): 104. arXiv : 1712.10317 . Código Bib : 2018ApJ...852..104R. doi : 10.3847/1538-4357/aaa1f2 . S2CID  3966513.
  26. ^ "¿Cuáles son los pros y los contras de la PCA?". i2tutoriales . 1 de septiembre de 2019 . Consultado el 4 de junio de 2021 .
  27. ^ Abbott, Dean (mayo de 2014). Análisis predictivo aplicado . Wiley. ISBN 9781118727966.
  28. ^ ab Jiang, Hong; Eskridge, Kent M. (2000). "Sesgo en el análisis de componentes principales debido a observaciones correlacionadas". Jornadas de Estadística Aplicada a la Agricultura . doi : 10.4148/2475-7772.1247 . ISSN  2475-7772.
  29. ^ Linsker, Ralph (marzo de 1988). "Autoorganización en una red perceptual". Computadora IEEE . 21 (3): 105-117. doi :10.1109/2.36. S2CID  1527671.
  30. ^ Deco y Obradovic (1996). Un enfoque teórico de la información para la computación neuronal. Nueva York, Nueva York: Springer. ISBN 9781461240167.
  31. ^ Plumbley, Mark (1991). Teoría de la información y redes neuronales no supervisadas .Nota técnica
  32. ^ Geiger, Bernhard; Kubin, Gernot (enero de 2013). "Mejora de la señal como minimización de la pérdida de información relevante". Proc. Conferencia ITG. Sobre Sistemas, Comunicación y Codificación . arXiv : 1205.6935 . Código Bib : 2012arXiv1205.6935G.
  33. ^ "Sección 6.5.5.2 del Manual de estadísticas de ingeniería" . Consultado el 19 de enero de 2015 .
  34. ^ AA Miranda, Y.-A. Le Borgne y G. Bontempi. Nuevas rutas desde el error de aproximación mínimo a los componentes principales, volumen 27, número 3/junio de 2008, Neural Processing Letters, Springer
  35. ^ Abdí. H. y Williams, LJ (2010). "Análisis de componentes principales". Revisiones interdisciplinarias de Wiley: estadística computacional . 2 (4): 433–459. arXiv : 1108.4372 . doi :10.1002/wics.101. S2CID  122379222.
  36. ^ "Guía del usuario de SAS/STAT(R) 9.3".
  37. ^ Documentación de Matlab de la función eig
  38. ^ "Basado en sistema de reconocimiento facial-PCA". www.mathworks.com . 19 de junio de 2023.
  39. ^ Función de valores propios Documentación de Mathematica
  40. ^ Roweis, Sam. "Algoritmos EM para PCA y SPCA". Avances en los sistemas de procesamiento de información neuronal. Ed. Michael I. Jordan, Michael J. Kearns y Sara A. Solla The MIT Press, 1998.
  41. ^ Geladi, Paul; Kowalski, Bruce (1986). "Regresión de mínimos cuadrados parciales: un tutorial". Analytica Chimica Acta . 185 : 1–17. doi :10.1016/0003-2670(86)80028-9.
  42. ^ Kramer, R. (1998). Técnicas quimiométricas para análisis cuantitativo. Nueva York: CRC Press. ISBN 9780203909805.
  43. ^ Andrecut, M. (2009). "Implementación de GPU paralela de algoritmos PCA iterativos". Revista de biología computacional . 16 (11): 1593-1599. arXiv : 0811.1081 . doi :10.1089/cmb.2008.0221. PMID  19772385. S2CID  1362603.
  44. ^ Calor, MK; Kuzmín, D. (2008). "Algoritmos PCA en línea aleatorios con límites de arrepentimiento que son logarítmicos en la dimensión" (PDF) . Revista de investigación sobre aprendizaje automático . 9 : 2287–2320.
  45. ^ Kaplan, RM y Saccuzzo, DP (2010). Pruebas psicológicas: principios, aplicaciones y cuestiones. (8ª ed.). Belmont, CA: Wadsworth, Cengage Learning.
  46. ^ Shevky, Eshref; Williams, Marilyn (1949). Las áreas sociales de Los Ángeles: análisis y tipología . Prensa de la Universidad de California.
  47. ^ Inundación, J (2000). Sydney dividida: revisión de la ecología factorial. Documento presentado en la Conferencia de la APA 2000, Melbourne, noviembre y en la 24ª Conferencia ANZRSAI, Hobart, diciembre de 2000.[1]
  48. ^ "Índices socioeconómicos por áreas". Oficina de Estadísticas de Australia . 2011 . Consultado el 5 de mayo de 2022 .
  49. ^ Informes sobre desarrollo humano. "Índice de Desarrollo Humano". Programa de las Naciones Unidas para el Desarrollo . Consultado el 6 de mayo de 2022 .
  50. ^ Noviembre, John; Stephens, Mateo (2008). "Interpretación de análisis de componentes principales de la variación genética de poblaciones espaciales". Nat Genet . 40 (5): 646–49. doi :10.1038/ng.139. PMC 3989108 . PMID  18425127. 
  51. ^ Elhaik, Eran (2022). "Los hallazgos basados ​​​​en análisis de componentes principales (PCA) en estudios genéticos de poblaciones están muy sesgados y deben reevaluarse". Informes científicos . 12 (1). 14683. Código bibliográfico : 2022NatSR..1214683E. doi : 10.1038/s41598-022-14395-4 . PMC 9424212 . PMID  36038559. S2CID  251932226. 
  52. ^ DeSarbo, Wayne; Hausmann, Robert; Kukitz, Jeffrey (2007). "Análisis de componentes principales restringidos para investigación de mercados". Revista de Marketing en Gestión . 2 : 305–328 - vía Researchgate.
  53. ^ Dutton, William H; En blanco, Grant (2013). Culturas de Internet: Internet en Gran Bretaña (PDF) . Instituto de Internet de Oxford. pag. 6.
  54. ^ Inundación, Joe (2008). "Encuesta de análisis multinomial para carreras de vivienda". Ponencia para la Conferencia de la Red Europea de Investigación sobre Vivienda, Dublín . Consultado el 6 de mayo de 2022 .
  55. ^ ab Ver cap. 9 en Michael B. Miller (2013). Matemáticas y Estadística para la Gestión de Riesgos Financieros , 2ª Edición. Wiley ISBN 978-1-118-75029-2 
  56. ^ ab §9.7 en John Hull (2018). Gestión de Riesgos e Instituciones Financieras, 5ª Edición. Wiley. ISBN 1119448115 
  57. ^ §III.A.3.7.2 en Carol Alexander y Elizabeth Sheedy, eds. (2004). El manual de administradores de riesgos profesionales . PRMIA . ISBN 978-0976609704 
  58. ^ ejemplo de descomposición, John Hull
  59. ^ Libin Yang. Una aplicación del análisis de componentes principales a la gestión de carteras de acciones. Departamento de Economía y Finanzas, Universidad de Canterbury , enero de 2015.
  60. ^ Giorgia Pasini (2017); Análisis de Componentes Principales para la Gestión de Portafolios Acciones. Revista Internacional de Matemática Pura y Aplicada . Volumen 115 No. 1 2017, 153–167
  61. ^ ab Ver cap. 25 § "Pruebas de escenarios mediante análisis de componentes principales" en Li Ong (2014). "Guía de métodos y modelos de pruebas de tensión del FMI", Fondo Monetario Internacional
  62. ^ Chapín, John; Nicolelis, Miguel (1999). "El análisis de los componentes principales de la actividad del conjunto neuronal revela representaciones somatosensoriales multidimensionales". Revista de métodos de neurociencia . 94 (1): 121-140. doi :10.1016/S0165-0270(99)00130-2. PMID  10638820. S2CID  17786731.
  63. ^ Brenner, N., Bialek, W. y de Ruyter van Steveninck, RR (2000).
  64. ^ Jirsa, Víctor; Federico, R; Haken, Herman; Kelso, Scott (1994). "Un modelo teórico de transiciones de fase en el cerebro humano". Cibernética biológica . 71 (1): 27–35. doi :10.1007/bf00198909. PMID  8054384. S2CID  5155075.
  65. ^ Benzécri, J.-P. (1973). L'Analyse des Données. Volumen II. L'Analyse des Correspondances . París, Francia: Dunod.
  66. ^ Greenacre, Michael (1983). Teoría y Aplicaciones del Análisis de Correspondencias . Londres: Academic Press. ISBN 978-0-12-299050-2.
  67. ^ Le Roux; Brigitte y Henry Rouanet (2004). Análisis de datos geométricos, del análisis de correspondencias al análisis de datos estructurados. Dordrecht: Kluwer. ISBN 9781402022357.
  68. ^ Timoteo A. Brown. Análisis Factorial Confirmatorio para la Metodología de la Investigación Aplicada en las Ciencias Sociales. Prensa de Guilford, 2006
  69. ^ Meglen, RR (1991). "Examen de grandes bases de datos: un enfoque quimiométrico mediante análisis de componentes principales". Revista de quimiometría . 5 (3): 163-179. doi :10.1002/cem.1180050305. S2CID  120886184.
  70. ^ H.Zha; C. Ding; M. Gu; X. Él; HD Simon (diciembre de 2001). "Relajación espectral para agrupación de K-medias" (PDF) . Sistemas de procesamiento de información neuronal Vol.14 (NIPS 2001) : 1057–1064.
  71. ^ Chris Ding; Xiaofeng He (julio de 2004). "Agrupación de K-medias mediante análisis de componentes principales" (PDF) . Proc. De la Conferencia Internacional. Aprendizaje automático (ICML 2004) : 225–232.
  72. ^ Drineas, P.; A. Friso; R. Kannan; S. Vempala; V. Vinay (2004). "Agrupación de gráficos grandes mediante la descomposición de valores singulares" (PDF) . Aprendizaje automático . 56 (1–3): 9–33. doi : 10.1023/b:mach.0000033113.59016.96 . S2CID  5892850 . Consultado el 2 de agosto de 2012 .
  73. ^ Cohen, M.; S. anciano; C. Musco; C. Musco; M. Persu (2014). Reducción de dimensionalidad para agrupación de k-medias y aproximación de rango bajo (Apéndice B) . arXiv : 1410.6801 . Código Bib : 2014arXiv1410.6801C.
  74. ^ Hui Zou; Trevor Hastie; Robert Tibshirani (2006). "Análisis escaso de componentes principales" (PDF) . Revista de Estadística Computacional y Gráfica . 15 (2): 262–286. CiteSeerX 10.1.1.62.580 . doi :10.1198/106186006x113430. S2CID  5730904. 
  75. ^ Alejandro de Aspremont; Laurent El Ghaoui; Michael I. Jordán; Gert RG Lanckriet (2007). "Una formulación directa para PCA dispersa utilizando programación semidefinida" (PDF) . Revisión SIAM . 49 (3): 434–448. arXiv : cs/0406021 . doi : 10.1137/050645506. S2CID  5490061.
  76. ^ Michel Journee; Yuri Nesterov; Peter Richtarik; Rodolfo Sepulcro (2010). "Método de potencia generalizada para análisis de componentes principales dispersos" (PDF) . Revista de investigación sobre aprendizaje automático . 11 : 517–553. arXiv : 0811.4724 . Código Bib : 2008arXiv0811.4724J. Documento de debate CORE 2008/70.
  77. ^ Peter Richtarik; Martín Takac; S. Damla Ahipasaoglu (2012). "Maximización alterna: marco unificador para 8 formulaciones de PCA dispersas y códigos paralelos eficientes". arXiv : 1212.4137 [estad.ML].
  78. ^ Baback Moghaddam; Yair Weiss; Shai Avidan (2005). "Límites espectrales para PCA escasa: algoritmos exactos y codiciosos" (PDF) . Avances en los sistemas de procesamiento de información neuronal . vol. 18. Prensa del MIT.
  79. ^ Yue Guan; Jennifer Dy (2009). "Análisis de componentes principales probabilístico escaso" (PDF) . Actas de conferencias y talleres de investigación de Journal of Machine Learning . 5 : 185.
  80. ^ Hui Zou; Lingzhou Xue (2018). "Una descripción general selectiva del análisis de componentes principales dispersos". Actas del IEEE . 106 (8): 1311-1320. doi : 10.1109/JPROC.2018.2846588 .
  81. ^ AN Gorban , AY Zinovyev, "Principal Graphs and Manifolds", en: Manual de investigación sobre aplicaciones y tendencias del aprendizaje automático: algoritmos, métodos y técnicas , Olivas ES et al Eds. Referencia de ciencias de la información, IGI Global: Hershey, PA, EE. UU., 2009. 28–59.
  82. ^ Wang, Y.; Klijn, JG; Zhang, Y.; Sieuwerts, AM; Mire, diputado; Yang, F.; Talántov, D.; Timmermans, M.; Meijer-van Gelder, ME; Yu, J.; et al. (2005). "Perfiles de expresión genética para predecir metástasis a distancia de cáncer de mama primario con ganglios linfáticos negativos". La lanceta . 365 (9460): 671–679. doi :10.1016/S0140-6736(05)17947-1. PMID  15721472. S2CID  16358549.Datos en línea
  83. ^ Zinovyev, A. "ViDaExpert - Herramienta de visualización de datos multidimensionales". Instituto Curie . París.(Gratis para uso no comercial)
  84. ^ Hastie, T .; Stuetzle, W. (junio de 1989). "Curvas Principales" (PDF) . Revista de la Asociación Estadounidense de Estadística . 84 (406): 502–506. doi :10.1080/01621459.1989.10478797.
  85. ^ AN Gorban, B. Kegl, DC Wunsch, A. Zinovyev (Eds.), Principales colectores para visualización de datos y reducción de dimensiones, LNCSE 58, Springer, Berlín - Heidelberg - Nueva York, 2007. ISBN 978-3-540-73749 -0 
  86. ^ Vasilescu, MAO; Terzopoulos, D. (2003). Análisis subespacial multilineal de conjuntos de imágenes (PDF) . Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones (CVPR'03). Madison, Wisconsin.
  87. ^ Vasilescu, MAO; Terzopoulos, D. (2002). Análisis multilineal de conjuntos de imágenes: TensorFaces (PDF) . Apuntes de conferencias en informática 2350; (Presentado en el Proc. 7ma Conferencia Europea sobre Visión por Computador (ECCV'02), Copenhague, Dinamarca). Springer, Berlín, Heidelberg. doi :10.1007/3-540-47969-4_30. ISBN 978-3-540-43745-1.
  88. ^ Vasilescu, MAO; Terzopoulos, D. (junio de 2005). Análisis multilineal de componentes independientes (PDF) . Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones (CVPR'05). vol. 1. San Diego, California. págs. 547–553.
  89. ^ Kriegel, HP; Kröger, P.; Schubert, E.; Zimek, A. (2008). "Un marco general para aumentar la robustez de los algoritmos de agrupación de correlación basados ​​en PCA". Gestión de Bases de Datos Científicas y Estadísticas . Apuntes de conferencias sobre informática. vol. 5069, págs. 418–435. CiteSeerX 10.1.1.144.4864 . doi :10.1007/978-3-540-69497-7_27. ISBN  978-3-540-69476-2.
  90. ^ Emmanuel J. Candes; Xiao Dong Li; Yi Ma; John Wright (2011). "¿Análisis robusto de componentes principales?". Revista de la ACM . 58 (3): 11. arXiv : 0912.3599 . doi :10.1145/1970392.1970395. S2CID  7128002.
  91. ^ T. Bouwmans; E. Zahzah (2014). "PCA robusta a través de la búsqueda de componentes principales: una revisión para una evaluación comparativa en videovigilancia". Visión por computadora y comprensión de imágenes . 122 : 22–34. doi :10.1016/j.cviu.2013.11.009.
  92. ^ T. Bouwmans; A. Sobral; S. Javed; S. Jung; E. Zahzah (2015). "Descomposición en matrices aditivas de rango bajo para la separación de fondo y primer plano: una revisión para una evaluación comparativa con un conjunto de datos a gran escala". Revisión de informática . 23 : 1–71. arXiv : 1511.01245 . Código Bib : 2015arXiv151101245B. doi :10.1016/j.cosrev.2016.11.001. S2CID  10420698.
  93. ^ Liao, JC; Boscolo, R.; Yang, Y.-L.; Tran, LM; Sabatti, C .; Roychowdhury, vicepresidente (2003). "Análisis de componentes de red: Reconstrucción de señales regulatorias en sistemas biológicos". Procedimientos de la Academia Nacional de Ciencias . 100 (26): 15522–15527. Código bibliográfico : 2003PNAS..10015522L. doi : 10.1073/pnas.2136632100 . PMC 307600 . PMID  14673099. 
  94. ^ Liao, T.; Jombart, S.; Devillard, F.; Balloux (2010). "Análisis discriminante de componentes principales: un nuevo método para el análisis de poblaciones genéticamente estructuradas". Genética BMC . 11 : 11:94. doi : 10.1186/1471-2156-11-94 . PMC 2973851 . PMID  20950446. 
  95. ^ Judioson, S. (2020). "Una alternativa al PCA para estimar patrones dominantes de variabilidad y extremos climáticos, con aplicación a las precipitaciones estacionales de EE. UU. y China". Atmósfera . 11 (4): 354. Bibcode : 2020Atmos..11..354J. doi : 10.3390/atmos11040354 .
  96. ^ Scher, S.; Judíoson, S.; Messori, G. (2021). "Sólidos escenarios del peor de los casos a partir de pronósticos conjuntos". Meteorología y previsión . 36 (4): 1357-1373. Código Bib : 2021WtFor..36.1357S. doi : 10.1175/WAF-D-20-0219.1 . S2CID  236300040.
  97. ^ Judioson, S.; Messori, G.; Barbato, G.; Mercogliano, P.; Mysiak, J.; Sassi, M. (2022). "Desarrollo de escenarios de impacto representativos a partir de conjuntos de proyecciones climáticas, con aplicación a las precipitaciones UKCP18 y EURO-CORDEX". Revista de avances en el modelado de sistemas terrestres . 15 (1). doi : 10.1029/2022MS003038 . S2CID  254965361.
  98. ^ "Análisis de componentes principales". Instituto de Investigación y Educación Digital . UCLA . Consultado el 29 de mayo de 2018 .

Otras lecturas

enlaces externos