Técnicamente, el ACP busca la proyección según la cual los datos queden mejor representados en términos de mínimos cuadrados.El ACP se emplea sobre todo en análisis exploratorio de datos y para construir modelos predictivos.Debe diferenciarse del análisis factorial con el que tiene similitudes formales y en el cual puede ser utilizado como un método de aproximación para la extracción de factores.variables, que se supone están distribuidas normalmente de forma conjunta, es la variable derivada formada como combinación lineal de las variables originales que explica la mayor parte de la varianza.El segundo componente principal explica la mayor varianza de lo que queda una vez eliminado el efecto del primer componente, y podemos proceder a través deiteraciones hasta que se explique toda la varianza.PCA se utiliza más comúnmente cuando muchas de las variables están altamente correlacionadas entre sí y es deseable reducir su número a un conjunto independiente.PCA se utiliza en análisis exploratorio de datos y para hacer modelos predictivos.El primer componente principal puede definirse equivalentemente como una dirección que maximiza la varianza de los datos proyectados.-ésima componente principal puede tomarse como una dirección ortogonal a las primerascomponentes principales que maximiza la varianza de los datos proyectados.El ACP es el más sencillo de los análisis multivariantes basados en vectores propios y está estrechamente relacionado con el análisis factorial.El análisis factorial suele incorporar supuestos más específicos del dominio sobre la estructura subyacente y resuelve eigenvectores de una matriz ligeramente diferente.PCA también está relacionado con análisis de correlación canónica (CCA).[1][2][3][4] También se han propuesto variantes del ACP estándar basadas en Robust y norma L1[5][6][7][4] El PCA fue inventado en 1901 por Karl Pearson,[8] como un análogo del teorema del eje principal en mecánica; más tarde fue desarrollado independientemente y nombrado por Harold Hotelling en la década de 1930.El ACP construye una transformación lineal que escoge un nuevo sistema de coordenadas para el conjunto original de datos en el cual la varianza de mayor tamaño del conjunto de datos es capturada en el primer eje (llamado el Primer Componente Principal), la segunda varianza más grande es el segundo eje, y así sucesivamente.Además las coordenadas en la nueva base dan la composición en factores subyacentes de los datos iniciales.Los primeros componentes principales describen la mayor parte de la varianza de los datos (más cuanto más correlacionadas estuvieran las variables originales).Estos componentes de bajo orden a veces contienen el aspecto "más importante" de la información, y los demás componentes se pueden ignorar.[12] Supongamos que existe una muestra con n individuos para cada uno de los cuales se han medido m variables (aleatorias)El ACP permite encontrar un número de factores subyacentes p < m que explican aproximadamente el valor de las m variables para cada individuo.El hecho de que existan estos p factores subyacentes puede interpretarse como una reducción de la dimensionalidad de los datos: donde antes necesitabamos m valores para caracterizar a cada individuo ahora nos bastan p valores.datos correspondientes a las m variables aleatorias, puede construirse la matriz de correlación muestral, que viene definida por:Puesto que la matriz de correlaciones es simétrica entonces resulta diagonalizable y sus valores propiosEstá claro que cada una de las variables puede ser expresada como combinación lineal de los vectores propios o componentes principales.son conocidos como scores y contienen la información de cómo las muestras están relacionadas unas con otras además, tienen la propiedad de ser ortogonales.Al coger menos componentes principales que variables y debido al error de ajuste del modelo con los datos, se produce un error que se acumula en la matrizLa cantidad de información que captura cada componente principal va disminuyendo según su número es decir, el componente principal número uno representa más información que el dos y así sucesivamente.La aplicación del ACP está limitada por varios supuestos[13] Se puede realizar el análisis de componentes principales (PCA) con perfiles de expresión génica.En un artículo publicado en 2019 en la revista Nature communications [15] se utiliza esta técnica con los perfiles de expresión de 19 muestras de diferentes cepas del complejo proteico de Mycobacterium tuberculosis, como resultado se obtiene que muestras pertenecientes al mismo linaje filogenético están agrupados estrechamente en el PCA.
Perfiles transcriptómicos globales de las muestras. a.La gráfica de PCA muestra que las muestras que pertenecen al mismo clado filogenético tienden a agruparse de cerca, excepto en dos casos. b Un análisis de racimos refuerza la tendencia derivada del PCA.