Análisis factorial

El análisis factorial es un método estadístico utilizado para describir la variabilidad entre variables observadas y correlacionadas en términos de un número potencialmente menor de variables no observadas llamadas factores . Por ejemplo, es posible que las variaciones en seis variables observadas reflejen principalmente las variaciones en dos variables no observadas (subyacentes). El análisis factorial busca tales variaciones conjuntas en respuesta a variables latentes no observadas . Las variables observadas se modelan como combinaciones lineales de los factores potenciales más términos de " error ", por lo que el análisis factorial puede considerarse como un caso especial de modelos de errores en variables . ^[1]

En pocas palabras, la carga factorial de una variable cuantifica el grado en que la variable está relacionada con un factor determinado. ^[2]

Una razón común detrás de los métodos de análisis factorial es que la información obtenida sobre las interdependencias entre las variables observadas se puede utilizar más adelante para reducir el conjunto de variables en un conjunto de datos. El análisis factorial se utiliza comúnmente en psicometría , psicología de la personalidad , biología, marketing , gestión de productos , investigación de operaciones , finanzas y aprendizaje automático . Puede resultar útil tratar con conjuntos de datos en los que hay un gran número de variables observadas que se cree que reflejan un número menor de variables subyacentes/latentes. Es una de las técnicas de interdependencia más utilizadas y se utiliza cuando el conjunto relevante de variables muestra una interdependencia sistemática y el objetivo es descubrir los factores latentes que crean una comunidad.

Modelo estadístico

Definición

El modelo intenta explicar un conjunto de observaciones en cada uno de los individuos con un conjunto de factores comunes ( ) donde hay menos factores por unidad que observaciones por unidad ( ). Cada individuo tiene sus propios factores comunes, y estos se relacionan con las observaciones a través de la matriz de carga factorial ( ), para una sola observación, según $p$ $n$ $k$ $f_{i,j}$ $k<p$ $k$ $L\in \mathbb {R} ^{p\times k}$

x_{i,m}-\mu _{i}=l_{i,1}f_{1,m}+\dots +l_{i,k}f_{k,m}+\varepsilon _{i,m}

dónde

$x_{i,m}$ es el valor de la enésima observación del enésimo individuo, $i$ $m$
$\mu _{i}$ es la media de observación para la enésima observación, $i$
$l_{i,j}$ es la carga para la enésima observación del enésimo factor, $i$ $j$
$f_{j,m}$ es el valor del factor ésimo del individuo ésimo, y $j$ $m$
$\varepsilon _{i,m}$ es el enésimo término de error estocástico no observado con media cero y varianza finita. $(i,m)$

En notación matricial

X-\mathrm {M} =LF+\varepsilon

donde matriz de observación , matriz de carga , matriz de factores , matriz de términos de error y matriz de medias donde el ésimo elemento es simplemente . $X\in \mathbb {R} ^{p\times n}$ $L\in \mathbb {R} ^{p\times k}$ $F\in \mathbb {R} ^{k\times n}$ $\varepsilon \in \mathbb {R} ^{p\times n}$ $\mathrm {M} \in \mathbb {R} ^{p\times n}$ $(i,m)$ $\mathrm {M} _{i,m}=\mu _{i}$

También impondremos los siguientes supuestos sobre : $F$

$F$ y son independientes. $\varepsilon$
$\mathrm {E} (F)=0$ ; ¿Dónde está la expectativa? $\mathrm {E}$
$\mathrm {Cov} (F)=I$ donde está la matriz de covarianza , para asegurarnos de que los factores no estén correlacionados, y es la matriz de identidad . $\mathrm {Cov}$ $I$

Suponer . Entonces $\mathrm {Cov} (X-\mathrm {M} )=\Sigma$

\Sigma =\mathrm {Cov} (X-\mathrm {M} )=\mathrm {Cov} (LF+\varepsilon ),\,

y por lo tanto, de las condiciones 1 y 2 impuestas anteriormente , y , dando $F$ $E[LF]=LE[F]=0$ $Cov(LF+\epsilon )=Cov(LF)+Cov(\epsilon )$

\Sigma =L\mathrm {Cov} (F)L^{T}+\mathrm {Cov} (\varepsilon ),\,

o, estableciendo , $\Psi :=\mathrm {Cov} (\varepsilon )$

\Sigma =LL^{T}+\Psi .\,

Tenga en cuenta que para cualquier matriz ortogonal , si establecemos y , los criterios para ser factores y cargas factoriales aún se mantienen. Por lo tanto, un conjunto de factores y cargas factoriales es único sólo hasta una transformación ortogonal . $Q$ $L^{\prime }=\ LQ$ $F^{\prime }=Q^{T}F$

Ejemplo

Supongamos que un psicólogo tiene la hipótesis de que existen dos tipos de inteligencia , la "inteligencia verbal" y la "inteligencia matemática", ninguna de las cuales se observa directamente. ^{[nota 1]} La evidencia de la hipótesis se busca en los puntajes de los exámenes de cada uno de los 10 campos académicos diferentes de 1000 estudiantes. Si cada estudiante se elige al azar de una población grande , entonces las 10 puntuaciones de cada estudiante son variables aleatorias. La hipótesis del psicólogo puede decir que para cada uno de los 10 campos académicos, la puntuación promedio del grupo de todos los estudiantes que comparten algún par común de valores para las "inteligencias" verbales y matemáticas es una constante multiplicada por su nivel de inteligencia verbal más otra constante multiplicada por su nivel de inteligencia matemática, es decir, es una combinación lineal de esos dos "factores". La hipótesis postula que los números para un sujeto en particular, por los cuales se multiplican los dos tipos de inteligencia para obtener la puntuación esperada, son los mismos para todos los pares de niveles de inteligencia, y se denominan "carga factorial" para este sujeto. ^{[ se necesita aclaración ]} Por ejemplo, la hipótesis puede sostener que la aptitud promedio prevista del estudiante en el campo de la astronomía es

{10 × la inteligencia verbal del estudiante} + {6 × la inteligencia matemática del estudiante}.

Los números 10 y 6 son las cargas factoriales asociadas con la astronomía. Otras materias académicas pueden tener cargas factoriales diferentes.

Dos estudiantes que se supone tienen grados idénticos de inteligencia verbal y matemática pueden tener diferentes aptitudes medidas en astronomía porque las aptitudes individuales difieren de las aptitudes promedio (predichas anteriormente) y debido al error de medición en sí. Tales diferencias constituyen lo que colectivamente se llama "error", un término estadístico que significa la cantidad en la que un individuo, según se mide, difiere de lo que es promedio o predicho por sus niveles de inteligencia (ver errores y residuos en estadísticas). ).

Los datos observables que entran en el análisis factorial serían 10 puntuaciones de cada uno de los 1.000 estudiantes, un total de 10.000 números. De los datos se deben inferir las cargas factoriales y los niveles de los dos tipos de inteligencia de cada estudiante.

Modelo matemático del mismo ejemplo.

A continuación, las matrices se indicarán mediante variables indexadas. Los índices de "Asunto" se indicarán mediante las letras , y , con valores que van desde hasta y que son iguales a en el ejemplo anterior. Los índices de "factor" se indicarán mediante las letras , y , con valores que van desde hasta y que son iguales a en el ejemplo anterior. Los índices de "instancia" o "muestra" se indicarán mediante las letras , y , con valores que van desde hasta . En el ejemplo anterior, si una muestra de estudiantes participó en los exámenes, la puntuación del décimo estudiante para el décimo examen viene dada por . El propósito del análisis factorial es caracterizar las correlaciones entre las variables de las cuales son un caso particular o un conjunto de observaciones. Para que las variables estén en igualdad de condiciones, se normalizan en puntuaciones estándar : $a$ $b$ $c$ $1$ $p$ $10$ $p$ $q$ $r$ $1$ $k$ $2$ $i$ $j$ $k$ $1$ $N$ $N=1000$ $p=10$ $i$ $a$ $x_{ai}$ $x_{a}$ $x_{ai}$ $z$

z_{ai}={\frac {x_{ai}-{\hat {\mu }}_{a}}{{\hat {\sigma }}_{a}}}

donde la media muestral es:

{\hat {\mu }}_{a}={\tfrac {1}{N}}\sum _{i}x_{ai}

y la varianza muestral está dada por:

{\hat {\sigma }}_{a}^{2}={\tfrac {1}{N-1}}\sum _{i}(x_{ai}-{\hat {\mu }}_{a})^{2}

El modelo de análisis factorial para esta muestra en particular es entonces:

{\begin{matrix}z_{1,i}&=&\ell _{1,1}F_{1,i}&+&\ell _{1,2}F_{2,i}&+&\varepsilon _{1,i}\\\vdots &&\vdots &&\vdots &&\vdots \\z_{10,i}&=&\ell _{10,1}F_{1,i}&+&\ell _{10,2}F_{2,i}&+&\varepsilon _{10,i}\end{matrix}}

o, más sucintamente:

z_{ai}=\sum _{p}\ell _{ap}F_{pi}+\varepsilon _{ai}

dónde

$F_{1i}$ es la "inteligencia verbal" del estudiante número 1, $i$
$F_{2i}$ es la "inteligencia matemática" del estudiante número 1, $i$
$\ell _{ap}$ son las cargas factoriales para el ésimo sujeto, para . $a$ $p=1,2$

En notación matricial , tenemos

Z=LF+\varepsilon

Observe que duplicar la escala en la que se mide la "inteligencia verbal" (el primer componente de cada columna) y simultáneamente reducir a la mitad las cargas factoriales para la inteligencia verbal no supone ninguna diferencia para el modelo. Por tanto, no se pierde generalidad al suponer que la desviación estándar de los factores de inteligencia verbal es . Lo mismo ocurre con la inteligencia matemática. Además, por razones similares, no se pierde generalidad al suponer que los dos factores no están correlacionados entre sí. En otras palabras: $F$ $1$

\sum _{i}F_{pi}F_{qi}=\delta _{pq}

¿Dónde está el delta de Kronecker ( cuándo y cuándo )? Se supone que los errores son independientes de los factores: $\delta _{pq}$ $0$ $p\neq q$ $1$ $p=q$

\sum _{i}F_{pi}\varepsilon _{ai}=0

Tenga en cuenta que, dado que cualquier rotación de una solución también es una solución, esto dificulta la interpretación de los factores. Vea las desventajas a continuación. En este ejemplo particular, si no sabemos de antemano que los dos tipos de inteligencia no están correlacionados, entonces no podemos interpretar los dos factores como dos tipos diferentes de inteligencia. Incluso si no están correlacionados, no podemos decir qué factor corresponde a la inteligencia verbal y cuál corresponde a la inteligencia matemática sin un argumento externo.

Los valores de las cargas , los promedios y las varianzas de los "errores" deben estimarse dados los datos observados y (el supuesto sobre los niveles de los factores es fijo para un determinado ). El "teorema fundamental" puede derivarse de las condiciones anteriores: $L$ $\mu$ $\varepsilon$ $X$ $F$ $F$

\sum _{i}z_{ai}z_{bi}=\sum _{j}\ell _{aj}\ell _{bj}+\sum _{i}\varepsilon _{ai}\varepsilon _{bi}

El término de la izquierda es el término de la matriz de correlación (una matriz derivada como el producto de la matriz de observaciones estandarizadas con su transpuesta) de los datos observados, y sus elementos diagonales serán s. El segundo término de la derecha será una matriz diagonal con términos menores que la unidad. El primer término de la derecha es la "matriz de correlación reducida" y será igual a la matriz de correlación excepto por sus valores diagonales que serán menores que la unidad. Estos elementos diagonales de la matriz de correlación reducida se denominan "comunalidades" (que representan la fracción de la varianza en la variable observada que se explica por los factores): $(a,b)$ $p\times p$ $p\times N$ $p$ $1$

h_{a}^{2}=1-\psi _{a}=\sum _{j}\ell _{aj}\ell _{aj}

Los datos de muestra no obedecerán exactamente a la ecuación fundamental dada anteriormente debido a errores de muestreo, insuficiencia del modelo, etc. El objetivo de cualquier análisis del modelo anterior es encontrar los factores y cargas que den un "mejor ajuste" a los datos. . En el análisis factorial, el mejor ajuste se define como el mínimo del error cuadrático medio en los residuos fuera de la diagonal de la matriz de correlación: ^[3] $z_{ai}$ $F_{pi}$ $\ell _{ap}$

\varepsilon ^{2}=\sum _{a\neq b}\left[\sum _{i}z_{ai}z_{bi}-\sum _{j}\ell _{aj}\ell _{bj}\right]^{2}

Esto equivale a minimizar los componentes fuera de la diagonal de la covarianza del error que, en las ecuaciones del modelo, tienen valores esperados de cero. Esto debe contrastarse con el análisis de componentes principales que busca minimizar el error cuadrático medio de todos los residuos. ^[3] Antes de la llegada de las computadoras de alta velocidad, se dedicó un esfuerzo considerable a encontrar soluciones aproximadas al problema, particularmente en la estimación de las comunalidades por otros medios, lo que luego simplifica considerablemente el problema al producir una matriz de correlación reducida conocida. Luego se utilizó para estimar los factores y las cargas. Con la llegada de las computadoras de alta velocidad, el problema de minimización se puede resolver de forma iterativa con la velocidad adecuada, y las comunalidades se calculan en el proceso, en lugar de ser necesarias de antemano. El algoritmo MinRes es especialmente adecuado para este problema, pero no es el único medio iterativo para encontrar una solución.

Si se permite que los factores de solución estén correlacionados (como en la rotación 'oblimin', por ejemplo), entonces el modelo matemático correspondiente utiliza coordenadas sesgadas en lugar de coordenadas ortogonales.

Interpretación geométrica

A los parámetros y variables del análisis factorial se les puede dar una interpretación geométrica. Los datos ( ), los factores ( ) y los errores ( ) pueden verse como vectores en un espacio euclidiano de dimensiones (espacio muestral), representados como , y respectivamente. Dado que los datos están estandarizados, los vectores de datos tienen una longitud unitaria ( ). Los vectores de factores definen un subespacio lineal de dimensiones (es decir, un hiperplano) en este espacio, sobre el cual los vectores de datos se proyectan ortogonalmente. Esto se desprende de la ecuación del modelo. $z_{ai}$ $F_{pi}$ $\varepsilon _{ai}$ $N$ $\mathbf {z} _{a}$ $\mathbf {F} _{p}$ ${\boldsymbol {\varepsilon }}_{a}$ $||\mathbf {z} _{a}||=1$ $k$

\mathbf {z} _{a}=\sum _{p}\ell _{ap}\mathbf {F} _{p}+{\boldsymbol {\varepsilon }}_{a}

y la independencia de los factores y los errores: . En el ejemplo anterior, el hiperplano es simplemente un plano bidimensional definido por los dos vectores de factores. La proyección de los vectores de datos en el hiperplano viene dada por $\mathbf {F} _{p}\cdot {\boldsymbol {\varepsilon }}_{a}=0$

{\hat {\mathbf {z} }}_{a}=\sum _{p}\ell _{ap}\mathbf {F} _{p}

y los errores son vectores desde ese punto proyectado hasta el punto de datos y son perpendiculares al hiperplano. El objetivo del análisis factorial es encontrar un hiperplano que "se ajuste mejor" a los datos en algún sentido, por lo que no importa cómo se elijan los vectores factoriales que definen este hiperplano, siempre que sean independientes y se encuentren en el hiperplano. Somos libres de especificarlos como ortogonales y normales ( ) sin pérdida de generalidad. Después de encontrar un conjunto adecuado de factores, también se pueden rotar arbitrariamente dentro del hiperplano, de modo que cualquier rotación de los vectores de factores definirá el mismo hiperplano y también será una solución. Como resultado, en el ejemplo anterior, en el que el hiperplano de ajuste es bidimensional, si no sabemos de antemano que los dos tipos de inteligencia no están correlacionados, entonces no podemos interpretar los dos factores como dos tipos diferentes de inteligencia. Incluso si no están correlacionados, no podemos decir qué factor corresponde a la inteligencia verbal y cuál corresponde a la inteligencia matemática, o si los factores son combinaciones lineales de ambos, sin un argumento externo. $\mathbf {F} _{p}\cdot \mathbf {F} _{q}=\delta _{pq}$

Los vectores de datos tienen longitud unitaria. Las entradas de la matriz de correlación para los datos vienen dadas por . La matriz de correlación se puede interpretar geométricamente como el coseno del ángulo entre los dos vectores de datos y . Los elementos diagonales serán claramente s y los elementos fuera de la diagonal tendrán valores absolutos menores o iguales a la unidad. La "matriz de correlación reducida" se define como $\mathbf {z} _{a}$ $r_{ab}=\mathbf {z} _{a}\cdot \mathbf {z} _{b}$ $\mathbf {z} _{a}$ $\mathbf {z} _{b}$ $1$

{\hat {r}}_{ab}={\hat {\mathbf {z} }}_{a}\cdot {\hat {\mathbf {z} }}_{b}

El objetivo del análisis factorial es elegir el hiperplano de ajuste de modo que la matriz de correlación reducida reproduzca la matriz de correlación lo más cerca posible, excepto los elementos diagonales de la matriz de correlación que se sabe que tienen valor unitario. En otras palabras, el objetivo es reproducir con la mayor precisión posible las correlaciones cruzadas de los datos. Específicamente, para el hiperplano de ajuste, el error cuadrático medio en los componentes fuera de la diagonal

\varepsilon ^{2}=\sum _{a\neq b}\left(r_{ab}-{\hat {r}}_{ab}\right)^{2}

debe minimizarse, y esto se logra minimizándolo con respecto a un conjunto de vectores de factores ortonormales. Puede observarse que

r_{ab}-{\hat {r}}_{ab}={\boldsymbol {\varepsilon }}_{a}\cdot {\boldsymbol {\varepsilon }}_{b}

El término de la derecha es simplemente la covarianza de los errores. En el modelo, la covarianza del error se establece como una matriz diagonal y, por lo tanto, el problema de minimización anterior producirá de hecho un "mejor ajuste" al modelo: producirá una estimación muestral de la covarianza del error que tiene sus componentes fuera de la diagonal. minimizado en el sentido del cuadrado medio. Se puede ver que dado que son proyecciones ortogonales de los vectores de datos, su longitud será menor o igual a la longitud del vector de datos proyectado, que es la unidad. El cuadrado de estas longitudes son solo los elementos diagonales de la matriz de correlación reducida. Estos elementos diagonales de la matriz de correlación reducida se conocen como "comunalidades": ${\hat {z}}_{a}$

{h_{a}}^{2}=||{\hat {\mathbf {z} }}_{a}||^{2}=\sum _{p}{\ell _{ap}}^{2}

Los valores grandes de las comunalidades indicarán que el hiperplano de ajuste reproduce con bastante precisión la matriz de correlación. Los valores medios de los factores también deben limitarse a cero, de lo que se deduce que los valores medios de los errores también serán cero.

Implementación práctica

Tipos de análisis factorial

Análisis factorial exploratorio

El análisis factorial exploratorio (AFE) se utiliza para identificar interrelaciones complejas entre elementos y elementos de grupo que forman parte de conceptos unificados. ^[4] El investigador no hace suposiciones a priori sobre las relaciones entre factores. ^[4]

Análisis factorial confirmatorio

El análisis factorial confirmatorio (AFC) es un enfoque más complejo que prueba la hipótesis de que los elementos están asociados con factores específicos. ^[4] CFA utiliza modelos de ecuaciones estructurales para probar un modelo de medición mediante el cual la carga de los factores permite la evaluación de las relaciones entre las variables observadas y las no observadas. ^[4] Los enfoques de modelado de ecuaciones estructurales pueden adaptarse al error de medición y son menos restrictivos que la estimación de mínimos cuadrados . ^[4] Los modelos hipotéticos se prueban con datos reales, y el análisis demostraría cargas de variables observadas en las variables latentes (factores), así como la correlación entre las variables latentes. ^[4]

Tipos de extracción de factores

El análisis de componentes principales (PCA) es un método ampliamente utilizado para la extracción de factores, que es la primera fase de la EFA. ^[4] Las ponderaciones de los factores se calculan para extraer la máxima varianza posible, y la factorización sucesiva continúa hasta que no queda más varianza significativa. ^[4] Luego, el modelo factorial debe rotarse para su análisis. ^[4]

El análisis factorial canónico, también llamado factorización canónica de Rao, es un método diferente para calcular el mismo modelo que el PCA, que utiliza el método del eje principal. El análisis factorial canónico busca factores que tengan la mayor correlación canónica con las variables observadas. El análisis factorial canónico no se ve afectado por el cambio de escala arbitrario de los datos.

El análisis de factores comunes, también llamado análisis de factores principales (PFA) o factorización del eje principal (PAF), busca la menor cantidad de factores que puedan explicar la varianza común (correlación) de un conjunto de variables.

La factorización de imágenes se basa en la matriz de correlación de variables predichas en lugar de variables reales, donde cada variable se predice a partir de las demás mediante regresión múltiple .

La factorización alfa se basa en maximizar la confiabilidad de los factores, asumiendo que las variables se muestrean aleatoriamente de un universo de variables. Todos los demás métodos suponen que se muestrearán los casos y se fijarán las variables.

El modelo de regresión factorial es un modelo combinatorio de modelo factorial y modelo de regresión; o alternativamente, puede verse como el modelo de factores híbridos, ^[5] cuyos factores se conocen parcialmente.

Terminología

Cargas factoriales: La comunalidad es el cuadrado de la carga exterior estandarizada de un artículo. De manera análoga al r cuadrado de Pearson , la carga factorial al cuadrado es el porcentaje de varianza en esa variable indicadora explicada por el factor. Para obtener el porcentaje de varianza en todas las variables representadas por cada factor, sume la suma de las cargas factoriales al cuadrado para ese factor (columna) y divida por el número de variables. (Tenga en cuenta que el número de variables es igual a la suma de sus varianzas, ya que la varianza de una variable estandarizada es 1). Esto es lo mismo que dividir el valor propio del factor por el número de variables.
Al interpretar, según una regla general en el análisis factorial confirmatorio, las cargas factoriales deben ser 0,7 o más para confirmar que las variables independientes identificadas a priori están representadas por un factor particular, basándose en que el nivel 0,7 corresponde aproximadamente a la mitad de las variables independientes identificadas a priori. la varianza del indicador es explicada por el factor. Sin embargo, el estándar .7 es alto y es posible que los datos de la vida real no cumplan con este criterio, razón por la cual algunos investigadores, particularmente con fines exploratorios, utilizarán un nivel más bajo, como .4 para el factor central y .25 para el factor central. otros factores. En cualquier caso, las cargas factoriales deben interpretarse a la luz de la teoría, no según niveles de corte arbitrarios.
En rotación oblicua , se pueden examinar tanto una matriz de patrón como una matriz de estructura. La matriz de estructura es simplemente la matriz de carga factorial como en la rotación ortogonal, que representa la varianza en una variable medida explicada por un factor sobre la base de contribuciones únicas y comunes. La matriz de patrones, por el contrario, contiene coeficientes que simplemente representan contribuciones únicas. Cuantos más factores, más bajos serán los coeficientes del patrón, como regla general, ya que se explicarán más contribuciones comunes a la varianza. Para la rotación oblicua, el investigador observa tanto los coeficientes de estructura como de patrón al asignar una etiqueta a un factor. Los principios de la rotación oblicua se pueden derivar tanto de la entropía cruzada como de su entropía dual. ^[6]
Comunalidad: La suma de las cargas factoriales al cuadrado para todos los factores de una variable determinada (fila) es la varianza en esa variable explicada por todos los factores. La comunalidad mide el porcentaje de varianza en una variable determinada explicada por todos los factores en conjunto y puede interpretarse como la confiabilidad del indicador en el contexto de los factores que se postulan.
Soluciones espurias: Si la comunalidad excede 1,0, hay una solución espuria, que puede reflejar una muestra demasiado pequeña o la elección de extraer demasiados o muy pocos factores.
Unicidad de una variable: La variabilidad de una variable menos su comunalidad.
Valores propios/raíces características: Los valores propios miden la cantidad de variación en la muestra total representada por cada factor. La razón de valores propios es la razón de importancia explicativa de los factores con respecto a las variables. Si un factor tiene un valor propio bajo, entonces contribuye poco a la explicación de las varianzas en las variables y puede ignorarse como menos importante que los factores con valores propios más altos.
Sumas de extracción de cargas al cuadrado.: Los valores propios iniciales y los valores propios después de la extracción (enumerados por SPSS como "Sumas de extracción de cargas al cuadrado") son los mismos para la extracción PCA, pero para otros métodos de extracción, los valores propios después de la extracción serán más bajos que sus contrapartes iniciales. SPSS también imprime "Sumas de rotación de cargas al cuadrado" e incluso para PCA, estos valores propios diferirán de los valores propios iniciales y de extracción, aunque su total será el mismo.
Puntuaciones de factores
Puntuaciones de los componentes (en PCA): Explicado desde la perspectiva del PCA, no desde la perspectiva del Análisis Factorial.
Las puntuaciones de cada caso (fila) en cada factor (columna). Para calcular la puntuación factorial de un caso determinado para un factor determinado, se toma la puntuación estandarizada del caso en cada variable, se multiplica por las cargas correspondientes de la variable para el factor dado y se suman estos productos. Calcular las puntuaciones de los factores permite buscar factores atípicos. Además, las puntuaciones de los factores se pueden utilizar como variables en modelos posteriores.

Criterios para determinar el número de factores.

Los investigadores desean evitar criterios tan subjetivos o arbitrarios para la retención de factores como "para mí tenía sentido". Se han desarrollado varios métodos objetivos para resolver este problema, lo que permite a los usuarios determinar una gama adecuada de soluciones para investigar. ^[7] Sin embargo, estos diferentes métodos a menudo no están de acuerdo entre sí en cuanto al número de factores que deben conservarse. Por ejemplo, el análisis paralelo puede sugerir cinco factores, mientras que el MAP de Velicer sugiere seis, por lo que el investigador puede solicitar soluciones de cinco y seis factores y discutir cada una en términos de su relación con la teoría y los datos externos.

Criterios modernos

Análisis paralelo de Horn (PA): ^[8] Un método de simulación basado en Montecarlo que compara los valores propios observados con los obtenidos a partir de variables normales no correlacionadas. Un factor o componente se retiene si el valor propio asociado es mayor que el percentil 95 de la distribución de valores propios derivados de los datos aleatorios. PA se encuentra entre las reglas más comúnmente recomendadas para determinar la cantidad de componentes a retener, ^[7]^[9] pero muchos programas no incluyen esta opción (una excepción notable es R ). ^[10] Sin embargo, Formann proporcionó evidencia tanto teórica como empírica de que su aplicación podría no ser apropiada en muchos casos, ya que su desempeño está considerablemente influenciado por el tamaño de la muestra , la discriminación de ítems y el tipo de coeficiente de correlación . ^[11]

La prueba MAP de Velicer (1976) ^[12] , tal como la describe Courtney (2013) ^[13] “implica un análisis completo de componentes principales seguido del examen de una serie de matrices de correlaciones parciales” (p. 397 (aunque tenga en cuenta que esta cita no no ocurre en Velicer (1976) y el número de página citado está fuera de las páginas de la cita). La correlación al cuadrado para el Paso “0” (ver Figura 4) es la correlación cuadrada promedio fuera de la diagonal para la matriz de correlación no parcial. 1, se parcializan el primer componente principal y sus elementos asociados. A continuación, se calcula la correlación fuera de la diagonal al cuadrado promedio para la matriz de correlación posterior para el Paso 1. En el Paso 2, se parcializan los dos primeros componentes principales y el resultado Se calcula nuevamente la correlación fuera de la diagonal al cuadrado promedio. Los cálculos se llevan a cabo para k menos un paso (k representa el número total de variables en la matriz). A partir de entonces, todas las correlaciones al cuadrado promedio para cada paso se alinean y el paso El número en los análisis que dieron como resultado la correlación parcial al cuadrado promedio más baja determina el número de componentes o factores a retener. ^[12] Mediante este método, los componentes se mantienen siempre que la varianza en la matriz de correlación represente una varianza sistemática, a diferencia de una varianza residual o de error. Aunque metodológicamente similar al análisis de componentes principales, se ha demostrado que la técnica MAP funciona bastante bien para determinar la cantidad de factores a retener en múltiples estudios de simulación. ^[7]^[14]^[15]^[16] Este procedimiento está disponible a través de la interfaz de usuario de SPSS, [ ^13] así como el paquete psych para el lenguaje de programación R. ^[17]^[18]

Métodos más antiguos

Criterio de Kaiser: La regla de Kaiser consiste en eliminar todos los componentes con valores propios inferiores a 1,0, siendo este el valor propio igual a la información contabilizada por un elemento individual promedio. ^[19] El criterio de Kaiser es el predeterminado en SPSS y en la mayoría de los programas estadísticos , pero no se recomienda cuando se utiliza como único criterio de corte para estimar el número de factores, ya que tiende a extraer factores en exceso. ^[20] Se ha creado una variación de este método en la que un investigador calcula intervalos de confianza para cada valor propio y retiene solo los factores que tienen el intervalo de confianza completo mayor que 1,0. ^[14]^[21]

Gráfico de scree : ^[22] La prueba de scree de Cattell traza los componentes como el eje X y los valores propios correspondientes como el eje Y. A medida que uno se mueve hacia la derecha, hacia componentes posteriores, los valores propios caen. Cuando la caída cesa y la curva forma un codo hacia una caída menos pronunciada, la prueba de scree de Cattell dice que se deben dejar caer todos los componentes posteriores al que comienza en el codo. Esta regla a veces es criticada por ser susceptible de "modificación" controlada por los investigadores. Es decir, como elegir el "codo" puede ser subjetivo porque la curva tiene múltiples codos o es una curva suave, el investigador puede verse tentado a establecer el límite en el número de factores deseados por su agenda de investigación. ^{[ cita necesaria ]}

Criterios explicados por la varianza: algunos investigadores simplemente usan la regla de mantener suficientes factores para representar el 90% (a veces el 80%) de la variación. Cuando el objetivo del investigador enfatiza la parsimonia (explicar la varianza con la menor cantidad de factores posible), el criterio podría ser tan bajo como el 50%.

métodos bayesianos

Al colocar una distribución previa sobre el número de factores latentes y luego aplicar el teorema de Bayes, los modelos bayesianos pueden devolver una distribución de probabilidad sobre el número de factores latentes. Esto se ha modelado utilizando el proceso buffet indio , ^[23] pero se puede modelar de forma más sencilla colocando cualquier prioridad discreta (por ejemplo, una distribución binomial negativa ) en el número de componentes.

Métodos de rotación

El resultado del PCA maximiza la varianza representada primero por el primer factor, luego por el segundo, etc. Una desventaja de este procedimiento es que la mayoría de los ítems se cargan en los factores iniciales, mientras que muy pocos ítems se cargan en las variables posteriores. Esto dificulta la interpretación de los factores leyendo una lista de preguntas y cargas, ya que cada pregunta está fuertemente correlacionada con los primeros componentes, mientras que muy pocas preguntas están fuertemente correlacionadas con los últimos componentes.

La rotación sirve para hacer que el resultado sea más fácil de interpretar. Al elegir una base diferente para los mismos componentes principales (es decir, elegir diferentes factores para expresar la misma estructura de correlación) es posible crear variables que sean más fácilmente interpretables.

Las rotaciones pueden ser ortogonales u oblicuas; Las rotaciones oblicuas permiten que los factores se correlacionen. ^[24] Esta mayor flexibilidad significa que son posibles más rotaciones, algunas de las cuales pueden ser mejores para lograr un objetivo específico. Sin embargo, esto también puede hacer que los factores sean más difíciles de interpretar, ya que parte de la información se "cuenta dos veces" y se incluye varias veces en diferentes componentes; algunos factores pueden incluso parecer casi duplicados entre sí.

Métodos ortogonales

Existen dos clases amplias de rotaciones ortogonales: las que buscan filas dispersas (donde cada fila es un caso, es decir, un tema) y las que buscan columnas dispersas (donde cada columna es una variable).

Factores simples: estas rotaciones intentan explicar todos los factores utilizando sólo unas pocas variables importantes. Este efecto se puede lograr utilizando Varimax (la rotación más común).
Variables simples: estas rotaciones intentan explicar todas las variables utilizando solo unos pocos factores importantes. Este efecto se puede lograr utilizando Quartimax o los componentes no rotados de PCA.
Ambos: estas rotaciones intentan llegar a un acuerdo entre los dos objetivos anteriores, pero en el proceso, pueden lograr un ajuste deficiente en ambas tareas; como tales, son impopulares en comparación con los métodos anteriores. Equamax es una de esas rotaciones.

Problemas con la rotación de factores.

Puede resultar difícil interpretar una estructura factorial cuando cada variable influye en múltiples factores. A veces, pequeños cambios en los datos pueden inclinar el equilibrio en el criterio de rotación de factores, de modo que se produzca una rotación de factores completamente diferente. Esto puede dificultar la comparación de los resultados de diferentes experimentos. Este problema se ilustra mediante una comparación de diferentes estudios sobre las diferencias culturales mundiales. Cada estudio ha utilizado diferentes medidas de variables culturales y produjo un resultado de análisis factorial rotado de manera diferente. Los autores de cada estudio creyeron que habían descubierto algo nuevo e inventaron nuevos nombres para los factores que encontraron. Una comparación posterior de los estudios encontró que los resultados eran bastante similares cuando se compararon los resultados no rotados. La práctica común de rotación de factores ha oscurecido la similitud entre los resultados de los diferentes estudios. ^[25]

Análisis factorial de orden superior

El análisis factorial de orden superior es un método estadístico que consiste en repetir pasos de análisis factorial – rotación oblicua – análisis factorial de factores rotados. Su mérito es permitir al investigador ver la estructura jerárquica de los fenómenos estudiados. Para interpretar los resultados, se procede ya sea multiplicando posteriormente la matriz del patrón de factores primarios por las matrices de patrones de factores de orden superior (Gorsuch, 1983) y tal vez aplicando una rotación Varimax al resultado (Thompson, 1990) o usando una ecuación de Schmid- Solución de Leiman (SLS, Schmid & Leiman, 1957, también conocida como transformación de Schmid-Leiman) que atribuye la variación de los factores primarios a los factores de segundo orden.

Análisis factorial exploratorio (EFA) versus análisis de componentes principales (PCA)

El análisis factorial está relacionado con el análisis de componentes principales (PCA), pero los dos no son idénticos. ^[26] Ha habido una controversia significativa en el campo sobre las diferencias entre las dos técnicas. El PCA puede considerarse como una versión más básica del análisis factorial exploratorio (EFA) que se desarrolló en los primeros días previos a la llegada de las computadoras de alta velocidad. Tanto el PCA como el análisis factorial tienen como objetivo reducir la dimensionalidad de un conjunto de datos, pero los enfoques adoptados para hacerlo son diferentes para las dos técnicas. El análisis factorial está claramente diseñado con el objetivo de identificar ciertos factores no observables a partir de las variables observadas, mientras que el PCA no aborda directamente este objetivo; en el mejor de los casos, PCA proporciona una aproximación a los factores requeridos. ^[27] Desde el punto de vista del análisis exploratorio, los valores propios de PCA son cargas de componentes infladas, es decir, contaminadas con varianza de error. ^[28]^[29]^[30]^[31]^[32]^[33]

Si bien EFA y PCA se tratan como técnicas sinónimas en algunos campos de la estadística, esto ha sido criticado. ^[34]^[35] El análisis factorial "se ocupa del supuesto de una estructura causal subyacente : [se] supone que la covariación en las variables observadas se debe a la presencia de una o más variables (factores) latentes que ejercen una influencia causal sobre estas variables observadas". ^[36] Por el contrario, la PCA no supone ni depende de dicha relación causal subyacente. Los investigadores han argumentado que las distinciones entre las dos técnicas pueden significar que existen beneficios objetivos al preferir una sobre la otra en función del objetivo analítico. Si el modelo factorial está formulado incorrectamente o no se cumplen los supuestos, el análisis factorial dará resultados erróneos. El análisis factorial se ha utilizado con éxito cuando una comprensión adecuada del sistema permite buenas formulaciones iniciales del modelo. PCA emplea una transformación matemática de los datos originales sin suposiciones sobre la forma de la matriz de covarianza. El objetivo de PCA es determinar combinaciones lineales de las variables originales y seleccionar algunas que puedan usarse para resumir el conjunto de datos sin perder mucha información. ^[37]

Argumentos que contrastan el PCA y el EFA

Fabrigar et al. (1999) ^[34] abordan una serie de razones utilizadas para sugerir que el PCA no es equivalente al análisis factorial:

A veces se sugiere que el PCA es computacionalmente más rápido y requiere menos recursos que el análisis factorial. Fabrigar et al. sugieren que los recursos informáticos fácilmente disponibles han hecho que esta preocupación práctica sea irrelevante.
El PCA y el análisis factorial pueden producir resultados similares. Este punto también lo abordan Fabrigar et al.; en ciertos casos, en los que las comunalidades son bajas (por ejemplo, 0,4), las dos técnicas producen resultados divergentes. De hecho, Fabrigar et al. Argumentan que en los casos en que los datos corresponden a supuestos del modelo de factor común, los resultados del PCA son resultados inexactos.
Hay ciertos casos en los que el análisis factorial conduce a los "casos Heywood". Estos abarcan situaciones en las que se estima que el modelo tiene en cuenta el 100% o más de la varianza de una variable medida. Fabrigar et al. sugieren que estos casos son en realidad informativos para el investigador, indicando un modelo especificado incorrectamente o una violación del modelo de factor común. La falta de casos de Heywood en el enfoque de la PCA puede significar que tales cuestiones pasen desapercibidas.
Los investigadores obtienen información adicional a partir de un enfoque PCA, como la puntuación de un individuo en un determinado componente; dicha información no se obtiene del análisis factorial. Sin embargo, como Fabrigar et al. Sostienen que el objetivo típico del análisis factorial (es decir, determinar los factores que explican la estructura de las correlaciones entre las variables medidas) no requiere conocimiento de las puntuaciones de los factores y, por lo tanto, se niega esta ventaja. También es posible calcular puntuaciones factoriales a partir de un análisis factorial.

Varianza versus covarianza

El análisis factorial tiene en cuenta el error aleatorio inherente a la medición, mientras que el PCA no lo hace. Este punto lo ejemplifica Brown (2009), ^[38] quien indicó que, con respecto a las matrices de correlación involucradas en los cálculos:

"En PCA, los 1,00 se colocan en la diagonal, lo que significa que se debe contabilizar toda la varianza en la matriz (incluida la varianza única de cada variable, la varianza común entre variables y la varianza del error). Por lo tanto, eso sería, por definición , incluyen toda la varianza de las variables. En contraste, en EFA, las comunalidades se colocan en diagonal, lo que significa que solo se debe contabilizar la varianza compartida con otras variables (excluyendo la varianza única de cada variable y la varianza del error). Por lo tanto, por definición, incluiría sólo la varianza que es común entre las variables".
— Brown (2009), Análisis de componentes principales y análisis factorial exploratorio – Definiciones, diferencias y opciones

Por esta razón, Brown (2009) recomienda utilizar el análisis factorial cuando existen ideas teóricas sobre las relaciones entre variables, mientras que el PCA debe utilizarse si el objetivo del investigador es explorar patrones en sus datos.

Diferencias en procedimiento y resultados.

Las diferencias entre PCA y análisis factorial (FA) se ilustran con más detalle en Suhr (2009): ^[35]

PCA da como resultado componentes principales que explican una cantidad máxima de varianza para las variables observadas; FA representa la variación común en los datos.
PCA inserta unos en las diagonales de la matriz de correlación; FA ajusta las diagonales de la matriz de correlación con los factores únicos.
PCA minimiza la suma de la distancia perpendicular al cuadrado al eje del componente; FA estima los factores que influyen en las respuestas a las variables observadas.
Las puntuaciones de los componentes en PCA representan una combinación lineal de las variables observadas ponderadas por vectores propios ; las variables observadas en FA son combinaciones lineales de los factores subyacentes y únicos.
En PCA, los componentes obtenidos no son interpretables, es decir, no representan 'constructos' subyacentes; En FA, las construcciones subyacentes pueden etiquetarse e interpretarse fácilmente, dada una especificación precisa del modelo.

en psicometria

Historia

Charles Spearman fue el primer psicólogo en analizar el análisis de factores comunes ^[39] y lo hizo en su artículo de 1904. ^[40] Proporcionó pocos detalles sobre sus métodos y se centró en modelos de un solo factor. ^[41] Descubrió que las puntuaciones de los escolares en una amplia variedad de temas aparentemente no relacionados estaban positivamente correlacionados, lo que le llevó a postular que una única capacidad mental general, og , subyace y da forma al rendimiento cognitivo humano.

El desarrollo inicial del análisis de factores comunes con factores múltiples fue presentado por Louis Thurstone en dos artículos a principios de la década de 1930, ^[42]^[43] resumidos en su libro de 1935, The Vector of Mind . ^[44] Thurstone introdujo varios conceptos importantes de análisis factorial, incluida la comunalidad, la unicidad y la rotación. ^[45] Abogó por una "estructura simple" y desarrolló métodos de rotación que podrían usarse como una forma de lograr dicha estructura. ^[39]

En metodología Q , William Stephenson , alumno de Spearman, distingue entre análisis factorial R , orientado al estudio de las diferencias interindividuales, y análisis factorial Q orientado a las diferencias subjetivas intraindividuales. ^[46]^[47]

Raymond Cattell fue un firme defensor del análisis factorial y la psicometría y utilizó la teoría multifactorial de Thurstone para explicar la inteligencia. Cattell también desarrolló la prueba de pedregal y los coeficientes de similitud.

Aplicaciones en psicología

El análisis factorial se utiliza para identificar "factores" que explican una variedad de resultados en diferentes pruebas. Por ejemplo, la investigación sobre inteligencia encontró que las personas que obtienen una puntuación alta en una prueba de capacidad verbal también son buenas en otras pruebas que requieren habilidades verbales. Los investigadores explicaron esto mediante el uso de análisis factorial para aislar un factor, a menudo llamado inteligencia verbal, que representa el grado en que alguien es capaz de resolver problemas que involucran habilidades verbales. ^{[ cita necesaria ]}

El análisis factorial en psicología se asocia con mayor frecuencia con la investigación de la inteligencia. Sin embargo, también se ha utilizado para encontrar factores en una amplia gama de dominios como personalidad, actitudes, creencias, etc. Está vinculado a la psicometría , ya que puede evaluar la validez de un instrumento al determinar si el instrumento realmente mide los valores postulados. factores. ^{[ cita necesaria ]}

Ventajas

Reducción del número de variables, mediante la combinación de dos o más variables en un solo factor. Por ejemplo, el rendimiento al correr, lanzar la pelota, batear, saltar y levantar pesas podría combinarse en un solo factor, como la capacidad atlética general. Generalmente, en una matriz ítem por personas, los factores se seleccionan agrupando ítems relacionados. En la técnica de análisis de factores Q, la matriz se transpone y los factores se crean agrupando personas relacionadas. Por ejemplo, los liberales, libertarios, conservadores y socialistas podrían formar grupos separados.
Identificación de grupos de variables interrelacionadas, para ver cómo se relacionan entre sí. Por ejemplo, Carroll utilizó el análisis factorial para construir su Teoría de los Tres Estratos . Encontró que un factor llamado "percepción visual amplia" se relaciona con qué tan bueno es un individuo en las tareas visuales. También encontró un factor de "percepción auditiva amplia", relacionado con la capacidad de realizar tareas auditivas. Además, encontró un factor global, llamado "g" o inteligencia general, que se relaciona tanto con la "percepción visual amplia" como con la "percepción auditiva amplia". Esto significa que alguien con una "g" alta probablemente tenga tanto una capacidad de "percepción visual" alta como una capacidad de "percepción auditiva" alta, y esa "g" por lo tanto explica una buena parte de por qué alguien es bueno o malo en ambos aspectos. esos dominios.

Desventajas

"... cada orientación es igualmente aceptable matemáticamente. Pero diferentes teorías factoriales demostraron diferir tanto en términos de las orientaciones de los ejes factoriales para una solución dada como en términos de cualquier otra cosa, por lo que el ajuste del modelo no resultó útil en distinguir entre teorías." (Sternberg, 1977 ^[48] ). Esto significa que todas las rotaciones representan diferentes procesos subyacentes, pero todas las rotaciones son resultados igualmente válidos de la optimización del análisis factorial estándar. Por lo tanto, es imposible elegir la rotación adecuada utilizando únicamente el análisis factorial.
El análisis factorial sólo puede ser tan bueno como lo permitan los datos. En psicología, donde los investigadores a menudo tienen que confiar en medidas menos válidas y confiables, como los autoinformes, esto puede resultar problemático.
La interpretación del análisis factorial se basa en el uso de una "heurística", que es una solución que es "conveniente aunque no absolutamente cierta". ^[49] Se puede hacer más de una interpretación de los mismos datos factorizados de la misma manera, y el análisis factorial no puede identificar la causalidad.

En la investigación transcultural

El análisis factorial es una técnica de uso frecuente en la investigación transcultural. Sirve para extraer dimensiones culturales . Los modelos de dimensiones culturales más conocidos son los elaborados por Geert Hofstede , Ronald Inglehart , Christian Welzel , Shalom Schwartz y Michael Minkov. Una visualización popular es el mapa cultural del mundo de Inglehart y Welzel . ^[25]

en ciencia politica

En un estudio de principios de 1965, los sistemas políticos de todo el mundo se examinan mediante análisis factorial para construir investigaciones y modelos teóricos relacionados, comparar sistemas políticos y crear categorías tipológicas. ^[50] Para estos propósitos, en este estudio se identifican siete dimensiones políticas básicas, que se relacionan con una amplia variedad de comportamiento político: estas dimensiones son Acceso, Diferenciación, Consenso, Seccionalismo, Legitimación, Interés y Teoría e Investigación del Liderazgo.

Otros politólogos exploran la medición de la eficacia política interna utilizando cuatro nuevas preguntas agregadas al Estudio Electoral Nacional de 1988. Aquí se utiliza el análisis factorial para encontrar que estos ítems miden un concepto único distinto de la eficacia externa y la confianza política, y que estas cuatro preguntas proporcionaron la mejor medida de la eficacia política interna hasta ese momento. ^[51]

En marketing

Los pasos básicos son:

Identifique los atributos destacados que utilizan los consumidores para evaluar los productos de esta categoría.
Utilice técnicas de investigación de mercados cuantitativas (como encuestas ) para recopilar datos de una muestra de clientes potenciales sobre sus calificaciones de todos los atributos del producto.
Ingrese los datos en un programa estadístico y ejecute el procedimiento de análisis factorial. La computadora producirá un conjunto de atributos (o factores) subyacentes.
Utilice estos factores para construir mapas de percepción y otros dispositivos de posicionamiento de productos .

Recopilación de información

La etapa de recopilación de datos suele ser realizada por profesionales de la investigación de mercados. Las preguntas de la encuesta piden al encuestado que califique una muestra de producto o descripciones de conceptos de producto según una variedad de atributos. Se eligen entre cinco y veinte atributos. Podrían incluir cosas como: facilidad de uso, peso, precisión, durabilidad, colorido, precio o tamaño. Los atributos elegidos variarán según el producto que se estudie. Se hace la misma pregunta sobre todos los productos del estudio. Los datos de múltiples productos se codifican y se ingresan en un programa estadístico como R , SPSS , SAS , Stata , STATISTICA , JMP y SYSTAT.

Análisis

El análisis aislará los factores subyacentes que explican los datos utilizando una matriz de asociaciones. ^[52] El análisis factorial es una técnica de interdependencia. Se examina el conjunto completo de relaciones interdependientes. No hay especificación de variables dependientes, variables independientes o causalidad. El análisis factorial supone que todos los datos de calificación sobre diferentes atributos se pueden reducir a unas pocas dimensiones importantes. Esta reducción es posible porque algunos atributos pueden estar relacionados entre sí. La calificación otorgada a cualquier atributo es en parte el resultado de la influencia de otros atributos. El algoritmo estadístico deconstruye la calificación (llamada puntuación bruta) en sus diversos componentes y reconstruye las puntuaciones parciales en puntuaciones de los factores subyacentes. El grado de correlación entre la puntuación bruta inicial y la puntuación factorial final se denomina carga factorial .

Ventajas

Se pueden utilizar atributos objetivos y subjetivos siempre que los atributos subjetivos se puedan convertir en puntuaciones.
El análisis factorial puede identificar dimensiones o constructos latentes que el análisis directo puede no identificar.
Es fácil y económico.

Desventajas

La utilidad depende de la capacidad de los investigadores para recopilar un conjunto suficiente de atributos del producto. Si se excluyen o descuidan atributos importantes, se reduce el valor del procedimiento.
Si los conjuntos de variables observadas son muy similares entre sí y distintos de otros elementos, el análisis factorial les asignará un solo factor. Esto puede oscurecer factores que representan relaciones más interesantes. ^{[ se necesita aclaración ]}
Los factores para nombrar pueden requerir conocimientos de teoría porque atributos aparentemente diferentes pueden correlacionarse fuertemente por razones desconocidas.

En ciencias físicas y biológicas.

El análisis factorial también ha sido ampliamente utilizado en ciencias físicas como la geoquímica , la hidroquímica , ^[53] astrofísica y la cosmología , así como en las ciencias biológicas, como la ecología , la biología molecular , la neurociencia y la bioquímica .

En la gestión de la calidad del agua subterránea, es importante relacionar la distribución espacial de diferentes parámetros químicos con diferentes fuentes posibles, que tienen diferentes firmas químicas. Por ejemplo, es probable que una mina de sulfuros esté asociada con altos niveles de acidez, sulfatos disueltos y metales de transición. Estas firmas se pueden identificar como factores mediante el análisis factorial en modo R, y la ubicación de posibles fuentes se puede sugerir al contornear las puntuaciones de los factores. ^[54]

En geoquímica , diferentes factores pueden corresponder a diferentes asociaciones minerales y, por tanto, a la mineralización. ^[55]

En análisis de microarrays

El análisis factorial se puede utilizar para resumir datos de micromatrices de ADN de oligonucleótidos de alta densidad a nivel de sonda para Affymetrix GeneChips. En este caso, la variable latente corresponde a la concentración de ARN en una muestra. ^[56]

Implementación

El análisis factorial se ha implementado en varios programas de análisis estadístico desde la década de 1980:

BMDP
JMP (software estadístico)
Mplus (software estadístico)]
Python : módulo scikit-learn ^[57]
R (con la función base factanal o función fa en el paquete psych ). Las rotaciones se implementan en el paquete GPArotation R.
SAS (usando PROC FACTOR o PROC CALIS)
SPSS ^[58]
estado

Ser único

Factor [1] - software gratuito de análisis factorial desarrollado por la Universidad Rovira i Virgili

Ver también

Notas

^ En este ejemplo, la "inteligencia verbal" y la "inteligencia matemática" son variables latentes. El hecho de que no sean observados directamente es lo que los hace latentes.

Referencias

^ Jöreskog, Karl G. (1983). "Análisis factorial como modelo de errores en variables". Principios de la medición psicológica moderna . Hillsdale: Erlbaum. págs. 185-196. ISBN 0-89859-277-1.
^ Bandalos, Deborah L. (2017). Teoría de la Medición y Aplicaciones a las Ciencias Sociales . La prensa de Guilford.
^ abc Harman, Harry H. (1976). Análisis factorial moderno . Prensa de la Universidad de Chicago. págs.175, 176. ISBN 978-0-226-31652-9.
^ abcdefghi Polit DF Beck CT (2012). Investigación en enfermería: generación y evaluación de evidencia para la práctica de enfermería, 9ª ed . Filadelfia, EE.UU.: Wolters Klower Health, Lippincott Williams & Wilkins.
^ Meng, J. (2011). "Descubrir regulaciones genéticas cooperativas mediante microARN y factores de transcripción en glioblastoma utilizando un modelo de factor híbrido no negativo". Congreso Internacional sobre Acústica, Habla y Procesamiento de Señales . Archivado desde el original el 23 de noviembre de 2011.
^ Liou, CY; Música, BR (2008). "Aproximación de entropía cruzada de matrices de covarianza gaussianas estructuradas" (PDF) . Transacciones IEEE sobre procesamiento de señales . 56 (7): 3362–3367. Código Bib : 2008ITSP...56.3362L. doi :10.1109/TSP.2008.917878. S2CID 15255630.
^ abcZwick , William R.; Velicer, Wayne F. (1986). "Comparación de cinco reglas para determinar el número de componentes a retener". Boletín Psicológico . 99 (3): 432–442. doi :10.1037/0033-2909.99.3.432.
^ Horn, John L. (junio de 1965). "Un fundamento y una prueba del número de factores en el análisis factorial". Psicometrika . 30 (2): 179–185. doi :10.1007/BF02289447. PMID 14306381. S2CID 19663974.
^ Dobriban, Edgar (2 de octubre de 2017). "Métodos de permutación para análisis factorial y PCA". arXiv : 1710.00479v2 [matemáticas.ST].
^ * Ledesma, RD; Valero-Mora, P. (2007). "Determinación del número de factores a retener en EFA: un programa informático fácil de usar para realizar análisis paralelos". Investigación y evaluación de evaluación práctica . 12 (2): 1–11.
^ Tran, EE. UU. y Formann, AK (2009). Realización de análisis paralelo para recuperar la unidimensionalidad en presencia de datos binarios. Medición Educativa y Psicológica, 69, 50-61.
^ ab Velicer, WF (1976). "Determinación del número de componentes de la matriz de correlaciones parciales". Psicometrika . 41 (3): 321–327. doi :10.1007/bf02293557. S2CID 122907389.
^ ab Courtney, MGR (2013). Determinar la cantidad de factores a retener en EFA: usar SPSS R-Menu v2.0 para realizar estimaciones más juiciosas. Evaluación práctica, investigación y evaluación, 18(8). Disponible en línea: http://pareonline.net/getvn.asp?v=18&n=8
^ ab Warne, RT; Larsen, R. (2014). "Evaluación de una propuesta de modificación de la regla de Guttman para determinar el número de factores en un análisis factorial exploratorio". Modelado de pruebas y evaluaciones psicológicas . 56 : 104-123.
^ Ruscio, Juan; Roche, B. (2012). "Determinación del número de factores a retener en un análisis factorial exploratorio utilizando datos de comparación de estructura factorial conocida". Evaluación psicológica . 24 (2): 282–292. doi :10.1037/a0025697. PMID 21966933.
^ Garrido, LE, Abad, FJ y Ponsoda, V. (2012). Una nueva mirada al análisis paralelo de Horn con variables ordinales. Métodos psicológicos. Publicación anticipada en línea. doi :10.1037/a0030005
^ Revelle, William (2007). «Determinación del número de factores: el ejemplo del NEO-PI-R» (PDF) . {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Revelle, William (8 de enero de 2020). "psych: Procedimientos para la investigación psicológica, psicométrica y de la personalidad".
^ Kaiser, Henry F. (abril de 1960). "La aplicación de las computadoras electrónicas al análisis factorial". Medición Educativa y Psicológica . 20 (1): 141-151. doi :10.1177/001316446002000116. S2CID 146138712.
^ Bandalos, DL; Boehm-Kaufman, SEÑOR (2008). "Cuatro conceptos erróneos comunes en el análisis factorial exploratorio". En Lanza, Charles E.; Vandenberg, Robert J. (eds.). Mitos estadísticos y metodológicos y leyendas urbanas: doctrina, verdad y fábula en las ciencias sociales y organizacionales . Taylor y Francisco. págs. 61–87. ISBN 978-0-8058-6237-9.
^ Larsen, R.; Warne, RT (2010). "Estimación de intervalos de confianza para valores propios en análisis factorial exploratorio". Métodos de investigación del comportamiento . 42 (3): 871–876. doi : 10.3758/BRM.42.3.871 . PMID 20805609.
^ Cattell, Raymond (1966). "La prueba de pedregal para el número de factores". Investigación conductual multivariada . 1 (2): 245–76. doi :10.1207/s15327906mbr0102_10. PMID 26828106.
^ Alpaydin (2020). Introducción al aprendizaje automático (5ª ed.). págs. 528–9.
^ "Métodos de rotación de factores". Intercambio de pila . Consultado el 7 de noviembre de 2022 .
^ ab Niebla, A (2022). "Modelos bidimensionales de diferencias culturales: análisis estadístico y teórico" (PDF) . Investigación transcultural . 57 (2–3): 115–165. doi :10.1177/10693971221135703. S2CID 253153619.
^ Bartolomé, DJ; Steele, F.; Galbraith, J.; Moustaki, I. (2008). Análisis de datos multivariados de ciencias sociales . Serie Estadística en las Ciencias Sociales y del Comportamiento (2ª ed.). Taylor y Francisco. ISBN 978-1584889601.
^ Jolliffe IT Análisis de componentes principales , Serie: Springer Series in Statistics, 2ª ed., Springer, NY, 2002, XXIX, 487 p. 28 ilus. ISBN 978-0-387-95442-4
^ Cattell, RB (1952). Análisis factorial . Nueva York: Harper.
^ Fruchter, B. (1954). Introducción al Análisis Factorial . Van Nostrand.
^ Cattell, RB (1978). Uso del análisis factorial en ciencias biológicas y del comportamiento . Nueva York: Pleno.
^ Niño, D. (2006). Los fundamentos del análisis factorial, tercera edición . Prensa académica de Bloomsbury.
^ Gorsuch, RL (1983). Análisis factorial, 2ª edición . Hillsdale, Nueva Jersey: Erlbaum.
^ McDonald, RP (1985). Análisis factorial y métodos relacionados . Hillsdale, Nueva Jersey: Erlbaum.
^ ab Fabrigar; et al. (1999). "Evaluación del uso del análisis factorial exploratorio en la investigación psicológica" (PDF) . Métodos psicológicos.
^ ab Suhr, Diane (2009). "Análisis de componentes principales versus análisis factorial exploratorio" (PDF) . SUGI 30 Diligencias . Consultado el 5 de abril de 2012 .
^ Estadísticas de SAS. "Análisis de componentes principales" (PDF) . Libro de texto de soporte SAS .
^ Meglen, RR (1991). "Examen de grandes bases de datos: un enfoque quimiométrico mediante análisis de componentes principales". Revista de quimiometría . 5 (3): 163-179. doi :10.1002/cem.1180050305. S2CID 120886184.
^ Brown, JD (enero de 2009). "Análisis de componentes principales y análisis factorial exploratorio - Definiciones, diferencias y opciones" (PDF) . Shiken: Boletín SIG de pruebas y evaluación de JALT . Consultado el 16 de abril de 2012 .
^ ab Mulaik, Stanley A (2010). Fundamentos del análisis factorial. Segunda edicion . Boca Ratón, Florida: CRC Press. pag. 6.ISBN 978-1-4200-9961-4.
^ Lancero, Charles (1904). "Inteligencia general determinada y medida objetivamente". Revista Estadounidense de Psicología . 15 (2): 201–293. doi :10.2307/1412107. JSTOR 1412107.
^ Bartolomé, DJ (1995). "Spearman y el origen y desarrollo del análisis factorial". Revista británica de psicología matemática y estadística . 48 (2): 211–220. doi :10.1111/j.2044-8317.1995.tb01060.x.
^ Thurstone, Luis (1931). "Análisis factorial múltiple". Revisión psicológica . 38 (5): 406–427. doi :10.1037/h0069792.
^ Thurstone, Luis (1934). "Los vectores de la mente". La revisión psicológica . 41 : 1–32. doi :10.1037/h0075959.
^ Thurstone, LL (1935). Los vectores de la mente. Análisis multifactorial para el aislamiento de rasgos primarios . Chicago, Illinois: Prensa de la Universidad de Chicago.
^ Bock, Robert (2007). "Repensar a Thurstone". En Cudeck, Robert; MacCallum, Robert C. (eds.). Análisis factorial al 100 . Mahwah, Nueva Jersey: Lawrence Erlbaum Associates. pag. 37.ISBN 978-0-8058-6212-6.
^ Mckeown, Bruce (21 de junio de 2013). Metodología Q. Publicaciones SAGE. ISBN 9781452242194. OCLC 841672556.
^ Stephenson, W. (agosto de 1935). "Técnica de Análisis Factorial". Naturaleza . 136 (3434): 297. Bibcode :1935Natur.136..297S. doi : 10.1038/136297b0 . ISSN 0028-0836. S2CID 26952603.
^ Sternberg, RJ (1977). Metáforas de la mente: concepciones de la naturaleza de la inteligencia . Nueva York: Cambridge University Press. págs. 85-111.^{[ se necesita verificación ]}
^ "Análisis factorial". Archivado desde el original el 18 de agosto de 2004 . Consultado el 22 de julio de 2004 .
^ Gregg, Phillip M.; Bancos, Arthur S. (1965). "Dimensiones de los sistemas políticos: análisis factorial de una encuesta entre sistemas políticos". Revista estadounidense de ciencias políticas . 59 (3): 602–614. doi :10.2307/1953171. JSTOR 1953171. S2CID 145459216.
^ Niemi, Richard G.; Craig, Stephen C.; Mattei, Franco (diciembre de 1991). "Medición de la eficacia política interna en el estudio de las elecciones nacionales de 1988". Revista estadounidense de ciencias políticas . 85 (4): 1407-1413. doi :10.2307/1963953. ISSN 0003-0554. JSTOR 1963953. S2CID 146641381.
^ Ritter, N. (2012). Una comparación de los métodos sin distribución y sin distribución en el análisis factorial. Artículo presentado en la Conferencia de 2012 de la Southwestern Educational Research Association (SERA), Nueva Orleans, LA (ED529153).
^ Subbarao, C.; Subbarao, NV; Chandu, SN (diciembre de 1996). "Caracterización de la contaminación de las aguas subterráneas mediante análisis factorial". Geología Ambiental . 28 (4): 175–180. Código Bib : 1996EnGeo..28..175S. doi :10.1007/s002540050091. S2CID 129655232.
^ Con amor, D.; Hallbauer, DK; Amós, A.; Hranova, RK (2004). "El análisis factorial como herramienta en la gestión de la calidad de las aguas subterráneas: dos estudios de caso del sur de África". Física y Química de la Tierra . 29 (15–18): 1135–43. Código Bib : 2004PCE....29.1135L. doi :10.1016/j.pce.2004.09.027.
^ Barton, ES; Hallbauer, DK (1996). "Composiciones de oligoelementos e isótopos U-Pb de tipos de pirita en el arrecife negro proterozoico, secuencia de Transvaal, Sudáfrica: implicaciones sobre la génesis y la edad". Geología Química . 133 (1–4): 173–199. doi :10.1016/S0009-2541(96)00075-7.
^ Hochreiter, Sepp; Inteligente, Djork-Arné; Obermayer, Klaus (2006). "Un nuevo método de resumen para datos a nivel de sonda affymetrix". Bioinformática . 22 (8): 943–9. doi : 10.1093/bioinformática/btl033 . PMID 16473874.
^ "sklearn.decomposition.FactorAnalysis - documentación de scikit-learn 0.23.2". scikit-learn.org .
^ MacCallum, Robert (junio de 1983). "Una comparación de programas de análisis factorial en SPSS, BMDP y SAS". Psicometrika . 48 (2): 223–231. doi :10.1007/BF02294017. S2CID 120770421.

Otras lecturas

Child, Dennis (2006), Los fundamentos del análisis factorial (3.ª ed.), Continuum International , ISBN 978-0-8264-8000-2.
Fabrigar, LR; Wegener, DT; MacCallum, RC; Strahan, EJ (septiembre de 1999). "Evaluación del uso del análisis factorial exploratorio en la investigación psicológica". Métodos psicológicos . 4 (3): 272–299. doi :10.1037/1082-989X.4.3.272.
BT Gray (1997) Análisis factorial de orden superior (documento de conferencia)
Jennrich, Robert I., "Rotación a cargas simples utilizando la función de pérdida de componentes: el caso oblicuo", Psychometrika , vol. 71, núm. 1, págs. 173-191, marzo de 2006.
Katz, Jeffrey Owen y Rohlf, F. James. Plano de función del producto primario: una rotación oblicua hacia una estructura simple. Investigación conductual multivariada , abril de 1975, vol. 10, págs. 219-232.
Katz, Jeffrey Owen y Rohlf, F. James. Plano de funciones: un nuevo enfoque para la rotación de estructuras simples. Psychometrika , marzo de 1974, vol. 39, núm. 1, págs. 37–51.
Katz, Jeffrey Owen y Rohlf, F. James. Análisis de conglomerados de puntos de función. Zoología sistemática , septiembre de 1973, vol. 22, núm. 3, págs. 295–301.
Mulaik, SA (2010), Fundamentos del análisis factorial , Chapman & Hall.
Predicador, KJ; MacCallum, RC (2003). "Reparación de la máquina de análisis de factores eléctricos de Tom Swift" (PDF) . Comprensión de las estadísticas . 2 (1): 13–43. doi :10.1207/S15328031US0201_02. hdl : 1808/1492 .
J. Schmid y JM Leiman (1957). El desarrollo de soluciones factoriales jerárquicas. Psicometrika , 22(1), 53–61.
Thompson, B. (2004), Análisis factorial exploratorio y confirmatorio: comprensión de conceptos y aplicaciones , Washington DC: Asociación Estadounidense de Psicología , ISBN 978-1591470939.

Hans-Georg Wolff, Katja Preising (2005) Exploración de la estructura factorial de orden superior y de elementos con la solución Schmid-leiman: códigos de sintaxis para métodos, instrumentos y computadoras de investigación del comportamiento SPSS y SAS , 37 (1), 48-58

enlaces externos

Wikimedia Commons tiene medios relacionados con el análisis factorial .

Una guía para principiantes sobre el análisis factorial
Análisis factorial exploratorio. Un libro manuscrito de Tucker, L. y MacCallum R. (1993). Obtenido el 8 de junio de 2006 de: [2] Archivado el 23 de mayo de 2013 en Wayback Machine.
Garson, G. David, "Análisis factorial", de Statnotes: Temas de análisis multivariado . Obtenido el 13 de abril de 2009 de StatNotes: Topics in Multivariate Analysis, de G. David Garson de la Universidad Estatal de Carolina del Norte, Programa de Administración Pública.
Análisis factorial al 100 — material de la conferencia
FARMS: análisis factorial para un resumen robusto de microarrays, un paquete R