En estadística , el análisis factorial de datos mixtos o análisis factorial de datos mixtos ( FAMD , en el original francés: AFDM o Analyse Factorielle de Données Mixtes ), es el método factorial dedicado a las tablas de datos en las que se describe un grupo de individuos tanto por variables cuantitativas como cualitativas. Pertenece a los métodos exploratorios desarrollados por la escuela francesa denominada Analyse des données (análisis de datos) fundada por Jean-Paul Benzécri .
El término mixto se refiere al uso de variables tanto cuantitativas como cualitativas. A grandes rasgos, podemos decir que el FAMD funciona como un análisis de componentes principales (PCA) para variables cuantitativas y como un análisis de correspondencias múltiples (MCA) para variables cualitativas.
Cuando los datos incluyen ambos tipos de variables pero las variables activas son homogéneas, se puede utilizar PCA o MCA.
De hecho, es fácil incluir variables cuantitativas suplementarias en el ACM mediante los coeficientes de correlación entre las variables y los factores sobre los individuos (un factor sobre los individuos es el vector que reúne las coordenadas de los individuos en un eje factorial); la representación obtenida es un círculo de correlación (como en el ACP).
De manera similar, es fácil incluir variables categóricas suplementarias en el ACP. [1] Para ello, cada categoría está representada por el centro de gravedad de los individuos que la tienen (como ACM).
Cuando las variables activas son mixtas, lo habitual es realizar una discretización sobre las variables cuantitativas (por ejemplo, en las encuestas se suele transformar la edad en clases de edad). Los datos así obtenidos pueden procesarse mediante MCA.
Esta práctica llega a sus límites:
Los datos incluyen variables cuantitativas y variables cualitativas .
es una variable cuantitativa. Observamos:
En el PCA de , buscamos la función en (una función en asigna un valor a cada individuo, es el caso de las variables iniciales y componentes principales) más correlacionada con todas las variables en el siguiente sentido:
En el MCA de Q , buscamos la función en más relacionada con todas las variables en el siguiente sentido:
En FAMD , buscamos la función más relacionada con todas las variables en el siguiente sentido:
En este criterio, ambos tipos de variables juegan el mismo papel. La contribución de cada variable en este criterio está limitada por 1.
La representación de los individuos se realiza directamente a partir de factores .
La representación de variables cuantitativas se construye como en PCA (círculo de correlación).
La representación de las categorías de las variables cualitativas es como en el ACM: una categoría se encuentra en el centroide de los individuos que la poseen. Nótese que tomamos el centroide exacto y no, como es habitual en el ACM, el centroide hasta un coeficiente dependiente del eje (en el ACM este coeficiente es igual a la inversa de la raíz cuadrada del valor propio; sería inadecuado en el ACM).
La representación de las variables se denomina cuadrado de la relación . La coordenada de la variable cualitativa a lo largo del eje es igual al cuadrado de la razón de correlación entre la variable y el factor de rango (denotado como ). La coordenada de la variable cuantitativa a lo largo del eje es igual al cuadrado del coeficiente de correlación entre la variable y el factor de rango (denotado como ).
Los indicadores de relación entre las variables iniciales se combinan en una denominada matriz de relación que contiene, en la intersección de filas y columnas :
Un conjunto de datos muy pequeño (Tabla 1) ilustra el funcionamiento y los resultados del FAMD. Se describen seis individuos mediante tres variables cuantitativas y tres variables cualitativas. Los datos se analizaron utilizando la función FAMD FactoMineR del paquete R.
En la matriz de relación, los coeficientes son iguales a (variables cuantitativas), (variables cualitativas) o (una variable de cada tipo).
La matriz muestra un entrelazamiento de las relaciones entre los dos tipos de variables.
La representación de los individuos (Figura 1) muestra claramente tres grupos de individuos. El primer eje opone los individuos 1 y 2 a todos los demás. El segundo eje opone los individuos 3 y 4 a los individuos 5 y 6.
La representación de las variables (cuadrado de relación, Figura 2) muestra que el primer eje ( ) está estrechamente vinculado a las variables , y . El círculo de correlación (Figura 3) especifica el signo de la correlación entre , y ; la representación de las categorías (Figura 4) aclara la naturaleza de la relación entre y . Finalmente, los individuos 1 y 2, individualizados por el primer eje, se caracterizan por valores elevados de y y por las categorías de también.
Este ejemplo ilustra cómo el FAMD analiza simultáneamente variables cuantitativas y cualitativas. Así, se muestra en este ejemplo una primera dimensión basada en los dos tipos de variables.
El trabajo original de la FAMD se debe a Brigitte Escofier [2] y Gilbert Saporta [3] . Este trabajo fue retomado en 2002 por Jérôme Pagès [4] . Una presentación más completa de la FAMD en inglés está incluida en un libro de Jérôme Pagès [5] .
El método se implementa en el paquete R FactoMineR. El método se implementa en la biblioteca Python prince.