stringtranslate.com

Análisis factorial de datos mixtos

En estadística , el análisis factorial de datos mixtos o análisis factorial de datos mixtos ( FAMD , en el original francés: AFDM o Analyse Factorielle de Données Mixtes ), es el método factorial dedicado a las tablas de datos en las que se describe un grupo de individuos tanto por variables cuantitativas como cualitativas. Pertenece a los métodos exploratorios desarrollados por la escuela francesa denominada Analyse des données (análisis de datos) fundada por Jean-Paul Benzécri .

El término mixto se refiere al uso de variables tanto cuantitativas como cualitativas. A grandes rasgos, podemos decir que el FAMD funciona como un análisis de componentes principales (PCA) para variables cuantitativas y como un análisis de correspondencias múltiples (MCA) para variables cualitativas.

Alcance

Cuando los datos incluyen ambos tipos de variables pero las variables activas son homogéneas, se puede utilizar PCA o MCA.

De hecho, es fácil incluir variables cuantitativas suplementarias en el ACM mediante los coeficientes de correlación entre las variables y los factores sobre los individuos (un factor sobre los individuos es el vector que reúne las coordenadas de los individuos en un eje factorial); la representación obtenida es un círculo de correlación (como en el ACP).

De manera similar, es fácil incluir variables categóricas suplementarias en el ACP. [1] Para ello, cada categoría está representada por el centro de gravedad de los individuos que la tienen (como ACM).

Cuando las variables activas son mixtas, lo habitual es realizar una discretización sobre las variables cuantitativas (por ejemplo, en las encuestas se suele transformar la edad en clases de edad). Los datos así obtenidos pueden procesarse mediante MCA.

Esta práctica llega a sus límites:

Criterio

Los datos incluyen variables cuantitativas y variables cualitativas .

es una variable cuantitativa. Observamos:

En el PCA de , buscamos la función en (una función en asigna un valor a cada individuo, es el caso de las variables iniciales y componentes principales) más correlacionada con todas las variables en el siguiente sentido:

máximo.

En el MCA de Q , buscamos la función en más relacionada con todas las variables en el siguiente sentido:

máximo.

En FAMD , buscamos la función más relacionada con todas las variables en el siguiente sentido:

máximo.

En este criterio, ambos tipos de variables juegan el mismo papel. La contribución de cada variable en este criterio está limitada por 1.

Parcelas

La representación de los individuos se realiza directamente a partir de factores .

La representación de variables cuantitativas se construye como en PCA (círculo de correlación).

La representación de las categorías de las variables cualitativas es como en el ACM: una categoría se encuentra en el centroide de los individuos que la poseen. Nótese que tomamos el centroide exacto y no, como es habitual en el ACM, el centroide hasta un coeficiente dependiente del eje (en el ACM este coeficiente es igual a la inversa de la raíz cuadrada del valor propio; sería inadecuado en el ACM).

La representación de las variables se denomina cuadrado de la relación . La coordenada de la variable cualitativa a lo largo del eje es igual al cuadrado de la razón de correlación entre la variable y el factor de rango (denotado como ). La coordenada de la variable cuantitativa a lo largo del eje es igual al cuadrado del coeficiente de correlación entre la variable y el factor de rango (denotado como ).

Ayudas a la interpretación

Los indicadores de relación entre las variables iniciales se combinan en una denominada matriz de relación que contiene, en la intersección de filas y columnas :

Ejemplo

Un conjunto de datos muy pequeño (Tabla 1) ilustra el funcionamiento y los resultados del FAMD. Se describen seis individuos mediante tres variables cuantitativas y tres variables cualitativas. Los datos se analizaron utilizando la función FAMD FactoMineR del paquete R.

En la matriz de relación, los coeficientes son iguales a (variables cuantitativas), (variables cualitativas) o (una variable de cada tipo).

La matriz muestra un entrelazamiento de las relaciones entre los dos tipos de variables.

La representación de los individuos (Figura 1) muestra claramente tres grupos de individuos. El primer eje opone los individuos 1 y 2 a todos los demás. El segundo eje opone los individuos 3 y 4 a los individuos 5 y 6.

La representación de las variables (cuadrado de relación, Figura 2) muestra que el primer eje ( ) está estrechamente vinculado a las variables , y . El círculo de correlación (Figura 3) especifica el signo de la correlación entre , y ; la representación de las categorías (Figura 4) aclara la naturaleza de la relación entre y . Finalmente, los individuos 1 y 2, individualizados por el primer eje, se caracterizan por valores elevados de y y por las categorías de también.

Este ejemplo ilustra cómo el FAMD analiza simultáneamente variables cuantitativas y cualitativas. Así, se muestra en este ejemplo una primera dimensión basada en los dos tipos de variables.

Historia

El trabajo original de la FAMD se debe a Brigitte Escofier [2] y Gilbert Saporta [3] . Este trabajo fue retomado en 2002 por Jérôme Pagès [4] . Una presentación más completa de la FAMD en inglés está incluida en un libro de Jérôme Pagès [5] .

Software

El método se implementa en el paquete R FactoMineR. El método se implementa en la biblioteca Python prince.

Referencias

  1. ^ Escofier, Brigitte; Pagès, Jérôme (2016). Análisis factorielles simples y múltiples: cours et études de cas (PDF) (en francés). París: Dunod. ISBN 978-2-10-074144-1. OCLC  951230297.
  2. ^ Escofier Brigitte (1979). "Tratamiento simultáneo de variables cuantitativas y cualitativas en análisis factorial" (PDF) . Les cahiers de l'analyse des données . 4 (2): 137–146.
  3. ^ Saporta Gilbert (1990). Análisis simultáneo de datos cualitativos y cuantitativos. Atti della XXXV reunión científica; sociedad italiana de estadística , 63–72. http://cedric.cnam.fr/~saporta/SAQQD.pdf
  4. ^ Pagès Jérôme (2002). "Analyse factorielle de données mixtes" (PDF) . Revista de estadística aplicada . 52 (4): 93-111.
  5. ^ Pagès, Jérôme (2015). Análisis factorial múltiple por ejemplo usando R. Boca Ratón: CRC Press. ISBN 978-1-4822-0547-3.OCLC 894169715  .