stringtranslate.com

Análisis factorial múltiple

El análisis factorial múltiple (AFM) es un método factorial [1] dedicado al estudio de tablas en las que se describe un grupo de individuos mediante un conjunto de variables (cuantitativas y/o cualitativas) estructuradas en grupos. Se trata de un método multivariante del campo de la ordenación utilizado para simplificar estructuras de datos multidimensionales . El AFM trata todas las tablas involucradas de la misma manera (análisis simétrico). Puede considerarse como una extensión de:

Ejemplo introductorio

¿Por qué introducir varios grupos activos de variables en el mismo análisis factorial?

datos

Consideremos el caso de las variables cuantitativas, es decir, en el marco del PCA. Un ejemplo de datos de investigación ecológica ofrece una ilustración útil. Existen, para 72 estaciones, dos tipos de mediciones:

  1. Coeficiente de abundancia-dominancia de 50 especies vegetales (coeficiente que va de 0 = la planta está ausente, a 9 = la especie cubre más de tres cuartas partes de la superficie). El conjunto de los 50 coeficientes define el perfil florístico de una estación.
  2. Once mediciones pedológicas ( Pedología = ciencia del suelo): tamaño de partículas, físicas, químicas, etc. El conjunto de estas once medidas define el perfil pedológico de una estación.

Son posibles tres análisis:

  1. PCA de la flora (pedología como complemento): este análisis se centra en la variabilidad de los perfiles florísticos. Dos estaciones están próximas entre sí si tienen perfiles florísticos similares. En un segundo paso, las principales dimensiones de esta variabilidad (es decir, los componentes principales) se relacionan con las variables pedológicas introducidas como complemento.
  2. PCA de pedología (flora como complemento): este análisis se centra en la variabilidad de los perfiles de suelo. Dos estaciones están próximas si tienen el mismo perfil de suelo. Las principales dimensiones de esta variabilidad (es decir, los componentes principales) se relacionan entonces con la abundancia de plantas.
  3. PCA de los dos grupos de variables como activas: se puede querer estudiar la variabilidad de las estaciones tanto desde el punto de vista de la flora como del suelo. En este enfoque, dos estaciones deberían estar próximas si tienen flora y suelos similares.

Equilibrio entre grupos de variables

Metodología

El tercer análisis del ejemplo introductorio presupone implícitamente un equilibrio entre la flora y el suelo. Sin embargo, en este ejemplo, el mero hecho de que la flora esté representada por 50 variables y el suelo por 11 variables implica que el PCA con 61 variables activas estará influido principalmente por la flora (al menos en el primer eje). Esto no es deseable: no hay razón para desear que un grupo desempeñe un papel más importante en el análisis.

El núcleo del MFA se basa en un análisis factorial (PCA en el caso de variables cuantitativas, MCA en el caso de variables cualitativas) en el que las variables están ponderadas. Estos pesos son idénticos para las variables de un mismo grupo (y varían de un grupo a otro). Son tales que la inercia axial máxima de un grupo es igual a 1: en otras palabras, al aplicar el PCA (o, en su caso, el MCA) a un grupo con esta ponderación, obtenemos un primer valor propio igual a 1. Para obtener esta propiedad, MFA asigna a cada variable del grupo un peso igual al inverso del primer valor propio del análisis (PCA o MCA según el tipo de variable) del grupo .

Formalmente, tomando nota del primer valor propio del análisis factorial de un grupo , el MFA asigna un peso a cada variable del grupo .

Al equilibrar la inercia axial máxima en lugar de la inercia total (= el número de variables en el PCA estándar), el MFA obtiene varias propiedades importantes para el usuario. De manera más directa, su interés se refleja en el siguiente ejemplo.

Ejemplo

Sean dos grupos de variables definidos en el mismo conjunto de individuos.

  1. El grupo 1 está compuesto por dos variables no correlacionadas A y B.
  2. El grupo 2 está compuesto por dos variables {C1, C2} idénticas a la misma variable C no correlacionadas con las dos primeras.

Este ejemplo no es del todo irreal. A menudo es necesario analizar simultáneamente grupos multidimensionales y (bastante) unidimensionales.

Cada grupo que tiene el mismo número de variables tiene la misma inercia total.

En este ejemplo, el primer eje del PCA es casi coincidente con C. En efecto, en el espacio de variables, hay dos variables en la dirección de C: el grupo 2, con toda su inercia concentrada en una dirección, influye predominantemente en el primer eje. Por su parte, el grupo 1, formado por dos variables ortogonales (= no correlacionadas), tiene su inercia uniformemente distribuida en un plano (el plano generado por las dos variables) y apenas pesa sobre el primer eje.

Ejemplo numérico

En la Tabla 2 se resume la inercia de los dos primeros ejes del PCA y del MFA aplicados a la Tabla 1.

Las variables del grupo 2 contribuyen al 88,95% de la inercia del eje 1 del PCA. El primer eje ( ) es casi coincidente con C: la correlación entre C y es .976;

El primer eje del MFA (en los datos de la Tabla 1) muestra el equilibrio entre los dos grupos de variables: la contribución de cada grupo a la inercia de este eje es estrictamente igual al 50%.

El segundo eje, por su parte, depende únicamente del grupo 1. Esto es natural, ya que este grupo es bidimensional, mientras que el segundo grupo, al ser unidimensional, puede estar altamente relacionado con un solo eje (aquí el primer eje).

Conclusión sobre el equilibrio entre grupos

La introducción de varios grupos activos de variables en un análisis factorial supone implícitamente un equilibrio entre estos grupos.

Este equilibrio debe tener en cuenta que un grupo multidimensional influye naturalmente en más ejes que un grupo unidimensional (que puede no estar estrechamente relacionado con un eje).

Este papel lo desempeña la ponderación del MFA, que hace que la inercia axial máxima de cada grupo sea igual a 1.

Ejemplos de aplicación

Los cuestionarios de encuesta siempre se estructuran según diferentes temas. Cada tema es un grupo de variables, por ejemplo, preguntas sobre opiniones y preguntas sobre comportamiento. Así, en este ejemplo, podríamos querer realizar un análisis factorial en el que dos individuos están cerca si ambos han expresado las mismas opiniones y el mismo comportamiento.

Análisis sensorial Un mismo conjunto de productos ha sido evaluado por un panel de expertos y un panel de consumidores. Para su evaluación, cada jurado utiliza una lista de descriptores (agrio, amargo, etc.). Cada juez puntúa cada descriptor para cada producto en una escala de intensidad que va por ejemplo de 0 = nulo o muy bajo a 10 = muy fuerte. En la tabla asociada a un jurado, en la intersección de la fila y la columna , se encuentra la puntuación media asignada al producto para el descriptor .

Los individuos son los productos. Cada jurado es un grupo de variables. Queremos lograr un análisis factorial en el que dos productos sean similares si fueron evaluados de la misma manera por ambos jurados.

Las variables de series temporales multidimensionales se miden en individuos. Estas mediciones se realizan en fechas. Existen muchas maneras de analizar este conjunto de datos. Una manera sugerida por MFA es considerar cada día como un grupo de variables en el análisis de las tablas (cada tabla corresponde a una fecha) yuxtapuestas por filas (la tabla analizada tiene, por lo tanto, filas y x columnas).

Conclusión : Estos ejemplos muestran que, en la práctica, las variables a menudo se organizan en grupos.

Gráficos de MFA

Más allá de la ponderación de las variables, el interés del MFA reside en una serie de gráficos e indicadores valiosos en el análisis de una tabla cuyas columnas están organizadas en grupos.

Gráficos comunes a todos los análisis factoriales simples (PCA, MCA)

El núcleo del MFA es un análisis factorial ponderado: el MFA proporciona en primer lugar los resultados clásicos de los análisis factoriales.

1. Representaciones de individuos en las que dos individuos están próximos entre sí si presentan valores similares para muchas variables en los diferentes grupos de variables; en la práctica el usuario estudia particularmente el primer plano factorial.

2. Representaciones de variables cuantitativas como en PCA (círculo de correlación).

En el ejemplo:

3. Indicadores que ayudan a la interpretación : inercia proyectada, contribuciones y calidad de la representación. En el ejemplo, la contribución de los individuos 1 y 5 a la inercia del primer eje es de 45,7% + 31,5% = 77,2%, lo que justifica la interpretación centrada en estos dos puntos.

4. Representaciones de categorías de variables cualitativas como en el ACM (una categoría se encuentra en el centroide de los individuos que la poseen). No hay variables cualitativas en el ejemplo.

Gráficos específicos para este tipo de tabla múltiple

5. Representaciones superpuestas de los individuos « vistos » por cada grupo. Un individuo considerado desde el punto de vista de un solo grupo se llama individuo parcial (en paralelo, un individuo considerado desde el punto de vista de todas las variables se dice individuo medio porque se encuentra en el centro de gravedad de sus puntos parciales). La nube parcial reúne a los individuos desde la perspectiva del grupo único (es decir, ): es decir, la nube analizada en el análisis factorial separado (PCA o MCA) del grupo . La representación superpuesta de la proporcionada por el MFA es similar en su propósito a la proporcionada por el análisis de Procrustes .

Figura 3. MFA. Datos de prueba. Representación superpuesta de nubes medias y parciales.

En el ejemplo (figura 3), el individuo 1 se caracteriza por un tamaño pequeño (es decir, valores pequeños) tanto en relación con el grupo 1 como con el grupo 2 (los puntos parciales del individuo 1 tienen una coordenada negativa y están próximos entre sí). Por el contrario, el individuo 5 se caracteriza más por valores altos para las variables del grupo 2 que para las variables del grupo 1 (para el individuo 5, el punto parcial del grupo 2 se encuentra más alejado del origen que el punto parcial del grupo 1). Esta lectura del gráfico se puede comprobar directamente en los datos.

6. Representaciones de grupos de variables como tales. En estos gráficos, cada grupo de variables se representa mediante un único punto. Dos grupos de variables están próximos entre sí cuando definen la misma estructura sobre los individuos. Caso extremo: dos grupos de variables que definen nubes homotéticas de individuos coinciden. La coordenada del grupo a lo largo del eje es igual a la contribución del grupo a la inercia de la dimensión MFA de rango . Esta contribución puede interpretarse como un indicador de relación (entre el grupo y el eje , de ahí el nombre de cuadrado de relación que se le da a este tipo de representación). Esta representación también existe en otros métodos factoriales (MCA y FAMD en particular) en cuyo caso los grupos de variables se reducen cada uno a una sola variable.

Figura 4. MFA. Datos de prueba. Representación de grupos de variables.

En el ejemplo (figura 4), esta representación muestra que el primer eje está relacionado con los dos grupos de variables, mientras que el segundo eje está relacionado con el primer grupo. Esto concuerda con la representación de las variables (figura 2). En la práctica, esta representación es especialmente valiosa cuando los grupos son numerosos e incluyen muchas variables.

Otra cuadrícula de lectura . Los dos grupos de variables tienen en común el efecto tamaño (primer eje) y se diferencian según el eje 2 ya que este eje es específico del grupo 1 (opone las variables A y B).

7. Representaciones de factores de análisis separados de los diferentes grupos. Estos factores se representan como variables cuantitativas complementarias (círculo de correlación).

Figura 5. MFA. Datos de prueba. Representación de los componentes principales de PCA por separado de cada grupo.

En el ejemplo (figura 5), ​​el primer eje del MFA está relativamente fuertemente correlacionado (r = .80) con el primer componente del grupo 2. Este grupo, que consta de dos variables idénticas, posee sólo un componente principal (confundido con la variable). El grupo 1 consta de dos variables ortogonales: cualquier dirección del subespacio generado por estas dos variables tiene la misma inercia (igual a 1). Por lo tanto, existe incertidumbre en la elección de los componentes principales y no hay razón para estar interesado en uno de ellos en particular. Sin embargo, los dos componentes proporcionados por el programa están bien representados: el plano del MFA está cerca del plano abarcado por las dos variables del grupo 1.

Conclusión

El ejemplo numérico ilustra el resultado del MFA. Además de equilibrar los grupos de variables y de los gráficos habituales del PCA (del MCA en el caso de variables cualitativas), el MFA proporciona resultados específicos de la estructura de grupo del conjunto de variables, es decir, en particular:

El pequeño tamaño y la simplicidad del ejemplo permiten una validación sencilla de las reglas de interpretación. Pero el método será más valioso cuando el conjunto de datos sea grande y complejo. Existen otros métodos adecuados para este tipo de datos. El análisis de Procrustes se compara con el MFA en [2] .

Historia

El MFA fue desarrollado por Brigitte Escofier y Jérôme Pagès en los años 1980. Es el núcleo de dos libros escritos por estos autores: [3] y [4] El MFA y sus extensiones (MFA jerárquico, MFA sobre tablas de contingencia, etc.) son un tema de investigación del laboratorio de matemáticas aplicadas Agrocampus (LMA²) que publicó un libro que presenta métodos básicos de análisis multivariado exploratorio. [5]

Software

MFA está disponible en dos paquetes R (FactoMineR y ADE4) y en muchos paquetes de software, incluidos SPAD, Uniwin, XLSTAT, etc. También existe una función SAS [ enlace muerto permanente ] . Los gráficos de este artículo provienen del paquete R FactoMineR.

Referencias

  1. ^ Greenacre, Michael; Blasius, Jorg (23 de junio de 2006). Análisis de correspondencias múltiples y métodos relacionados. CRC Press. pp. 352–. ISBN 9781420011319. Recuperado el 11 de junio de 2014 .
  2. ^ Pagès Jérôme (2014). Análisis factorial múltiple mediante un ejemplo utilizando R. Chapman & Hall/CRC The R Series, Londres. 272p
  3. ^ Ibídem
  4. ^ Escofier Brigitte y Pagès Jérôme (2008). Analiza factores simples y múltiples; objetivos, métodos e interpretación. Dunod, París. 318p. ISBN 978-2-10-051932-3 
  5. ^ Husson F., Lê S. y Pagès J. (2009). Análisis multivariante exploratorio por ejemplo utilizando R. Chapman & Hall/CRC The R Series, Londres. ISBN 978-2-7535-0938-2 

Enlaces externos