stringtranslate.com

Análisis de correspondencia múltiple

En estadística , el análisis de correspondencias múltiples ( MCA ) es una técnica de análisis de datos para datos categóricos nominales, que se utiliza para detectar y representar estructuras subyacentes en un conjunto de datos. Para ello, representa los datos como puntos en un espacio euclidiano de baja dimensión . Por tanto, el procedimiento parece ser la contraparte del análisis de componentes principales para datos categóricos. [1] [2] MCA puede verse como una extensión del análisis de correspondencia simple (CA) en el sentido de que es aplicable a un gran conjunto de variables categóricas .

Como una extensión del análisis de correspondencia

MCA se realiza aplicando el algoritmo CA a una matriz de indicadores (también llamada tabla disyuntiva completa – CDT) o una tabla de Burt formada a partir de estas variables. [3] Una matriz de indicadores es una matriz de individuos × variables, donde las filas representan individuos y las columnas son variables ficticias que representan categorías de las variables. [4] El análisis de la matriz de indicadores permite la representación directa de los individuos como puntos en el espacio geométrico. La tabla de Burt es la matriz simétrica de todas las tabulaciones cruzadas de dos factores entre las variables categóricas y tiene una analogía con la matriz de covarianza de variables continuas. Analizar la tabla de Burt es una generalización más natural del análisis de correspondencia simple , y se pueden agregar individuos o las medias de grupos de individuos como puntos suplementarios a la presentación gráfica.

En el enfoque de matriz de indicadores, las asociaciones entre variables se descubren calculando la distancia chi-cuadrado entre diferentes categorías de variables y entre los individuos (o encuestados). Estas asociaciones luego se representan gráficamente como "mapas", lo que facilita la interpretación de las estructuras de los datos. Luego se maximizan las oposiciones entre filas y columnas para descubrir las dimensiones subyacentes que mejor pueden describir las oposiciones centrales en los datos. Al igual que en el análisis factorial o en el análisis de componentes principales , el primer eje es la dimensión más importante, el segundo eje la segunda más importante, y así sucesivamente, en términos de la cantidad de varianza contabilizada. El número de ejes que se conservarán para el análisis se determina calculando los valores propios modificados .

Detalles

Dado que MCA está adaptado para sacar conclusiones estadísticas a partir de variables categóricas (como preguntas de opción múltiple), lo primero que hay que hacer es transformar datos cuantitativos (como edad, tamaño, peso, hora del día, etc.) en categorías (utilizando para ejemplo, cuantiles estadísticos).

Cuando el conjunto de datos está representado completamente como variables categóricas, se puede construir la correspondiente tabla disyuntiva completa. Denotamos esta tabla . Si las personas respondieron una encuesta con preguntas de opción múltiple con 4 respuestas cada una, tendrán filas y columnas.

Más teóricamente, [5] supone una tabla de observaciones de variables categóricas completamente disyuntiva. Supongamos también que la -ésima variable tiene diferentes niveles (categorías) y está configurada . La tabla es entonces una matriz en la que todos los coeficientes son o . Establece la suma de todas las entradas de to be e introduce . En un MCA, también hay dos vectores especiales: primero , que contiene las sumas a lo largo de las filas de , y , que contiene las sumas a lo largo de las columnas de . Tenga en cuenta y , las matrices diagonales que contienen y respectivamente como diagonal. Con estas notaciones, calcular un MCA consiste esencialmente en la descomposición en valores singulares de la matriz:

La descomposición de te da , y tal que con P, Q dos matrices unitarias y es la matriz diagonal generalizada de los valores singulares (con la misma forma que ). Los coeficientes positivos de son los valores propios de .

El interés de MCA proviene de la forma en que se pueden descomponer las observaciones (filas) y las variables (columnas). Esta descomposición se llama descomposición factorial. Las coordenadas de las observaciones en el espacio factorial están dadas por

Las -ésimas filas de representan la -ésima observación en el espacio factorial. Y de manera similar, las coordenadas de las variables (¡en el mismo espacio factorial que las observaciones!) están dadas por

Obras recientes y ampliaciones

En los últimos años, varios estudiantes de Jean-Paul Benzécri han perfeccionado el MCA y lo han incorporado a un marco más general de análisis de datos conocido como análisis de datos geométricos . Esto implica el desarrollo de conexiones directas entre el análisis de correspondencia simple , el análisis de componentes principales y el MCA con una forma de análisis de conglomerados conocida como clasificación euclidiana. [6]

Dos extensiones tienen un gran uso práctico.

Campos de aplicación

En las ciencias sociales, se puede decir que la MCA es mejor conocida por su aplicación por parte de Pierre Bourdieu , [7] especialmente en sus libros La Distinction , Homo Academicus y The State Nobility . Bourdieu argumentó que había un vínculo interno entre su visión de lo social como espacial y relacional, capturada por la noción de campo , y las propiedades geométricas del MCA. [8] Los sociólogos que siguen el trabajo de Bourdieu suelen optar por el análisis de la matriz de indicadores, en lugar de la tabla de Burt, en gran parte debido a la importancia central otorgada al análisis de la "nube de individuos". [9]

Análisis de correspondencias múltiples y análisis de componentes principales.

MCA también puede verse como un PCA aplicado a la tabla disyuntiva completa. Para ello se debe transformar el CDT de la siguiente manera. Denotemos el término general del CDT. es igual a 1 si el individuo posee la categoría y 0 en caso contrario. Denotemos la proporción de individuos que poseen la categoría . La CDT transformada (TCDT) tiene como término general:

El PCA no estandarizado aplicado a TCDT, la columna que tiene el peso , conduce a los resultados de MCA.

Esta equivalencia está plenamente explicada en un libro de Jérôme Pagès. [10] Desempeña un papel teórico importante porque abre el camino al tratamiento simultáneo de variables cuantitativas y cualitativas. Dos métodos analizan simultáneamente estos dos tipos de variables: análisis factorial de datos mixtos y, cuando las variables activas se dividen en varios grupos: análisis factorial múltiple.

Esta equivalencia no significa que MCA sea un caso particular de PCA como no lo es de CA. Sólo significa que estos métodos están estrechamente relacionados entre sí, ya que pertenecen a la misma familia: los métodos factoriales. [ cita necesaria ]

Software

Existen numerosos software de análisis de datos que incluyen MCA, como STATA y SPSS. El paquete R FactoMineR también incluye MCA. Este software está relacionado con un libro que describe los métodos básicos para realizar MCA. [11] También hay un paquete Python para [1] que funciona con matrices de matrices numerosas; el paquete aún no se ha implementado para los marcos de datos de Spark.

Referencias

  1. ^ Le Roux; B. y H. Rouanet (2004). Análisis de datos geométricos, del análisis de correspondencias al análisis de datos estructurados . Dordrecht. Kluwer: página 180.
  2. ^ Greenacre, Michael y Blasius, Jörg (editores) (2006). Análisis de correspondencias múltiples y métodos relacionados . Londres: Chapman & Hall/CRC. {{cite book}}: |author=tiene nombre genérico ( ayuda )CS1 maint: multiple names: authors list (link)
  3. ^ Greenacre, Michael (2007). Análisis de correspondencia en la práctica, segunda edición . Londres: Chapman & Hall/CRC.
  4. ^ Le Roux, B. y H. Rouanet (2004), Análisis de datos geométricos, del análisis de correspondencia al análisis de datos estructurados, Dordrecht. Kluwer: p.179
  5. ^ Hervé Abdi; Dominique Valentín (2007). «Análisis de correspondencias múltiples» (PDF) .
  6. ^ Le Roux; B. y H. Rouanet (2004). Análisis de datos geométricos, del análisis de correspondencias al análisis de datos estructurados . Dordrecht. Kluwer.
  7. ^ Scott, John y Gordon Marshall (2009): Diccionario Oxford de Sociología, p. 135. Oxford: Prensa de la Universidad de Oxford
  8. ^ Rouanet, Henry (2000) "El análisis geométrico de los cuestionarios. La lección de La Distinction de Bourdieu", en Bulletin de Méthodologie Sociologique 65, págs.
  9. ^ Lebaron, Frédéric (2009) "Cómo Bourdieu “cuantificó” a Bourdieu: el modelado geométrico de datos", en Robson y Sanders (eds.) Teoría de la cuantificación: Pierre Bourdieu. Springer, págs. 11-30.
  10. ^ Pagès Jérôme (2014). Análisis de factores múltiples por ejemplo usando R. Chapman & Hall/CRC La Serie R Londres 272 p
  11. ^ Husson F., Lê S. y Pagès J. (2009). Análisis exploratorio multivariado mediante ejemplo utilizando R. Chapman & Hall/CRC The R Series, Londres. ISBN 978-2-7535-0938-2 

enlaces externos