stringtranslate.com

Análisis de correspondencia

El análisis de correspondencia ( CA ) es una técnica estadística multivariada propuesta [1] por Herman Otto Hartley (Hirschfeld) [2] y posteriormente desarrollada por Jean-Paul Benzécri . [3] Es conceptualmente similar al análisis de componentes principales , pero se aplica a datos categóricos en lugar de continuos. De manera similar al análisis de componentes principales, proporciona un medio para mostrar o resumir un conjunto de datos en forma gráfica bidimensional. Su objetivo es mostrar en un biplot cualquier estructura oculta en la configuración multivariada de la tabla de datos. Como tal es una técnica del campo de la ordenación multivariante . Dado que la variante de CA descrita aquí se puede aplicar centrándose en las filas o en las columnas, debería llamarse análisis de correspondencia simple (simétrico) . [4]

Se aplica tradicionalmente a la tabla de contingencia de un par de variables nominales donde cada celda contiene un recuento o un valor cero. Si se van a resumir más de dos variables categóricas, se debe elegir en su lugar una variante llamada análisis de correspondencia múltiple . CA también se puede aplicar a datos binarios dado que la codificación de presencia/ausencia representa datos de recuento simplificados, es decir, un 1 describe un recuento positivo y 0 representa un recuento de cero. Dependiendo de las puntuaciones utilizadas, CA conserva la distancia chi-cuadrado [5] [6] entre las filas o las columnas de la tabla. Debido a que CA es una técnica descriptiva, se puede aplicar a tablas independientemente de una prueba de chi-cuadrado significativa . [7] [8] Aunque la estadística utilizada en la estadística inferencial y la distancia chi-cuadrado están computacionalmente relacionadas, no deben confundirse ya que esta última funciona como una medida de distancia estadística multivariada en CA, mientras que la estadística es de hecho un escalar, no una métrica. . [9]

Detalles

Al igual que el análisis de componentes principales , el análisis de correspondencia crea componentes ortogonales (o ejes) y, para cada elemento de una tabla, es decir, para cada fila, un conjunto de puntuaciones (a veces llamadas puntuaciones de factores, consulte Análisis factorial ). El análisis de correspondencia se realiza en la tabla de datos, concebida como una matriz C de tamaño m  ×  n donde m es el número de filas y n es el número de columnas. En la siguiente descripción matemática del método, las letras mayúsculas en cursiva se refieren a una matriz , mientras que las letras en cursiva se refieren a vectores . Comprender los siguientes cálculos requiere conocimientos de álgebra matricial .

Preprocesamiento

Antes de continuar con el paso computacional central del algoritmo, es necesario transformar los valores de la matriz C. [10] Primero calcule un conjunto de pesos para las columnas y las filas (a veces llamados masas ), [7] [11] donde los pesos de las filas y columnas están dados por los vectores de fila y columna, respectivamente:

Aquí está la suma de todos los valores de celda en la matriz C , o abreviada la suma de C , y es un vector de columna de unos con la dimensión adecuada.

En palabras simples, es solo un vector cuyos elementos son las sumas de las filas de C divididas por la suma de C , y es un vector cuyos elementos son las sumas de las columnas de C divididas por la suma de C .

Los pesos se transforman en matrices diagonales.

y

donde los elementos diagonales de son y los de son respectivamente, es decir, los elementos vectoriales son los inversos de las raíces cuadradas de las masas. Los elementos fuera de la diagonal son todos 0.

A continuación, calcule la matriz dividiendo por su suma.

En palabras simples, Matrix es simplemente la matriz de datos (tabla de contingencia o tabla binaria) transformada en porciones, es decir, cada valor de celda es solo la porción de celda de la suma de toda la tabla.

Finalmente, calcule la matriz , a veces llamada matriz de residuos estandarizados , [10] mediante la multiplicación de matrices como

Tenga en cuenta que los vectores y se combinan en un producto exterior que da como resultado una matriz de las mismas dimensiones que . En palabras, la fórmula dice: la matriz se resta de la matriz y la matriz resultante se escala (pondera) mediante las matrices diagonales y . Multiplicar la matriz resultante por las matrices diagonales equivale a multiplicar la i-ésima fila (o columna) de la misma por el i-ésimo elemento de la diagonal de o , respectivamente [12] .

Interpretación del preprocesamiento.

Los vectores y son las masas de filas y columnas o las probabilidades marginales de las filas y columnas, respectivamente. Restar una matriz de una matriz es la versión de álgebra matricial del doble centrado de los datos. Multiplicar esta diferencia por las matrices de ponderación diagonal da como resultado una matriz que contiene desviaciones ponderadas del origen de un espacio vectorial . Este origen está definido por la matriz .

De hecho, la matriz es idéntica a la matriz de frecuencias esperadas en la prueba de chi-cuadrado . Por lo tanto, está computacionalmente relacionado con el modelo de independencia utilizado en esa prueba. Pero dado que CA no es un método inferencial, el término modelo de independencia es inapropiado aquí.

Componentes ortogonales

Luego, la tabla se descompone [10] mediante una descomposición de valores singulares como

donde y son los vectores singulares izquierdo y derecho de y es una matriz diagonal cuadrada con los valores singulares de en la diagonal. es de dimensión, por lo tanto, es de dimensión m×p y es de n×p . A s vectores ortonormales y cumplen

.

En otras palabras, la información multivariada contenida tanto en como en ahora se distribuye en dos matrices (de coordenadas) y una matriz diagonal (de escala) . El espacio vectorial definido por ellos tiene como número de dimensiones p, es decir el menor de los dos valores, número de filas y número de columnas, menos 1.

Inercia

Si bien se puede decir que un análisis de componentes principales descompone la (co)varianza y, por lo tanto, su medida de éxito es la cantidad de (co)varianza cubierta por los primeros ejes del PCA (medidos en valores propios), un CA funciona con un análisis de componentes principales. (co-)varianza que se llama inercia . [13] La suma de los valores singulares al cuadrado es la inercia total de la tabla de datos, calculada como

La inercia total de la tabla de datos también se puede calcular directamente a partir de como

La cantidad de inercia cubierta por el i-ésimo conjunto de vectores singulares es , la inercia principal. Cuanto mayor sea la porción de inercia cubierta por los primeros vectores singulares, es decir, cuanto mayor sea la suma de las inercias principales en comparación con la inercia total, más éxito tendrá una CA. [13] Por lo tanto, todos los valores de inercia principal se expresan como parte de la inercia total.

y se presentan en forma de diagrama de pedregal . De hecho, un diagrama de pedregal es simplemente un diagrama de barras de todas las porciones de inercia principales .

Coordenadas

Para transformar los vectores singulares en coordenadas que preserven las distancias chicuadrado entre filas o columnas es necesario un paso de ponderación adicional. Las coordenadas resultantes se denominan coordenadas principales [10] en los libros de texto de CA. Si se utilizan coordenadas principales para las filas, su visualización se denomina escala isométrica de fila [14] en econometría y escala 1 [15] en ecología. Dado que la ponderación incluye los valores singulares de la matriz de residuos estandarizados, estas coordenadas a veces se denominan vectores singulares escalados de valor singular o, un poco engañoso, vectores propios escalados de valor propio. De hecho, los vectores propios no triviales de son los vectores singulares izquierdos de y los de son los vectores singulares derechos de mientras que los valores propios de cualquiera de estas matrices son los cuadrados de los valores singulares . Pero dado que todos los algoritmos modernos para CA se basan en una descomposición de valores singulares, se debe evitar esta terminología. En la tradición francesa de CA, las coordenadas a veces se denominan puntuaciones (factoriales) .

Las puntuaciones de los factores o las coordenadas principales de las filas de la matriz C se calculan mediante

es decir, los vectores singulares de la izquierda están escalados por la inversa de las raíces cuadradas de las masas de las filas y por los valores singulares. Debido a que las coordenadas principales se calculan utilizando valores singulares, contienen información sobre la distribución entre las filas (o columnas) de la tabla original. Calcular las distancias euclidianas entre las entidades en las coordenadas principales da como resultado valores que igualan sus distancias chicuadrado, razón por la cual se dice que CA "preserva las distancias chicuadrado" .

Calcule las coordenadas principales de las columnas mediante

Para representar el resultado de CA en un biplot adecuado , aquellas categorías que no se trazan en coordenadas principales, es decir, en coordenadas que preservan la distancia chicuadrada, se deben trazar en las llamadas coordenadas estándar . [10] Se llaman coordenadas estándar porque cada vector de coordenadas estándar ha sido estandarizado para exhibir media 0 y varianza 1. [16] Al calcular las coordenadas estándar, se omiten los valores singulares, lo cual es un resultado directo de aplicar la regla biplot por la cual uno de los dos conjuntos de matrices de vectores singulares debe escalarse mediante valores singulares elevados a la potencia de cero, es decir, multiplicarse por uno, es decir, calcularse omitiendo los valores singulares si el otro conjunto de vectores singulares ha sido escalado por los valores singulares. Esto confirma la existencia de un producto interno entre los dos conjuntos de coordenadas, es decir, conduce a interpretaciones significativas de sus relaciones espaciales en un biplot.

En términos prácticos, se puede pensar en las coordenadas estándar como los vértices del espacio vectorial en el que "existe" el conjunto de coordenadas principales (es decir, los puntos respectivos). [17] Las coordenadas estándar para las filas son

y los de las columnas son

Tenga en cuenta que un biplot de escala 1 [15] en ecología implica que las filas estarán en coordenadas principales y las columnas en coordenadas estándar, mientras que una escala de 2 implica que las filas estarán en coordenadas estándar y las columnas en coordenadas principales. Es decir, escalar 1 implica un biplot de junto con, mientras que escalar 2 implica un biplot de junto con .

Representación gráfica del resultado.

La visualización de un resultado de CA siempre comienza mostrando el gráfico de los principales valores de inercia para evaluar el éxito de resumir la dispersión por los primeros vectores singulares.

La ordenación real se presenta en un gráfico que, a primera vista, podría confundirse con un complicado diagrama de dispersión . De hecho, consta de dos diagramas de dispersión impresos uno encima del otro, un conjunto de puntos para las filas y otro para las columnas. Pero al ser un biplot una regla de interpretación clara relaciona las dos matrices de coordenadas utilizadas.

Por lo general, las dos primeras dimensiones de la solución CA se trazan porque abarcan el máximo de información sobre la tabla de datos que se puede mostrar en 2D, aunque un biplot puede investigar otras combinaciones de dimensiones. Un biplot es, de hecho, un mapeo de baja dimensión de una parte de la información contenida en la tabla original.

Como regla general, el conjunto (filas o columnas) que debe analizarse con respecto a su composición medida por el otro conjunto se muestra en coordenadas principales, mientras que el otro conjunto se muestra en coordenadas estándar. Por ejemplo, una tabla que muestra los distritos electorales en filas y los partidos políticos en columnas con las celdas que contienen los votos contados puede mostrarse con los distritos (filas) en coordenadas principales cuando el objetivo es ordenar los distritos según votaciones similares.

Tradicionalmente, originados en la tradición francesa en CA, [18] los primeros biplots de CA mapeaban ambas entidades en la misma versión de coordenadas, generalmente coordenadas principales, pero este tipo de visualización es engañosa en la medida en que: "Aunque esto se llama biplot, no tener alguna relación de producto interno útil entre las puntuaciones de fila y columna", como señala correctamente Brian Ripley , mantenedor del paquete R MASS. [19] Hoy en día ese tipo de exhibición debe evitarse ya que los profanos generalmente no son conscientes de la falta de relación entre los dos conjuntos de puntos.

Un biplot de escala 1 [15] (filas en coordenadas principales, columnas en coordenadas estándar) se interpreta de la siguiente manera: [20]

Extensiones y aplicaciones

Hay varias variantes de CA disponibles, incluido el análisis de correspondencia sin tendencia (DCA) y el análisis de correspondencia canónico (CCA). Este último (CCA) se utiliza cuando se tiene información sobre posibles causas de las similitudes entre las entidades investigadas. La extensión del análisis de correspondencias a muchas variables categóricas se denomina análisis de correspondencias múltiples . Una adaptación del análisis de correspondencia al problema de la discriminación basada en variables cualitativas (es decir, el equivalente del análisis discriminante para datos cualitativos) se denomina análisis de correspondencia discriminante o análisis discriminante baricéntrico.

En las ciencias sociales, el análisis de correspondencias, y en particular su extensión, el análisis de correspondencias múltiples , se dio a conocer fuera de Francia gracias a su aplicación por parte del sociólogo francés Pierre Bourdieu . [21]

Implementaciones

Ver también

Referencias

  1. ^ Dodge, Y. (2003) Diccionario Oxford de términos estadísticos , OUP ISBN  0-19-850994-4
  2. ^ Hirschfeld, HO (1935) "Una conexión entre correlación y contingencia", Proc. Sociedad Filosófica de Cambridge , 31, 520–524
  3. ^ Benzécri, J.-P. (1973). L'Analyse des Données. Volumen II. L'Analyse des Correspondances . París, Francia: Dunod.
  4. ^ Bueno, Eric; Lombardo, Rosaria (2014). Análisis de correspondencia. Teoría, Práctica y Nuevas Estrategias . Chichester: Wiley. pag. 120.ISBN 978-1-119-95324-1.
  5. ^ Greenacre, Michael (2007). Análisis de correspondencia en la práctica . Boca Ratón: CRC Press. pag. 204.ISBN 9781584886167.
  6. ^ Legendre, Pierre; Legendre, Luis (2012). Ecología Numérica . Ámsterdam: Elsevier. pag. 465.ISBN 978-0-444-53868-0.
  7. ^ ab Greenacre, Michael (1983). Teoría y Aplicaciones del Análisis de Correspondencias . Londres: Academic Press. ISBN 0-12-299050-1.
  8. ^ Greenacre, Michael (2007). Análisis de correspondencia en la práctica, segunda edición . Londres: Chapman & Hall/CRC.
  9. ^ Greenacre, Michael (2017). Análisis de correspondencia en la práctica (3ª ed.). Boca Ratón: CRC Press. págs. 26-29. ISBN 9781498731775.
  10. ^ abcdeGreenacre , Michael (2007). Análisis de correspondencia en la práctica . Boca Ratón: CRC Press. pag. 202.ISBN 9781584886167.
  11. ^ Greenacre, Michael (2007). Análisis de correspondencia en la práctica, segunda edición . Londres: Chapman & Hall/CRC. pag. 202.
  12. ^ Abadir, Karim; Magnus, enero (2005). Álgebra matricial . Cambridge: Prensa de la Universidad de Cambridge. pag. 24.ISBN 9786612394256.
  13. ^ ab Beh, Eric; Lombardo, Rosaria (2014). Análisis de correspondencia. Teoría, Práctica y Nuevas Estrategias . Chichester: Wiley. págs.87, 129. ISBN 978-1-119-95324-1.
  14. ^ Bueno, Eric; Lombardo, Rosaria (2014). Análisis de correspondencia. Teoría, Práctica y Nuevas Estrategias . Chichester: Wiley. págs. 132-134. ISBN 978-1-119-95324-1.
  15. ^ abc Legendre, Pierre; Legendre, Luis (2012). Ecología Numérica . Ámsterdam: Elsevier. pag. 470.ISBN 978-0-444-53868-0.
  16. ^ Greenacre, Michael (2017). Análisis de correspondencia en la práctica (3ª ed.). Boca Ratón: CRC Press. pag. 62.ISBN 9781498731775.
  17. ^ Blasius, Jörg (2001). Korrespondenzanalyse (en alemán). Berlín: Walter de Gruyter. págs.40, 60. ISBN 9783486257304.
  18. ^ Greenacre, Michael (2017). Análisis de correspondencia en la práctica (3ª ed.). Boca Ratón: CRC Press. pag. 70. doi : 10.1201/9781315369983. ISBN 9781498731775.
  19. ^ Ripley, Brian (13 de enero de 2022). "Manual del paquete MASS R". Documentación del paquete R (rdrr.io) . Detalles . Consultado el 17 de marzo de 2022 .
  20. ^ Borcard, Daniel; Gillet, Francois; Legendre, Pierre (2018). Ecología numérica con R (2ª ed.). Cham: Springer. pag. 175. doi :10.1007/978-3-319-71404-2. ISBN 9783319714042.
  21. ^ Bourdieu, Pierre (1984). Distinción. Rutledge . págs.41. ISBN 0674212770.
  22. ^ Greenacre, Michael (2021). Análisis de correspondencia en la práctica (tercera ed.). Londres: CRC PRESS. ISBN 9780367782511.
  23. ^ Martillo, Øyvind. "Pasado 4: el pasado del futuro". Archivado desde el original el 1 de noviembre de 2020 . Consultado el 14 de septiembre de 2021 .

enlaces externos