stringtranslate.com

Análisis de correspondencia

El análisis de correspondencias ( AC ) es una técnica estadística multivariante propuesta [1] por Herman Otto Hartley (Hirschfeld) [2] y posteriormente desarrollada por Jean-Paul Benzécri [3] . Es conceptualmente similar al análisis de componentes principales , pero se aplica a datos categóricos en lugar de continuos. De manera similar al análisis de componentes principales, proporciona un medio para mostrar o resumir un conjunto de datos en forma gráfica bidimensional. Su objetivo es mostrar en un biplot cualquier estructura oculta en la configuración multivariante de la tabla de datos. Como tal, es una técnica del campo de la ordenación multivariante . Dado que la variante de AC descrita aquí se puede aplicar con un enfoque en las filas o en las columnas, de hecho debería llamarse análisis de correspondencia simple (simétrico) . [4]

Tradicionalmente se aplica a la tabla de contingencia de un par de variables nominales donde cada celda contiene un recuento o un valor cero. Si se deben resumir más de dos variables categóricas, se debe elegir en su lugar una variante llamada análisis de correspondencia múltiple . El CA también se puede aplicar a datos binarios dado que la codificación de presencia/ausencia representa datos de recuento simplificados, es decir, un 1 describe un recuento positivo y 0 representa un recuento de cero. Dependiendo de las puntuaciones utilizadas, el CA conserva la distancia de chi-cuadrado [5] [6] entre las filas o las columnas de la tabla. Debido a que el CA es una técnica descriptiva, se puede aplicar a tablas independientemente de una prueba de chi-cuadrado significativa . [7] [8] Aunque la estadística utilizada en las estadísticas inferenciales y la distancia de chi-cuadrado están relacionadas computacionalmente, no deben confundirse ya que esta última funciona como una medida de distancia estadística multivariada en el CA, mientras que la estadística es de hecho un escalar, no una métrica . [9]

Detalles

Al igual que el análisis de componentes principales , el análisis de correspondencias crea componentes ortogonales (o ejes) y, para cada elemento de una tabla, es decir, para cada fila, un conjunto de puntuaciones (a veces llamadas puntuaciones factoriales, consulte Análisis factorial ). El análisis de correspondencias se realiza en la tabla de datos, concebida como una matriz C de tamaño m  ×  n donde m es el número de filas y n es el número de columnas. En la siguiente descripción matemática del método, las letras mayúsculas en cursiva se refieren a una matriz, mientras que las letras en cursiva se refieren a vectores . Para comprender los siguientes cálculos se requieren conocimientos de álgebra matricial .

Preprocesamiento

Antes de proceder al paso computacional central del algoritmo, los valores en la matriz C deben ser transformados. [10] Primero calcule un conjunto de pesos para las columnas y las filas (a veces llamados masas ), [7] [11] donde los pesos de fila y columna están dados por los vectores de fila y columna, respectivamente:

Aquí está la suma de todos los valores de celda en la matriz C , o en resumen, la suma de C , y es un vector de columna de unos con la dimensión apropiada.

En palabras simples, es simplemente un vector cuyos elementos son las sumas de las filas de C divididas por la suma de C , y es un vector cuyos elementos son las sumas de las columnas de C divididas por la suma de C.

Los pesos se transforman en matrices diagonales.

y

donde los elementos diagonales de son y los de son respectivamente, es decir, los elementos vectoriales son los inversos de las raíces cuadradas de las masas. Los elementos fuera de la diagonal son todos 0.

A continuación, calcule la matriz dividiéndola por su suma.

En palabras simples, Matrix es simplemente la matriz de datos (tabla de contingencia o tabla binaria) transformada en porciones, es decir, cada valor de celda es solo la porción de celda de la suma de toda la tabla.

Finalmente, calcule la matriz , a veces llamada matriz de residuos estandarizados , [10] mediante la multiplicación de matrices como

Nótese que los vectores y se combinan en un producto externo que da como resultado una matriz de las mismas dimensiones que . En palabras, la fórmula dice: la matriz se resta de la matriz y la matriz resultante se escala (pondera) por las matrices diagonales y . Multiplicar la matriz resultante por las matrices diagonales es equivalente a multiplicar la i-ésima fila (o columna) de la misma por el i-ésimo elemento de la diagonal de o , respectivamente [12] .

Interpretación del preprocesamiento

Los vectores y son las masas de las filas y columnas o las probabilidades marginales de las filas y columnas, respectivamente. Restar una matriz de una matriz es la versión del álgebra matricial del doble centrado de los datos. Multiplicar esta diferencia por las matrices de ponderación diagonal da como resultado una matriz que contiene las desviaciones ponderadas del origen de un espacio vectorial . Este origen está definido por la matriz .

De hecho, la matriz es idéntica a la matriz de frecuencias esperadas en la prueba de chi-cuadrado . Por lo tanto, está relacionada computacionalmente con el modelo de independencia utilizado en esa prueba. Pero como el AC no es un método inferencial, el término modelo de independencia es inadecuado aquí.

Componentes ortogonales

Luego, la tabla se descompone [10] mediante una descomposición en valores singulares como

donde y son los vectores singulares izquierdo y derecho de y es una matriz diagonal cuadrada con los valores singulares de en la diagonal. tiene dimensión, por lo tanto, tiene dimensión m×p y es de n×p . Los vectores ortonormales y cumplen

.

En otras palabras, la información multivariable contenida en y en ahora se distribuye en dos matrices (coordenadas) y y una matriz diagonal (de escala) . El espacio vectorial definido por ellas tiene como número de dimensiones p, es decir, el menor de los dos valores, número de filas y número de columnas, menos 1.

Inercia

Si bien se puede decir que un análisis de componentes principales descompone la (co)varianza y, por lo tanto, su medida de éxito es la cantidad de (co-)varianza cubierta por los primeros ejes del PCA (medida en valores propios), un CA trabaja con una (co-)varianza ponderada que se llama inercia . [13] La suma de los valores singulares al cuadrado es la inercia total de la tabla de datos, calculada como

La inercia total de la tabla de datos también se puede calcular directamente a partir de

La cantidad de inercia cubierta por el i-ésimo conjunto de vectores singulares es , la inercia principal. Cuanto mayor sea la porción de inercia cubierta por los primeros vectores singulares, es decir, cuanto mayor sea la suma de las inercias principales en comparación con la inercia total, más exitoso será un AC. [13] Por lo tanto, todos los valores de inercia principal se expresan como una porción de la inercia total.

y se presentan en forma de un diagrama de pedregal . De hecho, un diagrama de pedregal es simplemente un diagrama de barras de todas las porciones de inercia principal .

Coordenadas

Para transformar los vectores singulares en coordenadas que preserven las distancias de chi-cuadrado entre filas o columnas, es necesario un paso de ponderación adicional. Las coordenadas resultantes se denominan coordenadas principales [10] en los libros de texto de AC. Si se utilizan coordenadas principales para filas, su visualización se denomina escala isométrica de filas [14] en econometría y escala 1 [15] en ecología. Dado que la ponderación incluye los valores singulares de la matriz de residuos estandarizados, estas coordenadas a veces se denominan vectores singulares escalados de valores singulares o, un poco engañoso, vectores propios escalados de valores propios. De hecho, los vectores propios no triviales de son los vectores singulares izquierdos de y los de son los vectores singulares derechos de mientras que los valores propios de cualquiera de estas matrices son los cuadrados de los valores singulares . Pero dado que todos los algoritmos modernos para AC se basan en una descomposición en valores singulares, se debe evitar esta terminología. En la tradición francesa de AC, las coordenadas a veces se denominan puntuaciones (factoriales) .

Las puntuaciones factoriales o coordenadas principales para las filas de la matriz C se calculan mediante

es decir, los vectores singulares de la izquierda se escalan por la inversa de las raíces cuadradas de las masas de las filas y por los valores singulares. Debido a que las coordenadas principales se calculan utilizando valores singulares, contienen la información sobre la dispersión entre las filas (o columnas) en la tabla original. Calcular las distancias euclidianas entre las entidades en coordenadas principales da como resultado valores que son iguales a sus distancias de chi-cuadrado, que es la razón por la que se dice que AC "preserva las distancias de chi-cuadrado" .

Calcular las coordenadas principales de las columnas mediante

Para representar el resultado de CA en un biplot adecuado , aquellas categorías que no se grafican en coordenadas principales, es decir, en coordenadas que preservan la distancia de chi-cuadrado, se deben graficar en las llamadas coordenadas estándar . [10] Se denominan coordenadas estándar porque cada vector de coordenadas estándar se ha estandarizado para exhibir media 0 y varianza 1. [16] Al calcular las coordenadas estándar, se omiten los valores singulares, lo que es un resultado directo de aplicar la regla de biplot por la cual uno de los dos conjuntos de matrices de vectores singulares debe escalarse por valores singulares elevados a la potencia de cero, es decir, multiplicarse por uno, es decir, calcularse omitiendo los valores singulares si el otro conjunto de vectores singulares se ha escalado por los valores singulares. Esto asegura la existencia de un producto interno entre los dos conjuntos de coordenadas, es decir, conduce a interpretaciones significativas de sus relaciones espaciales en un biplot.

En términos prácticos, se puede pensar en las coordenadas estándar como los vértices del espacio vectorial en el que "existe" el conjunto de coordenadas principales (es decir, los puntos respectivos). [17] Las coordenadas estándar para las filas son

y los de las columnas son

Obsérvese que un biplot de escala 1 [15] en ecología implica que las filas están en coordenadas principales y las columnas en coordenadas estándar, mientras que un escalado 2 implica que las filas están en coordenadas estándar y las columnas en coordenadas principales. Es decir, un escalado 1 implica un biplot de junto con mientras que un escalado 2 implica un biplot de junto con .

Representación gráfica del resultado

La visualización de un resultado de CA siempre comienza con la visualización del diagrama de pantalla de los valores de inercia principales para evaluar el éxito de resumir la propagación mediante los primeros vectores singulares.

La ordenación real se presenta en un gráfico que, a primera vista, podría confundirse con un diagrama de dispersión complicado . De hecho, consiste en dos diagramas de dispersión impresos uno sobre otro, un conjunto de puntos para las filas y otro para las columnas. Pero al tratarse de un diagrama de dispersión bidimensional, existe una regla de interpretación clara que relaciona las dos matrices de coordenadas utilizadas.

Generalmente se representan gráficamente las dos primeras dimensiones de la solución CA porque abarcan la máxima información sobre la tabla de datos que se puede visualizar en 2D, aunque se pueden investigar otras combinaciones de dimensiones mediante un biplot. Un biplot es, de hecho, un mapeo de baja dimensión de una parte de la información contenida en la tabla original.

Como regla general, el conjunto (filas o columnas) que debe analizarse con respecto a su composición, medida por el otro conjunto, se muestra en coordenadas principales, mientras que el otro conjunto se muestra en coordenadas estándar. Por ejemplo, una tabla que muestra distritos electorales en filas y partidos políticos en columnas con las celdas que contienen los votos contados puede mostrarse con los distritos (filas) en coordenadas principales cuando el objetivo es ordenar los distritos según la votación similar.

Tradicionalmente, originados de la tradición francesa en CA, [18] los primeros biplots de CA mapeaban ambas entidades en la misma versión de coordenadas, usualmente coordenadas principales, pero este tipo de visualización es engañosa en la medida en que: "Aunque esto se llama biplot, no tiene ninguna relación de producto interno útil entre los puntajes de fila y columna", como Brian Ripley , mantenedor del paquete R MASS señala correctamente. [19] Hoy ese tipo de visualización debería evitarse ya que los legos usualmente no son conscientes de la relación faltante entre los dos conjuntos de puntos.

Un biplot de escala 1 [15] (filas en coordenadas principales, columnas en coordenadas estándar) se interpreta de la siguiente manera: [20]

Extensiones y aplicaciones

Existen varias variantes de AC, entre ellas el análisis de correspondencias desestacionalizado (DCA) y el análisis de correspondencias canónico (CCA). Este último (CCA) se utiliza cuando existe información sobre las posibles causas de las similitudes entre las entidades investigadas. La extensión del análisis de correspondencias a muchas variables categóricas se denomina análisis de correspondencias múltiples . Una adaptación del análisis de correspondencias al problema de la discriminación basada en variables cualitativas (es decir, el equivalente del análisis discriminante para datos cualitativos) se denomina análisis de correspondencias discriminante o análisis discriminante baricéntrico.

En las ciencias sociales, el análisis de correspondencias, y particularmente su extensión , el análisis de correspondencias múltiples , se dio a conocer fuera de Francia a través de su aplicación por parte del sociólogo francés Pierre Bourdieu . [21]

Implementaciones

Véase también

Referencias

  1. ^ Dodge, Y. (2003) Diccionario Oxford de términos estadísticos , OUP ISBN  0-19-850994-4
  2. ^ Hirschfeld, HO (1935) "Una conexión entre correlación y contingencia", Proc. Cambridge Philosophical Society , 31, 520–524
  3. ^ Benzécri, J.-P. (1973). L'Analyse des Données. Volumen II. L'Analyse des Correspondances . París, Francia: Dunod.
  4. ^ Beh, Eric; Lombardo, Rosaria (2014). Análisis de correspondencias. Teoría, práctica y nuevas estrategias . Chichester: Wiley. pág. 120. ISBN 978-1-119-95324-1.
  5. ^ Greenacre, Michael (2007). Análisis de correspondencias en la práctica . Boca Raton: CRC Press. pág. 204. ISBN 9781584886167.
  6. ^ Legendre, Pierre; Legendre, Louis (2012). Ecología numérica . Ámsterdam: Elsevier. pág. 465. ISBN. 978-0-444-53868-0.
  7. ^ ab Greenacre, Michael (1983). Teoría y aplicaciones del análisis de correspondencias . Londres: Academic Press. ISBN 0-12-299050-1.
  8. ^ Greenacre, Michael (2007). Análisis de correspondencias en la práctica, segunda edición . Londres: Chapman & Hall/CRC.
  9. ^ Greenacre, Michael (2017). Análisis de correspondencias en la práctica (3.ª ed.). Boca Raton: CRC Press. pp. 26–29. ISBN 9781498731775.
  10. ^ abcde Greenacre, Michael (2007). Análisis de correspondencias en la práctica . Boca Raton: CRC Press. pág. 202. ISBN 9781584886167.
  11. ^ Greenacre, Michael (2007). Análisis de correspondencias en la práctica, segunda edición . Londres: Chapman & Hall/CRC. pág. 202.
  12. ^ Abadir, Karim; Magnus, Jan (2005). Álgebra matricial . Cambridge: Cambridge University Press. pág. 24. ISBN 9786612394256.
  13. ^ ab Beh, Eric; Lombardo, Rosaria (2014). Análisis de correspondencias. Teoría, práctica y nuevas estrategias . Chichester: Wiley. pp. 87, 129. ISBN 978-1-119-95324-1.
  14. ^ Beh, Eric; Lombardo, Rosaria (2014). Análisis de correspondencias. Teoría, práctica y nuevas estrategias . Chichester: Wiley. pp. 132–134. ISBN 978-1-119-95324-1.
  15. ^ abc Legendre, Pierre; Legendre, Louis (2012). Ecología numérica . Ámsterdam: Elsevier. pág. 470. ISBN 978-0-444-53868-0.
  16. ^ Greenacre, Michael (2017). Análisis de correspondencias en la práctica (3.ª ed.). Boca Raton: CRC Press. pág. 62. ISBN 9781498731775.
  17. ^ Blasius, Jörg (2001). Korrespondenzanalyse (en alemán). Berlín: Walter de Gruyter. págs.40, 60. ISBN 9783486257304.
  18. ^ Greenacre, Michael (2017). Análisis de correspondencias en la práctica (3.ª ed.). Boca Raton: CRC Press. pág. 70. doi :10.1201/9781315369983. ISBN 9781498731775.
  19. ^ Ripley, Brian (13 de enero de 2022). "Manual del paquete MASS R". Documentación del paquete R (rdrr.io) . Detalles . Consultado el 17 de marzo de 2022 .
  20. ^ Borcard, Daniel; Gillet, Francois; Legendre, Pierre (2018). Ecología numérica con R (2.ª ed.). Cham: Springer. pág. 175. doi :10.1007/978-3-319-71404-2. ISBN 9783319714042.
  21. ^ Bourdieu, Pierre (1984). Distinción. Routledge . pp. 41. ISBN. 0674212770.
  22. ^ Greenacre, Michael (2021). Análisis de correspondencias en la práctica (tercera edición). Londres: CRC PRESS. ISBN 9780367782511.
  23. ^ Hammer, Øyvind. «Pasado 4: el pasado del futuro». Archivado desde el original el 1 de noviembre de 2020. Consultado el 14 de septiembre de 2021 .

Enlaces externos