Un gráfico de mosaico , gráfico de Marimekko , gráfico de Mekko o, a veces, gráfico de barras apiladas porcentuales , es una visualización gráfica de datos de dos o más variables cualitativas. [1] Es la extensión multidimensional de los diagramas de columna, que muestran gráficamente la misma información para una sola variable. [2] Proporciona una descripción general de los datos y permite reconocer relaciones entre diferentes variables. Por ejemplo, la independencia se muestra cuando los cuadros en las categorías tienen todas las mismas áreas. [3] Los gráficos de mosaico fueron introducidos por Hartigan y Kleiner en 1981 y ampliados por Friendly en 1994. [4] [5] Los gráficos de mosaico también se denominan gráficos de Marimekko o Mekko porque se parecen a algunas impresiones de Marimekko . [6] [7] Sin embargo, en aplicaciones estadísticas, los gráficos de mosaico se pueden colorear y sombrear de acuerdo con las desviaciones de la independencia, mientras que los gráficos de Marimekko se colorean de acuerdo con los niveles de categoría, como en la imagen.
Al igual que con los gráficos de barras y los diagramas de columna, el área de los mosaicos, también conocida como tamaño del contenedor, es proporcional al número de observaciones dentro de esa categoría. [8]
Un ejemplo de gráfico de mosaico utiliza datos de los pasajeros del Titanic . Hay 2201 observaciones y 3 variables. Las variables son:
Primero se ordenan las variables categóricas. Luego, cada variable se asigna a un eje. En la tabla de la derecha, se presenta la secuencia y la clasificación de este conjunto de datos. Otro ordenamiento dará como resultado un gráfico de mosaico diferente, es decir, el orden de las variables es significativo como en todos los gráficos multivariados.
En el borde izquierdo de la primera variable, primero trazamos el "género", es decir, dividimos los datos verticalmente en dos bloques: el bloque inferior corresponde a las mujeres, mientras que el superior (mucho más grande) a los hombres. Inmediatamente se ve que aproximadamente una cuarta parte de los pasajeros eran mujeres y las tres cuartas partes restantes, hombres.
A continuación, se aplica la segunda variable "Clase" al borde superior. Las cuatro columnas verticales marcan los cuatro valores de esa variable (1.ª, 2.ª, 3.ª y tripulación). Estas columnas tienen un grosor variable, porque el ancho de la columna indica la proporción relativa del valor correspondiente en la población. La tripulación representa claramente el grupo masculino más numeroso, mientras que los pasajeros de tercera clase son el grupo femenino más numeroso. También se observa que el número de tripulantes femeninas fue marginal.
Finalmente se aplica la última variable ("Sobrevivió"), esta vez a lo largo del borde izquierdo con el resultado resaltado por sombra: los rectángulos gris oscuro representan a las personas que no sobrevivieron al desastre, los gris claro a las personas que sí sobrevivieron. Inmediatamente se ve que las mujeres de primera clase tuvieron la mayor probabilidad de supervivencia. Se ve que la probabilidad de supervivencia para las mujeres fue mayor que para los hombres (marginadas en todas las clases). De manera similar, una marginación en función del género identifica a los pasajeros de primera clase como los que tienen más probabilidades de sobrevivir. En general, aproximadamente 1/3 de todas las personas sobrevivieron (proporción de áreas gris claro).
El gráfico de mosaico ha sido criticado por hacer que los datos sean difíciles de percibir y comparar visualmente, porque los valores corresponden a áreas. [9] [7]