Un gráfico de mosaico , gráfico de Marimekko , gráfico de Mekko o, a veces, gráfico de barras apiladas porcentuales , es una visualización gráfica de datos de dos o más variables cualitativas. [1] Es la extensión multidimensional de los diagramas de columna, que muestran gráficamente la misma información para una sola variable. [2] Ofrece una visión general de los datos y permite reconocer relaciones entre diferentes variables. Por ejemplo, la independencia se muestra cuando todos los cuadros de las categorías tienen las mismas áreas. [3] Hartigan y Kleiner introdujeron los diagramas en mosaico en 1981 y Friendly los ampliaron en 1994. [4] [5] Los diagramas en mosaico también se denominan diagramas de Marimekko o Mekko porque se parecen a algunas impresiones de Marimekko . [6] [7] Sin embargo, en aplicaciones estadísticas, los gráficos de mosaico se pueden colorear y sombrear según las desviaciones de la independencia, mientras que los gráficos de Marimekko se colorean según los niveles de categoría, como en la imagen.
Al igual que con los gráficos de barras y los diagramas de columna, el área de los mosaicos, también conocida como tamaño del contenedor, es proporcional al número de observaciones dentro de esa categoría. [8]
Un ejemplo de gráficos en mosaico utiliza datos de los pasajeros del Titanic . Hay 2201 observaciones y 3 variables. Las variables son:
Primero se ordenan las variables categóricas. Luego, cada variable se asigna a un eje. En la tabla de la derecha se presenta la secuencia y clasificación de este conjunto de datos. Otro orden dará como resultado un gráfico de mosaico diferente, es decir, el orden de las variables es significativo como ocurre con todos los gráficos multivariados.
En el borde izquierdo de la primera variable primero trazamos "Género", lo que significa que dividimos los datos verticalmente en dos bloques: el bloque inferior corresponde a mujeres, mientras que el superior (mucho más grande) a hombres. Se ve inmediatamente que aproximadamente una cuarta parte de los pasajeros eran mujeres y las tres cuartas partes restantes eran hombres.
Luego se aplica la segunda variable "Clase" al borde superior. Por tanto, las cuatro columnas verticales marcan los cuatro valores de esa variable (1º, 2º, 3º y tripulación). Estas columnas tienen un grosor variable, porque el ancho de la columna indica la proporción relativa del valor correspondiente en la población. La tripulación representa claramente el grupo masculino más numeroso, mientras que los pasajeros de tercera clase son el grupo femenino más numeroso. También se considera marginal el número de mujeres tripulantes.
Finalmente se aplica la última variable ("Sobrevivientes"), esta vez a lo largo del borde izquierdo con el resultado resaltado por una sombra: los rectángulos de color gris oscuro representan a las personas que no sobrevivieron al desastre, los de color gris claro, a las personas que sí lo hicieron. Inmediatamente se ve que las mujeres de la primera clase tenían la mayor probabilidad de supervivencia. Se considera que la probabilidad de supervivencia de las mujeres era mayor que la de los hombres (marginadas en todas las clases). De manera similar, una marginación por motivos de género identifica a los pasajeros de primera clase como los que tienen más probabilidades de sobrevivir. En total, aproximadamente 1/3 de todas las personas sobrevivieron (proporción de áreas de color gris claro).
El diagrama de mosaico ha sido criticado por hacer que los datos sean difíciles de percibir y comparar visualmente, porque los valores corresponden a áreas. [9] [7]