Un diagrama de violín es un gráfico estadístico para comparar distribuciones de probabilidad . Es similar a un diagrama de caja , con el agregado de un diagrama de densidad de kernel rotado en cada lado. [1]
El diagrama del violín fue propuesto en 1997 por Jerry L. Hintze y Ray D. Nelson como una forma de mostrar incluso más información que los diagramas de caja , que fueron creados por John Tukey en 1977. [2] El nombre proviene de la supuesta semejanza del diagrama con un violín . [2]
Los gráficos de violín son similares a los gráficos de caja , excepto que también muestran la densidad de probabilidad de los datos en diferentes valores, generalmente suavizados por un estimador de densidad kernel . Un gráfico de violín incluirá todos los datos que están en un gráfico de caja: un marcador para la mediana de los datos; una caja o marcador que indica el rango intercuartil; y posiblemente todos los puntos de muestra, si el número de muestras no es demasiado alto.
Mientras que un diagrama de caja muestra estadísticas resumidas como la media/mediana y los rangos intercuartiles, el diagrama de violín muestra la distribución completa de los datos. El diagrama de violín se puede utilizar en datos multimodales (más de un pico). En este caso, un diagrama de violín muestra la presencia de diferentes picos, su posición y amplitud relativa.
Al igual que los diagramas de caja, los diagramas de violín se utilizan para representar la comparación de una distribución de variables (o distribución de muestra) entre diferentes "categorías" (por ejemplo, la distribución de temperatura comparada entre el día y la noche, o la distribución de precios de automóviles comparados entre diferentes fabricantes de automóviles).
Un gráfico de violín puede tener varias capas. Por ejemplo, la forma exterior representa todos los resultados posibles. La siguiente capa interior podría representar los valores que se dan el 95 % del tiempo. La siguiente capa (si existe) interior podría representar los valores que se dan el 50 % del tiempo.
Los gráficos de violín son menos populares que los gráficos de caja. Los gráficos de violín pueden ser más difíciles de entender para los lectores que no están familiarizados con ellos. En este caso, una alternativa más accesible es trazar una serie de histogramas apilados o gráficos de densidad de kernel .
El significado original de "diagrama de violín" era una combinación de un diagrama de caja y un diagrama de densidad de kernel de dos lados. [1] Sin embargo, actualmente los "diagramas de violín" a veces se entienden simplemente como diagramas de densidad de kernel de dos lados, sin un diagrama de caja ni ningún otro elemento. [3] [4]
Este artículo incorpora material de dominio público del manual de referencia de Dataplot: Gráfico de violín. Instituto Nacional de Estándares y Tecnología .