Diagrama de caja

En estadística descriptiva , un diagrama de caja o diagrama de caja es un método para demostrar gráficamente los grupos de localidad, dispersión y asimetría de datos numéricos a través de sus cuartiles . ^[1] Además de la caja en un diagrama de caja, puede haber líneas (que se llaman bigotes ) que se extienden desde la caja indicando variabilidad fuera de los cuartiles superior e inferior, por lo tanto, el gráfico también se llama diagrama de caja y bigotes y diagrama de caja y bigotes . Los valores atípicos que difieren significativamente del resto del conjunto de datos ^[2] se pueden trazar como puntos individuales más allá de los bigotes en el diagrama de caja. Los diagramas de caja no son paramétricos : muestran la variación en muestras de una población estadística sin hacer ninguna suposición de la distribución estadística subyacente ^[3] (aunque el diagrama de caja de Tukey asume simetría para los bigotes y normalidad para su longitud). Los espaciamientos en cada subsección del diagrama de caja indican el grado de dispersión (dispersión) y asimetría de los datos, que generalmente se describen utilizando el resumen de cinco números . Además, el diagrama de caja permite estimar visualmente varios estimadores L , en particular el rango intercuartil , la bisagra media , el rango , el rango medio y el trimetano . Los diagramas de caja se pueden dibujar de forma horizontal o vertical.

Historia

El método de barra de rango fue introducido por primera vez por Mary Eleanor Spear en su libro "Charting Statistics" en 1952 ^[4] y nuevamente en su libro "Practical Charting Techniques" en 1969. ^[5] El diagrama de caja y bigotes fue introducido por primera vez en 1970 por John Tukey , quien luego publicó sobre el tema en su libro "Exploratory Data Analysis" en 1977. ^[6]

Elementos

Un diagrama de caja es una forma estandarizada de mostrar el conjunto de datos basado en un resumen de cinco números : el mínimo, el máximo, la mediana de la muestra y el primer y tercer cuartiles.

Mínimo ( Q _{0 o}percentil 0 ) : el punto de datos más bajo en el conjunto de datos excluyendo cualquier valor atípico
Máximo ( Q ₄ o percentil 100) : el punto de datos más alto en el conjunto de datos excluyendo cualquier valor atípico
Mediana ( Q ₂ o percentil 50) : el valor medio en el conjunto de datos
Primer cuartil ( Q ₁ o percentil 25) : también conocido como cuartil inferior q _n (0,25), es la mediana de la mitad inferior del conjunto de datos.
Tercer cuartil ( Q ₃ o percentil 75) : también conocido como cuartil superior q _n (0,75), es la mediana de la mitad superior del conjunto de datos.^[7]

Además de los valores mínimos y máximos utilizados para construir un diagrama de caja, otro elemento importante que también se puede emplear para obtener un diagrama de caja es el rango intercuartil (RIC), como se denota a continuación:

Rango intercuartil (RIC) : la distancia entre los cuartiles superior e inferior

{\text{RIC}}=Q_{3}-Q_{1}=q_{n}(0,75)-q_{n}(0,25)

Un diagrama de caja generalmente incluye dos partes, una caja y un conjunto de bigotes, como se muestra en la Figura 2.

Caja

El cuadro se dibuja desde Q ₁ hasta Q ₃ con una línea horizontal dibujada en su interior para indicar la mediana. Algunos diagramas de caja incluyen un carácter adicional para representar la media de los datos. ^[8]^[9]

Bigotes

Los bigotes deben terminar en un punto de datos observado, pero se pueden definir de varias maneras. En el método más sencillo, el límite del bigote inferior es el valor mínimo del conjunto de datos, y el límite del bigote superior es el valor máximo del conjunto de datos. Debido a esta variabilidad, es adecuado describir la convención que se utiliza para los bigotes y los valores atípicos en el título del diagrama de caja.

Otra opción popular para los límites de los bigotes se basa en el valor 1.5 IQR. Desde arriba del cuartil superior ( Q ₃ ), se mide una distancia de 1.5 veces el IQR y se dibuja un bigote hasta el punto de datos observado más grande del conjunto de datos que cae dentro de esta distancia. De manera similar, se mide una distancia de 1.5 veces el IQR por debajo del cuartil inferior ( Q ₁ ) y se dibuja un bigote hasta el punto de datos observado más bajo del conjunto de datos que cae dentro de esta distancia. Debido a que los bigotes deben terminar en un punto de datos observado, las longitudes de los bigotes pueden parecer desiguales, aunque 1.5 IQR sea el mismo para ambos lados. Todos los demás puntos de datos observados fuera del límite de los bigotes se trazan como valores atípicos . ^[10] Los valores atípicos se pueden trazar en el diagrama de caja como un punto, un círculo pequeño, una estrella, etc. (ver el ejemplo a continuación).

Existen otras representaciones en las que los bigotes pueden representar varias cosas más, como por ejemplo:

Una desviación estándar por encima y por debajo de la media del conjunto de datos
El percentil 9 y el percentil 91 del conjunto de datos
El percentil 2 y el percentil 98 del conjunto de datos

En raras ocasiones, el diagrama de caja se puede trazar sin los bigotes. Esto puede ser adecuado para información sensible, a fin de evitar que los bigotes (y los valores atípicos) revelen los valores reales observados. ^[11]

Los percentiles inusuales 2%, 9%, 91%, 98% se utilizan a veces para los trazos cruzados de los bigotes y los extremos de los bigotes para representar el resumen de siete números . Si los datos se distribuyen normalmente , las ubicaciones de las siete marcas en el diagrama de caja estarán espaciadas de manera uniforme. En algunos diagramas de caja, se coloca un trazo cruzado antes del final de cada bigote.

Variaciones

Figura 4. Cuatro diagramas de caja, con y sin muescas y ancho variable

Desde que el matemático John W. Tukey popularizó por primera vez este tipo de presentación visual de datos en 1969, se han desarrollado varias variaciones del diagrama de caja clásico, y las dos variaciones más comunes son los diagramas de caja de ancho variable y los diagramas de caja con muescas que se muestran en la Figura 4.

Los diagramas de caja de ancho variable ilustran el tamaño de cada grupo cuyos datos se están representando haciendo que el ancho de la caja sea proporcional al tamaño del grupo. Una convención popular es hacer que el ancho de la caja sea proporcional a la raíz cuadrada del tamaño del grupo. ^[12]

Los diagramas de caja con muescas aplican una "muesca" o estrechamiento de la caja alrededor de la mediana. Las muescas son útiles para ofrecer una guía aproximada de la importancia de la diferencia de las medianas; si las muescas de dos cajas no se superponen, esto proporcionará evidencia de una diferencia estadísticamente significativa entre las medianas. ^[12] La altura de las muescas es proporcional al rango intercuartil (RIC) de la muestra y es inversamente proporcional a la raíz cuadrada del tamaño de la muestra. Sin embargo, existe una incertidumbre sobre el multiplicador más apropiado (ya que esto puede variar dependiendo de la similitud de las varianzas de las muestras). ^[12] El ancho de la muesca se elige arbitrariamente para que sea visualmente agradable y debe ser consistente entre todos los diagramas de caja que se muestran en la misma página.

Una convención para obtener los límites de estas muescas es utilizar una distancia alrededor de la mediana. ^[13] $\pm {\frac {1,58{\text{ RI}}}{\sqrt {n}}}$

Los diagramas de caja ajustados tienen como objetivo describir distribuciones asimétricas y se basan en la estadística de asimetría de medcouple . ^[14] Para un valor de medcouple de MC, las longitudes de los bigotes superior e inferior en el diagrama de caja se definen respectivamente como:

{\begin{matrix}1.5{\text{RIC}}\cdot e^{3{\text{MC}}},&1.5{\text{RIC}}\cdot e^{-4{\text{MC}}}{\text{ si }}{\text{MC}}\geq 0,\\1.5{\text{RIC}}\cdot e^{4{\text{MC}}},&1.5{\text{RIC}}\cdot e^{-3{\text{MC}}}{\text{ si }}{\text{MC}}\leq 0.\end{matrix}}

Para una distribución de datos simétrica, el medcouple será cero, y esto reduce el diagrama de caja ajustado al diagrama de caja de Tukey con longitudes de bigotes iguales para ambos bigotes. $1.5{\text{RIC}}$

Otros tipos de diagramas de caja , como los diagramas de violín y los diagramas de frijol, pueden mostrar la diferencia entre distribuciones monomodales y multimodales , lo que no se puede observar en el diagrama de caja clásico original. ^[6]

Ejemplos

Ejemplo sin valores atípicos

Se midieron una serie de temperaturas por hora durante todo el día en grados Fahrenheit. Los valores registrados se enumeran en orden de la siguiente manera (°F): 57, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 81.

Se puede generar un diagrama de caja del conjunto de datos calculando primero cinco valores relevantes de este conjunto de datos: mínimo, máximo, mediana ( Q ₂ ), primer cuartil ( Q ₁ ) y tercer cuartil ( Q ₃ ).

El mínimo es el número más pequeño del conjunto de datos. En este caso, la temperatura mínima registrada durante el día es de 57 °F.

El máximo es el número más grande del conjunto de datos. En este caso, la temperatura máxima registrada durante el día es de 81 °F.

La mediana es el número "medio" del conjunto de datos ordenados. Esto significa que exactamente el 50 % de los elementos están por debajo de la mediana y el 50 % de los elementos están por encima de la mediana. La mediana de este conjunto de datos ordenados es 70 °F.

El valor del primer cuartil ( Q ₁ o percentil 25) es el número que marca un cuarto del conjunto de datos ordenados. En otras palabras, hay exactamente el 25 % de los elementos que son menores que el primer cuartil y exactamente el 75 % de los elementos que son mayores que él. El valor del primer cuartil se puede determinar fácilmente al encontrar el número "medio" entre el mínimo y la mediana. Para las temperaturas horarias, el número "medio" que se encuentra entre 57 °F y 70 °F es 66 °F.

El valor del tercer cuartil ( Q ₃ o percentil 75) es el número que marca las tres cuartas partes del conjunto de datos ordenados. En otras palabras, hay exactamente el 75 % de los elementos que son menores que el tercer cuartil y el 25 % de los elementos que son mayores que él. El valor del tercer cuartil se puede obtener fácilmente al encontrar el número "medio" entre la mediana y el máximo. Para las temperaturas horarias, el número "medio" entre 70 °F y 81 °F es 75 °F.

El rango intercuartil, o RIQ, se puede calcular restando el valor del primer cuartil ( Q ₁ ) del valor del tercer cuartil ( Q ₃ ):

{\text{RIC}}=Q_{3}-Q_{1}=75^{\circ }F-66^{\circ }F=9^{\circ }F.

Por eso, $1,5{\text{RIC}}=1,5\cdot 9^{\circ }F=13,5^{\circ }F.$

1,5 RIQ por encima del tercer cuartil es:

Q_{3}+1.5{\text{ IQR}}=75^{\circ }F+13.5^{\circ }F=88.5^{\circ }F.

1,5 RIQ por debajo del primer cuartil es:

Q_{1}-1.5{\text{ IQR}}=66^{\circ }F-13.5^{\circ }F=52.5^{\circ }F.

El límite superior del diagrama de caja es el valor de datos más grande que se encuentra dentro de 1,5 IQR por encima del tercer cuartil. Aquí, 1,5 IQR por encima del tercer cuartil es 88,5 °F y el máximo es 81 °F. Por lo tanto, el límite superior se dibuja en el valor del máximo, que es 81 °F.

De manera similar, el límite inferior del diagrama de caja es el valor de datos más pequeño que se encuentra dentro de 1,5 IQR por debajo del primer cuartil. Aquí, 1,5 IQR por debajo del primer cuartil es 52,5 °F y el mínimo es 57 °F. Por lo tanto, el límite inferior se dibuja en el valor del mínimo, que es 57 °F.

Ejemplo con valores atípicos

Arriba hay un ejemplo sin valores atípicos. A continuación, se incluye un ejemplo para generar un diagrama de caja con valores atípicos:

El conjunto ordenado de las temperaturas registradas es (°F): 52, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 89.

En este ejemplo, solo se modifican el primer y el último número. La mediana, el tercer cuartil y el primer cuartil permanecen iguales.

En este caso, el valor máximo en este conjunto de datos es 89 °F, y 1,5 IQR por encima del tercer cuartil es 88,5 °F. El máximo es mayor que 1,5 IQR más el tercer cuartil, por lo que el máximo es un valor atípico. Por lo tanto, el bigote superior se dibuja en el valor más grande menor que 1,5 IQR por encima del tercer cuartil, que es 79 °F.

De manera similar, el valor mínimo en este conjunto de datos es 52 °F, y 1,5 IQR por debajo del primer cuartil es 52,5 °F. El mínimo es menor que 1,5 IQR menos el primer cuartil, por lo que el mínimo también es un valor atípico. Por lo tanto, el bigote inferior se dibuja en el valor más pequeño mayor que 1,5 IQR por debajo del primer cuartil, que es 57 °F.

En el caso de grandes conjuntos de datos

Un ejemplo adicional para obtener un diagrama de caja a partir de un conjunto de datos que contiene una gran cantidad de puntos de datos es:

Ecuación general para calcular cuantiles empíricos

q_{n}(p)=x_{(k)}+\alpha (x_{(k+1)}-x_{(k)})

{\text{with }}k=[p(n+1)]{\text{ and }}\alpha =p(n+1)-k

Aquí se representa el orden general de los puntos de datos (es decir, si , entonces ).

x_{(k)}

i<k

x_{(i)}<x_{(k)}

Utilizando el ejemplo anterior que tiene 24 puntos de datos ( n = 24), se puede calcular la mediana, el primer y el tercer cuartil de forma matemática o visual.

Mediana : $q_{n}(0.5)=x_{(12)}+(0.5\cdot 25-12)\cdot (x_{(13)}-x_{(12)})=70+(0.5\cdot 25-12)\cdot (70-70)=70^{\circ }F$

Primer cuartil : $q_{n}(0.25)=x_{(6)}+(0.25\cdot 25-6)\cdot (x_{(7)}-x_{(6)})=66+(0.25\cdot 25-6)\cdot (66-66)=66^{\circ }F$

Tercer cuartil : $q_{n}(0.75)=x_{(18)}+(0.75\cdot 25-18)\cdot (x_{(19)}-x_{(18)})=75+(0.75\cdot 25-18)\cdot (75-75)=75^{\circ }F$

Visualización

Aunque los diagramas de caja pueden parecer más primitivos que los histogramas o las estimaciones de densidad kernel , tienen una serie de ventajas. En primer lugar, el diagrama de caja permite a los estadísticos realizar un examen gráfico rápido de uno o más conjuntos de datos. Los diagramas de caja también ocupan menos espacio y, por lo tanto, son particularmente útiles para comparar distribuciones entre varios grupos o conjuntos de datos en paralelo (consulte la Figura 1 para ver un ejemplo). Por último, la estructura general de los histogramas y la estimación de densidad kernel puede verse fuertemente influenciada por la elección de las técnicas de número y ancho de los intervalos y la elección del ancho de banda, respectivamente.

Aunque observar una distribución estadística es más común que observar un diagrama de caja, puede ser útil comparar el diagrama de caja con la función de densidad de probabilidad (histograma teórico) para una distribución normal N(0, σ ² ) y observar sus características directamente (como se muestra en la Figura 7).

Véase también

Referencias

^ C., Dutoit, SH (2012). Análisis exploratorio gráfico de datos. Springer. ISBN 978-1-4612-9371-2.OCLC 1019645745 .{{cite book}}: CS1 maint: multiple names: authors list (link)
^ Grubbs, Frank E. (febrero de 1969). "Procedimientos para detectar observaciones atípicas en muestras". Technometrics . 11 (1): 1–21. doi :10.1080/00401706.1969.10490657. ISSN 0040-1706.
^ Richard., Boddy (2009). Métodos estadísticos en la práctica: para científicos y tecnólogos. John Wiley & Sons. ISBN 978-0-470-74664-6. OCLC 940679163.
^ Spear, Mary Eleanor (2024). Gráficos estadísticos . McGraw Hill. pág. 166.
^ Spear, Mary Eleanor. (1969). Técnicas prácticas de elaboración de gráficos . Nueva York: McGraw-Hill. ISBN 0070600104.OCLC 924909765 .
^ ab Wickham, Hadley; Stryjewski, Lisa. "40 años de diagramas de caja" (PDF) . Consultado el 24 de diciembre de 2020 .
^ Holmes, Alexander; Illowsky, Barbara; Dean, Susan (31 de marzo de 2015). «Introducción a las estadísticas empresariales». OpenStax . Archivado desde el original el 27 de julio de 2020 . Consultado el 29 de abril de 2020 .
^ Frigge, Michael; Hoaglin, David C.; Iglewicz, Boris (febrero de 1989). "Algunas implementaciones del diagrama de caja". The American Statistician . 43 (1): 50–54. doi :10.2307/2685173. JSTOR 2685173.
^ Marmolejo-Ramos, F.; Tian, S. (2010). "El diagrama de caja cambiante. Un diagrama de caja basado en estadísticas de resumen esenciales alrededor de la media". Revista Internacional de Investigación Psicológica . 3 (1): 37–46. doi : 10.21500/20112084.823 . hdl : 10819/6492 .
^ Dekking, FM (2005). Una introducción moderna a la probabilidad y la estadística . Springer. pp. 234–238. ISBN. 1-85233-896-2.
^ Derrick, Ben; Green, Elizabeth; Ritchie, Felix; White, Paul (septiembre de 2022). "El riesgo de divulgación al informar estadísticas univariadas de uso común". Privacidad en bases de datos estadísticas . Apuntes de clase en informática. Vol. 13463. págs. 119–129. doi :10.1007/978-3-031-13945-1_9. ISBN 978-3-031-13944-4.
^ abc McGill, Robert; Tukey, John W. ; Larsen, Wayne A. (febrero de 1978). "Variaciones de los diagramas de caja". The American Statistician . 32 (1): 12–16. doi :10.2307/2683468. JSTOR 2683468.
^ "R: Box Plot Statistics". Manual de R. Consultado el 26 de junio de 2011 .
^ Hubert, M. ; Vandervieren, E. (2008). "Un diagrama de caja ajustado para distribución sesgada". Estadística computacional y análisis de datos . 52 (12): 5186–5201. CiteSeerX 10.1.1.90.9812 . doi :10.1016/j.csda.2007.11.008.

Lectura adicional

Tukey, John W. (1977). Análisis exploratorio de datos . Addison-Wesley . ISBN 9780201076165.
Benjamini, Y. (1988). "Apertura de la caja de un diagrama de caja". The American Statistician . 42 (4): 257–262. doi :10.2307/2685133. JSTOR 2685133.
Rousseeuw, PJ ; Ruts, I.; Tukey, JW (1999). "El Bagplot: un diagrama de caja bivariado". The American Statistician . 53 (4): 382–387. doi :10.2307/2686061. JSTOR 2686061.

Enlaces externos

Wikimedia Commons alberga una categoría multimedia sobre Diagramas de caja .

Diagrama de caja de enjambre: superposición de un gráfico de franjas con fluctuaciones de frecuencia sobre un diagrama de caja