stringtranslate.com

Diagrama de caja

Figura 1. Diagrama de caja de datos del experimento de Michelson

En estadística descriptiva , un diagrama de caja o diagrama de cajas es un método para demostrar gráficamente la localidad, dispersión y asimetría de grupos de datos numéricos a través de sus cuartiles . [1] Además del cuadro en un diagrama de caja, puede haber líneas (llamadas bigotes ) que se extienden desde el cuadro indicando variabilidad fuera de los cuartiles superior e inferior, por lo que el diagrama también se denomina diagrama de caja y bigotes. y el diagrama de caja y bigotes . Los valores atípicos que difieren significativamente del resto del conjunto de datos [2] pueden representarse como puntos individuales más allá de los bigotes en el diagrama de caja. Los diagramas de caja no son paramétricos : muestran la variación en muestras de una población estadística sin hacer suposiciones sobre la distribución estadística subyacente [3] (aunque el diagrama de caja de Tukey supone simetría para los bigotes y normalidad para su longitud). Los espacios en cada subsección del diagrama de caja indican el grado de dispersión y asimetría de los datos, que generalmente se describen mediante el resumen de cinco números . Además, el diagrama de caja permite estimar visualmente varios estimadores L , en particular el rango intercuartil , la bisagra media , el rango , el rango medio y la trimesa . Los diagramas de caja se pueden dibujar horizontal o verticalmente.

Historia

El método de barra de rango fue introducido por primera vez por Mary Eleanor Spear en su libro "Charting Statistics" en 1952 [4] y nuevamente en su libro "Practical Charting Techniques" en 1969. [5] El diagrama de caja y bigotes se introdujo por primera vez en 1970 por John Tukey , quien posteriormente publicó sobre el tema en su libro "Exploratory Data Analysis" en 1977. [6]

Elementos

Figura 2. Diagrama de caja con bigotes de mínimo a máximo
Figura 3. Mismo diagrama de caja con bigotes dibujados dentro del valor IQR de 1,5

Un diagrama de caja es una forma estandarizada de mostrar el conjunto de datos basándose en un resumen de cinco números : el mínimo, el máximo, la mediana de la muestra y el primer y tercer cuartil.

Además de los valores mínimo y máximo utilizados para construir un diagrama de caja, otro elemento importante que también se puede emplear para obtener un diagrama de caja es el rango intercuartil (IQR), como se indica a continuación:

Un diagrama de caja generalmente incluye dos partes, una caja y un conjunto de bigotes, como se muestra en la Figura 2.

Caja

El cuadro se dibuja desde Q 1 hasta Q 3 con una línea horizontal dibujada en su interior para indicar la mediana. Algunos diagramas de caja incluyen un carácter adicional para representar la media de los datos. [8] [9]

Bigotes

Los bigotes deben terminar en un punto de datos observado, pero se pueden definir de varias maneras. En el método más sencillo, el límite del bigote inferior es el valor mínimo del conjunto de datos y el límite del bigote superior es el valor máximo del conjunto de datos. Debido a esta variabilidad, es apropiado describir la convención que se utiliza para los bigotes y los valores atípicos en el título del diagrama de caja.

Otra opción popular para los límites de los bigotes se basa en el valor IQR de 1,5. Desde arriba del cuartil superior ( Q 3 ), se mide una distancia de 1,5 veces el IQR y se dibuja un bigote hasta el punto de datos observado más grande del conjunto de datos que se encuentra dentro de esta distancia. De manera similar, se mide una distancia de 1,5 veces el IQR por debajo del cuartil inferior ( Q 1 ) y se dibuja un bigote hasta el punto de datos más bajo observado del conjunto de datos que se encuentra dentro de esta distancia. Debido a que los bigotes deben terminar en un punto de datos observado, las longitudes de los bigotes pueden parecer desiguales, aunque 1,5 IQR sea el mismo para ambos lados. Todos los demás puntos de datos observados fuera del límite de los bigotes se representan como valores atípicos . [10] Los valores atípicos se pueden representar en el diagrama de caja como un punto, un círculo pequeño, una estrella, etc. (ver ejemplo a continuación).

Hay otras representaciones en las que los bigotes pueden representar varias cosas más, como por ejemplo:

En raras ocasiones, se puede trazar un diagrama de caja sin los bigotes. Esto puede ser apropiado para información confidencial para evitar que los bigotes (y los valores atípicos) revelen los valores reales observados. [11]

Los percentiles inusuales 2%, 9%, 91%, 98% se utilizan a veces para los rayados cruzados de los bigotes y los extremos de los bigotes para representar el resumen de siete números . Si los datos se distribuyen normalmente , las ubicaciones de las siete marcas en el diagrama de caja estarán igualmente espaciadas. En algunos diagramas de caja, se coloca un rayado antes del final de cada bigote.

Variaciones

Figura 4. Cuatro diagramas de caja, con y sin muescas y ancho variable

Desde que el matemático John W. Tukey popularizó por primera vez este tipo de visualización de datos visuales en 1969, se han desarrollado varias variaciones del diagrama de caja clásico, y las dos variaciones más comunes son los diagramas de caja de ancho variable y los diagramas de caja con muescas que se muestran en la Figura 4.

Los diagramas de caja de ancho variable ilustran el tamaño de cada grupo cuyos datos se están trazando haciendo que el ancho del cuadro sea proporcional al tamaño del grupo. Una convención popular es hacer que el ancho del cuadro sea proporcional a la raíz cuadrada del tamaño del grupo. [12]

Los diagramas de caja con muescas aplican una "muesca" o estrechamiento de la caja alrededor de la mediana. Las muescas son útiles para ofrecer una guía aproximada de la importancia de la diferencia de medianas; si las muescas de dos cuadros no se superponen, esto proporcionará evidencia de una diferencia estadísticamente significativa entre las medianas. [12] La altura de las muescas es proporcional al rango intercuartil (IQR) de la muestra y es inversamente proporcional a la raíz cuadrada del tamaño de la muestra. Sin embargo, existe incertidumbre sobre cuál es el multiplicador más adecuado (ya que este puede variar dependiendo de la similitud de las varianzas de las muestras). [12] El ancho de la muesca se elige arbitrariamente para que sea visualmente agradable y debe ser consistente entre todos los diagramas de caja que se muestran en la misma página.

Una convención para obtener los límites de estas muescas es utilizar una distancia alrededor de la mediana. [13]

Los diagramas de caja ajustados están destinados a describir distribuciones asimétricas y se basan en la estadística de asimetría de pareja médica . [14] Para un valor de pareja media de MC, las longitudes de los bigotes superior e inferior en el diagrama de caja se definen respectivamente como:

Para una distribución de datos simétrica, el par médico será cero, y esto reduce el diagrama de caja ajustado al diagrama de caja de Tukey con longitudes de bigotes iguales para ambos bigotes.

Otros tipos de diagramas de caja , como los diagramas de violín y los diagramas de frijoles, pueden mostrar la diferencia entre distribuciones unimodales y multimodales , que no se pueden observar en el diagrama de caja clásico original. [6]

Ejemplos

Ejemplo sin valores atípicos

Figura 5. Diagrama de caja generado del ejemplo de la izquierda sin valores atípicos.

A lo largo del día se midieron una serie de temperaturas horarias en grados Fahrenheit. Los valores registrados se enumeran en el siguiente orden (°F): 57, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 81.

Se puede generar un diagrama de caja del conjunto de datos calculando primero cinco valores relevantes de este conjunto de datos: mínimo, máximo, mediana ( Q 2 ), primer cuartil ( Q 1 ) y tercer cuartil ( Q 3 ).

El mínimo es el número más pequeño del conjunto de datos. En este caso, la temperatura mínima diurna registrada es de 57 °F.

El máximo es el mayor número del conjunto de datos. En este caso, la temperatura máxima diurna registrada es de 81 °F.

La mediana es el número "medio" del conjunto de datos ordenado. Esto significa que hay exactamente el 50% de los elementos que son menores que la mediana y el 50% de los elementos que son mayores que la mediana. La mediana de este conjunto de datos ordenados es 70 °F.

El valor del primer cuartil ( Q 1 o percentil 25) es el número que marca una cuarta parte del conjunto de datos ordenados. En otras palabras, hay exactamente el 25% de los elementos que son menores que el primer cuartil y exactamente el 75% de los elementos que son mayores que él. El valor del primer cuartil se puede determinar fácilmente encontrando el número "medio" entre el mínimo y la mediana. Para las temperaturas horarias, el número "medio" que se encuentra entre 57 °F y 70 °F es 66 °F.

El valor del tercer cuartil ( Q 3 o percentil 75) es el número que marca las tres cuartas partes del conjunto de datos ordenados. Es decir, hay exactamente el 75% de los elementos que son menores que el tercer cuartil y el 25% de los elementos que son mayores que él. El valor del tercer cuartil se puede obtener fácilmente encontrando el número "medio" entre la mediana y el máximo. Para las temperaturas horarias, el número "medio" entre 70 °F y 81 °F es 75 °F.

El rango intercuartil, o IQR, se puede calcular restando el valor del primer cuartil ( Q 1 ) del valor del tercer cuartil ( Q 3 ):

Por eso,

1,5 IQR por encima del tercer cuartil es:

1,5 IQR por debajo del primer cuartil es:

El límite superior de los bigotes del diagrama de caja es el valor de datos más grande que se encuentra dentro de 1,5 RIC por encima del tercer cuartil. Aquí, 1,5 IQR por encima del tercer cuartil es 88,5 °F y el máximo es 81 °F. Por lo tanto, el bigote superior se dibuja en el valor del máximo, que es 81 °F.

De manera similar, el límite inferior de los bigotes del diagrama de caja es el valor de datos más pequeño que está dentro de 1,5 RIC por debajo del primer cuartil. Aquí, 1,5 IQR por debajo del primer cuartil es 52,5 °F y el mínimo es 57 °F. Por lo tanto, el bigote inferior se dibuja en el valor del mínimo, que es 57 °F.

Ejemplo con valores atípicos

Figura 6. Diagrama de caja generado del ejemplo de la izquierda con valores atípicos.

Arriba hay un ejemplo sin valores atípicos. A continuación se muestra un ejemplo de seguimiento para generar un diagrama de caja con valores atípicos:

El conjunto ordenado para las temperaturas registradas es (°F): 52, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75 , 76, 76, 78, 79, 89.

En este ejemplo, sólo se cambian el primer y el último número. La mediana, el tercer cuartil y el primer cuartil siguen siendo los mismos.

En este caso, el valor máximo en este conjunto de datos es 89 °F y 1,5 IQR por encima del tercer cuartil es 88,5 °F. El máximo es mayor que 1,5 IQR más el tercer cuartil, por lo que el máximo es un valor atípico. Por lo tanto, el bigote superior se dibuja en el valor mayor inferior a 1,5 IQR por encima del tercer cuartil, que es 79 °F.

De manera similar, el valor mínimo en este conjunto de datos es 52 °F y 1,5 RIC por debajo del primer cuartil es 52,5 °F. El mínimo es menor que 1,5 IQR menos el primer cuartil, por lo que el mínimo también es un valor atípico. Por lo tanto, el bigote inferior se dibuja en el valor más pequeño mayor que 1,5 IQR por debajo del primer cuartil, que es 57 °F.

En el caso de grandes conjuntos de datos

Un ejemplo adicional para obtener un diagrama de caja de un conjunto de datos que contiene una gran cantidad de puntos de datos es:

Ecuación general para calcular cuantiles empíricos

Aquí representa el orden general de los puntos de datos (es decir, si , entonces )

Usando el ejemplo anterior que tiene 24 puntos de datos ( n = 24), se puede calcular la mediana, el primer y el tercer cuartil, ya sea matemática o visualmente.

Mediana  :

Primer cuartil  :

Tercer cuartil  :

Visualización

Figura 7. Diagrama de caja y función de densidad de probabilidad (pdf) de una población normal N(0,1σ 2 )

Aunque los diagramas de caja pueden parecer más primitivos que los histogramas o las estimaciones de densidad del núcleo , tienen una serie de ventajas. En primer lugar, el diagrama de caja permite a los estadísticos realizar un examen gráfico rápido de uno o más conjuntos de datos. Los diagramas de caja también ocupan menos espacio y, por lo tanto, son particularmente útiles para comparar distribuciones entre varios grupos o conjuntos de datos en paralelo (consulte la Figura 1 para ver un ejemplo). Por último, la estructura general de los histogramas y la estimación de la densidad del núcleo pueden verse fuertemente influenciadas por la elección del número y ancho de las técnicas de contenedores y la elección del ancho de banda, respectivamente.

Aunque observar una distribución estadística es más común que observar un diagrama de caja, puede ser útil comparar el diagrama de caja con la función de densidad de probabilidad (histograma teórico) para una distribución normal N(0, σ 2 ) y observar sus características directamente. (como se muestra en la Figura 7).

Figura 8. Diagramas de caja que muestran la asimetría del conjunto de datos

Ver también

Referencias

  1. ^ C., Dutoit, SH (2012). Análisis gráfico de datos exploratorios. Saltador. ISBN 978-1-4612-9371-2. OCLC  1019645745.{{cite book}}: CS1 maint: multiple names: authors list (link)
  2. ^ Grubbs, Frank E. (febrero de 1969). "Procedimientos para detectar observaciones atípicas en muestras". Tecnometría . 11 (1): 1–21. doi :10.1080/00401706.1969.10490657. ISSN  0040-1706.
  3. ^ Richard., Boddy (2009). Métodos estadísticos en la práctica: para científicos y tecnólogos. John Wiley e hijos. ISBN 978-0-470-74664-6. OCLC  940679163.
  4. ^ Lanza, Mary Eleanor (1952). Estadísticas de gráficos . McGraw-Hill. pag. 166.
  5. ^ Lanza, María Leonor. (1969). Técnicas prácticas de gráficos . Nueva York: McGraw-Hill. ISBN 0070600104. OCLC  924909765.
  6. ^ ab Wickham, Hadley; Stryjewski, Lisa. "40 años de diagramas de caja" (PDF) . Consultado el 24 de diciembre de 2020 .
  7. ^ Holmes, Alejandro; Illowsky, Bárbara; Dean, Susan (31 de marzo de 2015). "Introducción a las estadísticas empresariales". AbiertoStax . Archivado desde el original el 27 de julio de 2020 . Consultado el 29 de abril de 2020 .
  8. ^ Frigge, Michael; Hoaglin, David C.; Iglewicz, Boris (febrero de 1989). "Algunas implementaciones del Boxplot". El estadístico estadounidense . 43 (1): 50–54. doi :10.2307/2685173. JSTOR  2685173.
  9. ^ Marmolejo-Ramos, F.; Tian, ​​S. (2010). "El diagrama de caja cambiante. Un diagrama de caja basado en estadísticas resumidas esenciales alrededor de la media". Revista Internacional de Investigación Psicológica . 3 (1): 37–46. doi : 10.21500/20112084.823 . hdl : 10819/6492 .
  10. ^ Dekking, FM (2005). Una introducción moderna a la probabilidad y la estadística . Saltador. págs. 234-238. ISBN 1-85233-896-2.
  11. ^ Torre de perforación, Ben; Verde, Isabel; Ritchie, Félix; White, Paul (septiembre de 2022). "El riesgo de divulgación al informar estadísticas univariadas de uso común". Privacidad en Bases de Datos Estadísticas . 13463 : 119–129. doi :10.1007/978-3-031-13945-1_9.
  12. ^ abc McGill, Robert; Tukey, John W .; Larsen, Wayne A. (febrero de 1978). "Variaciones de los diagramas de caja". El estadístico estadounidense . 32 (1): 12-16. doi :10.2307/2683468. JSTOR  2683468.
  13. ^ "R: Estadísticas de diagrama de caja". Manual R. Consultado el 26 de junio de 2011 .
  14. ^ Hubert, M .; Vandervieren, E. (2008). "Un diagrama de caja ajustado para una distribución sesgada". Estadística Computacional y Análisis de Datos . 52 (12): 5186–5201. CiteSeerX 10.1.1.90.9812 . doi : 10.1016/j.csda.2007.11.008. 

Otras lecturas

enlaces externos