El resumen de cinco números es un conjunto de estadísticas descriptivas que proporciona información sobre un conjunto de datos. Consta de los cinco percentiles muestrales más importantes :
Además de la mediana de un único conjunto de datos, existen dos estadísticas relacionadas llamadas cuartiles superior e inferior. Si los datos se colocan en orden, entonces el cuartil inferior es central para la mitad inferior de los datos y el cuartil superior es central para la mitad superior de los datos. Estos cuartiles se utilizan para calcular el rango intercuartil, lo que ayuda a describir la dispersión de los datos y determinar si algún punto de datos es atípico o no.
Para que existan estas estadísticas, las observaciones deben ser de una variable univariada que pueda medirse en una escala ordinal, de intervalo o de razón .
El resumen de cinco números proporciona un resumen conciso de la distribución de las observaciones. Informar cinco números evita la necesidad de decidir cuál es la estadística resumida más adecuada. El resumen de cinco números brinda información sobre la ubicación (desde la mediana), la distribución (desde los cuartiles) y el rango (desde el mínimo y máximo de la muestra) de las observaciones. Dado que informa estadísticas de orden (en lugar de, digamos, la media), el resumen de cinco números es apropiado para mediciones ordinales , así como para mediciones de intervalos y razones.
Es posible comparar rápidamente varios conjuntos de observaciones comparando sus resúmenes de cinco números, que se pueden representar gráficamente mediante un diagrama de caja .
Además de los puntos en sí, se pueden calcular muchos estimadores L a partir del resumen de cinco números, incluido el rango intercuartil , la bisagra media , el rango , el rango medio y la trimesa .
El resumen de cinco números a veces se representa como en la siguiente tabla:
Este ejemplo calcula el resumen de cinco números para el siguiente conjunto de observaciones: 0, 0, 1, 2, 63, 61, 27, 13. Estos son el número de lunas de cada planeta en el Sistema Solar .
Es útil poner las observaciones en orden ascendente: 0, 0, 1, 2, 13, 27, 61, 63. Hay ocho observaciones, por lo que la mediana es la media de los dos números del medio, (2 + 13)/2. = 7,5. Al dividir las observaciones a cada lado de la mediana se obtienen dos grupos de cuatro observaciones. La mediana del primer grupo es el primer cuartil o inferior, y es igual a (0 + 1)/2 = 0,5. La mediana del segundo grupo es el cuartil superior o tercero y es igual a (27 + 61)/2 = 44. Las observaciones más pequeñas y más grandes son 0 y 63.
Entonces el resumen de cinco números sería 0, 0,5, 7,5, 44, 63.
Es posible calcular el resumen de cinco números en el lenguaje de programación R usando la fivenum
función. La summary
función, cuando se aplica a un vector, muestra el resumen de cinco números junto con la media (que en sí misma no forma parte del resumen de cinco números). Utiliza fivenum
un método diferente para calcular percentiles que la summary
función.
> lunas <- c ( 0 , 0 , 1 , 2 , 63 , 61 , 27 , 13 ) > fivenum ( lunas ) [1] 0.0 0.5 7.5 44.0 63.0 > resumen ( lunas ) Min. 1er P. Mediana Media 3er Qu. Máx. 0,00 0,75 7,50 20,88 35,50 63,00
Este ejemplo de Python utiliza la percentile
función de la biblioteca numérica numpy
y funciona en Python 2 y 3.
importar numpy como npdef fivenum ( datos ): """Resumen de cinco números.""" return np . percentil ( datos , [ 0 , 25 , 50 , 75 , 100 ], método = "punto medio" )
>>> lunas = [ 0 , 0 , 1 , 2 , 63 , 61 , 27 , 13 ] >>> imprimir ( fivenum ( lunas )) [ 0. 0.5 7.5 44. 63. ]
Puede utilizar PROC UNIVARIATE
en SAS para obtener el resumen de cinco números:
cinco datos ;entrada x @@;líneas de datos; 1 2 3 4 20 202 392 4 38 20 ; correr;ods seleccione Cuantiles ; datos univariados de proc = fivenum; salida = cinco números min = min Q1 = Q1 Q2 = mediana Q3 = Q3 max = max ; correr;datos de impresión proc = cinco números ; correr;
byte de entrada y 0 0 1 2 63 61 27 13 lista final tabstat y, estadísticas (min q max)