La regla de Sturges [1] es un método para elegir el número de intervalos para un histograma . Dadas las observaciones, la regla de Sturges sugiere utilizar
contenedores en el histograma. Esta regla se emplea ampliamente en software de análisis de datos , incluidos Python [2] y R , donde es el método de selección de contenedores predeterminado. [3]
La regla de Sturges proviene de la distribución binomial que se utiliza como una aproximación discreta a la distribución normal . [4] Si la función a aproximar se distribuye binomialmente, entonces
donde es el número de ensayos y es la probabilidad de éxito y . Al elegir se obtiene
En esta forma podemos considerar como factor de normalización y la regla de Sturges dice que la muestra debe dar como resultado un histograma con recuentos de bins dados por los coeficientes binomiales . Dado que el tamaño total de la muestra es fijo, debemos tener
utilizando la conocida fórmula para las sumas de los coeficientes binomiales . Resolviendo esto tomando los logaritmos de ambos lados se obtiene y finalmente utilizando (debido a que se cuentan los resultados 0) se obtiene la regla de Sturges. En general, la regla de Sturges no da una respuesta entera, por lo que el resultado se redondea hacia arriba.
La fórmula de Doane
Doane [5] propuso modificar la fórmula de Sturges para agregar contenedores adicionales cuando los datos están sesgados . Utilizando el método del estimador de momentos
junto con su varianza
Doane propuso agregar contenedores adicionales, lo que le dio la fórmula de Doane.
Para distribuciones simétricas, esto es equivalente a la regla de Sturges. Para distribuciones asimétricas, se utilizarán varios intervalos adicionales.
Críticas
La regla de Sturges no se basa en ningún tipo de procedimiento de optimización, como la regla de Freedman-Diaconis o la regla de Scott . Simplemente se postula basándose en la aproximación de una curva normal por una distribución binomial. Hyndman ha señalado [6] que cualquier múltiplo de los coeficientes binomiales también convergería a una distribución normal, por lo que se podría obtener cualquier número de intervalos siguiendo la derivación anterior. Scott [4] muestra que la regla de Sturges en general produce histogramas demasiado suavizados, es decir, muy pocos intervalos, y desaconseja su uso en favor de otras reglas como la regla de Freedman-Diaconis o la de Scott.
Referencias
^ Sturges, HA (1926). "La elección de un intervalo de clase". Revista de la Asociación Estadounidense de Estadística . 21 (153): 65–66. doi :10.1080/01621459.1926.10502161. JSTOR 2965501.
^ "Numpy.histogram_bin_edges — Manual de NumPy v2.1".
^ "Función Hist - RDocumentation".
^ ab Scott, David W. (2009). "Regla de Sturges". WIREs Computational Statistics . 1 (3): 303–306. doi :10.1002/wics.35. S2CID 197483064.
^ Doane DP (1976) Clasificación de frecuencia estética. American Statistician, 30: 181–183
^ Hyndman RJ. El problema con la regla de Sturges para construir histogramas. Universidad de Monash. 5 de julio de 1995:1-2.