stringtranslate.com

La regla de Sturges


La regla de Sturges [1] es un método para elegir el número de intervalos para un histograma . Dadas las observaciones, la regla de Sturges sugiere utilizar

contenedores en el histograma. Esta regla se emplea ampliamente en software de análisis de datos , incluidos Python [2] y R , donde es el método de selección de contenedores predeterminado. [3]

La regla de Sturges proviene de la distribución binomial que se utiliza como una aproximación discreta a la distribución normal . [4] Si la función a aproximar se distribuye binomialmente, entonces

donde es el número de ensayos y es la probabilidad de éxito y . Al elegir se obtiene

En esta forma podemos considerar como factor de normalización y la regla de Sturges dice que la muestra debe dar como resultado un histograma con recuentos de bins dados por los coeficientes binomiales . Dado que el tamaño total de la muestra es fijo, debemos tener

utilizando la conocida fórmula para las sumas de los coeficientes binomiales . Resolviendo esto tomando los logaritmos de ambos lados se obtiene y finalmente utilizando (debido a que se cuentan los resultados 0) se obtiene la regla de Sturges. En general, la regla de Sturges no da una respuesta entera, por lo que el resultado se redondea hacia arriba.

La fórmula de Doane

Doane [5] propuso modificar la fórmula de Sturges para agregar contenedores adicionales cuando los datos están sesgados . Utilizando el método del estimador de momentos

junto con su varianza

Doane propuso agregar contenedores adicionales, lo que le dio la fórmula de Doane.

Para distribuciones simétricas, esto es equivalente a la regla de Sturges. Para distribuciones asimétricas, se utilizarán varios intervalos adicionales.

Críticas

Histograma de 10.000 muestras de una distribución Gamma (2,2). El número de compartimentos sugeridos por la regla de Scott es 61, la regla de Doane, 21, y la regla de Sturges, 15.

La regla de Sturges no se basa en ningún tipo de procedimiento de optimización, como la regla de Freedman-Diaconis o la regla de Scott . Simplemente se postula basándose en la aproximación de una curva normal por una distribución binomial. Hyndman ha señalado [6] que cualquier múltiplo de los coeficientes binomiales también convergería a una distribución normal, por lo que se podría obtener cualquier número de intervalos siguiendo la derivación anterior. Scott [4] muestra que la regla de Sturges en general produce histogramas demasiado suavizados, es decir, muy pocos intervalos, y desaconseja su uso en favor de otras reglas como la regla de Freedman-Diaconis o la de Scott.

Referencias

  1. ^ Sturges, HA (1926). "La elección de un intervalo de clase". Revista de la Asociación Estadounidense de Estadística . 21 (153): 65–66. doi :10.1080/01621459.1926.10502161. JSTOR  2965501.
  2. ^ "Numpy.histogram_bin_edges — Manual de NumPy v2.1".
  3. ^ "Función Hist - RDocumentation".
  4. ^ ab Scott, David W. (2009). "Regla de Sturges". WIREs Computational Statistics . 1 (3): 303–306. doi :10.1002/wics.35. S2CID  197483064.
  5. ^ Doane DP (1976) Clasificación de frecuencia estética. American Statistician, 30: 181–183
  6. ^ Hyndman RJ. El problema con la regla de Sturges para construir histogramas. Universidad de Monash. 5 de julio de 1995:1-2.