stringtranslate.com

Histograma

Un histograma es una representación visual de la distribución de datos cuantitativos. Para construir un histograma, el primer paso es "clasificar" (o "agrupar") el rango de valores (dividir todo el rango de valores en una serie de intervalos) y luego contar cuántos valores caen en cada intervalo. Los intervalos suelen especificarse como intervalos consecutivos, no superpuestos , de una variable. Los intervalos son adyacentes y, por lo general (pero no necesariamente), tienen el mismo tamaño. [1]

Los histogramas dan una idea aproximada de la densidad de la distribución subyacente de los datos y, a menudo, se utilizan para la estimación de la densidad : para estimar la función de densidad de probabilidad de la variable subyacente. El área total de un histograma utilizado para la densidad de probabilidad siempre se normaliza a 1. Si la longitud de los intervalos en el eje x es todos 1, entonces un histograma es idéntico a un gráfico de frecuencia relativa .

Los histogramas a veces se confunden con los gráficos de barras . En un histograma, cada intervalo corresponde a un rango diferente de valores, por lo que en conjunto el histograma ilustra la distribución de valores. Pero en un gráfico de barras, cada barra corresponde a una categoría diferente de observaciones (por ejemplo, cada barra puede corresponder a una población diferente), por lo que en conjunto el gráfico de barras se puede utilizar para comparar diferentes categorías. Algunos autores recomiendan que los gráficos de barras siempre tengan espacios entre las barras para aclarar que no son histogramas. [2] [3]

Etimología

El término "histograma" fue introducido por primera vez por Karl Pearson , el fundador de la estadística matemática , en conferencias dictadas en 1892 en el University College de Londres . A veces se dice incorrectamente que el término de Pearson combina la raíz griega γραμμα (gramma) = "figura" o "dibujo" con la raíz ἱστορία (historia) = "investigación" o "historia". Alternativamente, también se propone la raíz ἱστίον (histion), que significa "red" o "tejido" (como en histología , el estudio del tejido biológico). Ambas etimologías son incorrectas y, de hecho, Pearson, que conocía bien el griego antiguo, derivó el término de una raíz griega diferente, aunque homófona , ἱστός = "algo colocado en posición vertical", en referencia a las barras verticales del gráfico. El nuevo término de Pearson se integró en una serie de otros neologismos análogos , como "estigmograma" y "radiograma". [4]

El propio Pearson señaló en 1895 que aunque el término «histograma» era nuevo, el tipo de gráfico que designa era «una forma común de representación gráfica». [5] De hecho, la técnica de utilizar un gráfico de barras para representar mediciones estadísticas fue ideada por el economista escocés , William Playfair , en su Atlas comercial y político (1786). [4]

Ejemplos

Estos son los datos del histograma de la derecha, utilizando 500 elementos:

Las palabras utilizadas para describir los patrones en un histograma son: "simétrico", "sesgado a la izquierda" o "a la derecha", "unimodal", "bimodal" o "multimodal".

Es una buena idea representar gráficamente los datos utilizando distintos anchos de intervalo para obtener más información al respecto. A continuación se muestra un ejemplo de propinas que se dan en un restaurante.

La Oficina del Censo de los Estados Unidos descubrió que había 124 millones de personas que trabajaban fuera de sus hogares. [6] Utilizando sus datos sobre el tiempo empleado en el viaje al trabajo, la tabla siguiente muestra que el número absoluto de personas que respondieron con tiempos de viaje "al menos 30 pero menos de 35 minutos" es mayor que los números de las categorías superiores e inferiores. Esto probablemente se deba a que las personas redondean el tiempo de viaje informado. [ cita requerida ] El problema de informar valores como números redondeados de manera algo arbitraria es un fenómeno común cuando se recopilan datos de personas. [ cita requerida ]

Histograma del tiempo de viaje (al trabajo), censo de EE. UU. de 2000. El área bajo la curva equivale al número total de casos. Este diagrama utiliza Q/ancho de la tabla.

Este histograma muestra el número de casos por intervalo de unidad como la altura de cada bloque, de modo que el área de cada bloque es igual al número de personas de la encuesta que caen en su categoría. El área bajo la curva representa el número total de casos (124 millones). Este tipo de histograma muestra números absolutos, con Q en miles.

Histograma del tiempo de viaje (al trabajo), censo de EE. UU. de 2000. El área bajo la curva es igual a 1. Este diagrama utiliza Q/total/ancho (hacinamiento) de la tabla. La altura de un bloque representa el hacinamiento, que se define como porcentaje por unidad horizontal.

Este histograma se diferencia del primero únicamente en la escala vertical . El área de cada bloque es la fracción del total que representa cada categoría, y el área total de todas las barras es igual a 1 (la fracción significa "todas"). La curva que se muestra es una estimación de densidad simple . Esta versión muestra proporciones y también se conoce como histograma de área unitaria.

En otras palabras, un histograma representa una distribución de frecuencias por medio de rectángulos cuyos anchos representan intervalos de clase y cuyas áreas son proporcionales a las frecuencias correspondientes: la altura de cada uno es la densidad de frecuencia promedio para el intervalo. Los intervalos se colocan juntos para mostrar que los datos representados por el histograma, aunque exclusivos, también son contiguos. (Por ejemplo, en un histograma es posible tener dos intervalos de conexión de 10,5–20,5 y 20,5–33,5, pero no dos intervalos de conexión de 10,5–20,5 y 22,5–32,5. Los intervalos vacíos se representan como vacíos y no se omiten.) [7]

Definiciones matemáticas

Histograma ordinario y acumulativo de los mismos datos. Los datos que se muestran son una muestra aleatoria de 10 000 puntos de una distribución normal con una media de 0 y una desviación estándar de 1.

Los datos utilizados para construir un histograma se generan mediante una función m i que cuenta el número de observaciones que caen en cada una de las categorías disjuntas (conocidas como bins ). Por lo tanto, si dejamos que n sea el número total de observaciones y k el número total de bins, los datos del histograma m i cumplen las siguientes condiciones:

Un histograma puede considerarse como una estimación de densidad de kernel simplista , que utiliza un kernel para suavizar las frecuencias sobre los intervalos. Esto produce una función de densidad de probabilidad más suave , que en general reflejará con mayor precisión la distribución de la variable subyacente. La estimación de densidad se puede representar gráficamente como una alternativa al histograma y, por lo general, se dibuja como una curva en lugar de un conjunto de cuadros. No obstante, los histogramas se prefieren en las aplicaciones, cuando sus propiedades estadísticas necesitan ser modeladas. La variación correlacionada de una estimación de densidad de kernel es muy difícil de describir matemáticamente, mientras que es simple para un histograma donde cada intervalo varía de forma independiente.

Una alternativa a la estimación de la densidad del kernel es el histograma desplazado promedio, [8] que es rápido de calcular y da una estimación de curva suave de la densidad sin utilizar kernels.

Histograma acumulativo

Un histograma acumulativo es una representación que cuenta el número acumulado de observaciones en todos los intervalos hasta el intervalo especificado. Es decir, el histograma acumulativo M i de un histograma m j se define como:

Número de contenedores y ancho

No existe un número "mejor" de contenedores, y los distintos tamaños de contenedores pueden revelar distintas características de los datos. La agrupación de datos es al menos tan antigua como el trabajo de Graunt en el siglo XVII, pero no se dieron pautas sistemáticas [9] hasta el trabajo de Sturges en 1926. [10]

El uso de intervalos más amplios en los que la densidad de los puntos de datos subyacentes es baja reduce el ruido debido a la aleatoriedad del muestreo; el uso de intervalos más estrechos en los que la densidad es alta (de modo que la señal ahoga el ruido) brinda mayor precisión a la estimación de la densidad. Por lo tanto, variar el ancho del intervalo dentro de un histograma puede ser beneficioso. No obstante, los intervalos de igual ancho se utilizan ampliamente.

Algunos teóricos han intentado determinar un número óptimo de intervalos, pero estos métodos generalmente parten de suposiciones sólidas sobre la forma de la distribución. Según la distribución real de los datos y los objetivos del análisis, pueden resultar apropiados distintos anchos de intervalo, por lo que suele ser necesario experimentar para determinar un ancho adecuado. Sin embargo, existen diversas pautas y reglas generales útiles. [11]

El número de contenedores k se puede asignar directamente o se puede calcular a partir de un ancho de contenedor sugerido  h como:

Datos del histograma representados con diferentes anchos de bin

Los tirantes indican la función del techo .

Elección de raíz cuadrada

que toma la raíz cuadrada del número de puntos de datos en la muestra y la redondea al siguiente entero . Esta regla se sugiere en varios libros de texto de estadística elemental [12] y se implementa ampliamente en muchos paquetes de software. [13]

La fórmula de Sturges

La regla de Sturges [10] se deriva de una distribución binomial y supone implícitamente una distribución aproximadamente normal.

La fórmula de Sturges basa implícitamente los tamaños de los bins en el rango de los datos y puede tener un rendimiento deficiente si n  < 30 , porque el número de bins será pequeño (menos de siete) y es poco probable que muestre bien las tendencias en los datos. En el otro extremo, la fórmula de Sturges puede sobreestimar el ancho de los bins para conjuntos de datos muy grandes, lo que da como resultado histogramas demasiado suavizados. [14] También puede tener un rendimiento deficiente si los datos no se distribuyen normalmente.

En comparación con la regla de Scott y la regla de Terrell-Scott, otras dos fórmulas ampliamente aceptadas para los intervalos de histograma, el resultado de la fórmula de Sturges es el más cercano cuando n ≈ 100. [ 14]

Regla del arroz

La regla de Rice [15] se presenta como una alternativa simple a la regla de Sturges.

La fórmula de Doane

La fórmula de Doane [16] es una modificación de la fórmula de Sturges que intenta mejorar su rendimiento con datos no normales.

¿Dónde está la asimetría estimada del tercer momento de la distribución y

Regla de referencia normal de Scott

El ancho del contenedor se da por

donde es la desviación estándar de la muestra . La regla de referencia normal de Scott [17] es óptima para muestras aleatorias de datos distribuidos normalmente, en el sentido de que minimiza el error cuadrático medio integrado de la estimación de densidad. [9] Esta es la regla predeterminada que se utiliza en Microsoft Excel. [18]

Regla de Terrell-Scott

La regla de Terrell-Scott [14] [19] no es una regla de referencia normal. Proporciona el número mínimo de compartimentos necesarios para un histograma asintóticamente óptimo, donde la optimalidad se mide por el error cuadrático medio integrado. El límite se deriva al encontrar la densidad "más suave" posible, que resulta ser . Cualquier otra densidad requerirá más compartimentos, por lo que la estimación anterior también se conoce como la regla "sobresuavizada". La similitud de las fórmulas y el hecho de que Terrell y Scott estaban en la Universidad Rice cuando la propusieron sugiere que este es también el origen de la regla de Rice.

Regla de los libertos y los diáconos

La regla de Freedman-Diaconis proporciona el ancho del compartimento como: [20] [9]

que se basa en el rango intercuartil , denotado por IQR. Reemplaza 3,5σ de la regla de Scott por 2 IQR, que es menos sensible que la desviación estándar a los valores atípicos en los datos.

Minimización del error cuadrático estimado en la validación cruzada

Este enfoque de minimizar el error cuadrático medio integrado de la regla de Scott se puede generalizar más allá de las distribuciones normales, mediante el uso de la validación cruzada de dejar uno fuera: [21] [22]

Aquí, está el número de puntos de datos en el k -ésimo contenedor, y elegir el valor de h que minimice J minimizará el error cuadrático medio integrado.

La elección de Shimazaki y Shinomoto

La elección se basa en la minimización de una función de riesgo L 2 estimada [23]

donde y son la media y la varianza sesgada de un histograma con ancho de bin , y .

Anchos de contenedores variables

En lugar de elegir bins espaciados uniformemente, para algunas aplicaciones es preferible variar el ancho del bin. Esto evita bins con recuentos bajos. Un caso común es elegir bins equiprobables , donde se espera que el número de muestras en cada bin sea aproximadamente igual. Los bins pueden elegirse de acuerdo con alguna distribución conocida o pueden elegirse en función de los datos de modo que cada bin tenga muestras. Al trazar el histograma, se utiliza la densidad de frecuencia para el eje dependiente. Si bien todos los bins tienen un área aproximadamente igual, las alturas del histograma se aproximan a la distribución de densidad.

Para los contenedores equiprobables, se sugiere la siguiente regla para el número de contenedores: [24]

Esta elección de contenedores está motivada por la maximización del poder de una prueba de chi-cuadrado de Pearson que prueba si los contenedores contienen cantidades iguales de muestras. Más específicamente, para un intervalo de confianza dado se recomienda elegir entre 1/2 y 1 veces la siguiente ecuación: [25]

Donde es la función probit . Siguiendo esta regla para obtendríamos entre y ; el coeficiente de 2 se elige como un valor fácil de recordar de este óptimo amplio.

Observación

Una buena razón por la que el número de bins debería ser proporcional a es la siguiente: supongamos que los datos se obtienen como realizaciones independientes de una distribución de probabilidad acotada con densidad uniforme. Entonces el histograma permanece igualmente "rugoso" como tiende al infinito. Si es el "ancho" de la distribución (por ejemplo, la desviación estándar o el rango intercuartil), entonces el número de unidades en un bin (la frecuencia) es de orden y el error estándar relativo es de orden . Comparado con el siguiente bin, el cambio relativo de la frecuencia es de orden siempre que la derivada de la densidad no sea cero. Estos dos son del mismo orden si es de orden , por lo que es de orden . Esta simple elección de raíz cúbica también se puede aplicar a bins con anchos no constantes. [ cita requerida ]

Histograma y función de densidad para una distribución de Gumbel [26]

Aplicaciones

Véase también

Referencias

  1. ^ Howitt, D.; Cramer, D. (2008). Introducción a la estadística en psicología (cuarta edición). Prentice Hall. ISBN 978-0-13-205161-3.
  2. ^ Naomi, Robbins. "Un histograma NO es un gráfico de barras". Forbes . Consultado el 31 de julio de 2018 .
  3. ^ M. Eileen Magnello (diciembre de 2006). "Karl Pearson y los orígenes de la estadística moderna: un elastólogo se convierte en estadístico". The New Zealand Journal for the History and Philosophy of Science and Technology . 1 volumen. OCLC  682200824.
  4. ^ ab Daniel Riaño Rufilanchas (2017), "Sobre el origen del término 'histograma' de Karl Pearson", Estadística Española vol. 59, núm. 192, pág. 29-35.
  5. ^ Pearson, K. (1895). "Contribuciones a la teoría matemática de la evolución. II. Variación sesgada en material homogéneo". Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences . 186 : 343–414. Bibcode :1895RSPTA.186..343P. doi : 10.1098/rsta.1895.0010 .
  6. ^ Censo de EE. UU. del año 2000.
  7. ^ Dean, S., & Illowsky, B. (19 de febrero de 2009). Estadísticas descriptivas: histograma. Recuperado del sitio web de Connexions: http://cnx.org/content/m16298/1.11/
  8. ^ David W. Scott (diciembre de 2009). "Histograma desplazado promediado". Wiley Interdisciplinary Reviews: Computational Statistics . 2 (2): 160–164. doi :10.1002/wics.54. S2CID  122986682.
  9. ^ abc Scott, David W. (1992). Estimación de densidad multivariante: teoría, práctica y visualización . Nueva York: John Wiley.
  10. ^ ab Sturges, HA (1926). "La elección de un intervalo de clase". Revista de la Asociación Estadounidense de Estadística . 21 (153): 65–66. doi :10.1080/01621459.1926.10502161. JSTOR  2965501.
  11. ^ p. ej. § 5.6 "Estimación de densidad", WN Venables y BD Ripley, Modern Applied Statistics with S (2002), Springer, 4.ª edición. ISBN 0-387-95457-0
  12. ^ Lohaka, HO (2007). "Elaboración de una tabla de frecuencias de datos agrupados: desarrollo y examen del algoritmo de iteración". Tesis doctoral, Universidad de Ohio. pág. 87.
  13. ^ "MathWorks: Histograma".
  14. ^ abc Scott, David W. (2009). "Regla de Sturges". WIREs Computational Statistics . 1 (3): 303–306. doi :10.1002/wics.35. S2CID  197483064.
  15. ^ Online Statistics Education: A Multimedia Course of Study (http://onlinestatbook.com/). Líder del proyecto: David M. Lane, Rice University (capítulo 2 "Gráficos de distribuciones", sección "Histogramas")
  16. ^ Doane DP (1976) Clasificación de frecuencia estética. American Statistician, 30: 181–183
  17. ^ Scott, David W. (1979). "Sobre histogramas óptimos y basados ​​en datos". Biometrika . 66 (3): 605–610. doi :10.1093/biomet/66.3.605.
  18. ^ "Excel:Crear un histograma".
  19. ^ Terrell, GR y Scott, DW, 1985. Estimaciones de densidad no paramétricas suavizadas. Journal of the American Statistical Association, 80(389), pp.209-214.
  20. ^ Liberto, David; Diaconis, P. (1981). "Sobre el histograma como estimador de densidad: teoría L2" (PDF) . Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete . 57 (4): 453–476. CiteSeerX 10.1.1.650.2473 . doi :10.1007/BF01025868. S2CID  14437088. 
  21. ^ Wasserman, Larry (2004). All of Statistics . Nueva York: Springer. pág. 310. ISBN 978-1-4419-2322-6.
  22. ^ Stone, Charles J. (1984). "Una regla de selección de histograma asintóticamente óptima" (PDF) . Actas de la conferencia de Berkeley en honor a Jerzy Neyman y Jack Kiefer .
  23. ^ Shimazaki, H.; Shinomoto, S. (2007). "Un método para seleccionar el tamaño de bin de un histograma de tiempo". Neural Computation . 19 (6): 1503–1527. CiteSeerX 10.1.1.304.6404 . doi :10.1162/neco.2007.19.6.1503. PMID  17444758. S2CID  7781236. 
  24. ^ Jack Prins; Don McCormack; Di Michelson; Karen Horrell. "Prueba de bondad de ajuste de chi-cuadrado". Manual electrónico de métodos estadísticos de NIST/SEMATECH . NIST/SEMATECH. pág. 7.2.1.1 . Consultado el 29 de marzo de 2019 .
  25. ^ Moore, David (1986). "3". En D'Agostino, Ralph; Stephens, Michael (eds.). Técnicas de bondad de ajuste . Nueva York, NY, EE. UU.: Marcel Dekker Inc. p. 70. ISBN 0-8247-7487-6.
  26. ^ Una calculadora para distribuciones de probabilidad y funciones de densidad
  27. ^ Una ilustración de histogramas y funciones de densidad de probabilidad

Lectura adicional

Enlaces externos