stringtranslate.com

histograma

Un histograma es una representación visual de la distribución de datos cuantitativos. El término fue introducido por primera vez por Karl Pearson . [1] Para construir un histograma, el primer paso es "agrupar" (o "agrupar") el rango de valores (dividir todo el rango de valores en una serie de intervalos) y luego contar cuántos valores caen en cada intervalo. Los contenedores generalmente se especifican como intervalos consecutivos y no superpuestos de una variable. Los contenedores (intervalos) deben ser adyacentes y a menudo (pero no es obligatorio que lo sean) del mismo tamaño. [2]

Los contenedores suelen tener el mismo ancho, pero a veces se utilizan contenedores de diferentes tamaños.

Los histogramas dan una idea aproximada de la densidad de la distribución subyacente de los datos y, a menudo, para la estimación de la densidad : estimación de la función de densidad de probabilidad de la variable subyacente. El área total de un histograma utilizado para la densidad de probabilidad siempre está normalizada a 1. Si la longitud de los intervalos en el eje x son todos 1, entonces un histograma es idéntico a un gráfico de frecuencia relativa .

A veces se confunden los histogramas con los gráficos de barras . Se utiliza un histograma para datos cuantitativos, donde los contenedores representan rangos de valores, mientras que un gráfico de barras es un gráfico de variables categóricas . Algunos autores recomiendan que los gráficos de barras tengan espacios entre los rectángulos para aclarar la distinción. [3] [4]

Un gráfico de barras y un histograma son dos tipos comunes de representaciones gráficas de datos. Si bien pueden parecer similares, existen algunas diferencias clave entre los dos que es importante comprender.

Un gráfico de barras es un gráfico que utiliza barras para representar la frecuencia o cantidad de diferentes categorías de datos. Las barras pueden ser verticales u horizontales y, por lo general, están dispuestas horizontal o verticalmente para facilitar la comparación de las diferentes categorías. Los gráficos de barras son útiles para mostrar datos que se pueden dividir en categorías discretas, como la cantidad de estudiantes en diferentes grados en una escuela.

Un histograma, por otro lado, es un gráfico que muestra la distribución de datos numéricos. Es un tipo de gráfico de barras que muestra la frecuencia o número de observaciones dentro de diferentes rangos numéricos, llamados bins. Los contenedores generalmente se especifican como intervalos consecutivos y no superpuestos de una variable. El histograma proporciona una representación visual de la distribución de los datos, mostrando el número de observaciones que se encuentran dentro de cada contenedor. Esto puede resultar útil para identificar patrones y tendencias en los datos y para hacer comparaciones entre diferentes conjuntos de datos . [5]

Ejemplos

Estos son los datos del histograma de la derecha, utilizando 500 elementos:

Las palabras utilizadas para describir los patrones en un histograma son: "simétrico", "sesgado hacia la izquierda" o "derecha", "unimodal", "bimodal" o "multimodal".

Es una buena idea trazar los datos utilizando varios anchos de contenedor diferentes para obtener más información al respecto. A continuación se muestra un ejemplo de propinas dadas en un restaurante.

La Oficina del Censo de Estados Unidos encontró que había 124 millones de personas que trabajan fuera de sus hogares. [6] Utilizando sus datos sobre el tiempo ocupado por el viaje al trabajo, la siguiente tabla muestra que el número absoluto de personas que respondieron con tiempos de viaje "al menos 30 pero menos de 35 minutos" es mayor que los números de las categorías superiores e inferiores. él. Es probable que esto se deba a que las personas redondean el tiempo de viaje informado. [ cita necesaria ] El problema de informar valores como números algo redondeados arbitrariamente es un fenómeno común al recopilar datos de personas. [ cita necesaria ]

Histograma del tiempo de viaje (al trabajo), censo de EE. UU. de 2000. El área bajo la curva es igual al número total de casos. Este diagrama utiliza Q/ancho de la tabla.

Este histograma muestra el número de casos por intervalo unitario como la altura de cada bloque, de modo que el área de cada bloque es igual al número de personas de la encuesta que entran en su categoría. El área bajo la curva representa el número total de casos (124 millones). Este tipo de histograma muestra números absolutos, con Q en miles.

Histograma del tiempo de viaje (al trabajo), censo de EE. UU. de 2000. El área bajo la curva es igual a 1. Este diagrama utiliza Q/total/ancho (hacinamiento) de la tabla. La altura de un bloque representa el hacinamiento que se define como porcentaje por unidad horizontal.

Este histograma se diferencia del primero sólo en la escala vertical . El área de cada bloque es la fracción del total que representa cada categoría, y el área total de todas las barras es igual a 1 (la fracción significa "todas"). La curva mostrada es una estimación de densidad simple . Esta versión muestra proporciones y también se conoce como histograma de área unitaria.

En otras palabras, un histograma representa una distribución de frecuencias mediante rectángulos cuyos anchos representan intervalos de clase y cuyas áreas son proporcionales a las frecuencias correspondientes: la altura de cada uno es la densidad de frecuencia promedio para el intervalo. Los intervalos se colocan juntos para mostrar que los datos representados por el histograma, aunque exclusivos, también son contiguos. (Por ejemplo, en un histograma es posible tener dos intervalos de conexión de 10,5–20,5 y 20,5–33,5, pero no dos intervalos de conexión de 10,5–20,5 y 22,5–32,5. Los intervalos vacíos se representan como vacíos y no se omiten.) [7 ]

Definiciones matemáticas

Un histograma ordinario y acumulativo de los mismos datos. Los datos mostrados son una muestra aleatoria de 10.000 puntos de una distribución normal con una media de 0 y una desviación estándar de 1.

Los datos utilizados para construir un histograma se generan mediante una función m i que cuenta el número de observaciones que caen en cada una de las categorías disjuntas (conocidas como contenedores ). Por lo tanto, si dejamos que n sea el número total de observaciones y k sea el número total de contenedores, los datos del histograma m cumplen las siguientes condiciones:

Se puede considerar un histograma como una estimación simplista de la densidad del núcleo , que utiliza un núcleo para suavizar las frecuencias en los contenedores. Esto produce una función de densidad de probabilidad más suave , que en general reflejará con mayor precisión la distribución de la variable subyacente. La estimación de densidad podría representarse como una alternativa al histograma y generalmente se dibuja como una curva en lugar de un conjunto de cuadros. Sin embargo, los histogramas se prefieren en aplicaciones cuando es necesario modelar sus propiedades estadísticas. La variación correlacionada de una estimación de la densidad del núcleo es muy difícil de describir matemáticamente, mientras que es simple para un histograma donde cada contenedor varía de forma independiente.

Una alternativa a la estimación de la densidad del núcleo es el histograma desplazado promedio, [8] que es rápido de calcular y proporciona una estimación de curva suave de la densidad sin utilizar núcleos.

Histograma acumulativo

Un histograma acumulativo es un mapeo que cuenta el número acumulado de observaciones en todos los contenedores hasta el contenedor especificado. Es decir, el histograma acumulativo Mi de un histograma m j se define como:

Número de contenedores y ancho

No existe un "mejor" número de contenedores y diferentes tamaños de contenedores pueden revelar diferentes características de los datos. La agrupación de datos es al menos tan antigua como el trabajo de Graunt en el siglo XVII, pero no se dieron pautas sistemáticas [9] hasta el trabajo de Sturges en 1926. [10]

El uso de contenedores más anchos donde la densidad de los puntos de datos subyacentes es baja reduce el ruido debido a la aleatoriedad del muestreo; El uso de contenedores más estrechos donde la densidad es alta (de modo que la señal ahoga el ruido) proporciona una mayor precisión a la estimación de la densidad. Por lo tanto, puede resultar beneficioso variar el ancho del contenedor dentro de un histograma. No obstante, se utilizan ampliamente contenedores de igual ancho.

Algunos teóricos han intentado determinar un número óptimo de contenedores, pero estos métodos generalmente hacen suposiciones sólidas sobre la forma de la distribución. Dependiendo de la distribución real de los datos y los objetivos del análisis, pueden ser apropiados diferentes anchos de contenedor, por lo que generalmente es necesario experimentar para determinar un ancho apropiado. Sin embargo, existen varias pautas y reglas generales útiles. [11]

El número de contenedores k se puede asignar directamente o se puede calcular a partir de un ancho de contenedor  h sugerido como:

Datos de histograma representados con diferentes anchos de contenedor

Los tirantes indican la función del techo .

Elección de raíz cuadrada

que toma la raíz cuadrada del número de puntos de datos en la muestra (utilizada por los histogramas de Analysis Toolpak de Excel y muchos otros) y redondea al siguiente entero . [12]

La fórmula de Sturges

La fórmula de Sturges [10] se deriva de una distribución binomial e implícitamente asume una distribución aproximadamente normal.

La fórmula de Sturges basa implícitamente los tamaños de los contenedores en el rango de datos y puede funcionar mal si n  < 30 , porque el número de contenedores será pequeño (menos de siete) y es poco probable que muestre bien las tendencias en los datos. En el otro extremo, la fórmula de Sturges puede sobreestimar el ancho del contenedor para conjuntos de datos muy grandes, lo que da como resultado histogramas demasiado suavizados. [13] También puede funcionar mal si los datos no se distribuyen normalmente.

En comparación con la regla de Scott y la regla de Terrell-Scott, otras dos fórmulas ampliamente aceptadas para contenedores de histogramas, el resultado de la fórmula de Sturges es el más cercano cuando n ≈ 100 . [13]

regla del arroz

La regla del arroz [14] se presenta como una alternativa simple a la regla de Sturges.

la fórmula de doane

La fórmula de Doane [15] es una modificación de la fórmula de Sturges que intenta mejorar su rendimiento con datos no normales.

¿Dónde está la asimetría estimada del tercer momento de la distribución y

La regla de referencia normal de Scott

El ancho del contenedor está dado por

¿Dónde está la desviación estándar muestral ? La regla de referencia normal de Scott [16] es óptima para muestras aleatorias de datos distribuidos normalmente, en el sentido de que minimiza el error cuadrático medio integrado de la estimación de densidad. [9]

La elección de Freedman-Diaconis

La regla de Freedman-Diaconis da el ancho del contenedor como: [17] [9]

que se basa en el rango intercuartil , denotado por IQR. Reemplaza 3,5σ de la regla de Scott con 2 IQR, que es menos sensible que la desviación estándar a los valores atípicos en los datos.

Minimizar el error cuadrático estimado de validación cruzada

Este enfoque de minimizar el error cuadrático medio integrado de la regla de Scott se puede generalizar más allá de las distribuciones normales, mediante el uso de validación cruzada de dejar uno fuera: [18] [19]

Aquí, está el número de puntos de datos en el k ésimo contenedor, y elegir el valor de h que minimice J minimizará el error cuadrático medio integrado.

La elección de Shimazaki y Shinomoto

La elección se basa en la minimización de una función de riesgo L 2 estimada [20]

donde y son la media y la varianza sesgada de un histograma con ancho de contenedor , y .

Anchos de contenedores variables

En lugar de elegir contenedores espaciados uniformemente, para algunas aplicaciones es preferible variar el ancho del contenedor. Esto evita contenedores con recuentos bajos. Un caso común es elegir contenedores equiprobables , donde se espera que el número de muestras en cada contenedor sea aproximadamente igual. Los contenedores se pueden elegir según alguna distribución conocida o se pueden elegir en función de los datos para que cada contenedor tenga muestras. Al trazar el histograma, la densidad de frecuencia se utiliza para el eje dependiente. Si bien todos los contenedores tienen un área aproximadamente igual, las alturas del histograma se aproximan a la distribución de densidad.

Para contenedores equiprobables, se sugiere la siguiente regla para el número de contenedores: [21]

Esta elección de contenedores está motivada por maximizar el poder de una prueba de chi-cuadrado de Pearson que prueba si los contenedores contienen el mismo número de muestras. Más específicamente, para un intervalo de confianza dado se recomienda elegir entre 1/2 y 1 veces la siguiente ecuación: [22]

¿ Dónde está la función probit ? Siguiendo esta regla para daría entre y ; el coeficiente de 2 se elige como un valor fácil de recordar de este óptimo amplio.

Observación

Una buena razón por la que el número de contenedores debe ser proporcional es la siguiente: supongamos que los datos se obtienen como realizaciones independientes de una distribución de probabilidad acotada con densidad suave. Entonces el histograma sigue siendo igualmente "robusto" ya que tiende al infinito. Si es el "ancho" de la distribución (por ejemplo, la desviación estándar o el rango intercuartil), entonces el número de unidades en un contenedor (la frecuencia) es de orden y el error estándar relativo es de orden . En comparación con el siguiente contenedor, el cambio relativo de la frecuencia es de orden siempre que la derivada de la densidad sea distinta de cero. Estos dos son del mismo orden si es de orden , entonces eso es de orden . Esta elección simple de raíz cúbica también se puede aplicar a contenedores con anchos no constantes.

Histograma y función de densidad para una distribución de Gumbel [23]

Aplicaciones

Ver también

Referencias

  1. ^ Pearson, K. (1895). "Contribuciones a la teoría matemática de la evolución. II. Variación sesgada en material homogéneo". Transacciones filosóficas de la Royal Society A: Ciencias matemáticas, físicas y de ingeniería . 186 : 343–414. Código bibliográfico : 1895RSPTA.186..343P. doi : 10.1098/rsta.1895.0010 .
  2. ^ Howitt, D.; Cramer, D. (2008). Introducción a la Estadística en Psicología (Cuarta ed.). Prentice Hall. ISBN 978-0-13-205161-3.
  3. ^ Noemí, Robbins. "Un histograma NO es un gráfico de barras". Forbes . Consultado el 31 de julio de 2018 .
  4. ^ M. Eileen Magnello (diciembre de 2006). "Karl Pearson y los orígenes de la estadística moderna: un elástico se convierte en estadístico". Revista de Nueva Zelanda de Historia y Filosofía de la Ciencia y la Tecnología . 1 volumen. OCLC  682200824.
  5. ^ "Creador de histogramas". creador de histogramas .
  6. ^ Censo de Estados Unidos de 2000.
  7. ^ Dean, S. e Illowsky, B. (19 de febrero de 2009). Estadística Descriptiva: Histograma. Obtenido del sitio web de Connexions: http://cnx.org/content/m16298/1.11/
  8. ^ David W. Scott (diciembre de 2009). "Histograma desplazado promedio". Revisiones interdisciplinarias de Wiley: estadística computacional . 2 (2): 160–164. doi :10.1002/wics.54. S2CID  122986682.
  9. ^ a b C Scott, David W. (1992). Estimación de densidad multivariada: teoría, práctica y visualización . Nueva York: John Wiley.
  10. ^ ab Sturges, HA (1926). "La elección de un intervalo de clases". Revista de la Asociación Estadounidense de Estadística . 21 (153): 65–66. doi :10.1080/01621459.1926.10502161. JSTOR  2965501.
  11. ^ por ejemplo, § 5.6 "Estimación de la densidad", WN Venables y BD Ripley, Modern Applied Statistics with S (2002), Springer, cuarta edición. ISBN 0-387-95457-0
  12. ^ "EXCEL Univariante: Histograma".
  13. ^ ab Scott, David W. (2009). "El gobierno de Sturges". Estadísticas computacionales de WIRE . 1 (3): 303–306. doi :10.1002/wics.35. S2CID  197483064.
  14. ^ Educación en estadística en línea: un curso de estudio multimedia (http://onlinestatbook.com/). Líder del proyecto: David M. Lane, Rice University (capítulo 2 "Distribuciones gráficas", sección "Histogramas")
  15. ^ Doane DP (1976) Clasificación de frecuencia estética. Estadístico estadounidense, 30: 181–183
  16. ^ Scott, David W. (1979). "Sobre histogramas óptimos y basados ​​en datos". Biometrika . 66 (3): 605–610. doi :10.1093/biomet/66.3.605.
  17. ^ Liberto, David; Diaconis, P. (1981). "Sobre el histograma como estimador de densidad: teoría L2" (PDF) . Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete . 57 (4): 453–476. CiteSeerX 10.1.1.650.2473 . doi :10.1007/BF01025868. S2CID  14437088. 
  18. ^ Wasserman, Larry (2004). Todo de Estadísticas . Nueva York: Springer. pag. 310.ISBN 978-1-4419-2322-6.
  19. ^ Piedra, Charles J. (1984). "Una regla de selección de histograma asintóticamente óptima" (PDF) . Actas de la conferencia de Berkeley en honor a Jerzy Neyman y Jack Kiefer .
  20. ^ Shimazaki, H.; Shinomoto, S. (2007). "Un método para seleccionar el tamaño del contenedor de un histograma de tiempo". Computación neuronal . 19 (6): 1503-1527. CiteSeerX 10.1.1.304.6404 . doi :10.1162/neco.2007.19.6.1503. PMID  17444758. S2CID  7781236. 
  21. ^ Jack Prins; Don McCormack; Di Michelson; Karen Horrell. "Prueba de bondad de ajuste de chi-cuadrado". Manual electrónico de métodos estadísticos de NIST/SEMATECH . NIST/SEMATECH. pag. 7.2.1.1 . Consultado el 29 de marzo de 2019 .
  22. ^ Moore, David (1986). "3". En D'Agostino, Ralph; Stephens, Michael (eds.). Técnicas de bondad de ajuste . Nueva York, NY, Estados Unidos: Marcel Dekker Inc. p. 70.ISBN 0-8247-7487-6.
  23. ^ Una calculadora para distribuciones de probabilidad y funciones de densidad.
  24. ^ Una ilustración de histogramas y funciones de densidad de probabilidad.

Otras lecturas

enlaces externos