Frecuencia (estadísticas)

En estadística , la frecuencia o frecuencia absoluta de un evento es el número de veces que ha ocurrido/registrado la observación en un experimento o estudio. ^[1]^{: 12–19} Estas frecuencias a menudo se representan gráficamente o en forma de tabla. $i$ ${\ Displaystyle n_ {i}}$

Tipos

La frecuencia acumulada es el total de las frecuencias absolutas de todos los eventos en o por debajo de un cierto punto en una lista ordenada de eventos. ^[1]^{: 17-19}

La frecuencia relativa (o probabilidad empírica ) de un evento es la frecuencia absoluta normalizada por el número total de eventos:

f_{i}={\frac {n_{i}}{N}}={\frac {n_{i}}{\sum _{j}n_{j}}}.

Los valores de para todos los eventos se pueden trazar para producir una distribución de frecuencia. ${\ Displaystyle f_ {i}}$ $i$

En el caso de que sea seguro , se pueden agregar pseudocuentas . $n_{i}=0$ $i$

Representando distribuciones de frecuencia

Diferentes formas de representar distribuciones de frecuencia.

Una distribución de frecuencia muestra una agrupación resumida de datos divididos en clases mutuamente excluyentes y el número de ocurrencias en una clase. Es una forma de mostrar datos no organizados, en particular para mostrar los resultados de una elección, los ingresos de las personas en una región determinada, las ventas de un producto dentro de un período determinado, los montos de los préstamos estudiantiles de los graduados, etc. Algunos de los gráficos que se pueden usar con Las distribuciones de frecuencia son histogramas , gráficos de líneas , gráficos de barras y gráficos circulares . Las distribuciones de frecuencia se utilizan tanto para datos cualitativos como cuantitativos.

Construcción

Decidir el número de clases. Demasiadas clases o muy pocas clases podrían no revelar la forma básica del conjunto de datos y además será difícil interpretar dicha distribución de frecuencia. El número ideal de clases se puede determinar o estimar mediante la fórmula: (log base 10), o mediante la fórmula de elección de raíz cuadrada donde n es el número total de observaciones en los datos. (Esto último será demasiado grande para conjuntos de datos grandes, como las estadísticas de población). Sin embargo, estas fórmulas no son una regla estricta y el número resultante de clases determinado por la fórmula puede no siempre ser exactamente adecuado a los datos que se tratan. ${\text{número de clases}}=C=1+3.3\log n$ $C={\sqrt {n}}$
Calcule el rango de los datos (Rango = Max – Min) encontrando los valores de datos mínimo y máximo. El rango se utilizará para determinar el intervalo de clase o el ancho de clase.
Decida el ancho de las clases, denotado por h y obtenido por (asumiendo que los intervalos de clase son los mismos para todas las clases). $h={\frac {\text{rango}}{\text{número de clases}}}$

Generalmente, el intervalo de clase o el ancho de clase es el mismo para todas las clases. Todas las clases tomadas en conjunto deben cubrir al menos la distancia desde el valor más bajo (mínimo) de los datos hasta el valor más alto (máximo). En la distribución de frecuencias se prefieren intervalos de clase iguales, mientras que en determinadas situaciones pueden ser necesarios intervalos de clase desiguales (por ejemplo, intervalos logarítmicos) para producir una buena dispersión de observaciones entre las clases y evitar un gran número de clases vacías o casi vacías. ^[2]

Decidir los límites de cada clase y seleccionar un punto de partida adecuado de la primera clase que sea arbitrario; puede ser menor o igual al valor mínimo. Por lo general, se inicia antes del valor mínimo de tal manera que el punto medio (el promedio de los límites de clase superior e inferior de la primera clase) esté ubicado correctamente ^{[ se necesita aclaración ]} .
Tome una observación y marque una barra vertical (|) para la clase a la que pertenece. Se mantiene un recuento continuo hasta la última observación.
Encuentre las frecuencias, frecuencia relativa, frecuencia acumulada, etc. según sea necesario.

Los siguientes son algunos métodos comúnmente utilizados para representar la frecuencia: ^[3]

Histogramas

Un histograma es una representación de frecuencias tabuladas, mostradas como rectángulos o cuadrados adyacentes (en algunas situaciones), erigidos sobre intervalos discretos (contenedores), con un área proporcional a la frecuencia de las observaciones en el intervalo. La altura de un rectángulo también es igual a la densidad de frecuencia del intervalo, es decir, la frecuencia dividida por el ancho del intervalo. El área total del histograma es igual al número de datos. Un histograma también se puede normalizar mostrando frecuencias relativas. Luego muestra la proporción de casos que caen en cada una de varias categorías , siendo el área total igual a 1. Las categorías generalmente se especifican como intervalos consecutivos y no superpuestos de una variable. Las categorías (intervalos) deben ser adyacentes y, a menudo, se eligen para que sean del mismo tamaño. ^[4] Los rectángulos de un histograma se dibujan de manera que se toquen entre sí para indicar que la variable original es continua. ^[5]

Gráficos de barras

Un gráfico de barras o gráfico de barras es un gráfico con barras rectangulares con longitudes proporcionales a los valores que representan. Las barras se pueden trazar vertical u horizontalmente. Un gráfico de barras verticales a veces se denomina gráfico de barras de columnas.

Tabla de distribución de frecuencias

Una tabla de distribución de frecuencias es un arreglo de los valores que toman una o más variables en una muestra . Cada entrada de la tabla contiene la frecuencia o recuento de las apariciones de valores dentro de un grupo o intervalo particular y, de esta manera, la tabla resume la distribución de valores en la muestra.

Este es un ejemplo de una tabla de frecuencia univariada (= variable única ). Se muestra la frecuencia de cada respuesta a una pregunta de la encuesta.

Un esquema de tabulación diferente agrega valores en contenedores de modo que cada contenedor abarque un rango de valores. Por ejemplo, las alturas de los estudiantes de una clase podrían organizarse en la siguiente tabla de frecuencia.

Distribuciones de frecuencia conjuntas

Las distribuciones de frecuencias conjuntas bivariadas a menudo se presentan como tablas de contingencia (de doble entrada) :

La fila total y la columna total informan las frecuencias marginales o distribución marginal , mientras que el cuerpo de la tabla informa las frecuencias conjuntas. ^[6]

Interpretación

Según la interpretación de frecuencia de la probabilidad , se supone que a medida que la duración de una serie de pruebas aumenta sin límite, la fracción de experimentos en los que ocurre un evento determinado se aproximará a un valor fijo, conocido como frecuencia relativa límite . ^[7]^[8]

Esta interpretación a menudo se contrasta con la probabilidad bayesiana . De hecho, el término 'frecuentista' fue utilizado por primera vez por MG Kendall en 1949, para contrastarlo con los bayesianos , a quienes llamó "no frecuentistas". ^[9]^[10] Observó

3....a grandes rasgos podemos distinguir dos actitudes principales. Uno toma la probabilidad como "un grado de creencia racional", o alguna idea similar... el segundo define la probabilidad en términos de frecuencias de ocurrencia de eventos, o por proporciones relativas en "poblaciones" o "colectivos"; (pág.101)

...

12. Podría pensarse que las diferencias entre los frecuentistas y los no frecuentistas (si se me permite llamarlos así) se deben en gran medida a las diferencias de los dominios que pretenden cubrir. (pág.104)

...

Afirmo que esto no es así ... Creo que la distinción esencial entre los frecuentistas y los no frecuentistas es que los primeros, en un esfuerzo por evitar cualquier cosa que tenga sabor a cuestiones de opinión, buscan definir la probabilidad en términos de propiedades objetivas de una población, reales o hipotéticas, mientras que estas últimas no. [énfasis en el original]

Aplicaciones

Administrar y operar con datos tabulados de frecuencia es mucho más simple que operar con datos sin procesar. Existen algoritmos simples para calcular la mediana, la media, la desviación estándar, etc. a partir de estas tablas.

La prueba de hipótesis estadística se basa en la evaluación de diferencias y similitudes entre distribuciones de frecuencia. Esta evaluación involucra medidas de tendencia central o promedios , como la media y la mediana , y medidas de variabilidad o dispersión estadística , como la desviación estándar o la varianza .

Se dice que una distribución de frecuencias es asimétrica cuando su media y mediana son significativamente diferentes o, más generalmente, cuando es asimétrica . La curtosis de una distribución de frecuencia es una medida de la proporción de valores extremos (valores atípicos) que aparecen en cada extremo del histograma . Si la distribución es más propensa a valores atípicos que la distribución normal , se dice que es leptocúrtica; si es menos propenso a valores atípicos, se dice que es platicúrtico.

Las distribuciones de frecuencia de letras también se usan en el análisis de frecuencia para descifrar cifrados y se usan para comparar las frecuencias relativas de letras en diferentes idiomas y a menudo se usan otros idiomas como griego, latín, etc.

Ver también

frecuencia aperiódica

ley de los grandes números
Multiplicidad multiset como frecuencia analógica
Función de densidad de probabilidad
Interpretaciones de probabilidad
Regularidad estadística
Frecuencia de palabras

Referencias

^ ab Kenney, JF; Manteniendo, ES (1962). Matemáticas de la Estadística, Parte 1 (3ª ed.). Princeton, Nueva Jersey: Van Nostrand Reinhold .
^ Manikandan, S (1 de enero de 2011). "Distribución de frecuencias". Revista de farmacología y farmacoterapia . 2 (1): 54–55. doi : 10.4103/0976-500X.77120 . ISSN 0976-500X. PMC 3117575 . PMID 21701652.
^ Carlson, K. y Winquist, J. (2014) Introducción a la estadística . SAGE Publications, Inc. Capítulo 1: Introducción a las estadísticas y distribuciones de frecuencia
^ Howitt, D. y Cramer, D. (2008) Estadística en psicología . Prentice Hall
^ Charles Stangor (2011) "Métodos de investigación para las ciencias del comportamiento". Wadsworth, Cengage Aprendizaje. ISBN 9780840031976 .
^ Stat Trek, Glosario de estadística y probabilidad, sv Frecuencia conjunta
^ von Mises, Richard (1939) Probabilidad, estadística y verdad (en alemán) (traducción al inglés, 1981: Dover Publications; 2 edición revisada. ISBN 0486242145 ) (p.14)
^ La teoría de la frecuencia Capítulo 5; discutido en Donald Gilles, Teorías filosóficas de la probabilidad (2000), Psychology Press. ISBN 9780415182751 , pág. 88.
^ Primeros usos conocidos de algunas de las palabras de probabilidad y estadística
^ Kendall, Maurice George (1949). "Sobre la conciliación de teorías de la probabilidad". Biometrika . 36 (1/2). Fideicomiso Biometrika: 101–116. doi :10.1093/biomet/36.1-2.101. JSTOR 2332534.