Frecuencia (estadísticas)

En estadística , la frecuencia o frecuencia absoluta de un evento es el número de veces que la observación ha ocurrido/registrado en un experimento o estudio. ^[1]^{: 12–19} Estas frecuencias a menudo se representan gráficamente o en forma de tabla. ${\estilo de visualización i}$ $estilo de visualización n_{i}}$

Tipos

La frecuencia acumulada es el total de las frecuencias absolutas de todos los eventos en un punto determinado o por debajo de él en una lista ordenada de eventos. ^[1]^{: 17–19}

La frecuencia relativa (o probabilidad empírica ) de un evento es la frecuencia absoluta normalizada por el número total de eventos:

f_{i}={\frac {n_{i}}{N}}={\frac {n_{i}}{\sum _{j}n_{j}}}.

Los valores de todos los eventos se pueden representar gráficamente para producir una distribución de frecuencias. $estilo de visualización f_{i}}$ ${\estilo de visualización i}$

En el caso de que sea seguro , se pueden agregar pseudoconteos . $n_{i}=0$ ${\estilo de visualización i}$

Representación de distribuciones de frecuencia

Diferentes formas de representar distribuciones de frecuencias

Una distribución de frecuencia muestra una agrupación resumida de datos divididos en clases mutuamente excluyentes y el número de ocurrencias en una clase. Es una forma de mostrar datos no organizados, en particular para mostrar los resultados de una elección, los ingresos de las personas en una determinada región, las ventas de un producto dentro de un período determinado, los montos de los préstamos estudiantiles de los graduados, etc. Algunos de los gráficos que se pueden utilizar con distribuciones de frecuencia son histogramas , gráficos de líneas , gráficos de barras y gráficos circulares . Las distribuciones de frecuencia se utilizan tanto para datos cualitativos como cuantitativos.

Construcción

Decide el número de clases. Si hay demasiadas o muy pocas clases, es posible que no se revele la forma básica del conjunto de datos y, además, será difícil interpretar dicha distribución de frecuencias. El número ideal de clases se puede determinar o estimar mediante la fórmula: (logaritmo en base 10) o mediante la fórmula de elección de raíz cuadrada, donde n es el número total de observaciones en los datos (esta última será demasiado grande para conjuntos de datos grandes, como las estadísticas de población). Sin embargo, estas fórmulas no son una regla estricta y el número de clases resultante determinado por la fórmula puede no ser siempre exactamente adecuado para los datos que se están tratando. ${\text{número de clases}}=C=1+3.3\log n$ $C={\sqrt {n}}$
Calcule el rango de los datos (Rango = Máx. – Mín.) hallando los valores mínimo y máximo de los datos. El rango se utilizará para determinar el intervalo de clase o el ancho de clase.
Decide el ancho de las clases, denotado por h y obtenido por (asumiendo que los intervalos de clase son los mismos para todas las clases). $h={\frac {\text{rango}}{\text{número de clases}}}$

En general, el intervalo de clase o el ancho de clase es el mismo para todas las clases. Las clases tomadas en conjunto deben cubrir al menos la distancia desde el valor más bajo (mínimo) en los datos hasta el valor más alto (máximo). Los intervalos de clase iguales son preferibles en la distribución de frecuencias, mientras que los intervalos de clase desiguales (por ejemplo, intervalos logarítmicos) pueden ser necesarios en ciertas situaciones para producir una buena dispersión de observaciones entre las clases y evitar una gran cantidad de clases vacías o casi vacías. ^[2]

Decida los límites de clase individuales y seleccione un punto de inicio adecuado para la primera clase, que es arbitrario; puede ser menor o igual al valor mínimo. Por lo general, se comienza antes del valor mínimo de tal manera que el punto medio (el promedio de los límites de clase inferior y superior de la primera clase) esté ubicado correctamente ^{[ aclaración necesaria ]} .
Tome una observación y marque con una barra vertical (|) la clase a la que pertenece. Se lleva un recuento continuo hasta la última observación.
Encuentre las frecuencias, frecuencia relativa, frecuencia acumulada, etc. según sea necesario.

Los siguientes son algunos métodos comúnmente utilizados para representar la frecuencia: ^[3]

Histogramas

Un histograma es una representación de frecuencias tabuladas, que se muestran como rectángulos o cuadrados adyacentes (en algunas situaciones), erigidos sobre intervalos discretos (bins), con un área proporcional a la frecuencia de las observaciones en el intervalo. La altura de un rectángulo también es igual a la densidad de frecuencia del intervalo, es decir, la frecuencia dividida por el ancho del intervalo. El área total del histograma es igual al número de datos. Un histograma también se puede normalizar mostrando frecuencias relativas. Luego muestra la proporción de casos que caen en cada una de varias categorías , con un área total igual a 1. Las categorías generalmente se especifican como intervalos consecutivos, no superpuestos de una variable. Las categorías (intervalos) deben ser adyacentes y, a menudo, se eligen para que tengan el mismo tamaño. ^[4] Los rectángulos de un histograma se dibujan de manera que se toquen entre sí para indicar que la variable original es continua. ^[5]

Gráficos de barras

Un gráfico de barras es un gráfico con barras rectangulares cuya longitud es proporcional a los valores que representan. Las barras se pueden trazar vertical u horizontalmente. Un gráfico de barras verticales a veces se denomina gráfico de barras de columnas.

Tabla de distribución de frecuencias

Una tabla de distribución de frecuencias es una disposición de los valores que una o más variables toman en una muestra . Cada entrada de la tabla contiene la frecuencia o el recuento de ocurrencias de valores dentro de un grupo o intervalo en particular y, de esta manera, la tabla resume la distribución de valores en la muestra.

Este es un ejemplo de una tabla de frecuencias univariada (= variable única ). Se representa la frecuencia de cada respuesta a una pregunta de la encuesta.

Un esquema de tabulación diferente agrega valores en grupos de modo que cada grupo abarque un rango de valores. Por ejemplo, las alturas de los estudiantes de una clase podrían organizarse en la siguiente tabla de frecuencias.

Distribuciones de frecuencias conjuntas

Las distribuciones de frecuencia conjuntas bivariadas a menudo se presentan como tablas de contingencia (de dos vías) :

La fila total y la columna total informan las frecuencias marginales o la distribución marginal , mientras que el cuerpo de la tabla informa las frecuencias conjuntas. ^[6]

Interpretación

Según la interpretación de la frecuencia de la probabilidad , se supone que a medida que la longitud de una serie de ensayos aumenta sin límite, la fracción de experimentos en los que ocurre un evento dado se acercará a un valor fijo, conocido como frecuencia relativa límite . ^[7]^[8]

Esta interpretación se contrasta a menudo con la probabilidad bayesiana . De hecho, el término "frecuentista" fue utilizado por primera vez por MG Kendall en 1949, para contrastar con los bayesianos , a quienes llamó "no frecuentistas". ^[9]^[10] Observó

3....podemos distinguir, en líneas generales, dos actitudes principales. Una considera la probabilidad como "un grado de creencia racional" o alguna idea similar... la segunda define la probabilidad en términos de frecuencias de ocurrencia de eventos, o por proporciones relativas en "poblaciones" o "colectivos"; (p. 101)

...

12. Podría pensarse que las diferencias entre los frecuentistas y los no frecuentistas (si puedo llamarlos así) se deben en gran medida a las diferencias de los dominios que pretenden cubrir. (p. 104)

...

Afirmo que esto no es así ... La distinción esencial entre los frecuentistas y los no frecuentistas es, creo, que los primeros, en un esfuerzo por evitar cualquier cosa que suene a cuestión de opinión, buscan definir la probabilidad en términos de las propiedades objetivas de una población, real o hipotética, mientras que los segundos no lo hacen. [énfasis en el original]

Aplicaciones

La gestión y el funcionamiento de datos tabulados de frecuencia es mucho más sencillo que el funcionamiento de datos sin procesar. Existen algoritmos sencillos para calcular la mediana, la media, la desviación estándar, etc. a partir de estas tablas.

La prueba de hipótesis estadística se basa en la evaluación de las diferencias y similitudes entre distribuciones de frecuencias. Esta evaluación implica medidas de tendencia central o promedios , como la media y la mediana , y medidas de variabilidad o dispersión estadística , como la desviación estándar o la varianza .

Se dice que una distribución de frecuencias está sesgada cuando su media y mediana son significativamente diferentes, o de manera más general, cuando es asimétrica . La curtosis de una distribución de frecuencias es una medida de la proporción de valores extremos (valores atípicos), que aparecen en cada extremo del histograma . Si la distribución es más propensa a valores atípicos que la distribución normal, se dice que es leptocúrtica; si es menos propensa a valores atípicos, se dice que es platicúrtica.

Las distribuciones de frecuencia de letras también se utilizan en el análisis de frecuencia para descifrar cifrados y se utilizan para comparar las frecuencias relativas de letras en diferentes idiomas; a menudo se utilizan otros idiomas como el griego, el latín, etc.

Véase también

Frecuencia aperiódica

Ley de los grandes números
Multiplicidad de conjuntos múltiples como analogía de frecuencia
Función de densidad de probabilidad
Interpretaciones de probabilidad
Regularidad estadística
Frecuencia de palabras

Referencias

^ ab Kenney, JF; Keeping, ES (1962). Matemáticas de la estadística, parte 1 (3.ª ed.). Princeton, NJ: Van Nostrand Reinhold .
^ Manikandan, S (1 de enero de 2011). "Distribución de frecuencias". Revista de farmacología y farmacoterapia . 2 (1): 54–55. doi : 10.4103/0976-500X.77120 . ISSN 0976-500X. PMC 3117575 . PMID 21701652.
^ Carlson, K. y Winquist, J. (2014) Introducción a la estadística . SAGE Publications, Inc. Capítulo 1: Introducción a la estadística y distribuciones de frecuencia
^ Howitt, D. y Cramer, D. (2008) Estadística en psicología . Prentice Hall
^ Charles Stangor (2011) "Métodos de investigación para las ciencias del comportamiento". Wadsworth, Cengage Learning. ISBN 9780840031976 .
^ Stat Trek, Glosario de estadística y probabilidad, sv Frecuencia conjunta
^ von Mises, Richard (1939) Probabilidad, estadística y verdad (en alemán) (traducción al inglés, 1981: Dover Publications; 2.ª edición revisada. ISBN 0486242145 ) (p. 14)
^ La teoría de la frecuencia Capítulo 5; discutido en Donald Gilles, Teorías filosóficas de la probabilidad (2000), Psychology Press. ISBN 9780415182751 , pág. 88.
^ Usos más antiguos conocidos de algunas palabras de probabilidad y estadística
^ Kendall, Maurice George (1949). "Sobre la reconciliación de las teorías de probabilidad". Biometrika . 36 (1/2). Biometrika Trust: 101–116. doi :10.1093/biomet/36.1-2.101. JSTOR 2332534.