Dispersión estadística

En estadística , la dispersión (también llamada variabilidad , dispersión o dispersión ) es el grado en que una distribución se estira o se contrae. ^[1] Ejemplos comunes de medidas de dispersión estadística son la varianza , la desviación estándar y el rango intercuartil . Por ejemplo, cuando la varianza de los datos en un conjunto es grande, los datos están muy dispersos. Por otro lado, cuando la varianza es pequeña, los datos del conjunto se agrupan.

La dispersión se contrasta con la ubicación o tendencia central , y juntas son las propiedades de las distribuciones más utilizadas.

Medidas de dispersión estadística

Una medida de dispersión estadística es un número real no negativo que es cero si todos los datos son iguales y aumenta a medida que los datos se vuelven más diversos.

La mayoría de las medidas de dispersión tienen las mismas unidades que la cantidad que se mide. Es decir, si las medidas están en metros o segundos, también lo está la medida de dispersión. Ejemplos de medidas de dispersión incluyen:

Desviación Estándar
Rango intercuartil (RIQ)
Rango
Diferencia absoluta de medias (también conocida como diferencia absoluta de medias de Gini)
Desviación absoluta mediana (DAM)
Desviación absoluta promedio (o simplemente llamada desviación promedio)
Desviación estándar de distancia

Estos se utilizan con frecuencia (junto con factores de escala ) como estimadores de parámetros de escala , en cuya capacidad se denominan estimaciones de escala. Las medidas de escala sólidas son aquellas que no se ven afectadas por un pequeño número de valores atípicos e incluyen el IQR y el MAD.

Todas las medidas anteriores de dispersión estadística tienen la útil propiedad de que son invariantes en cuanto a ubicación y de escala lineal . Esto significa que si una variable aleatoria tiene una dispersión de entonces se realiza una transformación lineal real y debería tener dispersión , donde es el valor absoluto de , es decir, ignora un signo negativo precedente . $X$ $S_{X}$ $Y=aX+b$ $a$ $b$ $S_{Y}=|a|S_{X}$ $|a|$ $a$ $-$

Otras medidas de dispersión son adimensionales . En otras palabras, no tienen unidades incluso si la propia variable tiene unidades. Éstas incluyen:

Coeficiente de variación
Coeficiente de dispersión cuartil
Diferencia de medias relativa , igual al doble del coeficiente de Gini
Entropía : mientras que la entropía de una variable discreta es invariante en la ubicación y independiente de la escala y, por lo tanto, no es una medida de dispersión en el sentido anterior, la entropía de una variable continua es invariante en la ubicación y aditiva en escala: si es la entropía de una variable continua y , entonces . $H(z)$ $z$ $z=ax+b$ $H(z)=H(x)+\log(a)$

Existen otras medidas de dispersión:

Varianza (el cuadrado de la desviación estándar): invariante en la ubicación pero no lineal en escala.
Relación de varianza a media : se utiliza principalmente para datos de recuento cuando se utiliza el término coeficiente de dispersión y cuando esta relación no tiene dimensiones , ya que los datos de recuento son en sí mismos adimensionales, no de otra manera.

Algunas medidas de dispersión tienen propósitos especializados. La varianza de Allan se puede utilizar para aplicaciones donde el ruido interrumpe la convergencia. ^[2] La varianza de Hadamard se puede utilizar para contrarrestar la sensibilidad a la deriva de frecuencia lineal. ^[3]

Para las variables categóricas , es menos común medir la dispersión mediante un solo número; ver variación cualitativa . Una medida que lo hace es la entropía discreta .

Fuentes

En las ciencias físicas , dicha variabilidad puede deberse a errores de medición aleatorios: las mediciones de los instrumentos a menudo no son perfectamente precisas, es decir, reproducibles , y existe una variabilidad adicional entre evaluadores al interpretar e informar los resultados medidos. Se puede suponer que la cantidad que se mide es estable y que la variación entre mediciones se debe a un error de observación . Un sistema de una gran cantidad de partículas se caracteriza por los valores medios de una cantidad relativamente pequeña de cantidades macroscópicas, como la temperatura, la energía y la densidad. La desviación estándar es una medida importante en la teoría de la fluctuación, que explica muchos fenómenos físicos, incluido por qué el cielo es azul. ^[4]

En las ciencias biológicas , la cantidad que se mide rara vez es inmutable y estable, y la variación observada también puede ser intrínseca al fenómeno: puede deberse a la variabilidad interindividual , es decir, distintos miembros de una población que difieren entre sí. Además, puede deberse a la variabilidad intraindividual , es decir, que un mismo sujeto difiera en pruebas realizadas en diferentes momentos o en otras condiciones diferentes. Este tipo de variabilidad también se observa en el ámbito de los productos manufacturados; Incluso allí, el científico meticuloso encuentra variación.

Un ordenamiento parcial de la dispersión.

Una dispersión que preserva la media (MPS) es un cambio de una distribución de probabilidad A a otra distribución de probabilidad B, donde B se forma extendiendo una o más porciones de la función de densidad de probabilidad de A mientras se deja la media (el valor esperado) sin cambios. ^[5] El concepto de dispersión que preserva la media proporciona un ordenamiento parcial de las distribuciones de probabilidad según sus dispersiones: de dos distribuciones de probabilidad, una puede clasificarse como con mayor dispersión que la otra o, alternativamente, ninguna puede clasificarse como con mayor dispersión. .

Ver también

Wikimedia Commons tiene medios relacionados con la dispersión (estadísticas) .

Referencias

^ Manual electrónico de métodos estadísticos de NIST / SEMATECH. "1.3.6.4. Parámetros de ubicación y escala". www.itl.nist.gov . Departamento de Comercio de EE. UU.
^ "Allan Variance - Descripción general de David W. Allan". www.allanstime.com . Consultado el 16 de septiembre de 2021 .
^ "Variación de Hadamard". www.wriley.com . Consultado el 16 de septiembre de 2021 .
^ McQuarrie, Donald A. (1976). Mecánica estadística . Nueva York: Harper & Row. ISBN 0-06-044366-9.
^ Rothschild, Michael; Stiglitz, José (1970). "Riesgo creciente I: una definición". Revista de teoría económica . 2 (3): 225–243. doi :10.1016/0022-0531(70)90038-4.