Rango (estadísticas)

En estadística descriptiva , el rango de un conjunto de datos es el tamaño del intervalo más estrecho que contiene todos los datos. Se calcula como la diferencia entre los valores más grandes y más pequeños (también conocidos como máximo y mínimo de la muestra ). ^[1] Se expresa en las mismas unidades que los datos. El rango proporciona una indicación de la dispersión estadística . Dado que solo depende de dos de las observaciones, es más útil para representar la dispersión de pequeños conjuntos de datos. ^[2]

Para variables aleatorias IID continuas

Para n variables aleatorias continuas independientes e idénticamente distribuidas X ₁ , X ₂ , ..., X _n con la función de distribución acumulativa G( x ) y una función de densidad de probabilidad g( x ), sea T el rango de ellas, es decir, T = max( X ₁ , X ₂ , ..., X _n ) - min( X ₁ , X ₂ , ..., X _n ).

Distribución

El rango, T, tiene la función de distribución acumulativa ^[3]^[4]

F(t)=n\int _{-\infty }^{\infty }g(x)[G(x+t)-G(x)]^{n-1}\,{\text{d}}x.

Gumbel señala que "la belleza de esta fórmula se ve completamente empañada por el hecho de que, en general, no podemos expresar G ( x + t ) mediante G ( x ), y que la integración numérica es larga y tediosa". ^[3]^{: 385}

Si la distribución de cada X _i está limitada a la derecha (o izquierda), entonces la distribución asintótica del rango es igual a la distribución asintótica del valor más grande (más pequeño). Para distribuciones más generales, la distribución asintótica se puede expresar como una función de Bessel . ^[3]

Momentos

El rango medio está dado por ^[5]

n\int _{0}^{1}x(G)[G^{n-1}-(1-G)^{n-1}]\,{\text{d}}G

donde x ( G ) es la función inversa. En el caso en que cada una de las X _i tenga una distribución normal estándar , el rango medio viene dado por ^[6]

\int _{-\infty }^{\infty }(1-(1-\Phi (x))^{n}-\Phi (x)^{n})\,{\text{d}}x.

Para variables aleatorias continuas no IID

Para n variables aleatorias continuas independientes distribuidas de forma no idéntica X ₁ , X ₂ , ..., X _n con funciones de distribución acumulativa G ₁ ( x ), G ₂ ( x ), ..., G _n ( x ) y funciones de densidad de probabilidad g ₁ ( x ), g ₂ ( x ), ..., g _n ( x ), el rango tiene una función de distribución acumulativa ^[4]

F(t)=\sum _{i=1}^{n}\int _{-\infty }^{\infty }g_{i}(x)\prod _{j=1,j\neq i}^{n}[G_{j}(x+t)-G_{j}(x)]\,{\text{d}}x.

Para variables aleatorias IID discretas

Para n variables aleatorias discretas independientes e idénticamente distribuidas X ₁ , X ₂ , ..., X _n con función de distribución acumulativa G ( x ) y función de masa de probabilidad g ( x ), el rango de X _i es el rango de una muestra de tamaño n de una población con función de distribución G ( x ). Podemos suponer sin pérdida de generalidad que el soporte de cada X _i es {1,2,3,..., N } donde N es un entero positivo o infinito. ^[7]^[8]

Distribución

El rango tiene función de masa de probabilidad ^[7]^[9]^[10]

f(t)={\begin{cases}\sum _{x=1}^{N}[g(x)]^{n}&t=0\\[6pt]\sum _{x=1}^{N-t}\left({\begin{alignedat}{2}&[G(x+t)-G(x-1)]^{n}\\{}-{}&[G(x+t)-G(x)]^{n}\\{}-{}&[G(x+t-1)-G(x-1)]^{n}\\{}+{}&[G(x+t-1)-G(x)]^{n}\\\end{alignedat}}\right)&t=1,2,3\ldots ,N-1.\end{cases}}

Ejemplo

Si suponemos que g ( x ) = 1/ N , la distribución uniforme discreta para todo x , entonces encontramos ^[9]^[11]

f(t)={\begin{cases}{\frac {1}{N^{n-1}}}&t=0\\[4pt]\sum _{x=1}^{N-t}\left(\left[{\frac {t+1}{N}}\right]^{n}-2\left[{\frac {t}{N}}\right]^{n}+\left[{\frac {t-1}{N}}\right]^{n}\right)&t=1,2,3\ldots ,N-1.\end{cases}}

Derivación

La probabilidad de tener un valor de rango específico, t , se puede determinar sumando las probabilidades de tener dos muestras que difieran en t y cada una de las otras muestras que tengan un valor entre los dos extremos. La probabilidad de que una muestra tenga un valor de x es . La probabilidad de que otra tenga un valor t mayor que x es: $ng(x)$

(n-1)g(x+t).

La probabilidad de que todos los demás valores se encuentren entre estos dos extremos es:

\left(\int _{x}^{x+t}g(x)\,{\text{d}}x\right)^{n-2}=\left(G(x+t)-G(x)\right)^{n-2}.

Combinando los tres juntos obtenemos:

f(t)=n(n-1)\int _{-\infty }^{\infty }g(x)g(x+t)[G(x+t)-G(x)]^{n-2}\,{\text{d}}x

Cantidades relacionadas

El rango es un ejemplo específico de las estadísticas de orden . En particular, el rango es una función lineal de las estadísticas de orden, lo que lo coloca dentro del ámbito de la estimación L.

Véase también

Referencias

^ George Woodbury (2001). Introducción a la estadística . Cengage Learning. pág. 74. ISBN 0534377556.
^ Carin Viljoen (2000). Estadística elemental: volumen 2 . Pearson Sudáfrica. págs. 7–27. ISBN 186891075X.
^ abc EJ Gumbel (1947). "La distribución del rango". Anales de estadística matemática . 18 (3): 384–412. doi : 10.1214/aoms/1177730387 . JSTOR 2235736.
^ ab Tsimashenka, I.; Knottenbelt, W.; Harrison, P. (2012). "Control de la variabilidad en sistemas de división y fusión". Técnicas y aplicaciones de modelado analítico y estocástico (PDF) . Apuntes de clase en informática. Vol. 7314. pág. 165. doi :10.1007/978-3-642-30782-9_12. ISBN 978-3-642-30781-2.
^ HO Hartley ; HA David (1954). "Límites universales para el rango medio y la observación extrema". Anales de estadística matemática . 25 (1): 85–99. doi : 10.1214/aoms/1177728848 . JSTOR 2236514.
^ LHC Tippett (1925). "Sobre los individuos extremos y el rango de muestras tomadas de una población normal". Biometrika . 17 (3/4): 364–387. doi :10.1093/biomet/17.3-4.364. JSTOR 2332087.
^ ab Evans, DL; Leemis, LM; Drew, JH (2006). "La distribución de las estadísticas de orden para variables aleatorias discretas con aplicaciones al bootstrap". INFORMS Journal on Computing . 18 : 19. doi :10.1287/ijoc.1040.0105.
^ Irving W. Burr (1955). "Cálculo de la distribución de muestreo exacta de rangos de una población discreta". Anales de estadística matemática . 26 (3): 530–532. doi : 10.1214/aoms/1177728500 . JSTOR 2236482.
^ ab Abdel-Aty, SH (1954). "Variables ordenadas en distribuciones discontinuas". Statistica Neerlandica . 8 (2): 61–82. doi :10.1111/j.1467-9574.1954.tb00442.x.
^ Siotani, M. (1956). "Estadísticas de orden para casos discretos con una aplicación numérica a la distribución binomial". Anales del Instituto de Matemática Estadística . 8 : 95–96. doi :10.1007/BF02863574.
^ Paul R. Rider (1951). "La distribución del rango en muestras de una población rectangular discreta". Revista de la Asociación Estadounidense de Estadística . 46 (255): 375–378. doi :10.1080/01621459.1951.10500796. JSTOR 2280515.