En estadística , la estadística de orden k de una muestra estadística es igual a su valor k más pequeño. [1] Junto con las estadísticas de rango , las estadísticas de orden se encuentran entre las herramientas más fundamentales en la estadística no paramétrica y la inferencia .
Los casos especiales importantes de las estadísticas de orden son el valor mínimo y máximo de una muestra y (con algunas salvedades que se analizan a continuación) la mediana de la muestra y otros cuartiles de la muestra .
Cuando se utiliza la teoría de probabilidad para analizar las estadísticas de orden de muestras aleatorias de una distribución continua , se utiliza la función de distribución acumulativa para reducir el análisis al caso de las estadísticas de orden de la distribución uniforme .
Por ejemplo, supongamos que se observan o registran cuatro números, lo que da como resultado una muestra de tamaño 4. Si los valores de la muestra son
Las estadísticas del pedido se indicarían
donde el subíndice ( i ) entre paréntesis indica el estadístico de orden i de la muestra.
La estadística de primer orden (o estadística de orden más pequeño ) es siempre el mínimo de la muestra, es decir,
donde, siguiendo una convención común, utilizamos letras mayúsculas para referirnos a variables aleatorias y letras minúsculas (como arriba) para referirnos a sus valores reales observados.
De manera similar, para una muestra de tamaño n , el estadístico de orden n (o estadístico de orden más grande ) es el máximo , es decir,
El rango de muestra es la diferencia entre el máximo y el mínimo. Es una función de las estadísticas de orden:
Una estadística importante similar en el análisis de datos exploratorios que está simplemente relacionada con las estadísticas de orden es el rango intercuartil de la muestra .
La mediana de la muestra puede ser o no un estadístico de orden, ya que hay un único valor medio solo cuando el número n de observaciones es impar . Más precisamente, si n = 2 m +1 para algún entero m , entonces la mediana de la muestra es y, por lo tanto, es un estadístico de orden. Por otro lado, cuando n es par , n = 2 m y hay dos valores medios, y , y la mediana de la muestra es alguna función de los dos (generalmente el promedio) y, por lo tanto, no es un estadístico de orden. Observaciones similares se aplican a todos los cuantiles de la muestra.
Dadas cualesquiera variables aleatorias X 1 , X 2 , ..., X n , las estadísticas de orden X (1) , X (2) , ..., X ( n ) también son variables aleatorias, definidas al ordenar los valores ( realizaciones ) de X 1 , ..., X n en orden creciente.
Cuando las variables aleatorias X 1 , X 2 , ..., X n forman una muestra son independientes y se distribuyen de forma idéntica . Este es el caso que se trata a continuación. En general, las variables aleatorias X 1 , ..., X n pueden surgir al muestrear más de una población. Entonces son independientes , pero no necesariamente se distribuyen de forma idéntica, y su distribución de probabilidad conjunta viene dada por el teorema de Bapat–Beg .
A partir de ahora, supondremos que las variables aleatorias en consideración son continuas y, cuando sea conveniente, supondremos también que tienen una función de densidad de probabilidad (PDF), es decir, que son absolutamente continuas . Las peculiaridades del análisis de distribuciones que asignan masa a puntos (en particular, distribuciones discretas ) se discuten al final.
Para una muestra aleatoria como la anterior, con distribución acumulativa , las estadísticas de orden para esa muestra tienen distribuciones acumulativas como las siguientes [2] (donde r especifica qué estadística de orden):
La función de densidad de probabilidad correspondiente se puede derivar de este resultado, y se encuentra que es
Además, hay dos casos especiales, que tienen CDF que son fáciles de calcular.
Lo cual puede deducirse mediante una cuidadosa consideración de las probabilidades.
En esta sección mostramos que las estadísticas de orden de la distribución uniforme en el intervalo unitario tienen distribuciones marginales que pertenecen a la familia de distribuciones beta . También proporcionamos un método simple para derivar la distribución conjunta de cualquier número de estadísticas de orden y, finalmente, traducimos estos resultados a distribuciones continuas arbitrarias utilizando la función de distribución acumulativa (cdf) .
En esta sección asumimos que se trata de una muestra aleatoria extraída de una distribución continua con función de distribución acumulativa . Denotando que obtenemos la muestra aleatoria correspondiente de la distribución uniforme estándar . Nótese que las estadísticas de orden también satisfacen .
La función de densidad de probabilidad de la estadística de orden es igual a [3]
Es decir, la estadística de orden k de la distribución uniforme es una variable aleatoria distribuida en beta . [3] [4]
La prueba de estas afirmaciones es la siguiente. Para que u esté entre u y u + du , es necesario que exactamente k − 1 elementos de la muestra sean menores que u , y que al menos uno esté entre u y u + d u . La probabilidad de que más de uno esté en este último intervalo ya es , por lo que tenemos que calcular la probabilidad de que exactamente k − 1, 1 y n − k observaciones caigan en los intervalos , y respectivamente. Esto es igual a (consulte la distribución multinomial para obtener más detalles)
y el resultado sigue.
La media de esta distribución es k / ( n + 1).
De manera similar, para i < j , se puede demostrar que la función de densidad de probabilidad conjunta de las dos estadísticas de orden U ( i ) < U ( j ) es
que es (hasta términos de orden superior a ) la probabilidad de que i − 1, 1, j − 1 − i , 1 y n − j elementos de muestra caigan en los intervalos , , , , respectivamente.
Se razona de una manera completamente análoga para derivar las distribuciones conjuntas de orden superior. Tal vez sea sorprendente que la densidad conjunta de las estadísticas de orden n resulte constante :
Una forma de entender esto es que la muestra no ordenada tiene una densidad constante igual a 1, y que hay n ! permutaciones diferentes de la muestra correspondientes a la misma secuencia de estadísticas de orden. Esto está relacionado con el hecho de que 1/ n ! es el volumen de la región . También está relacionado con otra particularidad de las estadísticas de orden de las variables aleatorias uniformes: de la desigualdad BRS se deduce que el número máximo esperado de variables aleatorias uniformes U(0,1] que se pueden elegir de una muestra de tamaño n con una suma que no exceda de está acotado superiormente por , que es, por tanto, invariante en el conjunto de todas con producto constante .
Utilizando las fórmulas anteriores, se puede derivar la distribución del rango de las estadísticas de orden, es decir, la distribución de , es decir, el máximo menos el mínimo. De manera más general, para , también tiene una distribución beta: A partir de estas fórmulas podemos derivar la covarianza entre dos estadísticas de orden: La fórmula se deduce de notar que y comparar eso con donde , que es la distribución real de la diferencia.
Para una muestra aleatoria de tamaño n de una distribución exponencial con parámetro λ , las estadísticas de orden X ( i ) para i = 1,2,3, ..., n tienen cada una distribución
donde Z j son variables aleatorias exponenciales estándar iid (es decir, con parámetro de tasa 1). Este resultado fue publicado por primera vez por Alfréd Rényi . [5] [6]
La transformada de Laplace de las estadísticas de orden se puede muestrear a partir de una distribución de Erlang a través de un método de conteo de trayectorias [ aclaración necesaria ] . [7]
Si F X es absolutamente continua , tiene una densidad tal que , y podemos usar las sustituciones
y
para derivar las siguientes funciones de densidad de probabilidad para las estadísticas de orden de una muestra de tamaño n extraída de la distribución de X :
Una pregunta interesante es qué tan bien funcionan las estadísticas de orden como estimadores de los cuantiles de la distribución subyacente.
El caso más simple a considerar es qué tan bien la mediana de la muestra estima la mediana de la población.
Como ejemplo, considere una muestra aleatoria de tamaño 6. En ese caso, la mediana de la muestra se define generalmente como el punto medio del intervalo delimitado por las estadísticas de tercer y cuarto orden. Sin embargo, sabemos por la discusión anterior que la probabilidad de que este intervalo contenga realmente la mediana de la población es [ aclaración necesaria ]
Aunque la mediana de la muestra es probablemente una de las mejores estimaciones puntuales independientes de la distribución de la mediana de la población, lo que ilustra este ejemplo es que no es particularmente buena en términos absolutos. En este caso particular, un mejor intervalo de confianza para la mediana es el delimitado por las estadísticas de segundo y quinto orden, que contiene la mediana de la población con probabilidad
Con un tamaño de muestra tan pequeño, si se desea tener al menos un 95% de confianza, se debe decir que la mediana está entre el mínimo y el máximo de las 6 observaciones con una probabilidad de 31/32 o aproximadamente el 97%. El tamaño 6 es, de hecho, el tamaño de muestra más pequeño tal que el intervalo determinado por el mínimo y el máximo es al menos un intervalo de confianza del 95% para la mediana de la población.
Para la distribución uniforme, cuando n tiende a infinito, el p -ésimo cuartil de muestra se distribuye normalmente de forma asintótica , ya que se aproxima mediante
Para una distribución general F con una densidad continua distinta de cero en F −1 ( p ), se aplica una normalidad asintótica similar:
donde f es la función de densidad y F −1 es la función cuantil asociada a F . Una de las primeras personas en mencionar y demostrar este resultado fue Frederick Mosteller en su artículo seminal de 1946. [8] Investigaciones posteriores condujeron en la década de 1960 a la representación de Bahadur , que proporciona información sobre los límites de error. La convergencia a la distribución normal también se cumple en un sentido más fuerte, como la convergencia en entropía relativa o la divergencia KL . [9]
Se puede hacer una observación interesante en el caso en que la distribución es simétrica y la mediana de la población es igual a la media de la población. En este caso, la media de la muestra , según el teorema del límite central , también se distribuye normalmente de forma asintótica, pero con una varianza σ 2 /n en su lugar. Este análisis asintótico sugiere que la media supera a la mediana en casos de baja curtosis y viceversa. Por ejemplo, la mediana logra mejores intervalos de confianza para la distribución de Laplace , mientras que la media funciona mejor para X que se distribuyen normalmente.
Se puede demostrar que
dónde
siendo Z i variables aleatorias exponenciales independientes distribuidas de forma idéntica con tasa 1. Dado que X / n e Y / n se distribuyen normalmente de forma asintótica mediante la CLT, nuestros resultados se obtienen mediante la aplicación del método delta .
Los momentos de la distribución para la estadística de primer orden se pueden utilizar para desarrollar un estimador de densidad no paramétrico. [10] Supongamos que queremos estimar la densidad en el punto . Consideremos las variables aleatorias , que son iid con función de distribución . En particular, .
El valor esperado de la estadística de primer orden dada una muestra de observaciones totales da como resultado:
donde es la función cuantil asociada con la distribución , y . Esta ecuación en combinación con una técnica de jackknifing se convierte en la base para el siguiente algoritmo de estimación de densidad,
Entrada: una muestra de observaciones, puntos de evaluación de densidad, parámetro de ajuste (normalmente 1/3). Salida: densidad estimada en los puntos de evaluación.
1: Conjunto 2: Conjunto 3: Cree una matriz que contenga subconjuntos con observaciones cada uno. 4: Cree un vector para almacenar las evaluaciones de densidad. 5: para hacer 6: para hacer 7: Encuentra la distancia más cercana al punto actual dentro del subconjunto n 8: fin para 9: Calcular el promedio del subconjunto de distancias a 10: Calcular la estimación de densidad en 11: fin para 12: regresar
A diferencia de los parámetros de ajuste basados en el ancho de banda/longitud para los enfoques basados en histogramas y kernel , el parámetro de ajuste para el estimador de densidad basado en la estadística de orden es el tamaño de los subconjuntos de la muestra. Este estimador es más robusto que los enfoques basados en histogramas y kernel; por ejemplo, las densidades como la distribución de Cauchy (que carece de momentos finitos) se pueden inferir sin la necesidad de modificaciones especializadas como los anchos de banda basados en IQR . Esto se debe a que el primer momento de la estadística de orden siempre existe si el valor esperado de la distribución subyacente existe, pero lo inverso no es necesariamente cierto. [11]
Supongamos que hay variables aleatorias iid de una distribución discreta con función de distribución acumulativa y función de masa de probabilidad . Para encontrar las probabilidades de las estadísticas de orden, primero se necesitan tres valores, a saber:
La función de distribución acumulativa de la estadística de orden se puede calcular observando que
De manera similar, se da por
Nótese que la función de masa de probabilidad de es simplemente la diferencia de estos valores, es decir
El problema de calcular el k -ésimo elemento más pequeño (o más grande) de una lista se denomina problema de selección y se resuelve mediante un algoritmo de selección. Aunque este problema es difícil para listas muy grandes, se han creado algoritmos de selección sofisticados que pueden resolver este problema en un tiempo proporcional al número de elementos de la lista, incluso si la lista está totalmente desordenada. Si los datos se almacenan en ciertas estructuras de datos especializadas, este tiempo se puede reducir a O(log n ). En muchas aplicaciones se requieren todas las estadísticas de orden, en cuyo caso se puede utilizar un algoritmo de ordenación y el tiempo empleado es O( n log n ).
Las estadísticas de orden tienen muchas aplicaciones en áreas como la teoría de la confiabilidad, las matemáticas financieras, el análisis de supervivencia, la epidemiología, los deportes, el control de calidad, el riesgo actuarial, etc. Existe una extensa literatura dedicada a estudios sobre aplicaciones de las estadísticas de orden en estos campos.
Por ejemplo, una aplicación reciente en riesgo actuarial se puede encontrar en [12] , donde se proporcionan algunos principios de prima ponderada en términos de reclamaciones récord y k-ésimas reclamaciones récord.
Como es bien sabido, la distribución beta es la distribución del estadístico de orden
m
de una muestra aleatoria de tamaño
n
de la distribución uniforme (en (0,1)).