En estadística y probabilidad , los cuantiles son puntos de corte que dividen el rango de una distribución de probabilidad en intervalos continuos con probabilidades iguales, o que dividen las observaciones en una muestra de la misma manera. Hay un cuantil menos que el número de grupos creados. Los cuantiles comunes tienen nombres especiales, como cuartiles (cuatro grupos), deciles (diez grupos) y percentiles (100 grupos). Los grupos creados se denominan mitades, tercios, cuartos, etc., aunque a veces los términos para el cuantil se utilizan para los grupos creados, en lugar de para los puntos de corte.
Los q - cuantiles son valores que dividen un conjunto finito de valores en q subconjuntos de tamaños (casi) iguales. Hay q − 1 particiones de los q -cuantiles, una para cada entero k que satisface 0 < k < q . En algunos casos, el valor de un cuantil puede no estar determinado de forma única, como puede ser el caso de la mediana (2-cuantiles) de una distribución de probabilidad uniforme en un conjunto de tamaño par. Los cuantiles también se pueden aplicar a distribuciones continuas , lo que proporciona una forma de generalizar las estadísticas de rango a las variables continuas (véase rango de percentil ). Cuandose conoce la función de distribución acumulativa de una variable aleatoria , los q -cuantiles son la aplicación de la función cuantil (la función inversa de la función de distribución acumulativa ) a los valores {1/ q , 2/ q , …, ( q − 1)/ q }.
Al igual que en el cálculo de, por ejemplo, la desviación estándar , la estimación de un cuantil depende de si se opera con una población estadística o con una muestra extraída de ella. Para una población, de valores discretos o para una densidad de población continua, el k - ésimo q -cuantil es el valor de los datos donde la función de distribución acumulada cruza k / q . Es decir, x es un k -ésimo q -cuantil para una variable X si
y
Para una población finita de N valores igualmente probables indexados 1, …, N del más bajo al más alto, el k -ésimo q -cuantil de esta población se puede calcular de manera equivalente mediante el valor de I p = N k / q . Si I p no es un entero, entonces se redondea al siguiente entero para obtener el índice apropiado; el valor de los datos correspondiente es el k -ésimo q -cuantil. Por otro lado, si I p es un entero, entonces cualquier número desde el valor de los datos en ese índice hasta el valor de los datos del siguiente índice se puede tomar como el cuantil, y es convencional (aunque arbitrario) tomar el promedio de esos dos valores (ver Estimación de cuantiles a partir de una muestra).
Si, en lugar de utilizar los números enteros k y q , el " p -cuantil" se basa en un número real p con 0 < p < 1, entonces p reemplaza a k / q en las fórmulas anteriores. Esta terminología más amplia se utiliza cuando se utilizan cuantiles para parametrizar distribuciones de probabilidad continuas . Además, algunos programas de software (incluido Microsoft Excel ) consideran el mínimo y el máximo como el percentil 0 y 100, respectivamente. Sin embargo, esta terminología más amplia es una extensión más allá de las definiciones de estadística tradicional.
Los dos ejemplos siguientes utilizan la definición de rango más cercano del cuantil con redondeo. Para obtener una explicación de esta definición, consulte percentiles .
Considere una población ordenada de 10 valores de datos [3, 6, 7, 8, 8, 10, 13, 15, 16, 20]. ¿Cuáles son los 4 cuartiles (los "cuartiles") de este conjunto de datos?
Por lo tanto, los cuatro cuartiles primero, segundo y tercero del conjunto de datos [3, 6, 7, 8, 8, 10, 13, 15, 16, 20] son [7, 9, 15]. Si también se requiere, el cuartil cero es 3 y el cuarto cuartil es 20.
Considere una población ordenada de 11 valores de datos [3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20]. ¿Cuáles son los 4 cuartiles (los "cuartiles") de este conjunto de datos?
Por lo tanto, los cuatro cuartiles primero, segundo y tercero (los "cuartiles") del conjunto de datos [3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20] son [7, 9, 15]. Si también se requiere, el cuartil cero es 3 y el cuarto cuartil es 20.
Para cualquier distribución de probabilidad poblacional en un número finito de valores, y en general para cualquier distribución de probabilidad con una media y una varianza, se da el caso de que donde Q(p) es el valor del p -cuantil para 0 < p < 1 (o equivalentemente es el k -ésimo q -cuantil para p = k / q ), donde μ es la media aritmética de la distribución , y donde σ es la desviación estándar de la distribución . [1] En particular, la mediana ( p = k / q = 1/2) nunca es más que una desviación estándar de la media.
La fórmula anterior se puede utilizar para limitar el valor μ + zσ en términos de cuantiles. Cuando z ≥ 0 , el valor que está z desviaciones estándar por encima de la media tiene un límite inferior. Por ejemplo, el valor que está z = 1 desviación estándar por encima de la media siempre es mayor o igual que Q ( p = 0,5) , la mediana, y el valor que está z = 2 desviaciones estándar por encima de la media siempre es mayor o igual que Q ( p = 0,8) , el cuarto quintil.
Cuando z ≤ 0 , existe en cambio un límite superior. Por ejemplo, el valor μ + zσ para z = −3 nunca superará Q ( p = 0,1) , el primer decil.
Un problema que surge con frecuencia es la estimación de un cuantil de una población (muy grande o infinita) basada en una muestra finita de tamaño N.
Los paquetes estadísticos modernos se basan en una serie de técnicas para estimar los cuantiles.
Hyndman y Fan compilaron una taxonomía de nueve algoritmos [2] utilizados por varios paquetes de software. Todos los métodos calculan Q p , la estimación para el p -cuantil (el k -ésimo q -cuantil, donde p = k / q ) a partir de una muestra de tamaño N calculando un índice de valor real h . Cuando h es un entero, el h -ésimo más pequeño de los N valores, x h , es la estimación del cuantil. De lo contrario, se utiliza un esquema de redondeo o interpolación para calcular la estimación del cuantil a partir de h , x ⌊ h ⌋ y x ⌈ h ⌉ . (Para la notación, consulte las funciones de piso y techo ).
Los primeros tres son constantes por partes y cambian abruptamente en cada punto de datos, mientras que los últimos seis utilizan interpolación lineal entre puntos de datos y difieren solo en cómo se elige el índice h utilizado para elegir el punto a lo largo de la curva de interpolación lineal por partes.
Los lenguajes de programación Mathematica , [3] Matlab , [4] R [5] y GNU Octave [6] admiten los nueve métodos de cuantiles de muestra. SAS incluye cinco métodos de cuantiles de muestra, SciPy [7] y Maple [8] incluyen ocho, EViews [9] y Julia [10] incluyen las seis funciones lineales por partes, Stata [11] incluye dos, Python [12] incluye dos y Microsoft Excel incluye dos. Mathematica, SciPy y Julia admiten parámetros arbitrarios para métodos que permiten otros métodos no estándar.
Los tipos de estimación y esquemas de interpolación utilizados incluyen:
Notas:
De las técnicas, Hyndman y Fan recomiendan R-8, pero la mayoría de los paquetes de software estadístico han elegido R-6 o R-7 como predeterminada. [13]
El error estándar de una estimación por cuantiles se puede estimar en general mediante el método bootstrap . También se puede utilizar el método de Maritz-Jarrett. [14]
La mediana muestral es la más estudiada entre los cuantiles, siendo una alternativa para estimar un parámetro de localización, cuando el valor esperado de la distribución no existe, y por lo tanto la media muestral no es un estimador significativo de una característica poblacional. Además, la mediana muestral es un estimador más robusto que la media muestral.
Una peculiaridad de la mediana de la muestra es su distribución asintótica: cuando la muestra proviene de una distribución continua, entonces la mediana de la muestra tiene la distribución asintótica Normal anticipada,
Esto se extiende a los otros cuartiles,
donde f ( x p ) es el valor de la densidad de distribución en el p -ésimo cuartil de población ( ). [15]
Pero cuando la distribución es discreta, entonces la distribución de la mediana de la muestra y los otros cuantiles no es normal (ver ejemplos en https://stats.stackexchange.com/a/86638/28746).
Una solución a este problema es utilizar una definición alternativa de cuantiles de muestra a través del concepto de la función de "distribución media", que se define como
La definición de cuantiles muestrales a través del concepto de función de distribución media puede verse como una generalización que puede cubrir como casos especiales las distribuciones continuas. Para distribuciones discretas, la mediana muestral definida a través de este concepto tiene una distribución asintóticamente normal, véase Ma, Y., Genton, MG y Parzen, E. (2011). Propiedades asintóticas de los cuantiles muestrales de distribuciones discretas. Annals of the Institute of Statistical Mathematics, 63(2), 227–243.
El cálculo de cuantiles aproximados a partir de datos que llegan desde un flujo se puede realizar de manera eficiente utilizando estructuras de datos comprimidas. Los métodos más populares son t-digest [16] y KLL [17] . Estos métodos leen un flujo de valores de manera continua y, en cualquier momento, se puede consultar el valor aproximado de un cuantil específico.
Ambos algoritmos se basan en una idea similar: comprimir el flujo de valores mediante la suma de valores idénticos o similares con un peso. Si el flujo está formado por una repetición de 100 veces v1 y 100 veces v2, no hay razón para mantener una lista ordenada de 200 elementos, basta con mantener dos elementos y dos recuentos para poder recuperar los cuantiles. Con más valores, estos algoritmos mantienen un equilibrio entre el número de valores únicos almacenados y la precisión de los cuantiles resultantes. Algunos valores pueden descartarse del flujo y contribuir al peso de un valor cercano sin cambiar demasiado los resultados del cuantil. El t-digest mantiene una estructura de datos de tamaño acotado utilizando un enfoque motivado por la agrupación de k -medias para agrupar valores similares. El algoritmo KLL utiliza un método "compactador" más sofisticado que conduce a un mejor control de los límites de error a costa de requerir un tamaño ilimitado si los errores deben acotarse en relación con p .
Ambos métodos pertenecen a la familia de bosquejos de datos que son subconjuntos de algoritmos de transmisión con propiedades útiles: los bosquejos de t-digest o KLL se pueden combinar. El cálculo del bosquejo para un vector muy grande de valores se puede dividir en procesos trivialmente paralelos donde los bosquejos se calculan para particiones del vector en paralelo y se fusionan más tarde.
Los algoritmos descritos hasta ahora se aproximan directamente a los cuantiles empíricos sin ninguna suposición particular sobre los datos; en esencia, los datos son simplemente números o, de manera más general, un conjunto de elementos que se pueden ordenar. Estos algoritmos son métodos derivados de la informática. Existe otra clase de algoritmos que suponen que los datos son realizaciones de un proceso aleatorio. Se trata de métodos derivados de la estadística, en particular algoritmos de estimación no paramétrica secuencial. Hay varios de estos algoritmos, como los basados en la aproximación estocástica [18] [19] o en los estimadores de la serie de Hermite. [20]
Estos algoritmos basados en estadísticas suelen tener un tiempo de actualización y una complejidad espacial constantes, pero tienen diferentes garantías de límites de error en comparación con los métodos de tipo informático y hacen más suposiciones. Sin embargo, los algoritmos basados en estadísticas presentan ciertas ventajas, en particular en el entorno de transmisión no estacionaria, es decir, datos que varían con el tiempo. Recientemente se han estudiado los algoritmos de ambas clases, junto con algunas ventajas y desventajas respectivas. [21]
Los resultados de las pruebas estandarizadas se suelen informar como un estudiante que obtuvo una puntuación "en el percentil 80", por ejemplo. Esto utiliza un significado alternativo de la palabra percentil como el intervalo entre (en este caso) el percentil escalar 80 y el 81. [22] Este significado separado de percentil también se utiliza en artículos de investigación científica revisados por pares. [23] El significado utilizado puede derivarse de su contexto.
Si una distribución es simétrica, entonces la mediana es la media (siempre que esta última exista). Pero, en general, la mediana y la media pueden diferir. Por ejemplo, con una variable aleatoria que tiene una distribución exponencial , cualquier muestra particular de esta variable aleatoria tendrá aproximadamente un 63 % de probabilidad de ser menor que la media. Esto se debe a que la distribución exponencial tiene una cola larga para valores positivos, pero es cero para números negativos.
Los cuantiles son medidas útiles porque son menos susceptibles que las medias a distribuciones de cola larga y valores atípicos. Empíricamente, si los datos que se analizan no están realmente distribuidos de acuerdo con una distribución supuesta, o si existen otras fuentes potenciales de valores atípicos que están muy alejadas de la media, entonces los cuantiles pueden ser estadísticas descriptivas más útiles que las medias y otras estadísticas relacionadas con el momento.
Un tema estrechamente relacionado es el de las desviaciones mínimas absolutas , un método de regresión que es más robusto a los valores atípicos que los mínimos cuadrados, en el que se utiliza la suma del valor absoluto de los errores observados en lugar del error al cuadrado. La conexión es que la media es la única estimación de una distribución que minimiza el error al cuadrado esperado, mientras que la mediana minimiza el error absoluto esperado. Las desviaciones mínimas absolutas comparten la capacidad de ser relativamente insensibles a grandes desviaciones en las observaciones atípicas, aunque existen métodos incluso mejores de regresión robusta .
Los cuantiles de una variable aleatoria se conservan bajo transformaciones crecientes, en el sentido de que, por ejemplo, si m es la mediana de una variable aleatoria X , entonces 2 m es la mediana de 2 X , a menos que se haya hecho una elección arbitraria a partir de un rango de valores para especificar un cuantil particular. (Véase la estimación de cuantiles, más arriba, para ejemplos de dicha interpolación.) Los cuantiles también se pueden utilizar en casos en los que solo se dispone de datos ordinales .
Los valores que dividen datos ordenados en subconjuntos iguales distintos de cuatro tienen nombres diferentes.
{{cite journal}}
: CS1 maint: multiple names: authors list (link)