stringtranslate.com

Cuantil

Densidad de probabilidad de una distribución normal , con cuantiles mostrados. El área debajo de la curva roja es la misma en los intervalos (−∞, Q 1 ) , ( Q 1 , Q 2 ) , ( Q 2 , Q 3 ) y ( Q 3 ,+∞) .

En estadística y probabilidad , los cuantiles son puntos de corte que dividen el rango de una distribución de probabilidad en intervalos continuos con probabilidades iguales, o que dividen las observaciones de una muestra de la misma manera. Hay un cuantil menos que el número de grupos creados. Los cuantiles comunes tienen nombres especiales, como cuartiles (cuatro grupos), deciles (diez grupos) y percentiles (100 grupos). Los grupos creados se denominan mitades, tercios, cuartos, etc., aunque a veces los términos del cuantil se utilizan para los grupos creados, en lugar de para los puntos de corte.

q - cuantiles son valores que dividen un conjunto finito de valores en q subconjuntos de tamaños (casi) iguales. Hay q − 1 particiones de los q -cuantiles, una para cada entero k que satisface 0 < k < q . En algunos casos, es posible que el valor de un cuantil no se determine de forma única, como puede ser el caso de la mediana (2 cuantil) de una distribución de probabilidad uniforme en un conjunto de tamaño par. Los cuantiles también se pueden aplicar a distribuciones continuas , proporcionando una forma de generalizar las estadísticas de rango a variables continuas (ver rango percentil ). Cuandose conoce la función de distribución acumulativa de una variable aleatoria , los q -cuantiles son la aplicación de la función cuantil (la función inversa de la función de distribución acumulativa ) a los valores {1/ q , 2/ q , …, ( q − 1)/ q }.

Cuantiles de una población

Como en el cálculo de, por ejemplo, la desviación estándar , la estimación de un cuantil depende de si se opera con una población estadística o con una muestra extraída de ella. Para una población, de valores discretos o para una densidad de población continua, el k -ésimo q -cuantil es el valor de datos donde la función de distribución acumulativa cruza k / q . Es decir, x es un k -ésimo q -cuantil para una variable X si

Pr[ X < x ] ≤ k / q o, equivalentemente, Pr[ Xx ] ≥ 1 − k / q

y

Pr[ Xx ] ≥ k / q .

Para una población finita de N valores igualmente probables indexados 1,…, N de menor a mayor, el k -ésimo q -cuantil de esta población se puede calcular de manera equivalente mediante el valor de I p = N k / q . Si I p no es un número entero, redondee al siguiente número entero para obtener el índice apropiado; el valor de datos correspondiente es el k -ésimo q -cuantil. Por otro lado, si I p es un número entero, entonces cualquier número desde el valor de datos en ese índice hasta el valor de datos del siguiente índice puede tomarse como cuantil, y es convencional (aunque arbitrario) tomar el promedio de esos dos valores (consulte Estimación de cuantiles a partir de una muestra).

Si, en lugar de utilizar números enteros k y q , el " p -cuantil" se basa en un número real p con 0 < p < 1 , entonces p reemplaza k / q en las fórmulas anteriores. Esta terminología más amplia se utiliza cuando se utilizan cuantiles para parametrizar distribuciones de probabilidad continuas . Además, algunos programas de software (incluido Microsoft Excel ) consideran el mínimo y el máximo como el percentil 0 y 100, respectivamente. Sin embargo, esta terminología más amplia es una extensión más allá de las definiciones estadísticas tradicionales.

Ejemplos

Los dos ejemplos siguientes utilizan la definición de cuantil de rango más cercano con redondeo. Para obtener una explicación de esta definición, consulte percentiles .

Población de tamaño uniforme

Considere una población ordenada de 10 valores de datos [3, 6, 7, 8, 8, 10, 13, 15, 16, 20]. ¿Cuáles son los 4 cuantiles (los "cuartiles") de este conjunto de datos?

Entonces, el primer, segundo y tercer 4 cuantiles (los "cuartiles") del conjunto de datos [3, 6, 7, 8, 8, 10, 13, 15, 16, 20] son ​​[7, 9, 15]. Si también es necesario, el cuartil cero es 3 y el cuarto cuartil es 20.

Población de tamaño impar

Considere una población ordenada de 11 valores de datos [3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20]. ¿Cuáles son los 4 cuantiles (los "cuartiles") de este conjunto de datos?

Entonces, el primer, segundo y tercer 4 cuantiles (los "cuartiles") del conjunto de datos [3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20] son ​​[7, 9, 15] . Si también es necesario, el cuartil cero es 3 y el cuarto cuartil es 20.

Relación con la media

Para cualquier distribución de probabilidad poblacional con un número finito de valores y, en general, para cualquier distribución de probabilidad con media y varianza, se da el caso de que

Q(p)p0 < p < 1kqp = k / qμ es la media aritméticaσdesviación estándar[1]( p = k / q = 1/2)

La fórmula anterior se puede utilizar para limitar el valor μ + en términos de cuantiles. Cuando z ≥ 0 , el valor que está z desviaciones estándar por encima de la media tiene un límite inferior

z = 1Q ( p = 0,5)z = 2Q ( p = 0,8)

Cuando z ≤ 0 , en cambio hay un límite superior

μ + z = −3Q ( p = 0,1)

Estimar cuantiles de una muestra

Un problema que surge con frecuencia es el de estimar un cuantil de una población (muy grande o infinita) basándose en una muestra finita de tamaño N.

Los paquetes estadísticos modernos se basan en una serie de técnicas para estimar los cuantiles.

Hyndman y Fan compilaron una taxonomía de nueve algoritmos [2] utilizados por varios paquetes de software. Todos los métodos calculan Q p , la estimación del p -cuantil (el k -ésimo q -cuantil, donde p = k / q ) de una muestra de tamaño N calculando un índice de valor real h . Cuando h es un número entero, el h -ésimo más pequeño de los N valores, x h , es la estimación cuantil. De lo contrario, se utiliza un esquema de redondeo o interpolación para calcular la estimación cuantil a partir de h , x h y x h . (Para notación, consulte funciones de piso y techo ).

Los primeros tres son constantes por partes y cambian abruptamente en cada punto de datos, mientras que los últimos seis usan interpolación lineal entre puntos de datos y difieren solo en cómo se elige el índice h utilizado para elegir el punto a lo largo de la curva de interpolación lineal por partes.

Los lenguajes de programación Mathematica , [3] Matlab , [4] R [5] y GNU Octave [6] admiten los nueve métodos de cuantiles de muestra. SAS incluye cinco métodos de cuantiles de muestra, SciPy [7] y Maple [8] incluyen ocho, EViews [9] y Julia [10] incluyen seis funciones lineales por partes, Stata [11] incluye dos, Python [12] incluye dos, y Microsoft Excel incluye dos. Mathematica, SciPy y Julia admiten parámetros arbitrarios para métodos que permiten otros métodos no estándar.

Los tipos de estimación y esquemas de interpolación utilizados incluyen:

Notas:

De las técnicas, Hyndman y Fan recomiendan R-8, pero la mayoría de los paquetes de software estadístico han elegido R-6 o R-7 como predeterminado. [13]

En general, el error estándar de una estimación cuantil se puede estimar mediante bootstrap . También se puede utilizar el método de Maritz-Jarrett. [14]

La distribución asintótica de la mediana muestral.

La mediana muestral es el más examinado entre los cuantiles, siendo una alternativa para estimar un parámetro de ubicación, cuando el valor esperado de la distribución no existe y, por lo tanto, la media muestral no es un estimador significativo de una característica de la población. Además, la mediana muestral es un estimador más robusto que la media muestral.

Una peculiaridad de la mediana muestral es su distribución asintótica: cuando la muestra proviene de una distribución continua, entonces la mediana muestral tiene la distribución asintótica Normal anticipada.

Esto se extiende a los otros cuantiles,

donde f ( x p ) es el valor de la densidad de distribución en el p -ésimo cuantil de población ( ). [15]

Pero cuando la distribución es discreta, la distribución de la mediana de la muestra y los otros cuantiles no es Normal (ver ejemplos en https://stats.stackexchange.com/a/86638/28746).

Una solución a este problema es utilizar una definición alternativa de cuantiles muestrales mediante el concepto de función de "distribución media", que se define como

La definición de cuantiles muestrales a través del concepto de función de distribución media puede verse como una generalización que puede cubrir como casos especiales las distribuciones continuas. Para distribuciones discretas, la mediana muestral definida mediante este concepto tiene una distribución asintóticamente normal; consulte Ma, Y., Genton, MG y Parzen, E. (2011). Propiedades asintóticas de cuantiles muestrales de distribuciones discretas. Anales del Instituto de Matemática Estadística, 63(2), 227-243.

Cuantiles aproximados de una secuencia

El cálculo de cuantiles aproximados a partir de datos que llegan de una secuencia se puede realizar de manera eficiente utilizando estructuras de datos comprimidos. Los métodos más populares son t-digest [16] y KLL. [17] Estos métodos leen un flujo de valores de forma continua y pueden, en cualquier momento, consultarse sobre el valor aproximado de un cuantil específico.

Ambos algoritmos se basan en una idea similar: comprimir el flujo de valores resumiendo valores idénticos o similares con un peso. Si el flujo está formado por una repetición de 100 veces v1 y 100 veces v2, no hay razón para mantener una lista ordenada de 200 elementos, basta con mantener dos elementos y dos conteos para poder recuperar los cuantiles. Con más valores, estos algoritmos mantienen un equilibrio entre la cantidad de valores únicos almacenados y la precisión de los cuantiles resultantes. Algunos valores pueden descartarse de la secuencia y contribuir al peso de un valor cercano sin cambiar demasiado los resultados cuantiles. El t-digest mantiene una estructura de datos de tamaño limitado utilizando un enfoque motivado por la agrupación de k-medias para agrupar valores similares. El algoritmo KLL utiliza un método "compactador" más sofisticado que conduce a un mejor control de los límites de error a costa de requerir un tamaño ilimitado si los errores deben estar acotados en relación con p .

Ambos métodos pertenecen a la familia de bocetos de datos que son subconjuntos de algoritmos de transmisión con propiedades útiles: se pueden combinar bocetos t-digest o KLL. Calcular el boceto para un vector de valores muy grande se puede dividir en procesos trivialmente paralelos donde los bocetos se calculan para particiones del vector en paralelo y se fusionan más tarde.

Discusión

Los resultados de las pruebas estandarizadas comúnmente se informan como un estudiante con una puntuación "en el percentil 80", por ejemplo. Esto utiliza un significado alternativo de la palabra percentil como el intervalo entre (en este caso) el percentil escalar 80 y 81. [18] Este significado separado de percentil también se utiliza en artículos de investigación científica revisados ​​por pares. [19] El significado utilizado puede derivarse de su contexto.

Si una distribución es simétrica, entonces la mediana es la media (siempre que exista esta última). Pero, en general, la mediana y la media pueden diferir. Por ejemplo, con una variable aleatoria que tiene una distribución exponencial , cualquier muestra particular de esta variable aleatoria tendrá aproximadamente un 63% de posibilidades de ser menor que la media. Esto se debe a que la distribución exponencial tiene una cola larga para valores positivos pero es cero para números negativos.

Los cuantiles son medidas útiles porque son menos susceptibles que las medias a distribuciones de cola larga y valores atípicos. Empíricamente, si los datos que se analizan no están realmente distribuidos según una distribución supuesta, o si existen otras fuentes potenciales de valores atípicos que están muy alejados de la media, entonces los cuantiles pueden ser estadísticas descriptivas más útiles que las medias y otras estadísticas relacionadas con el momento. .

Estrechamente relacionado está el tema de las desviaciones mínimas absolutas , un método de regresión que es más robusto a los valores atípicos que los mínimos cuadrados, en el que se utiliza la suma del valor absoluto de los errores observados en lugar del error al cuadrado. La conexión es que la media es la estimación única de una distribución que minimiza el error cuadrático esperado mientras que la mediana minimiza el error absoluto esperado. Las desviaciones mínimas absolutas comparten la capacidad de ser relativamente insensibles a grandes desviaciones en observaciones atípicas, aunque se encuentran disponibles métodos aún mejores de regresión robusta .

Los cuantiles de una variable aleatoria se conservan bajo transformaciones crecientes, en el sentido de que, por ejemplo, si m es la mediana de una variable aleatoria X , entonces 2 m es la mediana de 2 X , a menos que se haya hecho una elección arbitraria a partir de una rango de valores para especificar un cuantil particular. (Consulte la estimación de cuantiles, más arriba, para ver ejemplos de dicha interpolación). Los cuantiles también se pueden usar en los casos en que solo se dispone de datos ordinales .

Otras cuantificaciones

Los valores que dividen datos ordenados en subconjuntos iguales distintos de cuatro tienen nombres diferentes.

Ver también

Referencias

  1. ^ Bagui, S.; Bhaumik, D. (2004). "Atisbos de desigualdades en probabilidad y estadística" (PDF) . Revista Internacional de Ciencias Estadísticas . 3 : 9–15. ISSN  1683-5603.
  2. ^ Hyndman, Rob J .; Fan, Yanan (noviembre de 1996). "Cuantiles de muestra en paquetes estadísticos". Estadístico estadounidense . Asociación Estadounidense de Estadística. 50 (4): 361–365. doi :10.2307/2684934. JSTOR  2684934.
  3. ^ Documentación de Mathematica Consulte la sección 'Detalles'
  4. ^ "Cálculo de cuantiles". reino unido.mathworks.com .
  5. ^ Frohne, Iván; Hyndman, Rob J. (2009). Cuantiles de muestra. Proyecto R. ISBN 978-3-900051-07-5.
  6. ^ "Referencia de función: cuantil - Octave-Forge - SourceForge" . Consultado el 6 de septiembre de 2013 .
  7. ^ "scipy.stats.mstats.mquantiles - Guía de referencia de SciPy v1.4.1". docs.scipy.org .
  8. ^ "Estadísticas: ayuda para la programación de Maple". www.maplesoft.com .
  9. ^ "Ayuda de EViews 9". Archivado desde el original el 16 de abril de 2016 . Consultado el 4 de abril de 2016 .
  10. ^ "Estadísticas - Documentación de Julia" . Consultado el 17 de junio de 2023 .
  11. ^ Documentación de Stata para los comandos pctile y xtile Consulte la sección 'Métodos y fórmulas'.
  12. ^ "estadísticas - Funciones de estadísticas matemáticas - Documentación de Python 3.8.3rc1". docs.python.org .
  13. ^ Hyndman, Rob J. (28 de marzo de 2016). "Cuantiles de muestra 20 años después". Blog de Hyndsignt . Consultado el 30 de noviembre de 2020 .
  14. ^ Wilcox, Rand R. (2010). Introducción a la estimación robusta y la prueba de hipótesis . Prensa académica. ISBN 978-0-12-751542-7.
  15. ^ Estuardo, Alan; Ord, Keith (1994). Teoría avanzada de la estadística de Kendall . Londres: Arnold. ISBN 0340614307.
  16. ^ Reclamación, Ted; Ertl, Otmar (febrero de 2019). "Cálculo de cuantiles extremadamente precisos utilizando t-Digests". arXiv : 1902.04023 [estad.CO].
  17. ^ Zóhar Karnin; Kevin Lang; Libertad Edo (2016). "Aproximación cuantil óptima en flujos". arXiv : 1603.05346 [cs.DS].
  18. ^ "percentil". Referencia de Oxford . Consultado el 17 de agosto de 2020 .
  19. ^ Kruger, J.; Dunning, D. (diciembre de 1999). "No cualificado y inconsciente de ello: cómo las dificultades para reconocer la propia incompetencia conducen a autoevaluaciones infladas". Revista de Personalidad y Psicología Social . 77 (6): 1121-1134. doi :10.1037/0022-3514.77.6.1121. ISSN  0022-3514. PMID  10626367. S2CID  2109278.
  20. ^ Caminante, Helen María; Lev, José (1969). Métodos estadísticos elementales. Holt, Rinehart y Winston. ISBN 978-0-03-081130-2.
  21. ^ Stephen B. Vardeman (1992). "¿Qué pasa con los otros intervalos?". El estadístico estadounidense . 46 (3): 193-197. doi :10.2307/2685212. JSTOR  2685212.

Otras lecturas

enlaces externos