stringtranslate.com

percentil

En estadística , un k -ésimo percentil , también conocido como puntuación percentil o percentil , es una puntuación por debajo de la cual cae un determinado porcentaje k de puntuaciones en su distribución de frecuencia (definición " exclusiva ") o una puntuación en o por debajo de la cual cae un porcentaje determinado. (definición " inclusiva "). Los percentiles se expresan en la misma unidad de medida que las puntuaciones de entrada, no en porcentaje ; por ejemplo, si las puntuaciones se refieren al peso humano , los percentiles correspondientes se expresarán en kilogramos o libras. En el límite de un tamaño de muestra infinito , el percentil se aproxima a la función percentil , la inversa de la función de distribución acumulativa .

Los percentiles son un tipo de cuantiles , que se obtienen adoptando una subdivisión en 100 grupos. El percentil 25 también se conoce como primer cuartil ( Q 1 ), el percentil 50 como mediana o segundo cuartil ( Q 2 ) y el percentil 75 como tercer cuartil ( Q 3 ). Por ejemplo, el percentil 50 (mediana) es la puntuación por debajo (o en o por debajo , según la definición) en la que se encuentra el 50% de las puntuaciones de la distribución.

Una cantidad relacionada es el rango percentil de una puntuación, expresado en porcentaje , que representa la fracción de puntuaciones en su distribución que son menores que ella, una definición exclusiva. Las puntuaciones percentiles y los rangos percentiles se utilizan a menudo al informar las puntuaciones de las pruebas basadas en normas , pero, como se acaba de señalar, no son lo mismo. Para los rangos percentiles, se da una puntuación y se calcula un porcentaje. Los rangos percentiles son exclusivos: si el rango percentil para una puntuación específica es 90%, entonces el 90% de las puntuaciones fueron inferiores. En cambio, para los percentiles se da un porcentaje y se determina una puntuación correspondiente, que puede ser excluyente o inclusiva. La puntuación para un porcentaje específico (por ejemplo, 90.º) indica una puntuación por debajo de la cual (definición exclusiva) o en o por debajo de la cual (definición inclusiva) caen otras puntuaciones en la distribución.

Definiciones

No existe una definición estándar de percentil; [1] [2] [3] sin embargo, todas las definiciones arrojan resultados similares cuando el número de observaciones es muy grande y la distribución de probabilidad es continua. [4] En el límite, a medida que el tamaño de la muestra se acerca al infinito, el percentil 100 p ( 0< p <1) se aproxima a la inversa de la función de distribución acumulativa (CDF) así formada, evaluada en p , ya que p se aproxima a la CDF. Esto puede verse como una consecuencia del teorema de Glivenko-Cantelli . A continuación se detallan algunos métodos para calcular los percentiles.

La distribución normal y los percentiles.

Representación de la regla de las tres sigma . La zona azul oscuro representa observaciones dentro de una desviación estándar (σ) a cada lado de la media (μ), lo que representa aproximadamente el 68,3% de la población. Dos desviaciones estándar de la media (azul oscuro y medio) representan aproximadamente el 95,4%, y tres desviaciones estándar (azul oscuro, medio y claro) aproximadamente el 99,7%.

Los métodos proporcionados en la sección de métodos de cálculo (a continuación) son aproximaciones para su uso en estadísticas de muestras pequeñas. En términos generales, para poblaciones muy grandes que siguen una distribución normal , los percentiles a menudo pueden representarse con referencia a una gráfica de curva normal. La distribución normal se traza a lo largo de un eje escalado a desviaciones estándar o unidades sigma (). Matemáticamente, la distribución normal se extiende hasta el infinito negativo a la izquierda y el infinito positivo a la derecha. Sin embargo, tenga en cuenta que sólo una proporción muy pequeña de individuos en una población quedará fuera del rango de −3 σ a +3 σ . Por ejemplo, con alturas humanas, muy pocas personas están por encima del nivel de altura +3 σ .

Los percentiles representan el área bajo la curva normal, aumentando de izquierda a derecha. Cada desviación estándar representa un percentil fijo. Por lo tanto, redondeando a dos decimales, −3 σ es el percentil 0,13, −2 σ el percentil 2,28, −1 σ el percentil 15,87, 0 σ el percentil 50 (tanto la media como la mediana de la distribución), + 1 σ el percentil 84,13, +2 σ el percentil 97,72 y +3 σ el percentil 99,87. Esto está relacionado con la regla 68–95–99,7 o la regla de los tres sigma. Tenga en cuenta que, en teoría, el percentil 0 cae en el infinito negativo y el percentil 100 en el infinito positivo, aunque en muchas aplicaciones prácticas, como los resultados de pruebas, se imponen límites superiores e inferiores naturales.

Aplicaciones

Cuando los ISP facturan el ancho de banda de Internet "ampliable" , el percentil 95 o 98 generalmente corta el 5% o el 2% de los picos de ancho de banda de cada mes y luego factura a la tarifa más cercana. De esta manera, se ignoran los picos poco frecuentes y el cliente paga de forma más justa. La razón por la que esta estadística es tan útil para medir el rendimiento de los datos es que proporciona una imagen muy precisa del coste del ancho de banda. El percentil 95 dice que el 95% del tiempo, el uso está por debajo de esta cantidad: por lo tanto, el 5% restante del tiempo, el uso está por encima de esa cantidad.

Los médicos suelen utilizar el peso y la altura de los bebés y los niños para evaluar su crecimiento en comparación con los promedios y percentiles nacionales que se encuentran en las tablas de crecimiento .

El percentil 85 de la velocidad del tráfico en una carretera se utiliza a menudo como guía para establecer límites de velocidad y evaluar si dicho límite es demasiado alto o bajo. [5] [6]

En finanzas, el valor en riesgo es una medida estándar para evaluar (de forma dependiente del modelo) la cantidad por debajo de la cual no se espera que caiga el valor de la cartera dentro de un período de tiempo determinado y dado un valor de confianza.

Métodos de cálculo

Percentiles interpolados y de rango más cercano, exclusivos e inclusivos, para distribución de 10 puntuaciones
Percentiles interpolados y de rango más cercano, exclusivos e inclusivos, para distribución de 10 puntuaciones

Existen muchas fórmulas o algoritmos [7] para obtener una puntuación percentil. Hyndman y Fan [1] identificaron nueve y la mayoría del software estadístico y de hojas de cálculo utiliza uno de los métodos que describen. [8] Los algoritmos devuelven el valor de una puntuación que existe en el conjunto de puntuaciones (métodos de rango más cercano) o interpolan entre puntuaciones existentes y son excluyentes o inclusivos.

La figura muestra una distribución de 10 puntuaciones, ilustra las puntuaciones percentiles que resultan de estos diferentes algoritmos y sirve como introducción a los ejemplos que se dan a continuación. Los más simples son los métodos de rango más cercano que devuelven una puntuación de la distribución, aunque en comparación con los métodos de interpolación, los resultados pueden ser un poco toscos. La tabla Métodos de rango más cercano muestra los pasos computacionales para los métodos exclusivos e inclusivos.

Los métodos de interpolación, como su nombre lo indica, pueden devolver una puntuación que se encuentra entre puntuaciones de la distribución. Los algoritmos utilizados por los programas estadísticos suelen utilizar métodos de interpolación, por ejemplo, las funciones percentile.exc y percentile.inc en Microsoft Excel. La tabla de Métodos interpolados muestra los pasos computacionales.

El método del rango más cercano

Los valores percentiles de la lista ordenada {15, 20, 35, 40, 50}

Una definición de percentil, que a menudo se da en los textos, es que el P -ésimo percentil de una lista de N valores ordenados (ordenados de menor a mayor) es el valor más pequeño de la lista, de modo que no más del P por ciento de los datos sean estrictamente menor que el valor y al menos el P por ciento de los datos es menor o igual a ese valor. Esto se obtiene calculando primero el rango ordinal y luego tomando el valor de la lista ordenada que corresponde a ese rango. El rango ordinal n se calcula usando esta fórmula

El método de interpolación lineal entre rangos más cercanos.

Una alternativa al redondeo utilizada en muchas aplicaciones es utilizar la interpolación lineal entre rangos adyacentes.

Todas las siguientes variantes tienen lo siguiente en común. Dadas las estadísticas del pedido.

buscamos una función de interpolación lineal que pase por los puntos . Esto se logra simplemente mediante

donde usa la función piso para representar la parte integral de x positivo , mientras que usa la función mod para representar su parte fraccionaria (el resto después de la división por 1). (Tenga en cuenta que, aunque en el punto final , no está definido, no es necesario que lo esté porque se multiplica por ). Como podemos ver, x es la versión continua del subíndice i , interpolando linealmente v entre nodos adyacentes.

Hay dos formas en las que se diferencian las variantes de enfoque. El primero está en la relación lineal entre el rango x , el rango porcentual y una constante que es función del tamaño de la muestra N :

Existe el requisito adicional de que el punto medio del rango , correspondiente a la mediana , se produzca en :

y nuestra función revisada ahora tiene solo un grado de libertad, luciendo así:

La segunda forma en la que difieren las variantes es en la definición de la función cerca de los márgenes del rango de p : debería producir, o verse obligado a producir, un resultado en el rango , lo que puede significar la ausencia de una relación uno a uno. una correspondencia en la región más amplia. Un autor ha sugerido elegir donde ξ es la forma de la distribución de valores extremos generalizada , que es el límite de valores extremos de la distribución muestreada.

Primera variante, C = 1/2

El resultado de usar cada una de las tres variantes de la lista ordenada {15, 20, 35, 40, 50}

(Fuentes: función "prtile" de Matlab, [9] [10] )

dónde

Además, dejemos

La relación inversa está restringida a una región más estrecha:

Segunda variante, C = 1

[Fuente: Algunos paquetes de software, incluidos NumPy [11] y Microsoft Excel [3] (hasta la versión 2013 inclusive mediante la función PERCENTILE.INC). Señalado como una alternativa por el NIST . [8] ]

Tenga en cuenta que la relación es uno a uno para , la única de las tres variantes con esta propiedad; de ahí el sufijo "INC", para inclusive , en la función de Excel.

Tercera variante, C = 0

(La variante principal recomendada por NIST . [8] Adoptada por Microsoft Excel desde 2010 mediante la función PERCENTIL.EXC. Sin embargo, como indica el sufijo "EXC", la versión de Excel excluye ambos puntos finales del rango de p , es decir, , mientras que la versión "INC", la segunda variante, no lo hace; de ​​hecho, cualquier número menor que también se excluye y causaría un error.)

Lo inverso está restringido a una región más estrecha:

El método del percentil ponderado

Además de la función percentil, también existe un percentil ponderado , donde se cuenta el porcentaje en el peso total en lugar del número total. No existe una función estándar para un percentil ponderado. Un método amplía el enfoque anterior de forma natural.

Supongamos que tenemos pesos positivos asociados, respectivamente, con nuestros N valores de muestra ordenados. Dejar

la suma de los pesos. Luego, las fórmulas anteriores se generalizan tomando

cuando ,

o

en general ,

y

El percentil ponderado del 50% se conoce como mediana ponderada .

Ver también

Referencias

  1. ^ ab Hyndman, Rob J .; Fan, Yanan (noviembre de 1996). "Cuantiles de muestra en paquetes estadísticos". Estadístico estadounidense . Asociación Estadounidense de Estadística. 50 (4): 361–365. doi :10.2307/2684934. JSTOR  2684934.
  2. ^ Carril, David. "Percentiles" . Consultado el 15 de septiembre de 2007 .
  3. ^ ab Pottel, Hans. «Fallos estadísticos en Excel» (PDF) . Archivado desde el original (PDF) el 4 de junio de 2013 . Consultado el 25 de marzo de 2013 .
  4. ^ Schoonjans F, De Bacquer D, Schmid P (2011). "Estimación de percentiles poblacionales". Epidemiología . 22 (5): 750–751. doi :10.1097/EDE.0b013e318225c1de. PMC 3171208 . PMID  21811118. 
  5. ^ Johnson, Robert; Kuby, Patricia (2007), "Ejemplo aplicado 2.15, el límite de velocidad del percentil 85: ir con el 85% del flujo", Estadística elemental (10.ª ed.), Cengage Learning, p. 102, ISBN 9781111802493.
  6. ^ "Límites de velocidad racionales y el percentil 85 de velocidad" (PDF) . lsp.org . Policía Estatal de Luisiana. Archivado desde el original (PDF) el 23 de septiembre de 2018 . Consultado el 28 de octubre de 2018 .
  7. ^ Wessa, P (2021). "Percentiles en software estadístico gratuito". Oficina de Desarrollo de la Investigación y Educación . Consultado el 13 de noviembre de 2021 .
  8. ^ abc "Manual de estadísticas de ingeniería: percentil". NIST . Consultado el 18 de febrero de 2009 .
  9. ^ "Caja de herramientas de estadísticas de Matlab: percentiles" . Consultado el 15 de septiembre de 2006 ., Esto es equivalente al Método 5 discutido aquí.
  10. ^ Langford, E. (2006). "Cuartiles en Estadística Elemental". Revista de Educación Estadística . 14 (3). doi : 10.1080/10691898.2006.11910589 .
  11. ^ "Documentación de NumPy 1.12". Ciencia ficción . Consultado el 19 de marzo de 2017 .