stringtranslate.com

Rango intercuartil

Diagrama de caja (con rango intercuartil) y función de densidad de probabilidad (pdf) de una población normal N(0,σ 2 )

En estadística descriptiva , el rango intercuartil ( RIC ) es una medida de dispersión estadística , que es la extensión de los datos. [1] El RIC también puede denominarse midspread , 50% medio , cuarta extensión o H-spread. Se define como la diferencia entre los percentiles 75 y 25 de los datos. [2] [3] [4] Para calcular el RIC, el conjunto de datos se divide en cuartiles , o cuatro partes pares ordenadas por rango mediante interpolación lineal. [1] Estos cuartiles se denotan por Q 1 (también llamado cuartil inferior), Q 2 (la mediana ) y Q 3 (también llamado cuartil superior). El cuartil inferior corresponde al percentil 25 y el cuartil superior corresponde al percentil 75, por lo que IQR = Q 3 −   Q 1 [1] .

El RIQ es un ejemplo de un estimador recortado , definido como el rango recortado al 25% , que mejora la precisión de las estadísticas del conjunto de datos al eliminar los puntos atípicos de menor contribución. [5] También se utiliza como una medida robusta de escala [5] Se puede visualizar claramente mediante el cuadro en un diagrama de caja . [1]

Usar

A diferencia del rango total , el rango intercuartil tiene un punto de ruptura del 25% [6] y, por lo tanto, a menudo se prefiere al rango total.

El RIQ se utiliza para construir diagramas de caja , representaciones gráficas simples de una distribución de probabilidad .

El RIQ se utiliza en las empresas como un marcador de sus tasas de ingresos .

Para una distribución simétrica (donde la mediana es igual a la desviación media , el promedio del primer y tercer cuartil), la mitad del RIQ es igual a la desviación absoluta mediana (DMA).

La mediana es la medida correspondiente de tendencia central .

El RIQ se puede utilizar para identificar valores atípicos (ver más abajo). El RIQ también puede indicar la asimetría del conjunto de datos. [1]

La desviación cuartil o rango semiintercuartil se define como la mitad del RIQ. [7]

Algoritmo

El RIQ de un conjunto de valores se calcula como la diferencia entre los cuartiles superior e inferior, Q 3 y Q 1 . Cada cuartil es una mediana [8] calculada de la siguiente manera.

Dado un número par de 2n o impar de 2n+1 valores

primer cuartil Q 1 = mediana de los n valores más pequeños
tercer cuartil Q 3 = mediana de los n valores más grandes [8]

El segundo cuartil Q 2 es el mismo que la mediana ordinaria. [8]

Ejemplos

Conjunto de datos en una tabla

La siguiente tabla tiene 13 filas y sigue las reglas para el número impar de entradas.

Para los datos de esta tabla, el rango intercuartil es RIQ = Q 3 − Q 1 = 119 - 31 = 88.

Conjunto de datos en un diagrama de caja de texto sin formato

 +−−−−−+−+ * |------------| | |------------| +−−−−−+−+ +−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+ Recta numérica 0 1 2 3 4 5 6 7 8 9 10 11 12

Para el conjunto de datos de este diagrama de caja :

Esto significa que los bigotes 1.5*RIC pueden tener longitudes desiguales. La mediana, el mínimo, el máximo y el primer y tercer cuartil constituyen el resumen de cinco números . [9]

Distribuciones

El rango intercuartil de una distribución continua se puede calcular integrando la función de densidad de probabilidad (que produce la función de distribución acumulativa ; cualquier otro medio para calcular la CDF también funcionará). El cuartil inferior, Q 1 , es un número tal que la integral de la función de densidad de probabilidad desde -∞ hasta Q 1 es igual a 0,25, mientras que el cuartil superior, Q 3 , es un número tal que la integral desde -∞ hasta Q 3 es igual a 0,75; en términos de la CDF, los cuartiles se pueden definir de la siguiente manera:

donde CDF −1 es la función cuantil .

A continuación se muestran el rango intercuartil y la mediana de algunas distribuciones comunes.

Prueba de rango intercuartil para normalidad de distribución

El RIQ, la media y la desviación estándar de una población P se pueden utilizar en una prueba sencilla para determinar si P tiene una distribución normal o es gaussiana. Si P tiene una distribución normal, entonces la puntuación estándar del primer cuartil, z 1 , es −0,67, y la puntuación estándar del tercer cuartil, z 3 , es +0,67. Dada la media  =  y la desviación estándar  = σ para P , si P tiene una distribución normal, el primer cuartil

y el tercer cuartil

Si los valores reales del primer o tercer cuartil difieren sustancialmente [ aclaración necesaria ] de los valores calculados, P no se distribuye normalmente. Sin embargo, una distribución normal se puede alterar de forma trivial para mantener sus puntuaciones estándar Q1 y Q2 en 0,67 y −0,67 y no distribuirse normalmente (por lo que la prueba anterior produciría un falso positivo). Una mejor prueba de normalidad, como el gráfico Q-Q, sería la indicada en este caso.

Valores atípicos

Diagrama de caja y bigotes con cuatro valores atípicos leves y un valor atípico extremo. En este gráfico, los valores atípicos se definen como leves por encima de Q3 + 1,5 IQR y extremos por encima de Q3 + 3 IQR.

El rango intercuartil se utiliza a menudo para encontrar valores atípicos en los datos. Los valores atípicos se definen aquí como observaciones que se encuentran por debajo de Q1 − 1,5 IQR o por encima de Q3 + 1,5 IQR. En un diagrama de caja, el valor más alto y más bajo que se produce dentro de este límite se indican mediante los extremos de la caja (con frecuencia con una barra adicional al final del extremo) y cualquier valor atípico como puntos individuales.

Véase también

Referencias

  1. ^ abcde Dekking, Frederik Michel; Kraaikamp, ​​Cornelis; Lopuhaä, gallina Paul; Meester, Ludolf Erwin (2005). Una introducción moderna a la probabilidad y la estadística. Textos Springer en Estadística. Londres: Springer Londres. doi :10.1007/1-84628-168-7. ISBN 978-1-85233-896-1.
  2. ^ Upton, Graham; Cook, Ian (1996). Entendiendo las estadísticas. Oxford University Press. pág. 55. ISBN 0-19-914391-9.
  3. ^ Zwillinger, D., Kokoska, S. (2000) Tablas y fórmulas de probabilidad y estadística estándar del CRC , CRC Press. ISBN 1-58488-059-7 página 18. 
  4. ^ Ross, Sheldon (2010). Introducción a la estadística . Burlington, MA: Elsevier. pp. 103–104. ISBN 978-0-12-374388-6.
  5. ^ ab Kaltenbach, Hans-Michael (2012). Una guía concisa de estadística. Heidelberg: Springer. ISBN 978-3-642-23502-3.OCLC 763157853  .
  6. ^ Rousseeuw, Peter J.; Croux, Christophe (1992). Y. Dodge (ed.). "Estimadores de escala explícitos con alto punto de ruptura" (PDF) . L1-Análisis estadístico y métodos relacionados . Ámsterdam: Holanda Septentrional. págs. 77–92.
  7. ^ Yule, G. Udny (1911). Introducción a la teoría de la estadística. Charles Griffin and Company. págs. 147-148.
  8. ^ abc Bertil., Westergren (1988). Manual de matemáticas beta [beta]: conceptos, teoremas, métodos, algoritmos, fórmulas, gráficos, tablas . Literatura estudiantil . pág. 348. ISBN. 9144250517.OCLC 18454776  .
  9. ^ Dekking, Kraaikamp, ​​Lopuhaä y Meester, págs. 235-237

Enlaces externos