Rango intercuartil

En estadística descriptiva , el rango intercuartil ( RIC ) es una medida de dispersión estadística , que es la extensión de los datos. ^[1] El RIC también puede denominarse midspread , 50% medio , cuarta extensión o H-spread. Se define como la diferencia entre los percentiles 75 y 25 de los datos. ^[2]^[3]^[4] Para calcular el RIC, el conjunto de datos se divide en cuartiles , o cuatro partes pares ordenadas por rango mediante interpolación lineal. ^[1] Estos cuartiles se denotan por Q ₁ (también llamado cuartil inferior), Q ₂ (la mediana ) y Q ₃ (también llamado cuartil superior). El cuartil inferior corresponde al percentil 25 y el cuartil superior corresponde al percentil 75, por lo que IQR = Q ₃ − Q ₁^[1]_.

El RIQ es un ejemplo de un estimador recortado , definido como el rango recortado al 25% , que mejora la precisión de las estadísticas del conjunto de datos al eliminar los puntos atípicos de menor contribución. ^[5] También se utiliza como una medida robusta de escala ^[5] Se puede visualizar claramente mediante el cuadro en un diagrama de caja . ^[1]

Usar

A diferencia del rango total , el rango intercuartil tiene un punto de ruptura del 25% ^[6] y, por lo tanto, a menudo se prefiere al rango total.

El RIQ se utiliza para construir diagramas de caja , representaciones gráficas simples de una distribución de probabilidad .

El RIQ se utiliza en las empresas como un marcador de sus tasas de ingresos .

Para una distribución simétrica (donde la mediana es igual a la desviación media , el promedio del primer y tercer cuartil), la mitad del RIQ es igual a la desviación absoluta mediana (DMA).

La mediana es la medida correspondiente de tendencia central .

El RIQ se puede utilizar para identificar valores atípicos (ver más abajo). El RIQ también puede indicar la asimetría del conjunto de datos. ^[1]

La desviación cuartil o rango semiintercuartil se define como la mitad del RIQ. ^[7]

Algoritmo

El RIQ de un conjunto de valores se calcula como la diferencia entre los cuartiles superior e inferior, Q ₃ y Q ₁ . Cada cuartil es una mediana ^[8] calculada de la siguiente manera.

Dado un número par de 2n o impar de 2n+1 valores

primer cuartil Q ₁ = mediana de los n valores más pequeños

tercer cuartil Q ₃ = mediana de los n valores más grandes ^[8]

El segundo cuartil Q ₂ es el mismo que la mediana ordinaria. ^[8]

Ejemplos

Conjunto de datos en una tabla

La siguiente tabla tiene 13 filas y sigue las reglas para el número impar de entradas.

Para los datos de esta tabla, el rango intercuartil es RIQ = Q ₃ − Q ₁ = 119 - 31 = 88.

Conjunto de datos en un diagrama de caja de texto sin formato

 +−−−−−+−+ * |------------| | |------------| +−−−−−+−+ +−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+ Recta numérica 0 1 2 3 4 5 6 7 8 9 10 11 12

Para el conjunto de datos de este diagrama de caja :

Cuartil inferior (primero) Q ₁ = 7
Mediana (segundo cuartil) Q ₂ = 8,5
Cuartil superior (tercer) Q ₃ = 9
Rango intercuartil, RIQ = Q ₃ - Q ₁ = 2
Bigote inferior 1,5*RIC = Q ₁ - 1,5 * RIC = 7 - 3 = 4. (Si no hay ningún punto de datos en 4, entonces el punto más bajo es mayor que 4).
Bigote superior 1,5*RIC = Q ₃ + 1,5 * RIC = 9 + 3 = 12. (Si no hay ningún punto de datos en 12, entonces el punto más alto es menor que 12).
Patrón de los dos últimos puntos: si no hay puntos de datos en los cuartiles reales, utilice puntos de datos ligeramente "tierra adentro" (más cerca de la mediana) de los cuartiles reales.

Esto significa que los bigotes 1.5*RIC pueden tener longitudes desiguales. La mediana, el mínimo, el máximo y el primer y tercer cuartil constituyen el resumen de cinco números . ^[9]

Distribuciones

El rango intercuartil de una distribución continua se puede calcular integrando la función de densidad de probabilidad (que produce la función de distribución acumulativa ; cualquier otro medio para calcular la CDF también funcionará). El cuartil inferior, Q ₁ , es un número tal que la integral de la función de densidad de probabilidad desde -∞ hasta Q ₁ es igual a 0,25, mientras que el cuartil superior, Q ₃ , es un número tal que la integral desde -∞ hasta Q ₃ es igual a 0,75; en términos de la CDF, los cuartiles se pueden definir de la siguiente manera:

Q_{1}={\text{CDF}}^{-1}(0,25),

Q_{3}={\text{CDF}}^{-1}(0,75),

donde CDF ⁻¹ es la función cuantil .

A continuación se muestran el rango intercuartil y la mediana de algunas distribuciones comunes.

Prueba de rango intercuartil para normalidad de distribución

El RIQ, la media y la desviación estándar de una población P se pueden utilizar en una prueba sencilla para determinar si P tiene una distribución normal o es gaussiana. Si P tiene una distribución normal, entonces la puntuación estándar del primer cuartil, z ₁ , es −0,67, y la puntuación estándar del tercer cuartil, z ₃ , es +0,67. Dada la media = y la desviación estándar = σ para P , si P tiene una distribución normal, el primer cuartil ${\bar {P}}$

Q_{1}=(\sigma \,z_{1})+{\bar {P}}

y el tercer cuartil

Q_{3}=(\sigma \,z_{3})+{\bar {P}}

Si los valores reales del primer o tercer cuartil difieren sustancialmente ^{[ aclaración necesaria ]} de los valores calculados, P no se distribuye normalmente. Sin embargo, una distribución normal se puede alterar de forma trivial para mantener sus puntuaciones estándar Q1 y Q2 en 0,67 y −0,67 y no distribuirse normalmente (por lo que la prueba anterior produciría un falso positivo). Una mejor prueba de normalidad, como el gráfico Q-Q, sería la indicada en este caso.

Valores atípicos

El rango intercuartil se utiliza a menudo para encontrar valores atípicos en los datos. Los valores atípicos se definen aquí como observaciones que se encuentran por debajo de Q1 − 1,5 IQR o por encima de Q3 + 1,5 IQR. En un diagrama de caja, el valor más alto y más bajo que se produce dentro de este límite se indican mediante los extremos de la caja (con frecuencia con una barra adicional al final del extremo) y cualquier valor atípico como puntos individuales.

Véase también

Rango interdecil – Medida estadística
Bisagra media : promedio del primer y tercer cuartil
Error probable – Medida de dispersión estadística
Medidas robustas de escala : indicadores estadísticos de la desviación de una muestra

Referencias

^ abcde Dekking, Frederik Michel; Kraaikamp, Cornelis; Lopuhaä, gallina Paul; Meester, Ludolf Erwin (2005). Una introducción moderna a la probabilidad y la estadística. Textos Springer en Estadística. Londres: Springer Londres. doi :10.1007/1-84628-168-7. ISBN 978-1-85233-896-1.
^ Upton, Graham; Cook, Ian (1996). Entendiendo las estadísticas. Oxford University Press. pág. 55. ISBN 0-19-914391-9.
^ Zwillinger, D., Kokoska, S. (2000) Tablas y fórmulas de probabilidad y estadística estándar del CRC , CRC Press. ISBN 1-58488-059-7 página 18.
^ Ross, Sheldon (2010). Introducción a la estadística . Burlington, MA: Elsevier. pp. 103–104. ISBN 978-0-12-374388-6.
^ ab Kaltenbach, Hans-Michael (2012). Una guía concisa de estadística. Heidelberg: Springer. ISBN 978-3-642-23502-3.OCLC 763157853 .
^ Rousseeuw, Peter J.; Croux, Christophe (1992). Y. Dodge (ed.). "Estimadores de escala explícitos con alto punto de ruptura" (PDF) . L1-Análisis estadístico y métodos relacionados . Ámsterdam: Holanda Septentrional. págs. 77–92.
^ Yule, G. Udny (1911). Introducción a la teoría de la estadística. Charles Griffin and Company. págs. 147-148.
^ abc Bertil., Westergren (1988). Manual de matemáticas beta [beta]: conceptos, teoremas, métodos, algoritmos, fórmulas, gráficos, tablas . Literatura estudiantil . pág. 348. ISBN. 9144250517.OCLC 18454776 .
^ Dekking, Kraaikamp, Lopuhaä y Meester, págs. 235-237

Enlaces externos

Medios relacionados con Rango intercuartil en Wikimedia Commons