stringtranslate.com

Rango intercuartil

Diagrama de caja (con un rango intercuartil) y una función de densidad de probabilidad (pdf) de una población normal N(0,σ 2 )

En estadística descriptiva , el rango intercuartil ( RIQ ) es una medida de dispersión estadística , que es la dispersión de los datos. [1] El IQR también puede denominarse margen medio , 50% medio , cuarto margen o margen H. Se define como la diferencia entre los percentiles 75 y 25 de los datos. [2] [3] [4] Para calcular el IQR, el conjunto de datos se divide en cuartiles , o cuatro partes pares ordenadas por rango mediante interpolación lineal. [1] Estos cuartiles se denotan por Q 1 (también llamado cuartil inferior), Q 2 (la mediana ) y Q 3 (también llamado cuartil superior). El cuartil inferior corresponde al percentil 25 y el cuartil superior corresponde al percentil 75, por lo que IQR = Q 3 −   Q 1 [1] .

El IQR es un ejemplo de estimador recortado , definido como el rango recortado del 25% , que mejora la precisión de las estadísticas del conjunto de datos al eliminar los puntos periféricos de menor contribución. [5] También se utiliza como una medida sólida de escala. [5] Puede visualizarse claramente mediante el cuadro en un diagrama de caja . [1]

Usar

A diferencia del rango total , el rango intercuartil tiene un punto de ruptura del 25% [6] y, por lo tanto, a menudo se prefiere al rango total.

El IQR se utiliza para construir diagramas de caja , representaciones gráficas simples de una distribución de probabilidad .

El IQR se utiliza en las empresas como marcador de sus tasas de ingresos .

Para una distribución simétrica (donde la mediana es igual a la bisagra media , el promedio del primer y tercer cuartil), la mitad del IQR es igual a la desviación absoluta de la mediana (MAD).

La mediana es la medida correspondiente de tendencia central .

El IQR se puede utilizar para identificar valores atípicos (ver más abajo). El IQR también puede indicar la asimetría del conjunto de datos. [1]

La desviación cuartil o rango semiintercuartil se define como la mitad del IQR. [7]

Algoritmo

El IQR de un conjunto de valores se calcula como la diferencia entre los cuartiles superior e inferior, Q 3 y Q 1 . Cada cuartil es una mediana [8] calculada de la siguiente manera.

Dado un número de valores par 2n o impar 2n+1

primer cuartil Q 1 = mediana de los n valores más pequeños
tercer cuartil Q 3 = mediana de los n valores más grandes [8]

El segundo cuartil Q 2 es igual a la mediana ordinaria. [8]

Ejemplos

Conjunto de datos en una tabla.

La siguiente tabla tiene 13 filas y sigue las reglas para el número impar de entradas.

Para los datos de esta tabla, el rango intercuartílico es IQR = Q 3 − Q 1 = 119 - 31 = 88.

Conjunto de datos en un diagrama de caja de texto sin formato

  +−−−−−+−+  * |------------| | |------------| +−−−−−+−+   +---+---+---+---+---+---+---+---+---+---+---+---+ número línea 0 1 2 3 4 5 6 7 8 9 10 11 12 

Para el conjunto de datos en este diagrama de caja :

Esto significa que los bigotes de 1,5*IQR pueden tener longitudes desiguales. La mediana, el mínimo, el máximo y el primer y tercer cuartil constituyen el resumen de cinco números . [9]

Distribuciones

El rango intercuartil de una distribución continua se puede calcular integrando la función de densidad de probabilidad (que produce la función de distribución acumulativa ; cualquier otro medio para calcular la CDF también funcionará). El cuartil inferior, Q 1 , es un número tal que la integral de la PDF de -∞ a Q 1 es igual a 0,25, mientras que el cuartil superior, Q 3 , es un número tal que la integral de -∞ a Q 3 es igual a 0,75; en términos del CDF, los cuartiles se pueden definir de la siguiente manera:

donde CDF −1 es la función cuantil .

A continuación se muestran el rango intercuartil y la mediana de algunas distribuciones comunes.

Prueba de rango intercuartil para la normalidad de la distribución.

El IQR, la media y la desviación estándar de una población P se pueden utilizar en una prueba simple para determinar si P tiene una distribución normal o es gaussiana. Si P tiene una distribución normal, entonces la puntuación estándar del primer cuartil, z 1 , es −0,67, y la puntuación estándar del tercer cuartil, z 3 , es +0,67. Dada la media  =  y la desviación estándar  = σ para P , si P tiene una distribución normal, el primer cuartil

y el tercer cuartil

Si los valores reales del primer o tercer cuartil difieren sustancialmente [ se necesita aclaración ] de los valores calculados, P no tiene una distribución normal. Sin embargo, una distribución normal puede verse alterada trivialmente para mantener sus estándares Q1 y Q2. puntuaciones de 0,67 y −0,67 y no estar distribuidas normalmente (por lo que la prueba anterior produciría un falso positivo). Aquí se indicaría una mejor prueba de normalidad, como el gráfico Q-Q .

Valores atípicos

Gráfico de caja y bigotes con cuatro valores atípicos leves y un valor atípico extremo. En este gráfico, los valores atípicos se definen como leves por encima del T3 + 1,5 IQR y extremos por encima del T3 + 3 IQR.

El rango intercuartil se utiliza a menudo para encontrar valores atípicos en los datos. Los valores atípicos aquí se definen como observaciones que caen por debajo de Q1 − 1,5 RI o por encima de Q3 + 1,5 RI. En un diagrama de caja, el valor más alto y más bajo que ocurre dentro de este límite se indican mediante los bigotes de la caja (frecuentemente con una barra adicional al final del bigote) y cualquier valor atípico como puntos individuales.

Ver también

Referencias

  1. ^ abcde Dekking, Frederik Michel; Kraaikamp, ​​Cornelis; Lopuhaä, gallina Paul; Meester, Ludolf Erwin (2005). Una introducción moderna a la probabilidad y la estadística. Textos Springer en Estadística. Londres: Springer Londres. doi :10.1007/1-84628-168-7. ISBN 978-1-85233-896-1.
  2. ^ Upton, Graham; Cocinero, Ian (1996). Comprensión de las estadísticas. Prensa de la Universidad de Oxford. pag. 55.ISBN 0-19-914391-9.
  3. ^ Zwillinger, D., Kokoska, S. (2000) Tablas y fórmulas de estadística y probabilidad estándar CRC , CRC Press. ISBN 1-58488-059-7 página 18. 
  4. ^ Ross, Sheldon (2010). Estadísticas introductorias . Burlington, MA: Elsevier. págs. 103-104. ISBN 978-0-12-374388-6.
  5. ^ ab Kaltenbach, Hans-Michael (2012). Una guía concisa de estadística. Heidelberg: Springer. ISBN 978-3-642-23502-3. OCLC  763157853.
  6. ^ Rousseeuw, Peter J.; Croux, Christophe (1992). Y. Dodge (ed.). "Estimadores de escala explícita con punto de ruptura alto" (PDF) . L1-Análisis estadístico y métodos relacionados . Amsterdam: Holanda Septentrional. págs. 77–92.
  7. ^ Navidad, G. Udny (1911). Introducción a la teoría de la estadística. Charles Griffin y compañía. págs. 147-148.
  8. ^ abc Bertil., Westergren (1988). Manual de matemáticas beta [beta]: conceptos, teoremas, métodos, algoritmos, fórmulas, gráficos, tablas . Literatura estudiantil . pag. 348.ISBN 9144250517. OCLC  18454776.
  9. ^ Dekking, Kraaikamp, ​​Lopuhaä y Meester, págs. 235-237

enlaces externos