En estadística , los cuartiles son un tipo de cuantiles que dividen el número de puntos de datos en cuatro partes, o cuartos , de tamaño más o menos igual. Los datos deben ordenarse del más pequeño al más grande para calcular los cuartiles; como tal, los cuartiles son una forma de estadística de orden . Los tres cuartiles, que dan como resultado cuatro divisiones de datos, son los siguientes:
Junto con el mínimo y máximo de los datos (que también son cuartiles), los tres cuartiles descritos anteriormente proporcionan un resumen de cinco números de los datos. Este resumen es importante en estadística porque proporciona información sobre el centro y la dispersión de los datos. Conocer el cuartil inferior y superior proporciona información sobre qué tan grande es la dispersión y si el conjunto de datos está sesgado hacia un lado. Dado que los cuartiles dividen el número de puntos de datos de manera uniforme, el rango generalmente no es el mismo entre cuartiles adyacentes (es decir, generalmente ( Q 3 - Q 2 ) ≠ ( Q 2 - Q 1 )). El rango intercuartil (RIC) se define como la diferencia entre los percentiles 75 y 25 o Q 3 - Q 1 . Si bien el máximo y el mínimo también muestran la dispersión de los datos, los cuartiles superior e inferior pueden proporcionar información más detallada sobre la ubicación de puntos de datos específicos, la presencia de valores atípicos en los datos y la diferencia en la dispersión entre el 50% medio de los datos y los puntos de datos externos. [2]
Para distribuciones discretas, no existe un acuerdo universal sobre la selección de los valores del cuartil. [3]
Esta regla se emplea en el diagrama de caja de la calculadora TI-83 y en las funciones "1-Var Stats".
Los valores encontrados por este método también se conocen como " bisagras de Tukey "; [4] véase también midhinge .
Si tenemos un conjunto de datos ordenado , entonces podemos interpolar entre puntos de datos para encontrar el cuartil empírico n .° si está en el cuartil. Si denotamos la parte entera de un número por , entonces la función cuartil empírica está dada por,
,
es el último punto de datos en el cuartil p , y es el primer punto de datos en el cuartil p +1.
mide dónde se encuentra el cuartil entre y . Si = 0 entonces el cuartil se encuentra exactamente en . Si = 0,5 entonces el cuartil se encuentra exactamente a mitad de camino entre y .
,
donde y . [1]
Para encontrar el primer, segundo y tercer cuartiles del conjunto de datos evaluaríamos , y respectivamente.
Conjunto de datos ordenados (de un número impar de puntos de datos): 6, 7, 15, 36, 39, 40 , 41, 42, 43, 47, 49.
El número en negrita (40) es la mediana que divide el conjunto de datos en dos mitades con el mismo número de puntos de datos.
Conjunto de datos ordenados (de un número par de puntos de datos): 7, 15, 36, 39 , 40, 41.
Los números en negrita (36, 39) se utilizan para calcular la mediana como su promedio. Como hay un número par de puntos de datos, los tres primeros métodos arrojan los mismos resultados. (El método 3 se ejecuta de manera que la mediana no se elija como un nuevo punto de datos y se inicia el método 1).
Si definimos una distribución de probabilidad continua como donde es una variable aleatoria de valor real , su función de distribución acumulativa (CDF) viene dada por
. [1]
La CDF da la probabilidad de que la variable aleatoria sea menor o igual al valor . Por lo tanto, el primer cuartil es el valor de cuando , el segundo cuartil es cuando y el tercer cuartil es cuando . [5] Los valores de se pueden encontrar con la función cuartil donde para el primer cuartil, para el segundo cuartil y para el tercer cuartil. La función cuartil es la inversa de la función de distribución acumulativa si la función de distribución acumulativa aumenta monótonamente porque se cumple la correspondencia uno a uno entre la entrada y la salida de la función de distribución acumulativa.
Existen métodos para comprobar los valores atípicos en la disciplina de la estadística y el análisis estadístico. Los valores atípicos pueden ser el resultado de un cambio en la ubicación (media) o en la escala (variabilidad) del proceso de interés. [6] Los valores atípicos también pueden ser evidencia de una población de muestra que tiene una distribución no normal o de un conjunto de datos de población contaminados. En consecuencia, como es la idea básica de la estadística descriptiva , cuando encontramos un valor atípico , tenemos que explicar este valor mediante un análisis adicional de la causa u origen del valor atípico. En casos de observaciones extremas, que no son una ocurrencia infrecuente, se deben analizar los valores típicos. El rango intercuartil (RIC), definido como la diferencia entre los cuartiles superior e inferior ( ), se puede utilizar para caracterizar los datos cuando puede haber extremidades que sesgan los datos; el rango intercuartil es una estadística relativamente robusta (también llamada a veces "resistencia") en comparación con el rango y la desviación estándar . También existe un método matemático para comprobar si hay valores atípicos y determinar "cercas", límites superior e inferior a partir de los cuales comprobar si hay valores atípicos.
Después de determinar el primer (inferior) y tercer (superior) cuartiles ( y respectivamente) y el rango intercuartil ( ) como se describe anteriormente, los límites se calculan utilizando la siguiente fórmula:
La cerca inferior es el "límite inferior" y la cerca superior es el "límite superior" de los datos, y cualquier dato que se encuentre fuera de estos límites definidos puede considerarse un valor atípico. Las cercas proporcionan una guía para definir un valor atípico , que puede definirse de otras maneras. Las cercas definen un "rango" fuera del cual existe un valor atípico; una forma de representar esto es un límite de una cerca. Es común que las cercas inferior y superior junto con los valores atípicos se representen mediante un diagrama de caja . Para el diagrama de caja que se muestra a la derecha, solo las alturas verticales corresponden al conjunto de datos visualizados, mientras que el ancho horizontal de la caja es irrelevante. Los valores atípicos ubicados fuera de las cercas en un diagrama de caja se pueden marcar con cualquier símbolo, como una "x" o una "o". Las cercas a veces también se denominan "bigotes", mientras que el gráfico visual completo se denomina diagrama de "caja y bigotes".
Al detectar un valor atípico en el conjunto de datos mediante el cálculo de los rangos intercuartiles y las características del diagrama de caja, puede ser fácil considerarlo erróneamente como evidencia de que la población no es normal o de que la muestra está contaminada. Sin embargo, este método no debe sustituir a una prueba de hipótesis para determinar la normalidad de la población. La significancia de los valores atípicos varía según el tamaño de la muestra. Si la muestra es pequeña, es más probable obtener rangos intercuartiles que no sean representativamente pequeños, lo que conduce a límites más estrechos. Por lo tanto, sería más probable encontrar datos que estén marcados como valores atípicos. [7]
La función de Excel CUARTIL.INC(matriz, cuarto de galón) proporciona el valor del cuartil deseado para una matriz de datos dada, utilizando el método 3 mencionado anteriormente. La función CUARTIL es una función heredada de Excel 2007 o anterior, que proporciona el mismo resultado que la función CUARTIL.INC . En la función, la matriz es el conjunto de datos de números que se está analizando y el cuarto de galón es cualquiera de los siguientes 5 valores, según el cuartil que se esté calculando. [8]
Para calcular cuartiles en Matlab, se puede utilizar la función quantile ( A , p ). Donde A es el vector de datos que se analiza y p es el porcentaje que se relaciona con los cuartiles como se indica a continuación. [9]