stringtranslate.com

Cuartilla

En estadística , los cuartiles son un tipo de cuantiles que dividen el número de puntos de datos en cuatro partes, o cuartos , de tamaño más o menos igual. Los datos deben ordenarse del más pequeño al más grande para calcular los cuartiles; como tal, los cuartiles son una forma de estadística de orden . Los tres cuartiles, que dan como resultado cuatro divisiones de datos, son los siguientes:

Junto con el mínimo y máximo de los datos (que también son cuartiles), los tres cuartiles descritos anteriormente proporcionan un resumen de cinco números de los datos. Este resumen es importante en estadística porque proporciona información sobre el centro y la dispersión de los datos. Conocer el cuartil inferior y superior proporciona información sobre qué tan grande es la dispersión y si el conjunto de datos está sesgado hacia un lado. Dado que los cuartiles dividen el número de puntos de datos de manera uniforme, el rango generalmente no es el mismo entre cuartiles adyacentes (es decir, generalmente ( Q 3 - Q 2 ) ≠ ( Q 2 - Q 1 )). El rango intercuartil (RIC) se define como la diferencia entre los percentiles 75 y 25 o Q 3 - Q 1 . Si bien el máximo y el mínimo también muestran la dispersión de los datos, los cuartiles superior e inferior pueden proporcionar información más detallada sobre la ubicación de puntos de datos específicos, la presencia de valores atípicos en los datos y la diferencia en la dispersión entre el 50% medio de los datos y los puntos de datos externos. [2]

Definiciones

Diagrama de caja (con cuartiles y un rango intercuartil ) y una función de densidad de probabilidad (pdf) de una población normal N(0,1σ 2 )

Métodos de cálculo

Distribuciones discretas

Para distribuciones discretas, no existe un acuerdo universal sobre la selección de los valores del cuartil. [3]

Método 1

  1. Utilice la mediana para dividir el conjunto de datos ordenados en dos mitades. La mediana se convierte en el segundo cuartil.
    • Si hay un número impar de puntos de datos en el conjunto de datos ordenado original, no incluya la mediana (el valor central en la lista ordenada) en ninguna de las mitades.
    • Si hay un número par de puntos de datos en el conjunto de datos ordenado original, divida este conjunto de datos exactamente a la mitad.
  2. El valor del cuartil inferior es la mediana de la mitad inferior de los datos. El valor del cuartil superior es la mediana de la mitad superior de los datos.

Esta regla se emplea en el diagrama de caja de la calculadora TI-83 y en las funciones "1-Var Stats".

Método 2

  1. Utilice la mediana para dividir el conjunto de datos ordenados en dos mitades. La mediana se convierte en el segundo cuartil.
    • Si hay un número impar de puntos de datos en el conjunto de datos ordenado original, incluya la mediana (el valor central en la lista ordenada) en ambas mitades.
    • Si hay un número par de puntos de datos en el conjunto de datos ordenado original, divida este conjunto de datos exactamente a la mitad.
  2. El valor del cuartil inferior es la mediana de la mitad inferior de los datos. El valor del cuartil superior es la mediana de la mitad superior de los datos.

Los valores encontrados por este método también se conocen como " bisagras de Tukey "; [4] véase también midhinge .

Método 3

  1. Utilice la mediana para dividir el conjunto de datos ordenados en dos mitades. La mediana se convierte en el segundo cuartil.
    • Si hay un número impar de puntos de datos, pase al siguiente paso.
    • Si hay un número par de puntos de datos, entonces el Método 3 comienza de la misma manera que el Método 1 o el Método 2 anteriores y usted puede elegir incluir o no la mediana como un nuevo punto de datos. Si elige incluir la mediana como el nuevo punto de datos, entonces proceda al paso 2 o 3 a continuación porque ahora tiene un número impar de puntos de datos. Si no elige la mediana como el nuevo punto de datos, entonces continúe con el Método 1 o 2 donde ha comenzado.
  2. Si hay (4 n + 1) puntos de datos, entonces el cuartil inferior es el 25% del n- ésimo valor de datos más el 75% del ( n + 1)-ésimo valor de datos; el cuartil superior es el 75% del (3 n + 1)-ésimo punto de datos más el 25% del (3 n + 2)-ésimo punto de datos.
  3. Si hay (4 n + 3) puntos de datos, entonces el cuartil inferior es el 75 % del valor de datos ( n + 1) más el 25 % del valor de datos ( n + 2); el cuartil superior es el 25 % del punto de datos (3 n + 2) más el 75 % del punto de datos (3 n + 3).

Método 4

Si tenemos un conjunto de datos ordenado , entonces podemos interpolar entre puntos de datos para encontrar el cuartil empírico n .° si está en el cuartil. Si denotamos la parte entera de un número por , entonces la función cuartil empírica está dada por,

,

es el último punto de datos en el cuartil p , y es el primer punto de datos en el cuartil p +1.

mide dónde se encuentra el cuartil entre y . Si = 0 entonces el cuartil se encuentra exactamente en . Si = 0,5 entonces el cuartil se encuentra exactamente a mitad de camino entre y .

,

donde y . [1]

Para encontrar el primer, segundo y tercer cuartiles del conjunto de datos evaluaríamos , y respectivamente.

Ejemplo 1

Conjunto de datos ordenados (de un número impar de puntos de datos): 6, 7, 15, 36, 39, 40 , 41, 42, 43, 47, 49.

El número en negrita (40) es la mediana que divide el conjunto de datos en dos mitades con el mismo número de puntos de datos.

Ejemplo 2

Conjunto de datos ordenados (de un número par de puntos de datos): 7, 15, 36, 39 , 40, 41.

Los números en negrita (36, 39) se utilizan para calcular la mediana como su promedio. Como hay un número par de puntos de datos, los tres primeros métodos arrojan los mismos resultados. (El método 3 se ejecuta de manera que la mediana no se elija como un nuevo punto de datos y se inicia el método 1).

Distribuciones de probabilidad continua

Cuartiles de una función de distribución acumulativa de una distribución normal

Si definimos una distribución de probabilidad continua como donde es una variable aleatoria de valor real , su función de distribución acumulativa (CDF) viene dada por

. [1]

La CDF da la probabilidad de que la variable aleatoria sea menor o igual al valor . Por lo tanto, el primer cuartil es el valor de cuando , el segundo cuartil es cuando y el tercer cuartil es cuando . [5] Los valores de se pueden encontrar con la función cuartil donde para el primer cuartil, para el segundo cuartil y para el tercer cuartil. La función cuartil es la inversa de la función de distribución acumulativa si la función de distribución acumulativa aumenta monótonamente porque se cumple la correspondencia uno a uno entre la entrada y la salida de la función de distribución acumulativa.

Valores atípicos

Existen métodos para comprobar los valores atípicos en la disciplina de la estadística y el análisis estadístico. Los valores atípicos pueden ser el resultado de un cambio en la ubicación (media) o en la escala (variabilidad) del proceso de interés. [6] Los valores atípicos también pueden ser evidencia de una población de muestra que tiene una distribución no normal o de un conjunto de datos de población contaminados. En consecuencia, como es la idea básica de la estadística descriptiva , cuando encontramos un valor atípico , tenemos que explicar este valor mediante un análisis adicional de la causa u origen del valor atípico. En casos de observaciones extremas, que no son una ocurrencia infrecuente, se deben analizar los valores típicos. El rango intercuartil (RIC), definido como la diferencia entre los cuartiles superior e inferior ( ), se puede utilizar para caracterizar los datos cuando puede haber extremidades que sesgan los datos; el rango intercuartil es una estadística relativamente robusta (también llamada a veces "resistencia") en comparación con el rango y la desviación estándar . También existe un método matemático para comprobar si hay valores atípicos y determinar "cercas", límites superior e inferior a partir de los cuales comprobar si hay valores atípicos.

Después de determinar el primer (inferior) y tercer (superior) cuartiles ( y respectivamente) y el rango intercuartil ( ) como se describe anteriormente, los límites se calculan utilizando la siguiente fórmula:

Diagrama de caja con valores atípicos

La cerca inferior es el "límite inferior" y la cerca superior es el "límite superior" de los datos, y cualquier dato que se encuentre fuera de estos límites definidos puede considerarse un valor atípico. Las cercas proporcionan una guía para definir un valor atípico , que puede definirse de otras maneras. Las cercas definen un "rango" fuera del cual existe un valor atípico; una forma de representar esto es un límite de una cerca. Es común que las cercas inferior y superior junto con los valores atípicos se representen mediante un diagrama de caja . Para el diagrama de caja que se muestra a la derecha, solo las alturas verticales corresponden al conjunto de datos visualizados, mientras que el ancho horizontal de la caja es irrelevante. Los valores atípicos ubicados fuera de las cercas en un diagrama de caja se pueden marcar con cualquier símbolo, como una "x" o una "o". Las cercas a veces también se denominan "bigotes", mientras que el gráfico visual completo se denomina diagrama de "caja y bigotes".

Al detectar un valor atípico en el conjunto de datos mediante el cálculo de los rangos intercuartiles y las características del diagrama de caja, puede ser fácil considerarlo erróneamente como evidencia de que la población no es normal o de que la muestra está contaminada. Sin embargo, este método no debe sustituir a una prueba de hipótesis para determinar la normalidad de la población. La significancia de los valores atípicos varía según el tamaño de la muestra. Si la muestra es pequeña, es más probable obtener rangos intercuartiles que no sean representativamente pequeños, lo que conduce a límites más estrechos. Por lo tanto, sería más probable encontrar datos que estén marcados como valores atípicos. [7]

Software informático para cuartiles

Sobresalir

La función de Excel CUARTIL.INC(matriz, cuarto de galón) proporciona el valor del cuartil deseado para una matriz de datos dada, utilizando el método 3 mencionado anteriormente. La función CUARTIL es una función heredada de Excel 2007 o anterior, que proporciona el mismo resultado que la función CUARTIL.INC . En la función, la matriz es el conjunto de datos de números que se está analizando y el cuarto de galón es cualquiera de los siguientes 5 valores, según el cuartil que se esté calculando. [8]

MATLAB

Para calcular cuartiles en Matlab, se puede utilizar la función quantile ( A , p ). Donde A es el vector de datos que se analiza y p es el porcentaje que se relaciona con los cuartiles como se indica a continuación. [9]

Véase también

Referencias

  1. ^ abc Dekking, Michel (2005). Una introducción moderna a la probabilidad y la estadística: entender por qué y cómo . Londres: Springer. pp. 236-238. ISBN 978-1-85233-896-1.OCLC 262680588  .
  2. ^ Knoch, Jessica (23 de febrero de 2018). «¿Cómo se utilizan los cuartiles en estadística?». Magoosh . Archivado desde el original el 10 de diciembre de 2019. Consultado el 24 de febrero de 2023 .
  3. ^ Hyndman, Rob J ; Fan, Yanan (noviembre de 1996). "Cuantiles de muestra en paquetes estadísticos". American Statistician . 50 (4): 361–365. doi :10.2307/2684934. JSTOR  2684934.
  4. ^ Tukey, John Wilder (1977). Análisis exploratorio de datos . ISBN 978-0-201-07616-5.
  5. ^ "6. Distribución y funciones cuantiles" (PDF) . math.bme.hu .
  6. ^ Walfish, Steven (noviembre de 2006). "Una revisión del método estadístico de valores atípicos". Tecnología farmacéutica .
  7. ^ Dawson, Robert (1 de julio de 2011). "¿Qué importancia tiene un valor atípico en un diagrama de caja?". Journal of Statistics Education . 19 (2). doi : 10.1080/10691898.2011.11889610 .
  8. ^ "Cómo utilizar la función CUARTIL de Excel | Exceljet". exceljet.net . Consultado el 11 de diciembre de 2019 .
  9. ^ "Cuantiles de un conjunto de datos – MATLAB quantile" (Cuantiles de un conjunto de datos – MATLAB quantile). www.mathworks.com . Consultado el 11 de diciembre de 2019 .

Enlaces externos