stringtranslate.com

Cuartilla

En estadística , los cuartiles son un tipo de cuantiles que dividen el número de puntos de datos en cuatro partes, o cuartos , de tamaño más o menos igual. Los datos deben ordenarse de menor a mayor para calcular los cuartiles; como tal, los cuartiles son una forma de estadística de orden . Los tres cuartiles, que dan como resultado cuatro divisiones de datos, son los siguientes:

Junto con el mínimo y el máximo de los datos (que también son cuartiles), los tres cuartiles descritos anteriormente proporcionan un resumen de cinco números de los datos. Este resumen es importante en estadística porque proporciona información tanto sobre el centro como sobre la dispersión de los datos. Conocer el cuartil superior e inferior proporciona información sobre el tamaño del diferencial y si el conjunto de datos está sesgado hacia un lado. Dado que los cuartiles dividen el número de puntos de datos de manera uniforme, el rango generalmente no es el mismo entre cuartiles adyacentes (es decir, generalmente ( Q 3 - Q 2 ) ≠ ( Q 2 - Q 1 )). El rango intercuartil (IQR) se define como la diferencia entre los percentiles 75 y 25 o Q 3 - Q 1 . Si bien el máximo y el mínimo también muestran la dispersión de los datos, los cuartiles superior e inferior pueden proporcionar información más detallada sobre la ubicación de puntos de datos específicos, la presencia de valores atípicos en los datos y la diferencia en la dispersión entre el 50% medio de los datos. los datos y los puntos de datos externos. [2]

Definiciones

Diagrama de caja (con cuartiles y rango intercuartil ) y función de densidad de probabilidad (pdf) de una población normal N(0,1σ 2 )

Métodos de computación

Distribuciones discretas

Para distribuciones discretas, no existe un acuerdo universal sobre la selección de los valores de los cuartiles. [3]

Método 1

  1. Utilice la mediana para dividir el conjunto de datos ordenados en dos mitades. La mediana se convierte en los segundos cuartiles.
    • Si hay un número impar de puntos de datos en el conjunto de datos ordenados original, no incluya la mediana (el valor central en la lista ordenada) en ninguna de las mitades.
    • Si hay un número par de puntos de datos en el conjunto de datos ordenado original, divida este conjunto de datos exactamente por la mitad.
  2. El valor del cuartil inferior es la mediana de la mitad inferior de los datos. El valor del cuartil superior es la mediana de la mitad superior de los datos.

Esta regla la emplean el diagrama de caja de la calculadora TI-83 y las funciones "Estadísticas de 1 var".

Método 2

  1. Utilice la mediana para dividir el conjunto de datos ordenados en dos mitades. La mediana se convierte en los segundos cuartiles.
    • Si hay un número impar de puntos de datos en el conjunto de datos ordenados original, incluya la mediana (el valor central en la lista ordenada) en ambas mitades.
    • Si hay un número par de puntos de datos en el conjunto de datos ordenado original, divida este conjunto de datos exactamente por la mitad.
  2. El valor del cuartil inferior es la mediana de la mitad inferior de los datos. El valor del cuartil superior es la mediana de la mitad superior de los datos.

Los valores encontrados por este método también se conocen como " bisagras de Tukey "; [4] ver también bisagra media .

Método 3

  1. Utilice la mediana para dividir el conjunto de datos ordenados en dos mitades. La mediana se convierte en los segundos cuartiles.
    1. Si hay un número impar de puntos de datos, vaya al siguiente paso.
    2. Si hay números pares de puntos de datos, entonces el Método 3 comienza igual que el Método 1 o el Método 2 anteriores y puede optar por incluir o no la mediana como un nuevo punto de datos. Si elige incluir la mediana como el nuevo punto de datos, continúe con el paso 2 o 3 a continuación porque ahora tiene un número impar de puntos de datos. Si no elige la mediana como nuevo punto de datos, continúe con el Método 1 o 2 donde comenzó.
  2. Si hay (4 n +1) puntos de datos, entonces el cuartil inferior es el 25% del enésimo valor de datos más el 75% del ( n +1)ésimo valor de datos; el cuartil superior es el 75 % del punto de datos (3 n +1) más el 25 % del punto de datos (3 n +2).
  3. Si hay (4 n +3) puntos de datos, entonces el cuartil inferior es el 75% del ( n +1)ésimo valor de datos más el 25% del ( n +2)ésimo valor de datos; el cuartil superior es el 25 % del punto de datos (3 n +2) más el 75 % del punto de datos (3 n +3).

Método 4

Si tenemos un conjunto de datos ordenado , entonces podemos interpolar entre puntos de datos para encontrar el tercer cuantil empírico si está en el cuantil. Si denotamos la parte entera de un número por , entonces la función cuantil empírica viene dada por,

,

dónde y . [1]

Para encontrar el primer, segundo y tercer cuartil del conjunto de datos evaluaríamos , y respectivamente.

Ejemplo 1

Conjunto de datos ordenados (de un número impar de puntos de datos): 6, 7, 15, 36, 39, 40 , 41, 42, 43, 47, 49.

El número en negrita (40) es la mediana que divide el conjunto de datos en dos mitades con el mismo número de puntos de datos.

Ejemplo 2

Conjunto de datos ordenados (de un número par de puntos de datos): 7, 15, 36, 39 , 40, 41.

Los números en negrita (36, 39) se utilizan para calcular la mediana como promedio. Como hay un número par de puntos de datos, los primeros tres métodos dan los mismos resultados. (El Método 3 se ejecuta de manera que no se elija la mediana como un nuevo punto de datos y se inicie el Método 1).

Distribuciones de probabilidad continua

Cuartiles en una función de distribución acumulativa de una distribución normal

Si definimos distribuciones de probabilidad continuas como donde hay una variable aleatoria de valor real , su función de distribución acumulativa (CDF) viene dada por

. [1]

La CDF da la probabilidad de que la variable aleatoria sea menor o igual al valor . Por lo tanto, el primer cuartil es el valor de cuando , el segundo cuartil es cuando y el tercer cuartil es cuando . [5] Los valores de se pueden encontrar con la función cuantil donde para el primer cuartil, para el segundo cuartil y para el tercer cuartil. La función cuantil es la inversa de la función de distribución acumulativa si la función de distribución acumulativa aumenta monótonamente porque se mantiene la correspondencia uno a uno entre la entrada y la salida de la función de distribución acumulativa.

Valores atípicos

Existen métodos para comprobar si hay valores atípicos en la disciplina de la estadística y el análisis estadístico. Los valores atípicos podrían ser el resultado de un cambio en la ubicación (media) o en la escala (variabilidad) del proceso de interés. [6] Los valores atípicos también podrían ser evidencia de una población de muestra que tiene una distribución no normal o de un conjunto de datos de población contaminados. En consecuencia, como es la idea básica de la estadística descriptiva , cuando encontramos un valor atípico , tenemos que explicar este valor mediante un análisis más detallado de la causa u origen del valor atípico. En casos de observaciones extremas, que no son infrecuentes, se deben analizar los valores típicos. El Rango Intercuartil (RIC), definido como la diferencia entre los cuartiles superior e inferior ( ), se puede utilizar para caracterizar los datos cuando puede haber extremos que sesguen los datos; El rango intercuartil es una estadística relativamente sólida (a veces también llamada "resistencia") en comparación con el rango y la desviación estándar . También existe un método matemático para comprobar si hay valores atípicos y determinar "vallas", límites superior e inferior a partir de los cuales comprobar si hay valores atípicos.

Después de determinar el primer (inferior) y el tercer (superior) cuartil ( y respectivamente) y el rango intercuartil ( ) como se describió anteriormente, las barreras se calculan utilizando la siguiente fórmula:

Diagrama de caja con valores atípicos

El límite inferior es el "límite inferior" y el límite superior es el "límite superior" de datos, y cualquier dato que se encuentre fuera de estos límites definidos puede considerarse un valor atípico. Las barreras proporcionan una guía para definir un valor atípico , que puede definirse de otras maneras. Las barreras definen un "rango" fuera del cual existe un valor atípico; una forma de imaginar esto es el límite de una valla. Es común que los límites inferior y superior junto con los valores atípicos se representen mediante un diagrama de caja . Para el diagrama de caja que se muestra a la derecha, solo las alturas verticales corresponden al conjunto de datos visualizados, mientras que el ancho horizontal del cuadro es irrelevante. Los valores atípicos ubicados fuera de las barreras en un diagrama de caja se pueden marcar con cualquier símbolo elegido, como una "x" o una "o". Las vallas a veces también se denominan "bigotes", mientras que toda la trama visual se denomina trama de "caja y bigotes".

Al detectar un valor atípico en el conjunto de datos mediante el cálculo de los rangos intercuartílicos y las características del diagrama de caja, puede ser fácil verlo erróneamente como evidencia de que la población no es normal o que la muestra está contaminada. Sin embargo, este método no debe sustituir una prueba de hipótesis para determinar la normalidad de la población. La importancia de los valores atípicos varía según el tamaño de la muestra. Si la muestra es pequeña, entonces es más probable obtener rangos intercuartílicos que no sean representativamente pequeños, lo que lleva a límites más estrechos. Por lo tanto, sería más probable encontrar datos marcados como valores atípicos. [7]

Software informático para cuartiles

Sobresalir

La función de Excel CUARTIL(matriz, cuarto) proporciona el valor de cuartil deseado para una matriz de datos determinada, utilizando el Método 3 anterior. En la función CUARTIL (una función heredada de Excel 2007 o anterior, que proporciona el mismo resultado de la función CUARTIL.INC ), matriz es el conjunto de datos de números que se está analizando y cuarto es cualquiera de los siguientes 5 valores, dependiendo de qué cuartil sea siendo calculado. [8]

MATLAB

Para calcular cuartiles en Matlab, se puede utilizar la función cuantil ( A , p ). Donde A es el vector de datos que se analizan y p es el porcentaje que se relaciona con los cuartiles como se indica a continuación. [9]

Ver también

Referencias

  1. ^ abcDekking, Michel (2005). Una introducción moderna a la probabilidad y la estadística: comprender por qué y cómo . Londres: Springer. págs. 236-238. ISBN 978-1-85233-896-1. OCLC  262680588.
  2. ^ Knoch, Jessica (23 de febrero de 2018). "¿Cómo se utilizan los cuartiles en estadística?". Magoosh . Archivado desde el original el 10 de diciembre de 2019 . Consultado el 24 de febrero de 2023 .
  3. ^ Hyndman, Rob J ; Fan, Yanan (noviembre de 1996). "Cuantiles de muestra en paquetes estadísticos". Estadístico estadounidense . 50 (4): 361–365. doi :10.2307/2684934. JSTOR  2684934.
  4. ^ Tukey, John Wilder (1977). Análisis exploratorio de datos . ISBN 978-0-201-07616-5.
  5. ^ "6. Funciones cuantiles y de distribución" (PDF) . math.bme.hu. _
  6. ^ Walfish, Steven (noviembre de 2006). "Una revisión del método estadístico de valores atípicos". Tecnología Farmacéutica .
  7. ^ Dawson, Robert (1 de julio de 2011). "¿Qué importancia tiene un valor atípico en un diagrama de caja?". Revista de Educación Estadística . 19 (2). doi : 10.1080/10691898.2011.11889610 .
  8. ^ "Cómo utilizar la función CUARTIL de Excel | Exceljet". exceljet.net . Consultado el 11 de diciembre de 2019 .
  9. ^ "Cuantiles de un conjunto de datos - cuantil de MATLAB". www.mathworks.com . Consultado el 11 de diciembre de 2019 .

enlaces externos