Diagrama Q-Q

En estadística, un gráfico Q-Q ( gráfico cuantil-cuantil ) es un gráfico de probabilidad, un método gráfico para comparar dos distribuciones de probabilidad al representar gráficamente sus cuantiles entre sí. ^[1] Un punto $(x, y)$ en el gráfico corresponde a uno de los cuantiles de la segunda distribución ( coordenada $y$ ) representado gráficamente contra el mismo cuantil de la primera distribución ( coordenada $x$ ). Esto define una curva paramétrica donde el parámetro es el índice del intervalo cuantil.

Si las dos distribuciones que se comparan son similares, los puntos del gráfico Q-Q se ubicarán aproximadamente en la línea de identidad $y = x$ . Si las distribuciones están relacionadas linealmente, los puntos del gráfico Q-Q se ubicarán aproximadamente en una línea, pero no necesariamente en la línea $y = x$ . Los gráficos Q-Q también se pueden utilizar como un medio gráfico para estimar parámetros en una familia de distribuciones de escala de ubicación .

El gráfico AQ-Q se utiliza para comparar las formas de las distribuciones, proporcionando una vista gráfica de cómo las propiedades como la ubicación , la escala y la asimetría son similares o diferentes en las dos distribuciones. Los gráficos Q-Q se pueden utilizar para comparar conjuntos de datos o distribuciones teóricas . El uso de gráficos Q-Q para comparar dos muestras de datos puede verse como un enfoque no paramétrico para comparar sus distribuciones subyacentes. El gráfico AQ-Q es generalmente más diagnóstico que comparar los histogramas de las muestras , pero es menos conocido. Los gráficos Q-Q se utilizan comúnmente para comparar un conjunto de datos con un modelo teórico. ^[2]^[3] Esto puede proporcionar una evaluación de la bondad del ajuste que es gráfica, en lugar de reducirse a una estadística de resumen numérica . Los gráficos Q-Q también se utilizan para comparar dos distribuciones teóricas entre sí. ^[4] Dado que los gráficos Q–Q comparan distribuciones, no es necesario que los valores se observen como pares, como en un gráfico de dispersión , o incluso que los números de valores en los dos grupos que se comparan sean iguales.

El término "gráfico de probabilidad" a veces se refiere específicamente a un gráfico Q-Q, a veces a una clase más general de gráficos y, a veces, al gráfico P-P , menos comúnmente utilizado . El gráfico de coeficiente de correlación del gráfico de probabilidad (gráfico PPCC) es una cantidad derivada de la idea de los gráficos Q-Q, que mide la concordancia de una distribución ajustada con los datos observados y que a veces se utiliza como un medio para ajustar una distribución a los datos.

Definición y construcción

Un gráfico Q-Q es un gráfico de los cuantiles de dos distribuciones entre sí, o un gráfico basado en estimaciones de los cuantiles. El patrón de puntos del gráfico se utiliza para comparar las dos distribuciones.

El paso principal para construir un gráfico Q-Q es calcular o estimar los cuantiles que se van a representar gráficamente. Si uno o ambos ejes de un gráfico Q-Q se basan en una distribución teórica con una función de distribución acumulativa (CDF) continua, todos los cuantiles están definidos de forma única y se pueden obtener invirtiendo la CDF. Si una de las dos distribuciones que se comparan es una distribución de probabilidad teórica con una CDF discontinua, es posible que algunos de los cuantiles no estén definidos, por lo que se puede representar gráficamente un cuantil interpolado. Si el gráfico Q-Q se basa en datos, se utilizan múltiples estimadores de cuantiles. Las reglas para formar gráficos Q-Q cuando se deben estimar o interpolar cuantiles se denominan posiciones de representación gráfica.

Un caso sencillo es el de dos conjuntos de datos del mismo tamaño. En ese caso, para hacer el gráfico Q-Q, se ordena cada conjunto en orden creciente, luego se emparejan y se grafican los valores correspondientes. Una construcción más complicada es el caso en el que se comparan dos conjuntos de datos de diferentes tamaños. Para construir el gráfico Q-Q en este caso, es necesario utilizar una estimación de cuantiles interpolada para que se puedan construir los cuantiles correspondientes a la misma probabilidad subyacente.

De manera más abstracta, ^[4] dadas dos funciones de distribución de probabilidad acumulativa $F$ y $G$ , con funciones cuantiles asociadas $F -1$ y $G -1$ (la función inversa de la CDF es la función cuantil), el gráfico Q–Q dibuja el $q$ -ésimo cuantil de $F$ contra el $q$ -ésimo cuantil de $G$ para un rango de valores de $q$ . Por lo tanto, el gráfico Q–Q es una curva paramétrica indexada sobre [0,1] con valores en el plano real $R 2$ .

Interpretación

Los puntos trazados en un gráfico Q-Q siempre son no decrecientes cuando se observan de izquierda a derecha. Si las dos distribuciones que se comparan son idénticas, el gráfico Q-Q sigue la línea de 45° $y = x$ . Si las dos distribuciones concuerdan después de transformar linealmente los valores en una de las distribuciones, entonces el gráfico Q-Q sigue alguna línea, pero no necesariamente la línea $y = x$ . Si la tendencia general del gráfico Q-Q es más plana que la línea $y = x$ , la distribución trazada en el eje horizontal es más dispersa que la distribución trazada en el eje vertical. Por el contrario, si la tendencia general del gráfico Q-Q es más pronunciada que la línea $y = x$ , la distribución trazada en el eje vertical es más dispersa que la distribución trazada en el eje horizontal. Los gráficos Q-Q a menudo tienen forma de arco o de S, lo que indica que una de las distribuciones está más sesgada que la otra, o que una de las distribuciones tiene colas más pesadas que la otra.

Aunque un gráfico Q-Q se basa en cuantiles, en un gráfico Q-Q estándar no es posible determinar qué punto del gráfico Q-Q determina un cuantil determinado. Por ejemplo, no es posible determinar la mediana de ninguna de las dos distribuciones que se comparan inspeccionando el gráfico Q-Q. Algunos gráficos Q-Q indican los deciles para que sea posible realizar determinaciones como esta.

La intersección y la pendiente de una regresión lineal entre los cuantiles dan una medida de la ubicación relativa y la escala relativa de las muestras. Si la mediana de la distribución representada en el eje horizontal es 0, la intersección de una línea de regresión es una medida de ubicación y la pendiente es una medida de escala. La distancia entre las medianas es otra medida de ubicación relativa reflejada en un gráfico Q-Q. El " coeficiente de correlación del gráfico de probabilidad " (gráfico PPCC) es el coeficiente de correlación entre los cuantiles de muestra pareados. Cuanto más cercano sea el coeficiente de correlación a uno, más cerca estarán las distribuciones de ser versiones desplazadas y escaladas unas de otras. Para distribuciones con un único parámetro de forma, el gráfico del coeficiente de correlación del gráfico de probabilidad proporciona un método para estimar el parámetro de forma: uno simplemente calcula el coeficiente de correlación para diferentes valores del parámetro de forma y utiliza el que tenga el mejor ajuste, tal como si estuviera comparando distribuciones de diferentes tipos.

Otro uso común de los gráficos Q-Q es comparar la distribución de una muestra con una distribución teórica, como la distribución normal estándar $N (0,1)$ , como en un gráfico de probabilidad normal . Como en el caso de la comparación de dos muestras de datos, se ordenan los datos (formalmente, se calculan las estadísticas de orden) y luego se los grafica en relación con ciertos cuartiles de la distribución teórica. ^[3]

Trazando posiciones

La elección de cuantiles de una distribución teórica puede depender del contexto y el propósito. Una opción, dada una muestra de tamaño $n$ , es $k / n$ para $k = 1, \dots, n$ , ya que estos son los cuantiles que la distribución de muestreo realiza. El último de estos, $n / n$ , corresponde al percentil 100, el valor máximo de la distribución teórica, que a veces es infinito. Otras opciones son el uso de $(k - 0,5) / n$ , o en cambio espaciar los $n$ puntos de manera que haya una distancia igual entre todos ellos y también entre los dos puntos más externos y los bordes del intervalo, utilizando $k$ $/ ($ $n$ $+ 1)$ . ^[6] ${\estilo de visualización [0,1]}$

Se han sugerido muchas otras opciones, tanto formales como heurísticas, basadas en teorías o simulaciones relevantes en el contexto. Las siguientes subsecciones analizan algunas de ellas. Una cuestión más específica es la elección de un máximo (estimación de un máximo de población), conocido como el problema del tanque alemán , para el que existen soluciones similares de "máximo de muestra, más un espacio", la más simple $m + m / n - 1$ . Una aplicación más formal de esta uniformización del espaciamiento ocurre en la estimación del espaciamiento máximo de los parámetros.

Valor esperado del estadístico de orden para una distribución uniforme

El enfoque $k /(n +1)$ equivale al de trazar los puntos según la probabilidad de que el último de los ( $n +1$ ) valores extraídos aleatoriamente no exceda el $k$ -ésimo más pequeño de los primeros $n$ valores extraídos aleatoriamente. ^[7]^[8]

Valor esperado del estadístico de orden para una distribución normal estándar

Al utilizar un gráfico de probabilidad normal , los cuantiles que se utilizan son los rankits , el cuantil del valor esperado de la estadística de orden de una distribución normal estándar.

De manera más general, la prueba de Shapiro-Wilk utiliza los valores esperados de las estadísticas de orden de la distribución dada; el gráfico y la línea resultantes producen la estimación de mínimos cuadrados generalizados para la ubicación y la escala (a partir de la intersección y la pendiente de la línea ajustada). ^[9] Aunque esto no es demasiado importante para la distribución normal (la ubicación y la escala se estiman mediante la media y la desviación estándar, respectivamente), puede ser útil para muchas otras distribuciones.

Sin embargo, esto requiere calcular los valores esperados de la estadística de orden, lo que puede ser difícil si la distribución no es normal.

Mediana de las estadísticas de pedidos

Como alternativa, se pueden utilizar estimaciones de la mediana de las estadísticas de orden, que se pueden calcular en base a estimaciones de la mediana de las estadísticas de orden de una distribución uniforme y la función cuantil de la distribución; esto fue sugerido por Filliben (1975). ^[9]

Esto se puede generar fácilmente para cualquier distribución para la cual se pueda calcular la función cuantil, pero, a la inversa, las estimaciones resultantes de ubicación y escala ya no son precisamente las estimaciones de mínimos cuadrados, aunque estas solo difieren significativamente para $n$ pequeños.

Heurística

Se han utilizado o propuesto varias fórmulas diferentes para representar posiciones simétricas afines . Dichas fórmulas tienen la forma $($ $k$ $-$ $a$ $) / ($ $n$ $+ 1 - 2$ $a$ $)$ para algún valor de $a$ en el rango de 0 a 1, lo que da un rango entre $k$ $/ ($ $n$ $+ 1)$ y $($ $k$ $- 1) / ($ $n$ $- 1)$ .

Las expresiones incluyen:

$k /(n +1)$
$(k - 0,3) / (n + 0,4)$ . ^[10]
$(k - 0,3175) / (n + 0,365)$ . ^[11]^{[nota 1]}
$(k - 0,326) / (n + 0,348)$ . ^[12]
$(k - ⅓) / (n + ⅓)$ . ^{[nota 2]}
$(k - 0,375) / (n + 0,25)$ . ^{[nota 3]}
$(k - 0,4) / (n + 0,2)$ . ^[13]
$(k - 0,44) / (n + 0,12)$ . ^{[nota 4]}
$(k - 0,5) / n$ . ^[15]
$(k - 0,567) / (n - 0,134)$ . ^[16]
$(k - 1) / (n - 1)$ . ^{[nota 5]}

Para un tamaño de muestra grande, $n$ , hay poca diferencia entre estas diversas expresiones.

Estimación de Filliben

Las medianas de los estadísticos de orden son las medianas de los estadísticos de orden de la distribución. Se pueden expresar en términos de la función cuantil y las medianas de los estadísticos de orden para la distribución uniforme continua mediante:

N(i)=G(U(i))

donde $U (i)$ son las medianas de los estadísticos de orden uniforme y $G$ es la función cuantil para la distribución deseada. La función cuantil es la inversa de la función de distribución acumulativa (probabilidad de que $X$ sea menor o igual a algún valor). Es decir, dada una probabilidad, queremos el cuantil correspondiente de la función de distribución acumulativa.

James J. Filliben utiliza las siguientes estimaciones para las medianas de la estadística de orden uniforme: ^[17]

m(i)={\begin{cases}1-0,5^{1/n}&i=1\\\\{\dfrac {i-0,3175}{n+0,365}}&i=2,3,\ldots ,n-1\\\\0,5^{1/n}&i=n.\end{cases}}

La razón de esta estimación es que las medianas de la estadística de orden no tienen una forma simple.

Software

El lenguaje de programación R incluye funciones para crear gráficos Q-Q, a saber, qqnorm y qqplot, que están incluidas en el statspaquete. El fastqqpaquete permite realizar gráficos más rápidos para una gran cantidad de puntos de datos.

Véase también

Función de distribución empírica
El análisis probit fue desarrollado por Chester Ittner Bliss en 1934.

Notas

^ Nótese que esto también utiliza una expresión diferente para el primer y último punto. [1] cita el trabajo original de Filliben (1975). Esta expresión es una estimación de las medianas de $U (k)$ .
^ Una fórmula simple (y fácil de recordar) para trazar posiciones; utilizada en el paquete estadístico BMDP .
^ Esta es la aproximación anterior de Blom (1958) y es la expresión utilizada en MINITAB .
^ Esta posición de trazado fue utilizada por Irving I. Gringorten ^[14] para trazar puntos en pruebas para la distribución de Gumbel .
^ Utilizados por Filliben (1975), estos puntos de trazado son iguales a los modos de $U (k)$ .

Referencias

Citas

^ Wilk, MB; Gnanadesikan, R. (1968), "Métodos de representación gráfica de probabilidad para el análisis de datos", Biometrika , 55 (1), Biometrika Trust: 1–17, doi : 10.1093/biomet/55.1.1, JSTOR 2334448, PMID 5661047.
^ Gnanadesikan (1977), pág. 199.
^ ab Thode (2002), Sección 2.2.2, Gráficos cuantil-cuantil, pág. 21
^ ab Gibbons y Chakraborti (2003), pág. 144
^ "SR 20 – North Cascades Highway – Opening and Closing History" (Historial de apertura y cierre de la SR 20 – North Cascades Highway). North Cascades Passes (Pases de North Cascades ). Departamento de Transporte del Estado de Washington. Octubre de 2009. Consultado el 8 de febrero de 2009 .
^ Weibull, Waloddi (1939), "La teoría estadística de la resistencia de los materiales", IVA Handlingar, Real Academia Sueca de Ciencias de la Ingeniería (151)
^ Madsen, HO; et al. (1986), Métodos de seguridad estructural
^ Makkonen, L. (2008), "Cerrando la controversia sobre la posición de los gráficos", Communications in Statistics – Theory and Methods , 37 (3): 460–467, doi :10.1080/03610920701653094, S2CID 122822135
^ ab Pruebas de normalidad, por Henry C. Thode, CRC Press, 2002, ISBN 978-0-8247-9613-6 , pág. 31
^ Benard, A.; Bos-Levenbach, EC (septiembre de 1953). "El trazado de observaciones en papel de probabilidad". Statistica Neerlandica (en holandés). 7 : 163–173. doi :10.1111/j.1467-9574.1953.tb00821.x.
^ "1.3.3.21. Diagrama de probabilidad normal". itl.nist.gov . Consultado el 16 de febrero de 2022 .
^ Posición de trazado de distribución libre, Yu & Huang
^ Cunnane (1978).
^ Gringorten, Irving I. (1963). "Una regla de representación gráfica para un artículo de probabilidad extrema". Revista de investigación geofísica . 68 (3): 813–814. Código Bibliográfico :1963JGR....68..813G. doi :10.1029/JZ068i003p00813. ISSN 2156-2202.
↑ Hazen, Allen (1914), "Almacenamiento que debe proporcionarse en los embalses de contención para el suministro de agua municipal", Transactions of the American Society of Civil Engineers (77): 1547–1550
^ Larsen, Curran y Hunt (1980).
^ Filliben (1975).

Fuentes

Este artículo incorpora material de dominio público del Instituto Nacional de Estándares y Tecnología.
Blom, G. (1958), Estimaciones estadísticas y variables beta transformadas , Nueva York: John Wiley and Sons
Chambers, John; Cleveland, William; Kleiner, Beat; Tukey, Paul (1983), Métodos gráficos para el análisis de datos , Wadsworth
Cleveland, WS (1994) Los elementos de la representación gráfica de datos , Hobart Press ISBN 0-9634884-1-4
Filliben, JJ (febrero de 1975), "La prueba del coeficiente de correlación del gráfico de probabilidad para la normalidad", Technometrics , 17 (1), American Society for Quality: 111–117, doi : 10.2307/1268008, JSTOR 1268008.
Gibbons, Jean Dickinson ; Chakraborti, Subhabrata (2003), Inferencia estadística no paramétrica (4.ª ed.), CRC Press, ISBN 978-0-8247-4052-8
Gnanadesikan, R. (1977). Métodos para el análisis estadístico de observaciones multivariadas . Wiley. ISBN 0-471-30845-5.
Thode, Henry C. (2002), Pruebas de normalidad, Nueva York: Marcel Dekker, ISBN 0-8247-9613-6

Enlaces externos

Wikimedia Commons alberga una categoría multimedia sobre Trama QQ .

Diagrama de probabilidad