En estadística, un gráfico Q-Q ( gráfico cuantil-cuantil ) es un gráfico de probabilidad, un método gráfico para comparar dos distribuciones de probabilidad al representar gráficamente sus cuantiles entre sí. [1] Un punto ( x , y ) en el gráfico corresponde a uno de los cuantiles de la segunda distribución ( coordenada y ) representado gráficamente contra el mismo cuantil de la primera distribución ( coordenada x ). Esto define una curva paramétrica donde el parámetro es el índice del intervalo cuantil.
Si las dos distribuciones que se comparan son similares, los puntos del gráfico Q-Q se ubicarán aproximadamente en la línea de identidad y = x . Si las distribuciones están relacionadas linealmente, los puntos del gráfico Q-Q se ubicarán aproximadamente en una línea, pero no necesariamente en la línea y = x . Los gráficos Q-Q también se pueden utilizar como un medio gráfico para estimar parámetros en una familia de distribuciones de escala de ubicación .
El gráfico AQ-Q se utiliza para comparar las formas de las distribuciones, proporcionando una vista gráfica de cómo las propiedades como la ubicación , la escala y la asimetría son similares o diferentes en las dos distribuciones. Los gráficos Q-Q se pueden utilizar para comparar conjuntos de datos o distribuciones teóricas . El uso de gráficos Q-Q para comparar dos muestras de datos puede verse como un enfoque no paramétrico para comparar sus distribuciones subyacentes. El gráfico AQ-Q es generalmente más diagnóstico que comparar los histogramas de las muestras , pero es menos conocido. Los gráficos Q-Q se utilizan comúnmente para comparar un conjunto de datos con un modelo teórico. [2] [3] Esto puede proporcionar una evaluación de la bondad del ajuste que es gráfica, en lugar de reducirse a una estadística de resumen numérica . Los gráficos Q-Q también se utilizan para comparar dos distribuciones teóricas entre sí. [4] Dado que los gráficos Q–Q comparan distribuciones, no es necesario que los valores se observen como pares, como en un gráfico de dispersión , o incluso que los números de valores en los dos grupos que se comparan sean iguales.
El término "gráfico de probabilidad" a veces se refiere específicamente a un gráfico Q-Q, a veces a una clase más general de gráficos y, a veces, al gráfico P-P , menos comúnmente utilizado . El gráfico de coeficiente de correlación del gráfico de probabilidad (gráfico PPCC) es una cantidad derivada de la idea de los gráficos Q-Q, que mide la concordancia de una distribución ajustada con los datos observados y que a veces se utiliza como un medio para ajustar una distribución a los datos.
Un gráfico Q-Q es un gráfico de los cuantiles de dos distribuciones entre sí, o un gráfico basado en estimaciones de los cuantiles. El patrón de puntos del gráfico se utiliza para comparar las dos distribuciones.
El paso principal para construir un gráfico Q-Q es calcular o estimar los cuantiles que se van a representar gráficamente. Si uno o ambos ejes de un gráfico Q-Q se basan en una distribución teórica con una función de distribución acumulativa (CDF) continua, todos los cuantiles están definidos de forma única y se pueden obtener invirtiendo la CDF. Si una de las dos distribuciones que se comparan es una distribución de probabilidad teórica con una CDF discontinua, es posible que algunos de los cuantiles no estén definidos, por lo que se puede representar gráficamente un cuantil interpolado. Si el gráfico Q-Q se basa en datos, se utilizan múltiples estimadores de cuantiles. Las reglas para formar gráficos Q-Q cuando se deben estimar o interpolar cuantiles se denominan posiciones de representación gráfica.
Un caso sencillo es el de dos conjuntos de datos del mismo tamaño. En ese caso, para hacer el gráfico Q-Q, se ordena cada conjunto en orden creciente, luego se emparejan y se grafican los valores correspondientes. Una construcción más complicada es el caso en el que se comparan dos conjuntos de datos de diferentes tamaños. Para construir el gráfico Q-Q en este caso, es necesario utilizar una estimación de cuantiles interpolada para que se puedan construir los cuantiles correspondientes a la misma probabilidad subyacente.
De manera más abstracta, [4] dadas dos funciones de distribución de probabilidad acumulativa F y G , con funciones cuantiles asociadas F −1 y G −1 (la función inversa de la CDF es la función cuantil), el gráfico Q–Q dibuja el q -ésimo cuantil de F contra el q -ésimo cuantil de G para un rango de valores de q . Por lo tanto, el gráfico Q–Q es una curva paramétrica indexada sobre [0,1] con valores en el plano real R 2 .
Los puntos trazados en un gráfico Q-Q siempre son no decrecientes cuando se observan de izquierda a derecha. Si las dos distribuciones que se comparan son idénticas, el gráfico Q-Q sigue la línea de 45° y = x . Si las dos distribuciones concuerdan después de transformar linealmente los valores en una de las distribuciones, entonces el gráfico Q-Q sigue alguna línea, pero no necesariamente la línea y = x . Si la tendencia general del gráfico Q-Q es más plana que la línea y = x , la distribución trazada en el eje horizontal es más dispersa que la distribución trazada en el eje vertical. Por el contrario, si la tendencia general del gráfico Q-Q es más pronunciada que la línea y = x , la distribución trazada en el eje vertical es más dispersa que la distribución trazada en el eje horizontal. Los gráficos Q-Q a menudo tienen forma de arco o de S, lo que indica que una de las distribuciones está más sesgada que la otra, o que una de las distribuciones tiene colas más pesadas que la otra.
Aunque un gráfico Q-Q se basa en cuantiles, en un gráfico Q-Q estándar no es posible determinar qué punto del gráfico Q-Q determina un cuantil determinado. Por ejemplo, no es posible determinar la mediana de ninguna de las dos distribuciones que se comparan inspeccionando el gráfico Q-Q. Algunos gráficos Q-Q indican los deciles para que sea posible realizar determinaciones como esta.
La intersección y la pendiente de una regresión lineal entre los cuantiles dan una medida de la ubicación relativa y la escala relativa de las muestras. Si la mediana de la distribución representada en el eje horizontal es 0, la intersección de una línea de regresión es una medida de ubicación y la pendiente es una medida de escala. La distancia entre las medianas es otra medida de ubicación relativa reflejada en un gráfico Q-Q. El " coeficiente de correlación del gráfico de probabilidad " (gráfico PPCC) es el coeficiente de correlación entre los cuantiles de muestra pareados. Cuanto más cercano sea el coeficiente de correlación a uno, más cerca estarán las distribuciones de ser versiones desplazadas y escaladas unas de otras. Para distribuciones con un único parámetro de forma, el gráfico del coeficiente de correlación del gráfico de probabilidad proporciona un método para estimar el parámetro de forma: uno simplemente calcula el coeficiente de correlación para diferentes valores del parámetro de forma y utiliza el que se ajusta mejor, como si estuviera comparando distribuciones de diferentes tipos.
Otro uso común de los gráficos Q-Q es comparar la distribución de una muestra con una distribución teórica, como la distribución normal estándar N (0,1) , como en un gráfico de probabilidad normal . Como en el caso de la comparación de dos muestras de datos, se ordenan los datos (formalmente, se calculan las estadísticas de orden) y luego se los representa gráficamente en función de ciertos cuartiles de la distribución teórica. [3]
La elección de cuantiles de una distribución teórica puede depender del contexto y el propósito. Una opción, dada una muestra de tamaño n , es k / n para k = 1, …, n , ya que estos son los cuantiles que la distribución de muestreo realiza. El último de estos, n / n , corresponde al percentil 100, el valor máximo de la distribución teórica, que a veces es infinito. Otras opciones son el uso de ( k − 0,5) / n , o en cambio espaciar los n puntos de manera que haya una distancia igual entre todos ellos y también entre los dos puntos más externos y los bordes del intervalo, utilizando k / ( n + 1) . [6]
Se han sugerido muchas otras opciones, tanto formales como heurísticas, basadas en teorías o simulaciones relevantes en el contexto. Las siguientes subsecciones analizan algunas de ellas. Una cuestión más específica es la elección de un máximo (estimación de un máximo de población), conocido como el problema del tanque alemán , para el que existen soluciones similares de "máximo de muestra, más un espacio", la más simple m + m / n − 1 . Una aplicación más formal de esta uniformización del espaciamiento ocurre en la estimación del espaciamiento máximo de los parámetros.
El enfoque k /( n +1) equivale al de trazar los puntos según la probabilidad de que el último de los ( n +1 ) valores extraídos aleatoriamente no exceda el k -ésimo más pequeño de los primeros n valores extraídos aleatoriamente. [7] [8]
Al utilizar un gráfico de probabilidad normal , los cuantiles que se utilizan son los rankits , el cuantil del valor esperado de la estadística de orden de una distribución normal estándar.
De manera más general, la prueba de Shapiro-Wilk utiliza los valores esperados de las estadísticas de orden de la distribución dada; el gráfico y la línea resultantes producen la estimación de mínimos cuadrados generalizados para la ubicación y la escala (a partir de la intersección y la pendiente de la línea ajustada). [9] Aunque esto no es demasiado importante para la distribución normal (la ubicación y la escala se estiman mediante la media y la desviación estándar, respectivamente), puede ser útil para muchas otras distribuciones.
Sin embargo, esto requiere calcular los valores esperados de la estadística de orden, lo que puede ser difícil si la distribución no es normal.
Como alternativa, se pueden utilizar estimaciones de la mediana de las estadísticas de orden, que se pueden calcular en base a estimaciones de la mediana de las estadísticas de orden de una distribución uniforme y la función cuantil de la distribución; esto fue sugerido por Filliben (1975). [9]
Esto se puede generar fácilmente para cualquier distribución para la cual se pueda calcular la función cuantil, pero, a la inversa, las estimaciones resultantes de ubicación y escala ya no son precisamente las estimaciones de mínimos cuadrados, aunque estas solo difieren significativamente para n pequeños.
Se han utilizado o propuesto varias fórmulas diferentes para representar posiciones simétricas afines . Dichas fórmulas tienen la forma ( k − a ) / ( n + 1 − 2 a ) para algún valor de a en el rango de 0 a 1, lo que da un rango entre k / ( n + 1) y ( k − 1) / ( n − 1) .
Las expresiones incluyen:
Para un tamaño de muestra grande, n , hay poca diferencia entre estas diversas expresiones.
Las medianas de los estadísticos de orden son las medianas de los estadísticos de orden de la distribución. Se pueden expresar en términos de la función cuantil y las medianas de los estadísticos de orden para la distribución uniforme continua mediante:
donde U ( i ) son las medianas de los estadísticos de orden uniforme y G es la función cuantil para la distribución deseada. La función cuantil es la inversa de la función de distribución acumulativa (probabilidad de que X sea menor o igual a algún valor). Es decir, dada una probabilidad, queremos el cuantil correspondiente de la función de distribución acumulativa.
James J. Filliben utiliza las siguientes estimaciones para las medianas de la estadística de orden uniforme: [17]
La razón de esta estimación es que las medianas de la estadística de orden no tienen una forma simple.
El lenguaje de programación R incluye funciones para crear gráficos Q-Q, a saber, qqnorm y qqplot, que están incluidas en el stats
paquete. El fastqq
paquete permite realizar gráficos más rápidos para una gran cantidad de puntos de datos.