Gráfico Q-Q

En estadística, un gráfico Q-Q ( gráfico cuantil-cuantil ) es un gráfico de probabilidad, un método gráfico para comparar dos distribuciones de probabilidad trazando sus cuantiles entre sí. ^[1] Un punto $(x, y)$ en el gráfico corresponde a uno de los cuantiles de la segunda distribución ( coordenada $y$ ) trazado contra el mismo cuantil de la primera distribución ( coordenada $x$ ). Esto define una curva paramétrica donde el parámetro es el índice del intervalo cuantil.

Si las dos distribuciones que se comparan son similares, los puntos en el gráfico Q-Q se ubicarán aproximadamente en la línea de identidad $y = x$ . Si las distribuciones están relacionadas linealmente, los puntos en la gráfica Q-Q estarán aproximadamente en una línea, pero no necesariamente en la línea $y = x$ . Los gráficos Q – Q también se pueden utilizar como medio gráfico para estimar parámetros en una familia de distribuciones a escala de ubicación .

El gráfico AQ-Q se utiliza para comparar las formas de las distribuciones, lo que proporciona una vista gráfica de cómo propiedades como la ubicación , la escala y la asimetría son similares o diferentes en las dos distribuciones. Los gráficos Q-Q se pueden utilizar para comparar colecciones de datos o distribuciones teóricas . El uso de gráficos Q-Q para comparar dos muestras de datos puede verse como un enfoque no paramétrico para comparar sus distribuciones subyacentes. El gráfico AQ-Q es generalmente más diagnóstico que comparar los histogramas de las muestras , pero es menos conocido. Los gráficos Q-Q se utilizan comúnmente para comparar un conjunto de datos con un modelo teórico. ^[2]^[3] Esto puede proporcionar una evaluación de la bondad del ajuste que sea gráfica, en lugar de reducirla a una estadística resumida numérica . Los gráficos Q – Q también se utilizan para comparar dos distribuciones teóricas entre sí. ^[4] Dado que los gráficos Q-Q comparan distribuciones, no es necesario que los valores se observen como pares, como en un gráfico de dispersión , o incluso que el número de valores en los dos grupos que se comparan sean iguales.

El término "gráfico de probabilidad" a veces se refiere específicamente a un gráfico Q-Q, a veces a una clase más general de gráficos y, a veces, al gráfico P-P menos utilizado . El gráfico de coeficiente de correlación del gráfico de probabilidad (gráfico PPCC) es una cantidad derivada de la idea de los gráficos Q – Q, que mide la concordancia de una distribución ajustada con los datos observados y que a veces se utiliza como medio para ajustar una distribución a los datos.

Definición y construcción

Un gráfico Q-Q es un gráfico de los cuantiles de dos distribuciones entre sí, o un gráfico basado en estimaciones de los cuantiles. El patrón de puntos en el gráfico se utiliza para comparar las dos distribuciones.

El paso principal en la construcción de un gráfico Q-Q es calcular o estimar los cuantiles que se van a representar. Si uno o ambos ejes en un gráfico Q-Q se basa en una distribución teórica con una función de distribución acumulativa (CDF) continua, todos los cuantiles están definidos de forma única y se pueden obtener invirtiendo la CDF. Si una distribución de probabilidad teórica con una CDF discontinua es una de las dos distribuciones que se comparan, es posible que algunos de los cuantiles no estén definidos, por lo que se puede trazar un cuantil interpolado. Si el gráfico Q-Q se basa en datos, se utilizan múltiples estimadores cuantiles. Las reglas para formar gráficos Q – Q cuando se deben estimar o interpolar cuantiles se denominan posiciones de trazado.

Un caso sencillo es aquel en el que se tienen dos conjuntos de datos del mismo tamaño. En ese caso, para hacer el gráfico Q-Q, se ordena cada conjunto en orden creciente, luego se emparejan y se trazan los valores correspondientes. Una construcción más complicada es el caso en el que se comparan dos conjuntos de datos de diferentes tamaños. Para construir el gráfico Q-Q en este caso, es necesario utilizar una estimación cuantil interpolada para que se puedan construir los cuantiles correspondientes a la misma probabilidad subyacente.

De manera más abstracta, ^[4] dadas dos funciones de distribución de probabilidad acumulativa $F$ y $G$ , con funciones cuantiles asociadas $F -1$ y $G -1$ (la función inversa de la CDF es la función cuantil), la gráfica Q-Q dibuja el $q$ -ésimo cuantil de $F$ contra el $q$ -ésimo cuantil de $G$ para un rango de valores de $q$ . Por tanto, la gráfica Q–Q es una curva paramétrica indexada sobre [0,1] con valores en el plano real $R 2$ .

Interpretación

Los puntos trazados en un gráfico Q-Q siempre son no decrecientes cuando se ven de izquierda a derecha. Si las dos distribuciones que se comparan son idénticas, el gráfico Q-Q sigue la línea de 45° $y = x$ . Si las dos distribuciones concuerdan después de transformar linealmente los valores en una de las distribuciones, entonces la gráfica Q-Q sigue alguna línea, pero no necesariamente la línea $y = x$ . Si la tendencia general del gráfico Q-Q es más plana que la línea $y = x$ , la distribución trazada en el eje horizontal está más dispersa que la distribución trazada en el eje vertical. Por el contrario, si la tendencia general del gráfico Q-Q es más pronunciada que la línea $y = x$ , la distribución trazada en el eje vertical está más dispersa que la distribución trazada en el eje horizontal. Los gráficos Q-Q suelen tener forma de arco o de S, lo que indica que una de las distribuciones está más sesgada que la otra, o que una de las distribuciones tiene colas más pesadas que la otra.

Aunque un gráfico Q-Q se basa en cuantiles, en un gráfico Q-Q estándar no es posible determinar qué punto del gráfico Q-Q determina un cuantil determinado. Por ejemplo, no es posible determinar la mediana de cualquiera de las dos distribuciones que se comparan inspeccionando el gráfico Q-Q. Algunos gráficos Q–Q indican los deciles para hacer posibles determinaciones como ésta.

La intercepción y la pendiente de una regresión lineal entre los cuantiles dan una medida de la ubicación relativa y la escala relativa de las muestras. Si la mediana de la distribución trazada en el eje horizontal es 0, la intersección de una línea de regresión es una medida de ubicación y la pendiente es una medida de escala. La distancia entre medianas es otra medida de ubicación relativa reflejada en un gráfico Q-Q. El " coeficiente de correlación del gráfico de probabilidad " (gráfico PPCC) es el coeficiente de correlación entre los cuantiles de muestras pareadas. Cuanto más cerca esté el coeficiente de correlación de uno, más cerca estarán las distribuciones de ser versiones desplazadas y escaladas entre sí. Para distribuciones con un solo parámetro de forma, el gráfico de probabilidad del coeficiente de correlación proporciona un método para estimar el parámetro de forma: uno simplemente calcula el coeficiente de correlación para diferentes valores del parámetro de forma y usa el que tiene el mejor ajuste, como si Estaban comparando distribuciones de diferentes tipos.

Otro uso común de los gráficos Q–Q es comparar la distribución de una muestra con una distribución teórica, como la distribución normal estándar $N (0,1)$ , como en un gráfico de probabilidad normal . Como en el caso de comparar dos muestras de datos, uno ordena los datos (formalmente, calcula las estadísticas de orden) y luego los traza contra ciertos cuantiles de la distribución teórica. ^[3]

Trazar posiciones

La elección de cuantiles de una distribución teórica puede depender del contexto y el propósito. Una opción, dada una muestra de tamaño $n$ , es $k / n$ para $k = 1,\dots, n$ , ya que estos son los cuantiles que realiza la distribución muestral . El último de ellos, $n / n$ , corresponde al percentil 100, el valor máximo de la distribución teórica, que a veces es infinito. Otras opciones son el uso de $(k - 0.5) / n$ , o en su lugar espaciar los $n$ puntos de manera que haya una distancia igual entre todos ellos y también entre los dos puntos más externos y los bordes del intervalo, usando $k$ $/ ($ $norte$ $+ 1)$ . ^[6] $[0,1]$

Se han sugerido muchas otras opciones, tanto formales como heurísticas, basadas en teorías o simulaciones relevantes en el contexto. Las siguientes subsecciones analizan algunos de ellos. Una cuestión más específica es elegir un máximo (estimación de un máximo de población), conocido como el problema de los tanques alemanes , para el cual existen soluciones similares de "máximo de muestra, más una brecha", más simplemente $m + m / n - 1$ . Una aplicación más formal de esta uniformización del espaciamiento ocurre en la estimación del espaciamiento máximo de parámetros.

Valor esperado del estadístico de orden para una distribución uniforme

El enfoque $k / (n + 1 )$ es igual al de trazar los puntos de acuerdo con la probabilidad de que el último de ( $n + 1$ ) valores extraídos al azar no exceda el $k$ -ésimo más pequeño de los primeros $n$ valores extraídos al azar. ^[7]^[8]

Valor esperado del estadístico de orden para una distribución normal estándar

Al utilizar un gráfico de probabilidad normal , los cuantiles que se utilizan son los rankingits , el cuantil del valor esperado del estadístico de orden de una distribución normal estándar.

De manera más general, la prueba de Shapiro-Wilk utiliza los valores esperados de las estadísticas de orden de la distribución dada; el gráfico y la línea resultantes producen la estimación de mínimos cuadrados generalizados para la ubicación y la escala (a partir de la intersección y la pendiente de la línea ajustada). ^[9] Aunque esto no es demasiado importante para la distribución normal (la ubicación y la escala se estiman mediante la media y la desviación estándar, respectivamente), puede ser útil para muchas otras distribuciones.

Sin embargo, esto requiere calcular los valores esperados del estadístico de orden, lo que puede resultar difícil si la distribución no es normal.

Mediana de las estadísticas de orden.

Alternativamente, se pueden utilizar estimaciones de la mediana de las estadísticas de orden, que se pueden calcular basándose en estimaciones de la mediana de las estadísticas de orden de una distribución uniforme y la función cuantil de la distribución; esto fue sugerido por Filliben (1975). ^[9]

Esto se puede generar fácilmente para cualquier distribución para la cual se pueda calcular la función cuantil, pero a la inversa, las estimaciones resultantes de ubicación y escala ya no son precisamente estimaciones de mínimos cuadrados, aunque sólo difieren significativamente para $n$ pequeño.

Heurística

Se han utilizado o propuesto varias fórmulas diferentes como posiciones de trazado simétricas afines . Dichas fórmulas tienen la forma $($ $k$ $-$ $a$ $) / ($ $n$ $+ 1 - 2$ $a$ $)$ para algún valor de $a$ en el rango de 0 a 1, lo que da un rango entre $k$ $/ ($ $n$ $+ 1)$ y $($ $k$ $- 1) / ($ $norte$ $- 1 )$ .

Las expresiones incluyen:

$k / (norte + 1 )$
$(k - 0,3) / (norte + 0,4 )$ . ^[10]
$(k - 0,3175) / (n + 0,365)$ . ^[11]^{[nota 1]}
$(k - 0,326) / (n + 0,348)$ . ^[12]
$(k - ⅓) / (norte + ⅓ )$ . ^{[nota 2]}
$(k - 0,375) / (n + 0,25)$ . ^{[nota 3]}
$(k - 0,4) / (norte + 0,2 )$ . ^[13]
$(k - 0,44) / (n + 0,12)$ . ^{[nota 4]}
$(k - 0,5) / norte$ . ^[15]
$(k - 0,567) / (norte - 0,134)$ . ^[dieciséis]
$(k - 1) / (norte - 1)$ . ^{[nota 5]}

Para un tamaño de muestra grande, $n$ , hay poca diferencia entre estas diversas expresiones.

estimación de Filliben

Las medianas de las estadísticas de orden son las medianas de las estadísticas de orden de la distribución. Estos se pueden expresar en términos de la función cuantil y las medianas del estadístico de orden para la distribución uniforme continua mediante:

N(i)=G(U(i))

donde $U (i)$ son las medianas estadísticas de orden uniforme y $G$ es la función cuantil para la distribución deseada. La función cuantil es la inversa de la función de distribución acumulativa (probabilidad de que $X$ sea menor o igual a algún valor). Es decir, dada una probabilidad, queremos el cuantil correspondiente de la función de distribución acumulativa.

James J. Filliben utiliza las siguientes estimaciones para las medianas estadísticas de orden uniforme: ^[17]

m(i)={\begin{casos}1-0.5^{1/n}&i=1\\\\{\dfrac {i-0.3175}{n+0.365}}&i=2,3, \ldots ,n-1\\\\0.5^{1/n}&i=n.\end{casos}}

La razón de esta estimación es que las medianas de las estadísticas de orden no tienen una forma simple.

Software

El lenguaje de programación R viene con funciones para crear gráficos Q-Q, a saber, qqnorm y qqplot del statspaquete. El fastqqpaquete implementa un trazado más rápido para una gran cantidad de puntos de datos.

Ver también

Función de distribución empírica
El análisis probit fue desarrollado por Chester Ittner Bliss en 1934.

Notas

^ Tenga en cuenta que esto también utiliza una expresión diferente para el primer y último punto. [1] cita el trabajo original de Filliben (1975). Esta expresión es una estimación de las medianas de $U (k)$ .
^ Una fórmula sencilla (y fácil de recordar) para trazar posiciones; utilizado en el paquete estadístico BMDP .
^ Ésta es la aproximación anterior de Blom (1958) y es la expresión utilizada en MINITAB .
^ Irving I. Gringorten ^[14] utilizó esta posición de trazado para trazar puntos en las pruebas de la distribución de Gumbel .
^ Utilizados por Filliben (1975), estos puntos de trazado son iguales a las modas de $U (k)$ .

Referencias

Citas

^ Wilk, MB; Gnanadesikan, R. (1968), "Métodos de trazado de probabilidad para el análisis de datos", Biometrika , 55 (1), Biometrika Trust: 1–17, doi :10.1093/biomet/55.1.1, JSTOR 2334448, PMID 5661047.
^ Gnanadesikan (1977), pág. 199.
^ ab Thode (2002), Sección 2.2.2, Gráficos cuantil-cuantil, p. 21
^ ab Gibbons y Chakraborti (2003), pág. 144
^ "SR 20 - North Cascades Highway - Historial de apertura y cierre". Pasos de las Cascadas del Norte . Departamento de Transporte del Estado de Washington. Octubre de 2009 . Consultado el 8 de febrero de 2009 .
^ Weibull, Waloddi (1939), "La teoría estadística de la resistencia de los materiales", IVA Handlingar, Real Academia Sueca de Ciencias de la Ingeniería (151)
^ Madsen, HO; et al. (1986), Métodos de seguridad estructural.
^ Makkonen, L. (2008), "Cerrar la controversia sobre la posición de la trama", Comunicaciones en estadística: teoría y métodos , 37 (3): 460–467, doi :10.1080/03610920701653094, S2CID 122822135
^ ab Pruebas de normalidad, por Henry C. Thode, CRC Press, 2002, ISBN 978-0-8247-9613-6 , p. 31
^ Benard, A.; Bos-Levenbach, EC (septiembre de 1953). "El trazado de observaciones en papel de probabilidad". Statistica Neerlandica (en holandés). 7 : 163–173. doi :10.1111/j.1467-9574.1953.tb00821.x.
^ "1.3.3.21. Gráfico de probabilidad normal". itl.nist.gov . Consultado el 16 de febrero de 2022 .
^ Posición de trazado gratuita de distribución, Yu y Huang
^ Cunnane (1978).
^ Gringorten, Irving I. (1963). "Una regla de trazado para artículos de probabilidad extrema". Revista de investigaciones geofísicas . 68 (3): 813–814. Código Bib : 1963JGR....68..813G. doi :10.1029/JZ068i003p00813. ISSN 2156-2202.
^ Hazen, Allen (1914), "Se proporcionará almacenamiento en los embalses para el suministro de agua municipal", Transacciones de la Sociedad Estadounidense de Ingenieros Civiles (77): 1547-1550
^ Larsen, Curran y Hunt (1980).
^ Filliben (1975).

Fuentes

Este artículo incorpora material de dominio público del Instituto Nacional de Estándares y Tecnología.
Blom, G. (1958), Estimaciones estadísticas y variables beta transformadas , Nueva York: John Wiley and Sons
Cámaras, John; Cleveland, Guillermo; Kleiner, Beat; Tukey, Paul (1983), Métodos gráficos para el análisis de datos , Wadsworth
Cleveland, WS (1994) Los elementos de la representación gráfica de datos , Hobart Press ISBN 0-9634884-1-4
Filliben, JJ (febrero de 1975), "La prueba del coeficiente de correlación del gráfico de probabilidad para la normalidad", Technometrics , 17 (1), Sociedad Estadounidense de Calidad: 111–117, doi :10.2307/1268008, JSTOR 1268008.
Gibbons, Jean Dickinson ; Chakraborti, Subhabrata (2003), Inferencia estadística no paramétrica (4ª ed.), CRC Press, ISBN 978-0-8247-4052-8
Gnanadesikan, R. (1977). Métodos de análisis estadístico de observaciones multivariadas . Wiley. ISBN 0-471-30845-5.
Thode, Henry C. (2002), Pruebas de normalidad, Nueva York: Marcel Dekker, ISBN 0-8247-9613-6

enlaces externos

Wikimedia Commons tiene medios relacionados con la trama QQ .

Gráfico de probabilidad