El gráfico de coeficiente de correlación de gráfico de probabilidad (PPCC) es una técnica gráfica para identificar el parámetro de forma de una familia de distribución que mejor describe el conjunto de datos. Esta técnica es adecuada para familias, como la de Weibull , que se definen mediante un único parámetro de forma y parámetros de ubicación y escala , y no es adecuada o incluso posible para distribuciones, como la normal , que se definen únicamente mediante parámetros de ubicación y escala.
Muchos análisis estadísticos se basan en supuestos distributivos sobre la población de la que se han obtenido los datos. Sin embargo, las familias distributivas pueden tener formas radicalmente diferentes según el valor del parámetro de forma . Por lo tanto, encontrar una opción razonable para el parámetro de forma es un paso necesario en el análisis. En muchos análisis, encontrar un buen modelo distributivo para los datos es el objetivo principal del análisis.
La técnica es simplemente "trazar los coeficientes de correlación del gráfico de probabilidad para diferentes valores del parámetro de forma y elegir el valor que ofrezca el mejor ajuste".
La gráfica PPCC está formada por:
Es decir, para una serie de valores del parámetro de forma, se calcula el coeficiente de correlación para el gráfico de probabilidad asociado con un valor dado del parámetro de forma. Estos coeficientes de correlación se grafican en relación con sus parámetros de forma correspondientes. El coeficiente de correlación máximo corresponde al valor óptimo del parámetro de forma. Para una mayor precisión, se pueden generar dos iteraciones del gráfico PPCC; la primera es para encontrar el vecindario correcto y la segunda es para ajustar la estimación.
El gráfico PPCC se utiliza primero para encontrar un buen valor del parámetro de forma. Luego se genera el gráfico de probabilidad para encontrar estimaciones de los parámetros de ubicación y escala y, además, para proporcionar una evaluación gráfica de la adecuación del ajuste distributivo.
La gráfica del PPCC responde a las siguientes preguntas:
Además de encontrar una buena opción para estimar el parámetro de forma de una distribución dada, el gráfico PPCC puede ser útil para decidir qué familia de distribución es la más apropiada. Por ejemplo, dado un conjunto de datos de confiabilidad , se podrían generar gráficos PPCC para distribuciones Weibull, lognormal , gamma y gaussiana inversa , y posiblemente otras, en una sola página. Esta página mostraría el mejor valor para el parámetro de forma para varias distribuciones y, además, indicaría cuál de estas familias de distribución proporciona el mejor ajuste (medido por el coeficiente de correlación del gráfico de máxima probabilidad). Es decir, si el valor máximo PPCC para Weibull es 0,99 y solo 0,94 para lognormal, entonces se podría concluir razonablemente que la familia Weibull es la mejor opción.
Al comparar modelos distribucionales, no se debe elegir simplemente el que tenga el valor máximo de PPCC. En muchos casos, varios ajustes distribucionales proporcionan valores de PPCC comparables. Por ejemplo, un ajuste lognormal y un ajuste Weibull pueden ajustarse bastante bien a un conjunto dado de datos de confiabilidad. Por lo general, se debe considerar la complejidad de la distribución. Es decir, una distribución más simple con un valor de PPCC marginalmente menor puede ser preferible a una distribución más compleja. Asimismo, puede haber una justificación teórica en términos del modelo científico subyacente para preferir una distribución con un valor de PPCC marginalmente menor en algunos casos. En otros casos, puede que no sea necesario saber si el modelo distribucional es óptimo, solo que es adecuado para nuestros propósitos. Es decir, se pueden utilizar técnicas diseñadas para datos distribuidos normalmente incluso si otras distribuciones se ajustan a los datos algo mejor.
El gráfico PPCC de Tukey lambda, con parámetro de forma λ, es particularmente útil para distribuciones simétricas. Indica si una distribución es de cola corta o larga y puede indicar además varias distribuciones comunes. En concreto,
Si el gráfico PPCC de Tukey lambda arroja un valor máximo cercano a 0,14, se puede concluir razonablemente que la distribución normal es un buen modelo para los datos. Si el valor máximo es inferior a 0,14, una distribución de cola larga, como la exponencial doble o la logística, sería una mejor opción. Si el valor máximo está cerca de −1, esto implica la selección de una distribución de cola muy larga, como la de Cauchy. Si el valor máximo es superior a 0,14, esto implica una distribución de cola corta, como la Beta o la uniforme.
El gráfico PPCC de Tukey-lambda se utiliza para sugerir una distribución adecuada. Se deben realizar seguimientos con gráficos PPCC y de probabilidad de las alternativas adecuadas.
Este artículo incorpora material de dominio público del Instituto Nacional de Estándares y Tecnología.