Una distribución parametrizada por cuantiles (QPD) es una distribución de probabilidad que está parametrizada directamente por los datos. Fueron creados para satisfacer la necesidad de distribuciones de probabilidad continuas fáciles de usar, lo suficientemente flexibles como para representar una amplia gama de incertidumbres, como las que se encuentran comúnmente en los negocios, la economía, la ingeniería y la ciencia. Debido a que los QPD están parametrizados directamente por los datos, tienen la ventaja práctica de evitar el paso intermedio de la estimación de parámetros , un proceso que requiere mucho tiempo y que generalmente requiere métodos iterativos no lineales para estimar los parámetros de distribución de probabilidad a partir de los datos. Algunos QPD tienen una flexibilidad de forma prácticamente ilimitada y también momentos de forma cerrada.
El desarrollo de distribuciones parametrizadas por cuantiles se inspiró en la necesidad práctica de distribuciones de probabilidad continuas flexibles que sean fáciles de ajustar a los datos. Históricamente, las familias de distribuciones de Pearson [1] y Johnson [2] [3] se han utilizado cuando se necesita flexibilidad de forma. Esto se debe a que ambas familias pueden hacer coincidir los primeros cuatro momentos (media, varianza, asimetría y curtosis) de cualquier conjunto de datos. Sin embargo, en muchos casos, estas distribuciones son difíciles de ajustar a los datos o no son lo suficientemente flexibles para ajustarlos adecuadamente.
Por ejemplo, la distribución beta es una distribución flexible de Pearson que se utiliza con frecuencia para modelar porcentajes de una población. Sin embargo, si las características de esta población son tales que la función de distribución acumulativa (CDF) deseada debe pasar por ciertos puntos específicos de la CDF, es posible que no exista una distribución beta que satisfaga esta necesidad. Debido a que la distribución beta tiene solo dos parámetros de forma, en general no puede coincidir ni siquiera con tres puntos CDF específicos. Además, los parámetros beta que mejor se ajustan a dichos datos sólo pueden encontrarse mediante métodos iterativos no lineales.
Los profesionales del análisis de decisiones , que necesitaban distribuciones fácilmente parametrizadas por tres o más puntos CDF (por ejemplo, porque dichos puntos se especificaron como resultado de un proceso de obtención de expertos ), inventaron originalmente distribuciones parametrizadas por cuantiles para este propósito. Keelin y Powley (2011) [4] proporcionaron la definición original. Posteriormente, Keelin (2016) [5] desarrolló las distribuciones metalog , una familia de distribuciones parametrizadas por cuantiles que tiene una flexibilidad de forma prácticamente ilimitada, ecuaciones simples y momentos de forma cerrada.
Keelin y Powley [4] definen una distribución parametrizada por cuantiles como aquella cuya función cuantil (FDC inversa) se puede escribir en la forma
dónde
y las funciones son funciones de base continuamente diferenciables y linealmente independientes. Aquí, esencialmente, y están los límites inferior y superior (si existen) de una variable aleatoria con función cuantil . Estas distribuciones se denominan parametrizadas por cuantiles porque para un conjunto dado de pares de cuantiles , donde y un conjunto de funciones básicas , los coeficientes se pueden determinar resolviendo un conjunto de ecuaciones lineales. [4] Si se desea utilizar más pares de cuantiles que funciones básicas, entonces los coeficientes se pueden elegir para minimizar la suma de errores cuadrados entre los cuantiles indicados y . Keelin y Powley [4] ilustran este concepto para una elección específica de funciones básicas que es una generalización de la función cuantil de la distribución normal , para la cual la media y la desviación estándar son funciones lineales de probabilidad acumulativa :
El resultado es una distribución de cuatro parámetros que se puede ajustar exactamente a un conjunto de cuatro pares de cuantiles/probabilidad, o a cualquier número de dichos pares mediante mínimos cuadrados lineales . Keelin y Powley [4] llaman a esto distribución Q-Normal simple. En las siguientes figuras se muestran algunas PDF Q-Normal simples sesgadas y simétricas.
Los QPD que cumplen con la definición de Keelin y Powley tienen las siguientes propiedades.
Diferenciando respecto a los rendimientos . El recíproco de esta cantidad, es la función de densidad de probabilidad (PDF)
dónde . Tenga en cuenta que esta PDF se expresa como una función de probabilidad acumulada en lugar de . Para trazarlo, como se muestra en las figuras, varía paramétricamente. Trazar en el eje horizontal y en el eje vertical.
Una función de la forma de es una distribución de probabilidad factible si y sólo si para todos . [4] Esto implica una restricción de viabilidad sobre el conjunto de coeficientes :
En aplicaciones prácticas, la viabilidad generalmente debe comprobarse en lugar de asumirse.
El conjunto de coeficientes factibles de una QPD para todos es convexo . Debido a que la optimización convexa requiere conjuntos convexos factibles, esta propiedad simplifica las aplicaciones de optimización que involucran QPD.
Los coeficientes se pueden determinar a partir de datos mediante mínimos cuadrados lineales . Dados los puntos de datos que pretenden caracterizar la CDF de un QPD y la matriz cuyos elementos constan de , entonces, siempre que sea invertible, el vector de columna de los coeficientes se puede determinar como , donde y el vector de columna . Si , esta ecuación se reduce a , donde el CDF resultante recorre todos los puntos de datos exactamente. Un método alternativo, implementado como un programa lineal, determina los coeficientes minimizando la suma de distancias absolutas entre la CDF y los datos sujetos a restricciones de viabilidad. [6]
Un QPD con términos, donde , tiene parámetros de forma. Por tanto, las QPD pueden ser mucho más flexibles que las distribuciones de Pearson , que tienen como máximo dos parámetros de forma. Por ejemplo, se ha demostrado que las distribuciones metalog de diez términos parametrizadas por 105 puntos CDF de 30 distribuciones de fuentes tradicionales (incluidas normal, t de Student, lognormal, gamma, beta y valor extremo) se aproximan a cada una de estas distribuciones de fuentes dentro de una distribución K-S. distancia de 0,001 o menos. [7]
Las transformaciones QPD se rigen por una propiedad general de las funciones cuantiles: para cualquier función cuantil y una función creciente es una función cuantil . [8] Por ejemplo, la función cuantil de la distribución normal , es una QPD según la definición de Keelin y Powley. El logaritmo natural, es una función creciente, al igual que la función cuantil de la distribución lognormal con límite inferior . Es importante destacar que esta transformación convierte una QPD ilimitada en una QPD semilimitada. De manera similar, al aplicar esta transformación logarítmica a la distribución metalog ilimitada [9] se obtiene la distribución metalog semilimitada (log) ; [10] asimismo, aplicando la transformación logit, se obtiene la distribución metalog acotada (logit) [10] con límites inferior y superior y , respectivamente. Además, al considerar distribuida dónde está cualquier QPD que cumpla con la definición de Keelin y Powley, la variable transformada mantiene las propiedades anteriores de viabilidad, convexidad y ajuste a los datos. Estos QPD transformados tienen mayor flexibilidad de forma que los subyacentes , que tienen parámetros de forma; la transformación logarítmica tiene parámetros de forma y la transformación logit tiene parámetros de forma. Además, dichas QPD transformadas comparten el mismo conjunto de coeficientes factibles que las QPD subyacentes no transformadas. [11]
El momento de un QPD es: [4]
Que tales momentos existan en forma cerrada depende de la elección de las funciones básicas de QPD . La distribución metalog ilimitada y las QPD polinómicas son ejemplos de QPD para las cuales los momentos existen en forma cerrada como funciones de los coeficientes .
Dado que la función cuantil se expresa en forma cerrada, las QPD de Keelin y Powley facilitan la simulación de Monte Carlo . La sustitución de muestras aleatorias distribuidas uniformemente produce muestras aleatorias de en forma cerrada, eliminando así la necesidad de invertir una CDF expresada como .
Las siguientes distribuciones de probabilidad son QPD según la definición de Keelin y Powley:
Al igual que las distribuciones metalog de SPT, las distribuciones parametrizadas por cuantiles de Johnson [14] [15] (JQPD) están parametrizadas por tres cuantiles. Los JQPD no cumplen con la definición de QPD de Keelin y Powley, sino que tienen sus propias propiedades. Los JQPD son factibles para todos los conjuntos de parámetros SPT que sean consistentes con las reglas de probabilidad .
Las aplicaciones originales de las QPD fueron realizadas por analistas de decisiones que deseaban convertir convenientemente los cuantiles evaluados por expertos (por ejemplo, cuantiles 10, 50 y 90) en distribuciones de probabilidad continuas y uniformes. Los QPD también se han utilizado para ajustar datos de salida de simulaciones con el fin de representar esos resultados (tanto CDF como PDF) como distribuciones continuas de forma cerrada. [16] Utilizados de esta manera, suelen ser más estables y suaves que los histogramas. De manera similar, dado que las QPD pueden imponer menos restricciones de forma que las distribuciones tradicionales, se han utilizado para ajustar una amplia gama de datos empíricos con el fin de representar esos conjuntos de datos como distribuciones continuas (por ejemplo, reflejando la bimodalidad que puede existir en los datos de una manera sencilla). [17] ). La parametrización cuantil permite una representación QPD de forma cerrada de distribuciones conocidas cuyas CDF no tienen expresión de forma cerrada. Keelin et al. (2019) [18] aplican esto a la suma de distribuciones lognormales independientes distribuidas idénticamente, donde los cuantiles de la suma pueden determinarse mediante una gran cantidad de simulaciones. Nueve de estos cuantiles se utilizan para parametrizar una distribución metalog semilimitada que recorre exactamente cada uno de estos nueve cuantiles. Los QPD también se han aplicado para evaluar los riesgos del impacto de un asteroide, [19] la ciberseguridad, [6] [20] los sesgos en las proyecciones de la producción de los yacimientos petrolíferos en comparación con la producción observada después del hecho, [21] y las futuras proyecciones de la población canadiense basadas en sobre la combinación de puntos de vista probabilísticos de múltiples expertos. [22] Consulte las distribuciones metalog y Keelin (2016) [5] para aplicaciones adicionales de la distribución metalog.