Familia de distribuciones de probabilidad que se utilizan a menudo para modelar colas o valores extremos
En estadística , la distribución generalizada de Pareto (GPD) es una familia de distribuciones de probabilidad continuas . A menudo se utiliza para modelar las colas de otra distribución. Se especifica mediante tres parámetros: ubicación , escala y forma . [2] [3] A veces se especifica solo por la escala y la forma [4] y, a veces, solo por su parámetro de forma. Algunas referencias dan el parámetro de forma como . [5]
Definición
La función de distribución acumulativa estándar (cdf) del GPD está definida por [6]
donde el apoyo es para y para . La función de densidad de probabilidad (pdf) correspondiente es
Caracterización
La familia de distribuciones de escala de ubicación relacionada se obtiene reemplazando el argumento z por y ajustando el soporte en consecuencia.
Ambas fórmulas se obtienen por inversión de la CDF.
En Matlab Statistics Toolbox, puede utilizar fácilmente el comando "gprnd" para generar números aleatorios de Pareto generalizados.
GPD como mezcla gamma exponencial
Una variable aleatoria GPD también se puede expresar como una variable aleatoria exponencial, con un parámetro de tasa distribuida Gamma.
y
entonces
Observe, sin embargo, que como los parámetros para la distribución Gamma deben ser mayores que cero, obtenemos las restricciones adicionales de que: deben ser positivos.
Además de esta expresión mixta (o compuesta), la distribución de Pareto generalizada también se puede expresar como una simple razón. Concretamente, para y , tenemos . Esto es una consecuencia de la mezcla después de fijar y tener en cuenta que los parámetros de velocidad de la distribución exponencial y gamma son simplemente constantes multiplicativas inversas.
Distribución Pareto generalizada exponencial
La distribución Pareto generalizada exponencial (exGPD)
Si , , , entonces se distribuye de acuerdo con la distribución de Pareto generalizada exponencial, denotada por , .
Consulte el panel derecho para ver la varianza en función de . Tenga en cuenta que .
Obsérvese que los roles del parámetro de escala y del parámetro de forma se pueden interpretar de forma separada, lo que puede llevar a una estimación robusta y eficiente para el que se utiliza [2]. Los roles de los dos parámetros están asociados entre sí (al menos hasta el segundo momento central); consulte la fórmula de varianza en la que participan ambos parámetros.
El estimador de Hill
Supongamos que son observaciones (no necesariamente iid) de una distribución de cola pesada desconocida , de modo que su distribución de cola varía regularmente con el índice de cola (por lo tanto, el parámetro de forma correspondiente es ). Para ser más específicos, la distribución de cola se describe como
Es de particular interés en la teoría de valores extremos estimar el parámetro de forma , especialmente cuando es positivo (la llamada distribución de cola pesada).
Sea su función de distribución de exceso condicional. El teorema de Pickands–Balkema–de Haan (Pickands, 1975; Balkema y de Haan, 1974) establece que para una clase grande de funciones de distribución subyacentes , y grande , se aproxima bien mediante la distribución generalizada de Pareto (GPD), que motivó los métodos de pico sobre umbral (POT) para estimar : la GPD juega el papel clave en el enfoque POT.
Un estimador reconocido que utiliza la metodología POT es el estimador de Hill . La formulación técnica del estimador de Hill es la siguiente. Para , escriba para el -ésimo valor más grande de . Luego, con esta notación, el estimador de Hill (consulte la página 190 de la Referencia 5 de Embrechts et al [3]) basado en las estadísticas de orden superior se define como
En la práctica, el estimador de Hill se utiliza de la siguiente manera. Primero, se calcula el estimador en cada entero , y luego se trazan los pares ordenados . Luego, se selecciona del conjunto de estimadores de Hill que sean aproximadamente constantes con respecto a : estos valores estables se consideran estimaciones razonables para el parámetro de forma . Si son iid, entonces el estimador de Hill es un estimador consistente para el parámetro de forma [4].
Obsérvese que el estimador de Hill utiliza la transformación logarítmica para las observaciones . (El estimador de Pickand también empleó la transformación logarítmica, pero de una manera ligeramente diferente [5]).
^ ab Norton, Matthew; Khokhlov, Valentyn; Uryasev, Stan (2019). "Cálculo de CVaR y bPOE para distribuciones de probabilidad comunes con aplicación a la optimización de carteras y estimación de densidad" (PDF) . Anales de investigación de operaciones . 299 (1–2). Springer: 1281–1315. arXiv : 1811.11301 . doi :10.1007/s10479-019-03373-1. S2CID 254231768. Archivado desde el original (PDF) el 2023-03-31 . Consultado el 2023-02-27 .
^ Coles, Stuart (12 de diciembre de 2001). Introducción al modelado estadístico de valores extremos. Springer. pág. 75. ISBN9781852334598.
^ Dargahi-Noubary, GR (1989). "Sobre la estimación de la cola: un método mejorado". Geología matemática . 21 (8): 829–842. Código Bibliográfico :1989MatGe..21..829D. doi :10.1007/BF00894450. S2CID 122710961.
^ Hosking, JRM; Wallis, JR (1987). "Estimación de parámetros y cuantiles para la distribución generalizada de Pareto". Technometrics . 29 (3): 339–349. doi :10.2307/1269343. JSTOR 1269343.
^ Davison, AC (30 de septiembre de 1984). "Modelado de excesos por encima de umbrales altos, con una aplicación". En de Oliveira, J. Tiago (ed.). Extremos estadísticos y aplicaciones . Kluwer. pág. 462. ISBN9789027718044.
^ Embrechts, Paul; Klüppelberg, Claudia ; Mikosch, Thomas (1 de enero de 1997). Modelado de eventos extremos para seguros y finanzas. Springer. p. 162. ISBN9783540609315.
^ Castillo, Enrique y Ali S. Hadi. "Ajuste de la distribución generalizada de Pareto a los datos". Journal of the American Statistical Association 92.440 (1997): 1609-1620.
Lectura adicional
Pickands, James (1975). "Inferencia estadística utilizando estadísticas de orden extremo" (PDF) . Anales de Estadística . 3 s : 119–131. doi : 10.1214/aos/1176343003 .
Balkema, A.; De Haan, Laurens (1974). "Tiempo de vida residual a una edad avanzada". Anales de probabilidad . 2 (5): 792–804. doi : 10.1214/aop/1176996548 .
Lee, Seyoon; Kim, JHK (2018). "Distribución Pareto generalizada exponencial: propiedades y aplicaciones hacia la teoría del valor extremo". Comunicaciones en Estadística - Teoría y Métodos . 48 (8): 1–25. arXiv : 1708.01686 . doi :10.1080/03610926.2018.1441418. S2CID 88514574.
NL Johnson; S. Kotz; N. Balakrishnan (1994). Distribuciones univariadas continuas, volumen 1, segunda edición . Nueva York: Wiley. ISBN 978-0-471-58495-7.Capítulo 20, Sección 12: Distribuciones de Pareto generalizadas.
Barry C. Arnold (2011). "Capítulo 7: Distribuciones de Pareto y Pareto generalizadas". En Duangkamon Chotikapanich (ed.). Modelado de distribuciones y curvas de Lorenz . Nueva York: Springer. ISBN 9780387727967.
Arnold, BC; Laguna, L. (1977). Sobre distribuciones generalizadas de Pareto con aplicaciones a datos de ingresos . Ames, Iowa: Iowa State University, Departamento de Economía.