stringtranslate.com

Distribución generalizada de Pareto

En estadística , la distribución generalizada de Pareto (GPD) es una familia de distribuciones de probabilidad continuas . A menudo se utiliza para modelar las colas de otra distribución. Se especifica mediante tres parámetros: ubicación , escala y forma . [2] [3] A veces se especifica solo por la escala y la forma [4] y, a veces, solo por su parámetro de forma. Algunas referencias dan el parámetro de forma como . [5]

Definición

La función de distribución acumulativa estándar (cdf) del GPD está definida por [6]

donde el apoyo es para y para . La función de densidad de probabilidad (pdf) correspondiente es

Caracterización

La familia de distribuciones de escala de ubicación relacionada se obtiene reemplazando el argumento z por y ajustando el soporte en consecuencia.

La función de distribución acumulativa de ( , , y ) es

donde el apoyo de es cuando , y cuando .

La función de densidad de probabilidad (pdf) de es

,

de nuevo, para cuando , y cuando .

El pdf es una solución de la siguiente ecuación diferencial : [ cita requerida ]

Casos especiales

Generación de variables aleatorias generalizadas de Pareto

Generación de variables aleatorias GPD

Si U se distribuye uniformemente en (0, 1], entonces

y

Ambas fórmulas se obtienen por inversión de la CDF.

En Matlab Statistics Toolbox, puede utilizar fácilmente el comando "gprnd" para generar números aleatorios de Pareto generalizados.

GPD como mezcla gamma exponencial

Una variable aleatoria GPD también se puede expresar como una variable aleatoria exponencial, con un parámetro de tasa distribuida Gamma.

y

entonces

Observe, sin embargo, que como los parámetros para la distribución Gamma deben ser mayores que cero, obtenemos las restricciones adicionales de que: deben ser positivos.

Además de esta expresión mixta (o compuesta), la distribución de Pareto generalizada también se puede expresar como una simple razón. Concretamente, para y , tenemos . Esto es una consecuencia de la mezcla después de fijar y tener en cuenta que los parámetros de velocidad de la distribución exponencial y gamma son simplemente constantes multiplicativas inversas.

Distribución Pareto generalizada exponencial

La distribución Pareto generalizada exponencial (exGPD)

La pdf de la (distribución de Pareto generalizada exponencial) para diferentes valores y .

Si , , , entonces se distribuye de acuerdo con la distribución de Pareto generalizada exponencial, denotada por , .

La función de densidad de probabilidad (pdf) de , es

donde el apoyo es para , y para .

Para todos , se convierte en el parámetro de ubicación. Consulte el panel derecho para ver el PDF cuando la forma es positiva.

El exGPD tiene momentos finitos de todos los órdenes para todos y .

La varianza de como función de . Nótese que la varianza solo depende de . La línea de puntos roja representa la varianza evaluada en , es decir, .

La función generadora de momentos de es

donde y denotan la función beta y la función gamma , respectivamente.

El valor esperado de , depende de los parámetros de escala y forma , mientras que participa a través de la función digamma :

Nótese que para un valor fijo para , el juega como el parámetro de ubicación bajo la distribución de Pareto generalizada exponencial.

La varianza de , depende del parámetro de forma únicamente a través de la función poligamma de orden 1 (también llamada función trigamma ):

Consulte el panel derecho para ver la varianza en función de . Tenga en cuenta que .

Obsérvese que los roles del parámetro de escala y del parámetro de forma se pueden interpretar de forma separada, lo que puede llevar a una estimación robusta y eficiente para el que se utiliza [2]. Los roles de los dos parámetros están asociados entre sí (al menos hasta el segundo momento central); consulte la fórmula de varianza en la que participan ambos parámetros.

El estimador de Hill

Supongamos que son observaciones (no necesariamente iid) de una distribución de cola pesada desconocida , de modo que su distribución de cola varía regularmente con el índice de cola (por lo tanto, el parámetro de forma correspondiente es ). Para ser más específicos, la distribución de cola se describe como

Es de particular interés en la teoría de valores extremos estimar el parámetro de forma , especialmente cuando es positivo (la llamada distribución de cola pesada).

Sea su función de distribución de exceso condicional. El teorema de Pickands–Balkema–de Haan (Pickands, 1975; Balkema y de Haan, 1974) establece que para una clase grande de funciones de distribución subyacentes , y grande , se aproxima bien mediante la distribución generalizada de Pareto (GPD), que motivó los métodos de pico sobre umbral (POT) para estimar : la GPD juega el papel clave en el enfoque POT.

Un estimador reconocido que utiliza la metodología POT es el estimador de Hill . La formulación técnica del estimador de Hill es la siguiente. Para , escriba para el -ésimo valor más grande de . Luego, con esta notación, el estimador de Hill (consulte la página 190 de la Referencia 5 de Embrechts et al [3]) basado en las estadísticas de orden superior se define como

En la práctica, el estimador de Hill se utiliza de la siguiente manera. Primero, se calcula el estimador en cada entero , y luego se trazan los pares ordenados . Luego, se selecciona del conjunto de estimadores de Hill que sean aproximadamente constantes con respecto a : estos valores estables se consideran estimaciones razonables para el parámetro de forma . Si son iid, entonces el estimador de Hill es un estimador consistente para el parámetro de forma [4].

Obsérvese que el estimador de Hill utiliza la transformación logarítmica para las observaciones . (El estimador de Pickand también empleó la transformación logarítmica, pero de una manera ligeramente diferente [5]).

Véase también

Referencias

  1. ^ ab Norton, Matthew; Khokhlov, Valentyn; Uryasev, Stan (2019). "Cálculo de CVaR y bPOE para distribuciones de probabilidad comunes con aplicación a la optimización de carteras y estimación de densidad" (PDF) . Anales de investigación de operaciones . 299 (1–2). Springer: 1281–1315. arXiv : 1811.11301 . doi :10.1007/s10479-019-03373-1. S2CID  254231768. Archivado desde el original (PDF) el 2023-03-31 . Consultado el 2023-02-27 .
  2. ^ Coles, Stuart (12 de diciembre de 2001). Introducción al modelado estadístico de valores extremos. Springer. pág. 75. ISBN 9781852334598.
  3. ^ Dargahi-Noubary, GR (1989). "Sobre la estimación de la cola: un método mejorado". Geología matemática . 21 (8): 829–842. Código Bibliográfico :1989MatGe..21..829D. doi :10.1007/BF00894450. S2CID  122710961.
  4. ^ Hosking, JRM; Wallis, JR (1987). "Estimación de parámetros y cuantiles para la distribución generalizada de Pareto". Technometrics . 29 (3): 339–349. doi :10.2307/1269343. JSTOR  1269343.
  5. ^ Davison, AC (30 de septiembre de 1984). "Modelado de excesos por encima de umbrales altos, con una aplicación". En de Oliveira, J. Tiago (ed.). Extremos estadísticos y aplicaciones . Kluwer. pág. 462. ISBN 9789027718044.
  6. ^ Embrechts, Paul; Klüppelberg, Claudia ; Mikosch, Thomas (1 de enero de 1997). Modelado de eventos extremos para seguros y finanzas. Springer. p. 162. ISBN 9783540609315.
  7. ^ Castillo, Enrique y Ali S. Hadi. "Ajuste de la distribución generalizada de Pareto a los datos". Journal of the American Statistical Association 92.440 (1997): 1609-1620.

Lectura adicional

Enlaces externos