Distribución de cola pesada

En teoría de probabilidad , las distribuciones de cola pesada son distribuciones de probabilidad cuyas colas no están acotadas exponencialmente: ^[1] es decir, tienen colas más pesadas que la distribución exponencial . En muchas aplicaciones, es la cola derecha de la distribución la que interesa, pero una distribución puede tener una cola izquierda pesada, o ambas colas pueden ser pesadas.

Existen tres subclases importantes de distribuciones de cola pesada: las distribuciones de cola gruesa , las distribuciones de cola larga y las distribuciones subexponenciales . En la práctica, todas las distribuciones de cola pesada comúnmente utilizadas pertenecen a la clase subexponencial, introducida por Jozef Teugels . ^[2]

Todavía hay cierta discrepancia sobre el uso del término " de cola pesada" . Hay otras dos definiciones en uso. Algunos autores usan el término para referirse a aquellas distribuciones que no tienen todos sus momentos de potencia finitos; y otros a aquellas distribuciones que no tienen una varianza finita . La definición dada en este artículo es la más general en uso e incluye todas las distribuciones abarcadas por las definiciones alternativas, así como aquellas distribuciones como la log-normal que poseen todos sus momentos de potencia, pero que generalmente se consideran de cola pesada. (Ocasionalmente, "de cola pesada" se usa para cualquier distribución que tenga colas más pesadas que la distribución normal).

Definiciones

Definición de distribución de cola pesada

_{Se dice que} la distribución de una variable aleatoria X con función de distribución F tiene una cola pesada (derecha) si la función generadora de momentos de X , MX ( t ), es infinita para todo t > 0. ^[3]

Eso significa

\int _{-\infty }^{\infty }e^{tx}\,dF(x)=\infty \quad {\mbox{para todo }}t>0.

^[4]

Esto también está escrito en términos de la función de distribución de cola.

{\overline {F}}(x)\equiv \Pr[X>x]\,

como

\lim _{x\to \infty }e^{tx}{\overline {F}}(x)=\infty \quad {\mbox{para todo }}t>0.\,

Definición de distribución de cola larga

Se dice que la distribución de una variable aleatoria X con función de distribución F tiene una cola derecha larga ^[1] si para todo t > 0,

\lim_{x\to \infty}\Pr[X>x+t\mid X>x]=1,\,

o equivalentemente

{\overline {F}}(x+t)\sim {\overline {F}}(x)\quad {\mbox{como }}x\to \infty .\,

Esto tiene la interpretación intuitiva para una cantidad distribuida de cola larga y cola derecha de que si la cantidad de cola larga excede algún nivel alto, la probabilidad se acerca a 1 de que excederá cualquier otro nivel superior.

Todas las distribuciones de cola larga son de cola pesada, pero lo inverso es falso y es posible construir distribuciones de cola pesada que no sean de cola larga.

Distribuciones subexponenciales

La subexponencialidad se define en términos de convoluciones de distribuciones de probabilidad . Para dos variables aleatorias independientes, idénticamente distribuidas con una función de distribución común , la convolución de consigo misma, escrita y llamada cuadrado de convolución, se define utilizando la integración de Lebesgue-Stieltjes por: $Estilo de visualización X_{1}, X_{2}}$ ${\estilo de visualización F}$ ${\estilo de visualización F}$ $Estilo de visualización F*2$

\Pr[X_{1}+X_{2}\leq x]=F^{*2}(x)=\int _{0}^{x}F(xy)\,dF(y),

y la convolución n -fold se define inductivamente por la regla: $Estilo de visualización F*n$

F^{*n}(x)=\int _{0}^{x}F(xy)\,dF^{*n-1}(y).

La función de distribución de cola se define como . ${\overline {F}}$ ${\overline {F}}(x)=1-F(x)$

Una distribución en la semirrecta positiva es subexponencial ^[1]^[5]^[2] si ${\estilo de visualización F}$

{\overline {F^{*2}}}(x)\sim 2{\overline {F}}(x)\quad {\mbox{as }}x\to \infty .

Esto implica ^[6] que, para cualquier , $n\geq 1$

{\overline {F^{*n}}}(x)\sim n{\overline {F}}(x)\quad {\mbox{as }}x\to \infty .

La interpretación probabilística ^[6] de esto es que, para una suma de variables aleatorias independientes con distribución común , $n$ $X_{1},\ldots ,X_{n}$ $F$

\Pr[X_{1}+\cdots +X_{n}>x]\sim \Pr[\max(X_{1},\ldots ,X_{n})>x]\quad {\text{as }}x\to \infty .

Esto se conoce a menudo como el principio del gran salto único ^[7] o principio de catástrofe. ^[8]

Una distribución sobre la línea real completa es subexponencial si la distribución es. ^[9] Aquí está la función indicadora de la semilínea positiva. Alternativamente, una variable aleatoria soportada sobre la línea real es subexponencial si y solo si es subexponencial. $F$ $FI([0,\infty ))$ $I([0,\infty ))$ $X$ $X^{+}=\max(0,X)$

Todas las distribuciones subexponenciales son de cola larga, pero se pueden construir ejemplos de distribuciones de cola larga que no sean subexponenciales.

Distribuciones comunes de cola pesada

Todas las distribuciones de cola pesada comúnmente utilizadas son subexponenciales. ^[6]

Entre los que son de una sola cola se incluyen:

la distribución de Pareto ;
la distribución log-normal ;
la distribución de Lévy ;
la distribución de Weibull con parámetro de forma mayor que 0 pero menor que 1;
La distribución de Burr ;
la distribución log-logística ;
la distribución log-gamma ;
La distribución de Fréchet ;
la distribución q-gaussiana ;
la distribución log-Cauchy , a veces descrita como que tiene una "cola superpesada" porque exhibe una desintegración logarítmica que produce una cola más pesada que la distribución de Pareto. ^[10]^[11]

Entre los que tienen dos colas se incluyen:

La distribución de Cauchy , en sí misma un caso especial tanto de la distribución estable como de la distribución t;
La familia de distribuciones estables , ^[12] exceptuando el caso especial de la distribución normal dentro de esa familia. Algunas distribuciones estables son unilaterales (o están respaldadas por una semirrecta), véase, por ejemplo, la distribución de Lévy . Véase también modelos financieros con distribuciones de cola larga y agrupamiento de volatilidad .
La distribución t .
Distribución en cascada log-normal sesgada. ^[13]

Relación con distribuciones de cola gruesa

Una distribución de cola gruesa es una distribución en la que la función de densidad de probabilidad, para x grande, tiende a cero como una potencia . Dado que dicha potencia siempre está limitada por debajo por la función de densidad de probabilidad de una distribución exponencial, las distribuciones de cola gruesa son siempre de cola pesada. Sin embargo, algunas distribuciones tienen una cola que tiende a cero más lentamente que una función exponencial (lo que significa que son de cola pesada), pero más rápido que una potencia (lo que significa que no son de cola gruesa). Un ejemplo es la distribución log-normal ^[^{contradictoria}^] . Sin embargo, muchas otras distribuciones de cola pesada, como la distribución log-logística y la distribución de Pareto , también son de cola gruesa. $x^{-a}$

Estimación del índice de cola

Existen enfoques paramétricos ^[6] y no paramétricos ^[14] para el problema de la estimación del índice de cola. ^{[ cuando se define como? ]}

Para estimar el índice de cola utilizando el enfoque paramétrico, algunos autores emplean la distribución GEV o la distribución de Pareto ; pueden aplicar el estimador de máxima verosimilitud (MLE).

Estimador del índice de cola de Pickand

Con una secuencia aleatoria de funciones de densidad independientes y iguales , el Dominio de Atracción Máxima ^[15] de la densidad de valores extremos generalizados , donde . Si y , entonces la estimación del índice de cola de Pickands es ^[6]^[15] $(X_{n},n\geq 1)$ $F\in D(H(\xi ))$ $H$ $\xi \in \mathbb {R}$ $\lim _{n\to \infty }k(n)=\infty$ $\lim _{n\to \infty }{\frac {k(n)}{n}}=0$

\xi _{(k(n),n)}^{\text{Pickands}}={\frac {1}{\ln 2}}\ln \left({\frac {X_{(n-k(n)+1,n)}-X_{(n-2k(n)+1,n)}}{X_{(n-2k(n)+1,n)}-X_{(n-4k(n)+1,n)}}}\right),

donde . Este estimador converge en probabilidad a . $X_{(n-k(n)+1,n)}=\max \left(X_{n-k(n)+1},\ldots ,X_{n}\right)$ $\xi$

Estimador del índice de cola de Hill

Sea una secuencia de variables aleatorias independientes e idénticamente distribuidas con función de distribución , el dominio máximo de atracción de la distribución generalizada de valores extremos , donde . La ruta de la muestra es donde es el tamaño de la muestra. Si es una secuencia de orden intermedio, es decir , y , entonces el estimador del índice de cola de Hill es ^[16] $(X_{t},t\geq 1)$ $F\in D(H(\xi ))$ $H$ $\xi \in \mathbb {R}$ ${X_{t}:1\leq t\leq n}$ $n$ $\{k(n)\}$ $k(n)\in \{1,\ldots ,n-1\},$ $k(n)\to \infty$ $k(n)/n\to 0$

\xi _{(k(n),n)}^{\text{Hill}}=\left({\frac {1}{k(n)}}\sum _{i=n-k(n)+1}^{n}\ln(X_{(i,n)})-\ln(X_{(n-k(n)+1,n)})\right)^{-1},

donde es la estadística de orden -ésimo de . Este estimador converge en probabilidad a , y es asintóticamente normal siempre que esté restringido en función de una propiedad de variación regular de orden superior ^[17] . ^[18] La consistencia y la normalidad asintótica se extienden a una gran clase de secuencias dependientes y heterogéneas, ^[19]^[20] independientemente de si se observa, o un residuo calculado o datos filtrados de una gran clase de modelos y estimadores, incluidos modelos mal especificados y modelos con errores que son dependientes. ^[21]^[22]^[23] Nótese que tanto los estimadores de índice de cola de Pickand como de Hill comúnmente hacen uso del logaritmo de las estadísticas de orden. ^[24] $X_{(i,n)}$ $i$ $X_{1},\dots ,X_{n}$ $\xi$ $k(n)\to \infty$ $X_{t}$

Estimador de razón del índice de cola

El estimador de razón (estimador RE) del índice de cola fue introducido por Goldie y Smith. ^[25] Está construido de manera similar al estimador de Hill pero utiliza un "parámetro de ajuste" no aleatorio.

Se puede encontrar una comparación de los estimadores de tipo Hill y de tipo RE en Novak. ^[14]

Software

aest Archivado el 25 de noviembre de 2020 en Wayback Machine , herramienta C para estimar el índice de cola pesada. ^[26]

Estimación de la densidad de cola pesada

Los enfoques no paramétricos para estimar funciones de densidad de probabilidad de cola pesada y superpesada fueron dados en Markovich. ^[27] Estos son enfoques basados en el ancho de banda variable y estimadores kernel de cola larga; en la transformación de datos preliminares a una nueva variable aleatoria a intervalos finitos o infinitos, lo que es más conveniente para la estimación y luego la transformación inversa de la estimación de densidad obtenida; y el "enfoque de unión de piezas" que proporciona un cierto modelo paramétrico para la cola de la densidad y un modelo no paramétrico para aproximar la moda de la densidad. Los estimadores no paramétricos requieren una selección apropiada de parámetros de ajuste (suavizado) como un ancho de banda de estimadores kernel y el ancho de bin del histograma. Los métodos basados en datos bien conocidos de dicha selección son una validación cruzada y sus modificaciones, métodos basados en la minimización del error cuadrático medio (MSE) y su asintótico y sus límites superiores. ^[28] Un método de discrepancia que utiliza estadísticas no paramétricas bien conocidas como las de Kolmogorov-Smirnov, von Mises y Anderson-Darling como una métrica en el espacio de funciones de distribución (gl) y cuantiles de las estadísticas posteriores como una incertidumbre conocida o un valor de discrepancia se puede encontrar en. ^[27] Bootstrap es otra herramienta para encontrar parámetros de suavizado utilizando aproximaciones de MSE desconocido mediante diferentes esquemas de selección de re-muestras, ver por ejemplo ^[29]

Véase también

Referencias

^ abc Asmussen, SR (2003). "Propiedades de estado estable de GI/G/1". Probabilidad aplicada y colas . Modelado estocástico y probabilidad aplicada. Vol. 51. págs. 266–301. doi :10.1007/0-387-21525-5_10. ISBN 978-0-387-00211-8.
^ ab Teugels, Jozef L. (1975). "La clase de distribuciones subexponenciales". Anales de probabilidad . 3 (6). Universidad de Lovaina . doi : 10.1214/aop/1176996225 . Consultado el 7 de abril de 2019 .
^ Rolski, Schmidli, Scmidt, Teugels, Procesos estocásticos para seguros y finanzas , 1999
^ S. Foss, D. Korshunov, S. Zachary, Introducción a las distribuciones subexponenciales y de cola pesada , Springer Science & Business Media, 21 de mayo de 2013
^ Chistyakov, VP (1964). "Un teorema sobre sumas de variables aleatorias positivas independientes y sus aplicaciones a procesos aleatorios ramificados". ResearchGate . Consultado el 7 de abril de 2019 .
^ abcde Embrechts P.; Klueppelberg C.; Mikosch T. (1997). Modelado de eventos extremos para seguros y finanzas . Modelado estocástico y probabilidad aplicada. Vol. 33. Berlín: Springer. doi :10.1007/978-3-642-33483-2. ISBN 978-3-642-08242-9.
^ Foss, S.; Konstantopoulos, T.; Zachary, S. (2007). "Paseos aleatorios modulados en el tiempo discretos y continuos con incrementos de cola pesada" (PDF) . Journal of Theoretical Probability . 20 (3): 581. arXiv : math/0509605 . CiteSeerX 10.1.1.210.1699 . doi :10.1007/s10959-007-0081-2. S2CID 3047753.
^ Wierman, Adam (9 de enero de 2014). "Catástrofes, conspiraciones y distribuciones subexponenciales (Parte III)". Blog Rigor + Relevance . RSRG, Caltech . Consultado el 9 de enero de 2014 .
^ Willekens, E. (1986). "Subexponencialidad en la línea real". Informe técnico . KU Leuven.
^ Falk, M., Hüsler, J. y Reiss, R. (2010). Leyes de los números pequeños: extremos y eventos raros . Springer. pág. 80. ISBN. 978-3-0348-0008-2.{{cite book}}: CS1 maint: multiple names: authors list (link)
^ Alves, MIF, de Haan, L. y Neves, C. (10 de marzo de 2006). "Inferencia estadística para distribuciones de colas pesadas y superpesadas" (PDF) . Archivado desde el original (PDF) el 23 de junio de 2007. Consultado el 1 de noviembre de 2011 .{{cite web}}: CS1 maint: multiple names: authors list (link)
^ John P. Nolan (2009). «Distribuciones estables: modelos para datos de cola pesada» (PDF) . Archivado desde el original (PDF) el 17 de julio de 2011. Consultado el 21 de febrero de 2009 .
^ Stephen Lihn (2009). «Distribución en cascada lognormal sesgada». Archivado desde el original el 7 de abril de 2014. Consultado el 12 de junio de 2009 .
^ ab Novak SY (2011). Métodos de valor extremo con aplicaciones a las finanzas . Londres: CRC. ISBN 978-1-43983-574-6.
^ ab Pickands III, James (enero de 1975). "Inferencia estadística utilizando estadísticas de orden extremo". Anales de estadística . 3 (1): 119–131. doi : 10.1214/aos/1176343003 . JSTOR 2958083.
^ Hill BM (1975) Un enfoque general simple para la inferencia sobre la cola de una distribución. Ann. Stat., v. 3, 1163–1174.
^ Hall, P. (1982) Sobre algunas estimaciones de un exponente de variación regular. JR Stat. Soc. Ser. B., v. 44, 37–42.
^ Haeusler, E. y JL Teugels (1985) Sobre la normalidad asintótica del estimador de Hill para el exponente de variación regular. Ann. Stat., v. 13, 743–756.
^ Hsing, T. (1991) Sobre la estimación del índice de cola utilizando datos dependientes. Ann. Stat., v. 19, 1547–1569.
^ Hill, J. (2010) Estimación del índice de cola para datos dependientes y heterogéneos. Econometric Th., v. 26, 1398–1436.
^ Resnick, S. y Starica, C. (1997). Comportamiento asintótico del estimador de Hill para datos autorregresivos. Comm. Statist. Stochastic Models 13, 703–721.
^ Ling, S. y Peng, L. (2004). Estimador de Hill para el índice de cola de un modelo ARMA. J. Statist. Plann. Inference 123, 279–293.
^ Hill, JB (2015). Estimación del índice de cola para una serie temporal dependiente filtrada. Stat. Sin. 25, 609–630.
^ Lee, Seyoon; Kim, Joseph HT (2019). "Distribución Pareto generalizada exponencial: propiedades y aplicaciones hacia la teoría del valor extremo". Communications in Statistics - Theory and Methods . 48 (8): 2014–2038. arXiv : 1708.01686 . doi :10.1080/03610926.2018.1441418. S2CID 88514574.
^ Goldie CM, Smith RL (1987) Variación lenta con resto: teoría y aplicaciones. Quart. J. Math. Oxford, v. 38, 45–71.
^ Crovella, ME; Taqqu, MS (1999). "Estimación del índice de cola pesada a partir de propiedades de escala". Metodología y computación en probabilidad aplicada . 1 : 55–79. doi :10.1023/A:1010012224103. S2CID 8917289. Archivado desde el original el 2007-02-06 . Consultado el 2015-09-03 .
^ ab Markovich NM (2007). Análisis no paramétrico de datos univariados de cola pesada: investigación y práctica . Chitester: Wiley. ISBN 978-0-470-72359-3.
^ Wand MP, Jones MC (1995). Suavizado de núcleo . Nueva York: Chapman and Hall. ISBN 978-0412552700.
^ Hall P. (1992). La expansión de Bootstrap y Edgeworth . Springer. ISBN 9780387945088.