stringtranslate.com

Distribución de cola pesada

En teoría de la probabilidad , las distribuciones de colas pesadas son distribuciones de probabilidad cuyas colas no están acotadas exponencialmente: [1] es decir, tienen colas más pesadas que la distribución exponencial . En muchas aplicaciones lo que interesa es la cola derecha de la distribución, pero una distribución puede tener una cola izquierda pesada o ambas colas pueden ser pesadas.

Hay tres subclases importantes de distribuciones de cola pesada: las distribuciones de cola gruesa , las distribuciones de cola larga y las distribuciones subexponenciales . En la práctica, todas las distribuciones de cola pesada comúnmente utilizadas pertenecen a la clase subexponencial, introducida por Jozef Teugels . [2]

Todavía existe cierta discrepancia sobre el uso del término de cola pesada . Hay otras dos definiciones en uso. Algunos autores utilizan el término para referirse a aquellas distribuciones que no tienen todos sus momentos de potencia finitos; y algunas otras a aquellas distribuciones que no tienen una varianza finita . La definición dada en este artículo es la más general en uso e incluye todas las distribuciones abarcadas por las definiciones alternativas, así como aquellas distribuciones como log-normal que poseen todos sus momentos de potencia, pero que generalmente se consideran de cola pesada. . (Ocasionalmente, la cola pesada se utiliza para cualquier distribución que tenga colas más pesadas que la distribución normal).

Definiciones

Definición de distribución de cola pesada

Se dice que la distribución de una variable aleatoria X con función de distribución F tiene una cola pesada (derecha) si la función generadora de momento de X , M X ( t ), es infinita para todo t  > 0. [3]

Eso significa

[4]


Esto también se escribe en términos de la función de distribución de cola.

como

Definición de distribución de cola larga

Se dice que la distribución de una variable aleatoria X con función de distribución F tiene una cola derecha larga [1] si para todo t  > 0,

o equivalente

Esto tiene la interpretación intuitiva para una cantidad distribuida de cola larga y de cola derecha de que si la cantidad de cola larga excede algún nivel alto, la probabilidad se acerca a 1 de que exceda cualquier otro nivel superior.

Todas las distribuciones de cola larga son de cola pesada, pero lo contrario es falso y es posible construir distribuciones de cola pesada que no lo sean.

Distribuciones subexponenciales

La subexponencialidad se define en términos de convoluciones de distribuciones de probabilidad . Para dos variables aleatorias independientes, distribuidas idénticamente y con una función de distribución común , la convolución de consigo misma, escrita y denominada cuadrado de convolución, se define mediante la integración de Lebesgue-Stieltjes mediante:

y la convolución n veces se define inductivamente mediante la regla:

La función de distribución de cola se define como .

Una distribución en la media línea positiva es subexponencial [1] [5] [2] si

Esto implica [6] que, para cualquier ,

La interpretación probabilística [6] de esto es que, para una suma de variables aleatorias independientes con distribución común ,

Esto se conoce a menudo como principio del gran salto único [7] o principio de catástrofe. [8]

Una distribución en toda la línea real es subexponencial si la distribución lo es. [9] Aquí está la función indicadora de la media línea positiva. Alternativamente, una variable aleatoria apoyada en la recta real es subexponencial si y sólo si es subexponencial.

Todas las distribuciones subexponenciales son de cola larga, pero se pueden construir ejemplos de distribuciones de cola larga que no son subexponenciales.

Distribuciones comunes de cola pesada

Todas las distribuciones de cola pesada utilizadas habitualmente son subexponenciales. [6]

Los que son de una cola incluyen:

Los que tienen dos colas incluyen:

Relación con las distribuciones de cola gruesa

Una distribución de cola gruesa es una distribución para la cual la función de densidad de probabilidad, para x grande, llega a cero como potencia . Dado que dicha potencia siempre está limitada por la función de densidad de probabilidad de una distribución exponencial, las distribuciones de cola gruesa siempre lo son. Algunas distribuciones, sin embargo, tienen una cola que llega a cero más lentamente que una función exponencial (lo que significa que tienen cola pesada), pero más rápido que una potencia (lo que significa que no tienen cola gruesa). Un ejemplo es la distribución log-normal [ contradictoria ] . Sin embargo , muchas otras distribuciones de cola pesada, como la logística logarítmica y la distribución de Pareto , también lo son.

Estimando el índice de cola

Existen enfoques paramétricos [6] y no paramétricos [14] para el problema de la estimación del índice de cola. [ cuando se define como? ]

Para estimar el índice de cola utilizando el enfoque paramétrico, algunos autores emplean la distribución GEV o la distribución de Pareto ; pueden aplicar el estimador de máxima verosimilitud (MLE).

Estimador del índice de cola de Pickand

Con una secuencia aleatoria de función de densidad igual e independiente , el dominio de atracción máxima [15] de la densidad de valor extremo generalizado , donde . Si y , entonces la estimación del índice de cola de Pickands es [6] [15]

dónde . Este estimador converge en probabilidad a .

Estimador del índice de cola de Hill

Sea una secuencia de variables aleatorias independientes e idénticamente distribuidas con función de distribución , el dominio máximo de atracción de la distribución de valores extremos generalizada , donde . La ruta de muestra es donde está el tamaño de la muestra. Si es una secuencia de orden intermedio, es decir , y , entonces el estimador del índice de cola de Hill es [16]

¿Dónde está el estadístico de -ésimo orden de ? Este estimador converge en probabilidad a , y es asintóticamente normal siempre que esté restringido en función de una propiedad de variación regular de orden superior [17] . [18] La coherencia y la normalidad asintótica se extienden a una gran clase de secuencias dependientes y heterogéneas, [19] [20] independientemente de si se observan, se calculan datos residuales o se filtran de una gran clase de modelos y estimadores, incluidos los mal especificados. Modelos y modelos con errores que son dependientes. [21] [22] [23] Tenga en cuenta que tanto los estimadores del índice de cola de Pickand como los de Hill suelen utilizar estadísticas de logaritmo del orden. [24]

Estimador de ratio del índice de cola.

Goldie y Smith introdujeron el estimador de ratio (estimador RE) del índice de cola. [25] Está construido de manera similar al estimador de Hill, pero utiliza un "parámetro de ajuste" no aleatorio.

En Novak se puede encontrar una comparación de los estimadores de tipo Hill y RE. [14]

Software

Estimación de la densidad de colas pesadas.

En Markovich se dieron enfoques no paramétricos para estimar funciones de densidad de probabilidad de colas pesadas y superpesadas. [27] Estos son enfoques basados ​​en ancho de banda variable y estimadores de kernel de cola larga; en los datos preliminares se transforman a una nueva variable aleatoria a intervalos finitos o infinitos, lo cual es más conveniente para la estimación y luego se transforma inversamente la estimación de densidad obtenida; y "enfoque de unión", que proporciona un determinado modelo paramétrico para la cola de la densidad y un modelo no paramétrico para aproximar la moda de la densidad. Los estimadores no paramétricos requieren una selección adecuada de parámetros de ajuste (suavizado), como el ancho de banda de los estimadores del núcleo y el ancho del contenedor del histograma. Los métodos bien conocidos de dicha selección basados ​​en datos son la validación cruzada y sus modificaciones, métodos basados ​​en la minimización del error cuadrático medio (MSE) y sus límites asintóticos y superiores. [28] Un método de discrepancia que utiliza estadísticas no paramétricas conocidas como las de Kolmogorov-Smirnov, von Mises y Anderson-Darling como métrica en el espacio de funciones de distribución (dfs) y cuantiles de las estadísticas posteriores como una incertidumbre conocida o una discrepancia. El valor se puede encontrar en. [27] Bootstrap es otra herramienta para encontrar parámetros de suavizado utilizando aproximaciones de MSE desconocido mediante diferentes esquemas de selección de remuestras; consulte, por ejemplo, [29].

Ver también

Referencias

  1. ^ abc Asmussen, SR (2003). "Propiedades de estado estacionario de GI/G/1". Probabilidad Aplicada y Colas . Modelización estocástica y probabilidad aplicada. vol. 51, págs. 266–301. doi :10.1007/0-387-21525-5_10. ISBN 978-0-387-00211-8.
  2. ^ ab Teugels, Jozef L. (1975). "La clase de distribuciones subexponenciales". Anales de probabilidad . 3 (6). Universidad de Lovaina . doi : 10.1214/aop/1176996225 . Consultado el 7 de abril de 2019 .
  3. ^ Rolski, Schmidli, Scmidt, Teugels, Procesos estocásticos para seguros y finanzas , 1999
  4. ^ S. Foss, D. Korshunov, S. Zachary, Introducción a las distribuciones subexponenciales y de cola pesada , Springer Science & Business Media, 21 de mayo de 2013
  5. ^ Chistyakov, vicepresidente (1964). "Un teorema sobre sumas de variables aleatorias positivas independientes y sus aplicaciones a procesos aleatorios ramificados". Puerta de la investigación . Consultado el 7 de abril de 2019 .
  6. ^ abcde Embrechts P.; Klueppelberg C.; Mikosch T. (1997). Modelado de eventos extremos para seguros y finanzas . Modelización estocástica y probabilidad aplicada. vol. 33. Berlín: Springer. doi :10.1007/978-3-642-33483-2. ISBN 978-3-642-08242-9.
  7. ^ Foss, S.; Konstantopoulos, T.; Zachary, S. (2007). "Paseos aleatorios discretos y continuos modulados en tiempo con incrementos de cola pesada" (PDF) . Revista de probabilidad teórica . 20 (3): 581. arXiv : matemáticas/0509605 . CiteSeerX 10.1.1.210.1699 . doi :10.1007/s10959-007-0081-2. S2CID  3047753. 
  8. ^ Wierman, Adam (9 de enero de 2014). "Catástrofes, conspiraciones y distribuciones subexponenciales (Parte III)". Blog Rigor + Relevancia . RSRG, Caltech . Consultado el 9 de enero de 2014 .
  9. ^ Willekens, E. (1986). "Subexponencialidad en la recta real". Reporte técnico . KU Lovaina.
  10. ^ Falk, M., Hüsler, J. y Reiss, R. (2010). Leyes de los números pequeños: extremos y eventos raros . Saltador. pag. 80.ISBN 978-3-0348-0008-2.{{cite book}}: CS1 maint: multiple names: authors list (link)
  11. ^ Alves, FOMIN, de Haan, L. y Neves, C. (10 de marzo de 2006). "Inferencia estadística para distribuciones de colas pesadas y superpesadas" (PDF) . Archivado desde el original (PDF) el 23 de junio de 2007 . Consultado el 1 de noviembre de 2011 .{{cite web}}: CS1 maint: multiple names: authors list (link)
  12. ^ John P. Nolan (2009). "Distribuciones estables: modelos para datos de cola pesada" (PDF) . Archivado desde el original (PDF) el 17 de julio de 2011 . Consultado el 21 de febrero de 2009 .
  13. ^ Stephen Lihn (2009). "Distribución en cascada sesgada lognormal". Archivado desde el original el 7 de abril de 2014 . Consultado el 12 de junio de 2009 .
  14. ^ ab Novak SY (2011). Métodos de valor extremo con aplicaciones a las finanzas . Londres: CRC. ISBN 978-1-43983-574-6.
  15. ^ ab Pickands III, James (enero de 1975). "Inferencia estadística utilizando estadísticas de orden extremo". Los anales de la estadística . 3 (1): 119-131. doi : 10.1214/aos/1176343003 . JSTOR  2958083.
  16. ^ Hill BM (1975) Un enfoque general simple para la inferencia sobre la cola de una distribución. Ana. Stat., v. 3, 1163–1174.
  17. ^ Hall, P.(1982) Sobre algunas estimaciones de un exponente de variación regular. Estadística JR. Soc. Ser. B., versos 44, 37–42.
  18. ^ Haeusler, E. y JL Teugels (1985) Sobre la normalidad asintótica del estimador de Hill para el exponente de variación regular. Ana. Stat., v. 13, 743–756.
  19. ^ Hsing, T. (1991) Sobre la estimación del índice de cola utilizando datos dependientes. Ana. Stat., v. 19, 1547–1569.
  20. ^ Hill, J. (2010) Sobre la estimación del índice de cola para datos dependientes y heterogéneos. Th. econométrico, v. 26, 1398-1436.
  21. ^ Resnick, S. y Starica, C. (1997). Comportamiento asintótico del estimador de Hill para datos autorregresivos. Com. Estadístico. Modelos estocásticos 13, 703–721.
  22. ^ Ling, S. y Peng, L. (2004). Estimador de Hill para el índice de cola de un modelo ARMA. J. Estatista. Planificar. Inferencia 123, 279–293.
  23. ^ Colina, JB (2015). Estimación del índice de cola para una serie temporal dependiente filtrada. Estadística. Pecado. 25, 609–630.
  24. ^ Lee, Seyoon; Kim, Joseph HT (2019). "Distribución de Pareto generalizada exponenciada: propiedades y aplicaciones hacia la teoría del valor extremo". Comunicaciones en Estadística - Teoría y Métodos . 48 (8): 2014-2038. arXiv : 1708.01686 . doi :10.1080/03610926.2018.1441418. S2CID  88514574.
  25. ^ Goldie CM, Smith RL (1987) Variación lenta con resto: teoría y aplicaciones. Cuarto de galón. J. Matemáticas. Oxford, v. 38, 45–71.
  26. ^ Crovella, YO; Taqqu, MS (1999). "Estimación del índice de cola pesada a partir de propiedades de escala". Metodología y Computación en Probabilidad Aplicada . 1 : 55–79. doi :10.1023/A:1010012224103. S2CID  8917289.
  27. ^ ab Markovich NM (2007). Análisis no paramétrico de datos univariados de cola pesada: investigación y práctica . Chitester: Wiley. ISBN 978-0-470-72359-3.
  28. ^ Varita MP, Jones MC (1995). Alisado del grano . Nueva York: Chapman y Hall. ISBN 978-0412552700.
  29. ^ Salón P. (1992). La expansión Bootstrap y Edgeworth . Saltador. ISBN 9780387945088.