Distribución de Yule-Simon

En probabilidad y estadística , la distribución de Yule-Simon es una distribución de probabilidad discreta que lleva el nombre de Udny Yule y Herbert A. Simon . Originalmente, Simon la llamó distribución de Yule . ^[1]

La función de masa de probabilidad (pmf) de la distribución de Yule–Simon ( ρ ) es

f(k;\rho )=\rho \nombre del operador {B} (k,\rho +1),

Para enteros y reales , donde es la función beta . De manera equivalente, la función masa de probabilidad se puede escribir en términos del factorial ascendente como $k\geq 1$ $\rho >0$ $\nombre del operador {B}$

f(k;\rho )={\frac {\rho \Gamma (\rho +1)}{(k+\rho )^{\underline {\rho +1}}}},

donde es la función gamma . Por lo tanto, si es un entero, ${\estilo de visualización \Gamma}$ ${\estilo de visualización \rho}$

f(k;\rho )={\frac {\rho \,\rho !\,(k-1)!}{(k+\rho )!}}.

El parámetro se puede estimar utilizando un algoritmo de punto fijo. ^[2] ${\estilo de visualización \rho}$

La función de masa de probabilidad f tiene la propiedad de que para un valor k suficientemente grande tenemos

f(k;\rho )\approx {\frac {\rho \Gamma (\rho +1)}{k^{\rho +1}}}\propto {\frac {1}{k^{ \rho +1}}}.

Esto significa que la cola de la distribución de Yule-Simon es una realización de la ley de Zipf : puede usarse para modelar, por ejemplo, la frecuencia relativa de la palabra más frecuente en una gran colección de texto, que según la ley de Zipf es inversamente proporcional a una potencia (normalmente pequeña) de . $f(k;\rho )$ ${\estilo de visualización k}$ ${\estilo de visualización k}$

Aparición

La distribución de Yule-Simon surgió originalmente como la distribución límite de un modelo particular estudiado por Udny Yule en 1925 para analizar el crecimiento en el número de especies por género en algunos taxones superiores de organismos bióticos. ^[3] El modelo de Yule hace uso de dos procesos de Yule relacionados, donde un proceso de Yule se define como un proceso de nacimiento temporal continuo que comienza con uno o más individuos. Yule demostró que cuando el tiempo tiende al infinito, la distribución límite del número de especies en un género seleccionado uniformemente al azar tiene una forma específica y exhibe un comportamiento de ley de potencia en su cola. Treinta años después, el premio Nobel Herbert A. Simon propuso un modelo de apego preferencial discreto en el tiempo para describir la aparición de nuevas palabras en un gran fragmento de un texto. Curiosamente, la distribución límite del número de ocurrencias de cada palabra, cuando el número de palabras diverge, coincide con la del número de especies que pertenecen al género elegido aleatoriamente en el modelo de Yule, para una elección específica de los parámetros . Este hecho explica la designación distribución de Yule-Simon que se asigna comúnmente a esa distribución límite. En el contexto de los grafos aleatorios, el modelo de Barabási-Albert también exhibe una distribución de grado asintótico que es igual a la distribución de Yule-Simon en correspondencia con una elección específica de los parámetros y aún presenta características de ley de potencia para elecciones más generales de los parámetros. Lo mismo sucede también para otros modelos de grafos aleatorios de apego preferencial . ^[4]

El proceso de fijación preferencial también puede estudiarse como un proceso de urna en el que se añaden bolas a un número creciente de urnas, y cada bola se asigna a una urna con una probabilidad lineal en el número (de bolas) que la urna ya contiene.

La distribución también surge como una distribución compuesta , en la que el parámetro de una distribución geométrica se trata como una función de una variable aleatoria que tiene una distribución exponencial . ^{[ cita requerida ]} Específicamente, suponga que sigue una distribución exponencial con escala o tasa : ${\estilo de visualización W}$ ${\estilo de visualización 1/\rho}$ ${\estilo de visualización \rho}$

W\sim \operatorname {Exponencial} (\rho ),

con densidad

h(w;\rho )=\rho \exp(-\rho w).

Entonces, una variable distribuida según Yule-Simon K tiene la siguiente distribución geométrica condicional a W :

K\sim \operatorname {Geométrico} (\exp(-W)).

La función masa de probabilidad de una distribución geométrica es

g(k;p)=p(1-p)^{k-1}

para . La función masa de probabilidad de Yule-Simon es entonces la siguiente distribución compuesta geométrica exponencial: $k\en \{1,2,\puntosc \}$

f(k;\rho )=\int _{0}^{\infty }g(k;\exp(-w))h(w;\rho )\,dw.

El estimador de máxima verosimilitud para el parámetro dadas las observaciones es la solución de la ecuación de punto fijo ${\estilo de visualización \rho}$ $k_{1},k_{2},k_{3},\puntos ,k_{N}$

\rho ^{(t+1)}={\frac {N+a-1}{b+\sum _{i=1}^{N}\sum _{j=1}^{k_{i}}{\frac {1}{\rho ^{(t)}+j}}}},

¿Dónde están los parámetros de velocidad y forma de la distribución gamma a priori en ? $b=0,a=1$ ${\estilo de visualización \rho}$

^{García [2]} derivó este algoritmo optimizando directamente la verosimilitud. Roberts y Roberts ^[5]

generalizar el algoritmo a configuraciones bayesianas con la formulación geométrica compuesta descrita anteriormente. Además, Roberts y Roberts ^[5] pueden utilizar el marco de maximización de expectativas (EM) para mostrar la convergencia del algoritmo de punto fijo. Además, Roberts y Roberts ^[5] derivan la sublinealidad de la tasa de convergencia para el algoritmo de punto fijo. Además, utilizan la formulación EM para dar 2 derivaciones alternativas del error estándar del estimador a partir de la ecuación de punto fijo. La varianza del estimador es ${\estilo de visualización \lambda}$

\operatorname {Var} ({\hat {\lambda }})={\frac {1}{{\frac {N}{{\hat {\lambda }}^{2}}}-\sum _{i=1}^{N}\sum _{j=1}^{k_{i}}{\frac {1}{({\hat {\lambda }}+j)^{2}}}}},

El error estándar es la raíz cuadrada de la cantidad de esta estimación dividida por N.

Generalizaciones

La generalización de dos parámetros de la distribución de Yule original reemplaza la función beta por una función beta incompleta . La función de masa de probabilidad de la distribución generalizada de Yule–Simon( ρ , α ) se define como

f(k;\rho ,\alpha )={\frac {\rho }{1-\alpha ^{\rho }}}\;\mathrm {B} _{1-\alpha }(k,\rho +1),\,

con . Para la distribución ordinaria de Yule–Simon( ρ ) se obtiene como un caso especial. El uso de la función beta incompleta tiene el efecto de introducir un corte exponencial en la cola superior. $0\leq \alpha <1$ $\alpha = 0$

Véase también

Bibliografía

Colin Rose y Murray D. Smith, Mathematical Statistics with Mathematica . Nueva York: Springer, 2002, ISBN 0-387-95234-9 . ( Véase la página 107, donde se denomina "distribución de Yule" ) .

Referencias

^ Simon, HA (1955). "Sobre una clase de funciones de distribución oblicuas". Biometrika . 42 (3–4): 425–440. doi :10.1093/biomet/42.3-4.425.
^ ab Garcia Garcia, Juan Manuel (2011). "Un algoritmo de punto fijo para estimar el parámetro de distribución de Yule-Simon". Matemáticas Aplicadas y Computación . 217 (21): 8560–8566. doi :10.1016/j.amc.2011.03.092.
^ Yule, GU (1924). "Una teoría matemática de la evolución, basada en las conclusiones del Dr. JC Willis, FRS". Philosophical Transactions of the Royal Society B . 213 (402–410): 21–87. doi : 10.1098/rstb.1925.0002 .
^ Pachon, Angelica; Polito, Federico; Sacerdote, Laura (2015). "Gráficos aleatorios asociados a algunos modelos de fijación preferencial temporal discretos y continuos". Revista de física estadística . 162 (6): 1608–1638. arXiv : 1503.06150 . doi :10.1007/s10955-016-1462-7. S2CID 119168040.
^ abc Roberts, Lucas; Roberts, Denisa (2017). "Un marco de maximización de expectativas para modelos de apego preferencial". arXiv : 1710.08511 [stat.CO].