En probabilidad y estadística , la distribución de Yule-Simon es una distribución de probabilidad discreta que lleva el nombre de Udny Yule y Herbert A. Simon . Simon la llamó originalmente distribución de Yule . [1]
La función de masa de probabilidad (pmf) de la distribución de Yule–Simon ( ρ ) es
Para enteros y reales , donde es la función beta . De manera equivalente, la función masa de probabilidad se puede escribir en términos del factorial ascendente como
donde es la función gamma . Por lo tanto, si es un entero,
El parámetro se puede estimar utilizando un algoritmo de punto fijo. [2]
La función de masa de probabilidad f tiene la propiedad de que para un valor k suficientemente grande tenemos
Esto significa que la cola de la distribución de Yule-Simon es una realización de la ley de Zipf : puede usarse para modelar, por ejemplo, la frecuencia relativa de la palabra más frecuente en una gran colección de texto, que según la ley de Zipf es inversamente proporcional a una potencia (normalmente pequeña) de .
La distribución de Yule-Simon surgió originalmente como la distribución límite de un modelo particular estudiado por Udny Yule en 1925 para analizar el crecimiento en el número de especies por género en algunos taxones superiores de organismos bióticos. [3] El modelo de Yule hace uso de dos procesos de Yule relacionados, donde un proceso de Yule se define como un proceso de nacimiento temporal continuo que comienza con uno o más individuos. Yule demostró que cuando el tiempo tiende al infinito, la distribución límite del número de especies en un género seleccionado uniformemente al azar tiene una forma específica y exhibe un comportamiento de ley de potencia en su cola. Treinta años después, el premio Nobel Herbert A. Simon propuso un modelo de apego preferencial discreto en el tiempo para describir la aparición de nuevas palabras en un gran fragmento de un texto. Curiosamente, la distribución límite del número de ocurrencias de cada palabra, cuando el número de palabras diverge, coincide con la del número de especies que pertenecen al género elegido aleatoriamente en el modelo de Yule, para una elección específica de los parámetros . Este hecho explica la designación distribución de Yule-Simon que se asigna comúnmente a esa distribución límite. En el contexto de los grafos aleatorios, el modelo de Barabási-Albert también exhibe una distribución de grado asintótico que es igual a la distribución de Yule-Simon en correspondencia con una elección específica de los parámetros y aún presenta características de ley de potencia para elecciones más generales de los parámetros. Lo mismo sucede también para otros modelos de grafos aleatorios de apego preferencial . [4]
El proceso de fijación preferencial también puede estudiarse como un proceso de urna en el que se añaden bolas a un número creciente de urnas, y cada bola se asigna a una urna con una probabilidad lineal en el número (de bolas) que la urna ya contiene.
La distribución también surge como una distribución compuesta , en la que el parámetro de una distribución geométrica se trata como una función de una variable aleatoria que tiene una distribución exponencial . [ cita requerida ] En concreto, supongamos que sigue una distribución exponencial con escala o tasa :
con densidad
Entonces, una variable distribuida según Yule-Simon K tiene la siguiente distribución geométrica condicional a W :
La función masa de probabilidad de una distribución geométrica es
para . La función masa de probabilidad de Yule-Simon es entonces la siguiente distribución compuesta exponencial-geométrica:
El estimador de máxima verosimilitud para el parámetro dadas las observaciones es la solución de la ecuación de punto fijo
¿Dónde están los parámetros de velocidad y forma de la distribución gamma a priori en ?
García [2] derivó este algoritmo optimizando directamente la verosimilitud. Roberts y Roberts [5]
generalizar el algoritmo a configuraciones bayesianas con la formulación geométrica compuesta descrita anteriormente. Además, Roberts y Roberts [5] pueden utilizar el marco de maximización de expectativas (EM) para mostrar la convergencia del algoritmo de punto fijo. Además, Roberts y Roberts [5] derivan la sublinealidad de la tasa de convergencia para el algoritmo de punto fijo. Además, utilizan la formulación EM para dar 2 derivaciones alternativas del error estándar del estimador a partir de la ecuación de punto fijo. La varianza del estimador es
El error estándar es la raíz cuadrada de la cantidad de esta estimación dividida por N.
La generalización de dos parámetros de la distribución de Yule original reemplaza la función beta por una función beta incompleta . La función de masa de probabilidad de la distribución generalizada de Yule–Simon( ρ , α ) se define como
con . Para la distribución ordinaria de Yule–Simon( ρ ) se obtiene como un caso especial. El uso de la función beta incompleta tiene el efecto de introducir un corte exponencial en la cola superior.