Distribución de probabilidad discreta
En teoría de la probabilidad y estadística , la distribución beta-binomial es una familia de distribuciones de probabilidad discretas sobre un soporte finito de números enteros no negativos que surgen cuando la probabilidad de éxito en cada uno de un número fijo o conocido de ensayos de Bernoulli es desconocida o aleatoria. La distribución beta-binomial es la distribución binomial en la que la probabilidad de éxito en cada uno de los n ensayos no es fija sino que se extrae aleatoriamente de una distribución beta . Se utiliza con frecuencia en estadística bayesiana , métodos empíricos de Bayes y estadística clásica para capturar la sobredispersión en datos distribuidos de tipo binomial.
La beta-binomial es una versión unidimensional de la distribución multinomial de Dirichlet, ya que las distribuciones binomial y beta son versiones univariadas de las distribuciones multinomial y de Dirichlet , respectivamente. El caso especial en el que α y β son números enteros también se conoce como distribución hipergeométrica negativa .
Motivación y derivación.
Como distribución compuesta
La distribución Beta es una distribución conjugada de la distribución binomial . Este hecho conduce a una distribución compuesta analíticamente manejable en la que se puede pensar que el parámetro de la distribución binomial se extrae aleatoriamente de una distribución beta. Supongamos que estuviéramos interesados en predecir el número de cabezas en ensayos futuros. Esto está dado por
Usando las propiedades de la función beta , esto también se puede escribir
Como modelo de urna
La distribución beta-binomial también se puede motivar mediante un modelo de urna para valores enteros positivos de α y β , conocido como modelo de urna de Pólya . Específicamente, imagine una urna que contiene α bolas rojas y β bolas negras, donde se realizan sorteos al azar. Si se observa una bola roja, se devuelven dos bolas rojas a la urna. Del mismo modo, si se extrae una bola negra, se devuelven dos bolas negras a la urna. Si esto se repite n veces, entonces la probabilidad de observar x bolas rojas sigue una distribución beta binomial con parámetros n , α y β .
Por el contrario, si los sorteos aleatorios se realizan con reemplazo simple (no se agregan a la urna bolas por encima de la bola observada), entonces la distribución sigue una distribución binomial y si los sorteos aleatorios se realizan sin reemplazo, la distribución sigue una distribución hipergeométrica. .
Momentos y propiedades
Los primeros tres momentos crudos son
y la curtosis es
Observemos , sugerentemente, que la media se puede escribir como
y la varianza como
dónde . El parámetro se conoce como correlación "intra clase" o "intra grupo". Es esta correlación positiva la que da lugar a la sobredispersión. Tenga en cuenta que cuando , no hay información disponible para distinguir entre la variación beta y binomial, y los dos modelos tienen varianzas iguales.
Momentos factoriales
El r -ésimo momento factorial de una variable aleatoria Beta-binomial X es
- .
Estimaciones puntuales
Método de momentos
El método de estimación de momentos se puede obtener observando el primer y segundo momento del beta-binomial y estableciéndolos iguales a los momentos muestrales y . Encontramos
Estas estimaciones pueden ser negativas sin sentido, lo que demuestra que los datos no están dispersos o están insuficientemente dispersos en relación con la distribución binomial. En este caso, la distribución binomial y la distribución hipergeométrica son candidatas alternativas respectivamente.
Estimación de máxima verosimilitud
Si bien las estimaciones de máxima verosimilitud en forma cerrada no son prácticas, dado que la función de probabilidad consta de funciones comunes (función gamma y/o funciones Beta), se pueden encontrar fácilmente mediante optimización numérica directa. Las estimaciones de máxima verosimilitud a partir de datos empíricos se pueden calcular utilizando métodos generales para ajustar distribuciones multinomiales de Pólya, cuyos métodos se describen en (Minka 2003). El paquete R VGAM a través de la función vglm, vía máxima verosimilitud, facilita el ajuste de modelos tipo glm con respuestas distribuidas según la distribución beta-binomial. No es necesario que n sea fijo en todas las observaciones.
Ejemplo: heterogeneidad de la proporción de sexos
Los siguientes datos dan el número de hijos varones entre los primeros 12 niños de una familia de tamaño 13 en 6115 familias tomadas de registros hospitalarios en la Sajonia del siglo XIX (Sokal y Rohlf, p. 59 de Lindsey). Se ignora al decimotercer hijo para mitigar el efecto de que las familias se detengan de forma no aleatoria cuando se alcanza el género deseado.
Los primeros dos momentos de muestra son
y por lo tanto el método de estimaciones de momentos son
Las estimaciones de máxima verosimilitud se pueden encontrar numéricamente.
y la probabilidad logarítmica maximizada es
de donde encontramos el AIC
El AIC para el modelo binomial competidor es AIC = 25070,34 y, por lo tanto, vemos que el modelo beta-binomial proporciona un ajuste superior a los datos, es decir, hay evidencia de sobredispersión. Trivers y Willard postulan una justificación teórica para la heterogeneidad en la propensión al género entre las crías de mamíferos .
El ajuste superior es evidente especialmente entre las colas.
Papel en las estadísticas bayesianas
La distribución beta-binomial juega un papel destacado en la estimación bayesiana de la probabilidad de éxito de Bernoulli que deseamos estimar en función de los datos. Sea una muestra de variables aleatorias de Bernoulli independientes e idénticamente distribuidas . Supongamos que nuestro conocimiento de , al estilo bayesiano, es incierto y está modelado por la distribución previa . Si entonces, a través de la capitalización , la distribución predictiva previa de
- .
Después de observar observamos que la distribución posterior para
donde es una constante de normalización. Reconocemos la distribución posterior como .
Así, nuevamente mediante la capitalización, encontramos que la distribución predictiva posterior de una suma de una muestra futura de tamaño de variables aleatorias es
- .
Generando variaciones aleatorias
Para dibujar una variable aleatoria beta-binomial simplemente dibuja y luego dibuja .
Distribuciones relacionadas
- dónde .
- ¿Dónde está la distribución uniforme discreta ?
- donde y y es la distribución binomial .
- donde está la distribución binomial negativa .
Ver también
Referencias
- Minka, Thomas P. (2003). Estimación de una distribución de Dirichlet. Informe técnico de Microsoft.
enlaces externos
- Uso de la distribución Beta-binomial para evaluar el rendimiento de un dispositivo de identificación biométrica
- Fastfit contiene código Matlab para ajustar distribuciones Beta-binomiales (en forma de distribuciones Pólya bidimensionales) a los datos.
- Gráfico interactivo: Relaciones de distribución univariadas
- Funciones beta-binomiales en el paquete VGAM R
- Distribución beta-binomial en la biblioteca Java de Sandia National Labs Cognitive Foundry