Distribución multinomial negativa de Dirichlet

En teoría de la probabilidad y estadística , la distribución multinomial negativa de Dirichlet es una distribución multivariada de números enteros no negativos. Es una extensión multivariada de la distribución binomial beta negativa . También es una generalización de la distribución multinomial negativa (NM( k , p )) que permite heterogeneidad o sobredispersión del vector de probabilidad. Se utiliza en la investigación de mercados cuantitativa para modelar de manera flexible la cantidad de transacciones domésticas en múltiples marcas.

Si los parámetros de la distribución de Dirichlet son , y si ${\boldsymbol {\alpha }}$

X\mid p\sim \operatorname {NM} (x_{0},\mathbf {p} ),

dónde

\mathbf {p} \sim \operatorname {Dir} (\alpha _{0},{\boldsymbol {\alpha }}),

entonces la distribución marginal de X es una distribución multinomial negativa de Dirichlet:

X\sim \operatorname {DNM} (x_{0},\alpha _{0},{\boldsymbol {\alpha }}).

En lo anterior, es la distribución multinomial negativa y es la distribución de Dirichlet . $\operatorname {NM} (x_{0},\mathbf {p} )$ $\operatorname {Dir} (\alpha _{0},{\boldsymbol {\alpha }})$

Motivación

Multinomial negativo de Dirichlet como distribución compuesta

La distribución de Dirichlet es una distribución conjugada a la distribución multinomial negativa. Este hecho conduce a una distribución de compuestos analíticamente manejable . Para un vector aleatorio de recuentos de categorías , distribuido según una distribución multinomial negativa , la distribución compuesta se obtiene integrando la distribución para p , que puede considerarse como un vector aleatorio que sigue una distribución de Dirichlet: $\mathbf {x} =(x_{1},\dots ,x_{m})$

\Pr(\mathbf {x} \mid x_{0},\alpha _{0},{\boldsymbol {\alpha }})=\int _{\mathbf {p} }\mathrm {NegMult} (\mathbf {x} \mid x_{0},\mathbf {p} )\mathrm {Dir} (\mathbf {p} \mid \alpha _{0},{\boldsymbol {\alpha }}){\textrm {d}}\mathbf {p}

\Pr(\mathbf {x} \mid x_{0},\alpha _{0},{\boldsymbol {\alpha }})={\frac {\Gamma \left(\sum _{i=0}^{m}{x_{i}}\right)}{\Gamma (x_{0})\prod _{i=1}^{m}x_{i}!}}{\frac {1}{\mathrm {B} ({\boldsymbol {\alpha }}_{+})}}\int _{\mathbf {p} }\prod _{i=0}^{m}p_{i}^{x_{i}+\alpha _{i}-1}{\textrm {d}}\mathbf {p}

lo que resulta en la siguiente fórmula:

\Pr(\mathbf {x} \mid x_{0},\alpha _{0},{\boldsymbol {\alpha }})={\frac {\Gamma \left(\sum _{i=0}^{m}{x_{i}}\right)}{\Gamma (x_{0})\prod _{i=1}^{m}x_{i}!}}{\frac {{\mathrm {B} }(\mathbf {x_{+}} +{\boldsymbol {\alpha }}_{+})}{\mathrm {B} ({\boldsymbol {\alpha }}_{+})}}

donde y son los vectores dimensionales creados añadiendo los escalares y a los vectores dimensionales y respectivamente y es la versión multivariada de la función beta . Podemos escribir esta ecuación explícitamente como $\mathbf {x_{+}}$ ${\boldsymbol {\alpha }}_{+}$ $m+1$ $x_{0}$ $\alpha _{0}$ $m$ $\mathbf {x}$ ${\boldsymbol {\alpha }}$ $\mathrm {B}$

\Pr(\mathbf {x} \mid x_{0},\alpha _{0},{\boldsymbol {\alpha }})=x_{0}{\frac {\Gamma (\sum _{i=0}^{m}x_{i})\Gamma (\sum _{i=0}^{m}\alpha _{i})}{\Gamma (\sum _{i=0}^{m}(x_{i}+\alpha _{i}))}}\prod _{i=0}^{m}{\frac {\Gamma (x_{i}+\alpha _{i})}{\Gamma (x_{i}+1)\Gamma (\alpha _{i})}}.

Existen formulaciones alternativas. Una representación conveniente ^[1] es

\Pr(\mathbf {x} \mid x_{0},\alpha _{0},{\boldsymbol {\alpha }})={\frac {\Gamma (x_{\bullet })}{\Gamma (x_{0})\prod _{i=1}^{m}\Gamma (x_{i}+1)}}\times {\frac {\Gamma (\alpha _{\bullet })}{\prod _{i=0}^{m}\Gamma (\alpha _{i})}}\times {\frac {\prod _{i=0}^{m}\Gamma (x_{i}+\alpha _{i})}{\Gamma (x_{\bullet }+\alpha _{\bullet })}}

dónde y . $x_{\bullet }=x_{0}+x_{1}+\cdots +x_{m}$ $\alpha _{\bullet }=\alpha _{0}+\alpha _{1}+\cdots +\alpha _{m}$

Esto también se puede escribir

\Pr(\mathbf {x} \mid x_{0},\alpha _{0},{\boldsymbol {\alpha }})={\frac {\mathrm {B} (x_{\bullet },\alpha _{\bullet })}{\mathrm {B} (x_{0},\alpha _{0})}}\prod _{i=1}^{m}{\frac {\Gamma (x_{i}+\alpha _{i})}{x_{i}!\Gamma (\alpha _{i})}}.

Propiedades

Distribuciones marginales

Para obtener la distribución marginal sobre un subconjunto de variables aleatorias multinomiales negativas de Dirichlet, sólo es necesario eliminar las irrelevantes (las variables que se quieren marginar) del vector. La distribución conjunta de las variables aleatorias restantes es dónde está el vector con las eliminadas . Se dice que los marginales univariados tienen una distribución binomial beta negativa . $\alpha _{i}$ ${\boldsymbol {\alpha }}$ $\mathrm {DNM} (x_{0},\alpha _{0},{\boldsymbol {\alpha _{(-)}}})$ ${\boldsymbol {\alpha _{(-)}}}$ $\alpha _{i}$

Distribuciones condicionales

Si m -dimensional x se divide de la siguiente manera

\mathbf {x} ={\begin{bmatrix}\mathbf {x} ^{(1)}\\\mathbf {x} ^{(2)}\end{bmatrix}}{\text{ with sizes }}{\begin{bmatrix}q\times 1\\(m-q)\times 1\end{bmatrix}}

y, en consecuencia ${\boldsymbol {\alpha }}$

{\boldsymbol {\alpha }}={\begin{bmatrix}{\boldsymbol {\alpha }}^{(1)}\\{\boldsymbol {\alpha }}^{(2)}\end{bmatrix}}{\text{ with sizes }}{\begin{bmatrix}q\times 1\\(m-q)\times 1\end{bmatrix}}

entonces la distribución condicional de on es donde $\mathbf {X} ^{(1)}$ $\mathbf {X} ^{(2)}=\mathbf {x} ^{(2)}$ $\mathrm {DNM} (x_{0}^{\prime },\alpha _{0}^{\prime },{\boldsymbol {\alpha }}^{(1)})$

x_{0}^{\prime }=x_{0}+\sum _{i=1}^{m-q}x_{i}^{(2)}

\alpha _{0}^{\prime }=\alpha _{0}+\sum _{i=1}^{m-q}\alpha _{i}^{(2)}

Eso es,

\Pr(\mathbf {x} ^{(1)}\mid \mathbf {x} ^{(2)},x_{0},\alpha _{0},{\boldsymbol {\alpha }})={\frac {\mathrm {B} (x_{\bullet },\alpha _{\bullet })}{\mathrm {B} (x_{0}^{\prime },\alpha _{0}^{\prime })}}\prod _{i=1}^{q}{\frac {\Gamma (x_{i}^{(1)}+\alpha _{i}^{(1)})}{(x_{i}^{(1)}!)\Gamma (\alpha _{i}^{(1)})}}

Condicional a la suma

La distribución condicional de una distribución multinomial negativa de Dirichlet es la distribución multinomial de Dirichlet con parámetros y . Eso es $\sum _{i=1}^{m}x_{i}=n$ $n$ ${\boldsymbol {\alpha }}$

\Pr(\mathbf {x} \mid \sum _{i=1}^{m}x_{i}=n,x_{0},\alpha _{0},{\boldsymbol {\alpha }})={\frac {n!\Gamma \left(\sum _{i=1}^{m}\alpha _{i}\right)}{\Gamma \left(n+\sum _{i=1}^{m}\alpha _{i}\right)}}\prod _{i=1}^{m}{\frac {\Gamma (x_{i}+\alpha _{i})}{x_{i}!\Gamma (\alpha _{i})}}

Observe que la expresión no depende de o . $x_{0}$ $\alpha _{0}$

Agregación

X=(X_{1},\ldots ,X_{m})\sim \operatorname {DNM} (x_{0},\alpha _{0},\alpha _{1},\ldots ,\alpha _{m})

entonces, si las variables aleatorias con subíndices positivos i y j se eliminan del vector y se reemplazan por su suma,

X'=(X_{1},\ldots ,X_{i}+X_{j},\ldots ,X_{m})\sim \operatorname {DNM} \left(x_{0},\alpha _{0},\alpha _{1},\ldots ,\alpha _{i}+\alpha _{j},\ldots ,\alpha _{m}\right).

Matriz de correlación

Para las entradas de la matriz de correlación son $\alpha _{0}>2$

\rho (X_{i},X_{i})=1.

\rho (X_{i},X_{j})={\frac {\operatorname {cov} (X_{i},X_{j})}{\sqrt {\operatorname {var} (X_{i})\operatorname {var} (X_{j})}}}={\sqrt {\frac {\alpha _{i}\alpha _{j}}{(\alpha _{0}+\alpha _{i}-1)(\alpha _{0}+\alpha _{j}-1)}}}.

cola pesada

El multinomial negativo de Dirichlet es una distribución de cola pesada . No tiene una media finita y tiene una matriz de covarianza infinita para . Por tanto, la función generadora de momento no existe. $\alpha _{0}\leq 1$ $\alpha _{0}\leq 2$

Aplicaciones

Multinomial negativo de Dirichlet como modelo de urna de Pólya

En el caso de que los parámetros y sean números enteros positivos, el multinomial negativo de Dirichlet también puede estar motivado por un modelo de urna , o más específicamente un modelo básico de urna de Pólya . Considere una urna que inicialmente contiene bolas de varios colores, incluidas bolas rojas (el color de parada). El vector proporciona los recuentos respectivos de las otras bolas de varios colores distintos del rojo. En cada paso del modelo, se extrae una bola al azar de la urna y se reemplaza, junto con una bola adicional del mismo color. El proceso se repite una y otra vez, hasta que se extraen bolas de color rojo. El vector aleatorio de sorteos observados de los otros colores distintos del rojo se distribuye según a . Tenga en cuenta que al final del experimento, la urna siempre contiene el número fijo de bolas rojas y el número aleatorio de los otros colores. $m+2$ $x_{0},\alpha _{0}$ ${\boldsymbol {\alpha }}$ $\sum _{i=0}^{m}{\alpha _{i}}$ $m+1$ $\alpha _{0}$ ${\boldsymbol {\alpha }}$ $m$ $x_{0}$ $\mathbf {X}$ $m$ $\mathrm {DNM} (x_{0},\alpha _{0},{\boldsymbol {\alpha }})$ $x_{0}+\alpha _{0}$ $\mathbf {X} +{\boldsymbol {\alpha }}$ $m$

Ver también

Referencias

^ Adiós, Daniel y Adiós, Vernon. (2012). Regresión multinomial negativa de Dirichlet para datos de recuento correlacionados sobredispersados. Bioestadística (Oxford, Inglaterra). 14. 10.1093/bioestadística/kxs050.