Distribución de probabilidad compuesta

En probabilidad y estadística , una distribución de probabilidad compuesta (también conocida como distribución de mezcla o distribución contagiosa ) es la distribución de probabilidad que resulta de suponer que una variable aleatoria se distribuye de acuerdo con alguna distribución parametrizada, siendo (algunos de) los parámetros de esa distribución en sí mismos variables aleatorias. Si el parámetro es un parámetro de escala , la mezcla resultante también se denomina mezcla de escala .

La distribución compuesta ("distribución incondicional") es el resultado de marginalizar (integrar) las variables aleatorias latentes que representan los parámetros de la distribución parametrizada ("distribución condicional").

Definición

Una distribución de probabilidad compuesta es la distribución de probabilidad que resulta de suponer que una variable aleatoria se distribuye de acuerdo con alguna distribución parametrizada con un parámetro desconocido que a su vez se distribuye de acuerdo con alguna otra distribución . Se dice que la distribución resultante es la distribución que resulta de la composición con . La distribución del parámetro también se denomina distribución de mezcla o distribución latente . Técnicamente, la distribución incondicional resulta de marginalizar sobre , es decir, de integrar el o los parámetros desconocidos . Su función de densidad de probabilidad está dada por: ${\estilo de visualización X}$ ${\estilo de visualización F}$ ${\estilo de visualización \theta}$ ${\estilo de visualización G}$ ${\estilo de visualización H}$ ${\estilo de visualización F}$ ${\estilo de visualización G}$ ${\estilo de visualización G}$ ${\estilo de visualización H}$ ${\estilo de visualización G}$ ${\estilo de visualización \theta}$

p_{H}(x)={\displaystyle \int \limits p_{F}(x|\theta )\,p_{G}(\theta )\operatorname {d} \!\theta }

La misma fórmula se aplica análogamente si algunas o todas las variables son vectores.

De la fórmula anterior se desprende que una distribución compuesta es esencialmente un caso especial de una distribución marginal : La distribución conjunta de y está dada por , y el compuesto resulta como su distribución marginal: . Si el dominio de es discreto, entonces la distribución es nuevamente un caso especial de una distribución mixta . ${\estilo de visualización x}$ ${\estilo de visualización \theta}$ $p(x,\theta )=p(x|\theta )p(\theta )$ ${\textstyle p(x)=\int p(x,\theta )\nombre del operador {d} \!\theta }$ ${\estilo de visualización \theta}$

Propiedades

General

La distribución compuesta dependerá de la expresión específica de cada distribución, así como de qué parámetro de se distribuye según la distribución , y los parámetros de incluirán cualquier parámetro de que no esté marginado o integrado. El soporte de es el mismo que el de , y si este último es una distribución de dos parámetros parametrizada con la media y la varianza, existen algunas propiedades generales. ${\estilo de visualización H}$ ${\estilo de visualización F}$ ${\estilo de visualización G}$ ${\estilo de visualización H}$ ${\estilo de visualización G}$ ${\estilo de visualización H}$ ${\estilo de visualización F}$

Media y varianza

Los dos primeros momentos de la distribución compuesta están dados por la ley de expectativa total y la ley de varianza total :

$\nombreoperador {E} _{H}[X]=\nombreoperador {E} _{G}{\bigl [}\nombreoperador {E} _{F}[X|\theta ]{\bigr ]}$

$\operatorname {Var} _{H}(X)=\operatorname {E} _{G}{\bigl [}\operatorname {Var} _{F}(X|\theta ){\bigr ]}+\operatorname {Var} _{G}{\bigl (}\operatorname {E} _{F}[X|\theta ]{\bigr )}$

Si la media de se distribuye como , que a su vez tiene media y varianza, las expresiones anteriores implican y , donde es la varianza de . ${\estilo de visualización F}$ ${\estilo de visualización G}$ ${\estilo de visualización \mu}$ $\sigma ^{2}$ $\nombreoperador {E} _{H}[X]=\nombreoperador {E} _{G}[\theta ]=\mu$ $\operatorname {Var} _{H}(X)=\operatorname {Var} _{F}(X|\theta )+\operatorname {Var} _{G}(Y)=\tau ^{2}+\sigma ^{2}$ $\tau ^{2}$ $F$

Prueba

sean y distribuciones de probabilidad parametrizadas con media a varianza como entonces denotando las funciones de densidad de probabilidad como y respectivamente, y siendo la densidad de probabilidad de tenemos y tenemos de la parametrización y que y por lo tanto la media de la distribución compuesta según la expresión para su primer momento anterior. $F$ $G$ ${\begin{aligned}x&\sim {\mathcal {F}}(\theta ,\tau ^{2})\\\theta &\sim {\mathcal {G}}(\mu ,\sigma ^{2})\end{aligned}}$ $f(x|\theta )=p_{F}(x|\theta )$ $g(\theta )=p_{G}(\theta )$ $h(x)$ $H$ ${\begin{aligned}\operatorname {E} _{H}[X]=\int _{F}xh(x)dx&=\int _{F}x\int _{G}f(x|\theta )g(\theta )d\theta dx\\&=\int _{G}\int _{F}xf(x|\theta )dx\ g(\theta )d\theta \\&=\int _{G}\operatorname {E} _{F}[X|\theta ]g(\theta )d\theta \end{aligned}}$ ${\mathcal {F}}$ ${\mathcal {G}}$ ${\begin{aligned}\operatorname {E} _{F}[X|\theta ]&=\int _{F}xf(x|\theta )dx=\theta \\\operatorname {E} _{G}[\theta ]&=\int _{G}\theta g(\theta )d\theta =\mu \end{aligned}}$ $\operatorname {E} _{H}[X]=\mu$

La varianza de está dada por , y dado el hecho de que y . Finalmente obtenemos $H$ $\operatorname {E} _{H}[X^{2}]-(\operatorname {E} _{H}[X])^{2}$ ${\begin{aligned}\operatorname {E} _{H}[X^{2}]=\int _{F}x^{2}h(x)dx&=\int _{F}x^{2}\int _{G}f(x|\theta )g(\theta )d\theta dx\\&=\int _{G}g(\theta )\int _{F}x^{2}f(x|\theta )dx\ d\theta \\&=\int _{G}g(\theta )(\tau ^{2}+\theta ^{2})d\theta \\&=\tau ^{2}\int _{G}g(\theta )d\theta +\int _{G}g(\theta )\theta ^{2}d\theta \\&=\tau ^{2}+(\sigma ^{2}+\mu ^{2}),\end{aligned}}$ $\int _{F}x^{2}f(x\mid \theta )dx=\operatorname {E} _{F}[X^{2}\mid \theta ]=\operatorname {Var} _{F}(X\mid \theta )+(\operatorname {E} _{F}[X\mid \theta ])^{2}$ $\int _{G}\theta ^{2}g(\theta )d\theta =\operatorname {E} _{G}[\theta ^{2}]=\operatorname {Var} _{G}(\theta )+(\operatorname {E} _{G}[\theta ])^{2}$ ${\begin{aligned}\operatorname {Var} _{H}(X)&=\operatorname {E} _{H}[X^{2}]-(\operatorname {E} _{H}[X])^{2}\\&=\tau ^{2}+\sigma ^{2}\end{aligned}}$

Aplicaciones

Pruebas

Las distribuciones de estadísticas de prueba comunes resultan como distribuciones compuestas bajo su hipótesis nula, por ejemplo en la prueba t de Student (donde la estadística de prueba resulta como la relación entre una variable aleatoria normal y una variable aleatoria de chi-cuadrado ), o en la prueba F (donde la estadística de prueba es la relación de dos variables aleatorias de chi-cuadrado ).

Modelado de sobredispersión

Las distribuciones compuestas son útiles para modelar resultados que exhiben sobredispersión , es decir, una mayor cantidad de variabilidad de la que se esperaría bajo un determinado modelo. Por ejemplo, los datos de conteo se modelan comúnmente utilizando la distribución de Poisson , cuya varianza es igual a su media. La distribución se puede generalizar permitiendo la variabilidad en su parámetro de tasa , implementado a través de una distribución gamma , que da como resultado una distribución binomial negativa marginal . Esta distribución es similar en su forma a la distribución de Poisson, pero permite varianzas mayores. De manera similar, una distribución binomial se puede generalizar para permitir una variabilidad adicional al combinarla con una distribución beta para su parámetro de probabilidad de éxito, lo que da como resultado una distribución beta-binomial .

Inferencia bayesiana

Además de las distribuciones marginales ubicuas que pueden verse como casos especiales de distribuciones compuestas, en la inferencia bayesiana , las distribuciones compuestas surgen cuando, en la notación anterior, F representa la distribución de observaciones futuras y G es la distribución posterior de los parámetros de F , dada la información en un conjunto de datos observados. Esto da una distribución predictiva posterior . En consecuencia, para la distribución predictiva previa , F es la distribución de un nuevo punto de datos mientras que G es la distribución previa de los parámetros.

Circunvolución

La convolución de distribuciones de probabilidad (para derivar la distribución de probabilidad de sumas de variables aleatorias) también puede verse como un caso especial de composición; aquí la distribución de la suma resulta esencialmente de considerar un sumando como un parámetro de ubicación aleatoria para el otro sumando. ^[1]

Cálculo

Las distribuciones compuestas derivadas de distribuciones de familias exponenciales suelen tener una forma cerrada. Si no es posible la integración analítica, pueden ser necesarios métodos numéricos.

Las distribuciones compuestas se pueden investigar con relativa facilidad utilizando métodos de Monte Carlo , es decir, generando muestras aleatorias. A menudo es fácil generar números aleatorios a partir de las distribuciones y luego utilizarlos para realizar un muestreo de Gibbs colapsado para generar muestras de . $p(\theta )$ $p(x|\theta )$ $p(x)$

Una distribución compuesta también puede ser aproximada en un grado suficiente por una distribución de mezcla usando un número finito de componentes de mezcla, lo que permite derivar una densidad aproximada, una función de distribución, etc. ^[1]

La estimación de parámetros ( estimación de máxima verosimilitud o máxima a posteriori ) dentro de un modelo de distribución compuesto a veces se puede simplificar utilizando el algoritmo EM . ^[2]

Ejemplos

Mezclas de escala gaussiana : ^[3]^[4]
- La composición de una distribución normal con varianza distribuida según una distribución gamma inversa (o equivalentemente, con precisión distribuida como una distribución gamma ) produce una distribución t de Student no estandarizada . ^[5] Esta distribución tiene la misma forma simétrica que una distribución normal con el mismo punto central, pero tiene mayor varianza y colas pesadas .
- La composición de una distribución gaussiana (o normal) con varianza distribuida según una distribución exponencial (o con desviación estándar según una distribución de Rayleigh ) produce una distribución de Laplace . En términos más generales, la composición de una distribución gaussiana (o normal) con varianza distribuida según una distribución gamma produce una distribución de varianza-gamma .
- La composición de una distribución gaussiana con varianza distribuida según una distribución exponencial cuyo parámetro de tasa se distribuye según una distribución gamma produce una distribución normal-exponencial-gamma . (Esto implica dos etapas de composición. La varianza en sí sigue entonces una distribución Lomax ; véase más abajo).
- Al componer una distribución gaussiana con desviación estándar distribuida según una distribución uniforme inversa (estándar) se obtiene una distribución Slash .
- La combinación de una distribución gaussiana (normal) con una distribución de Kolmogorov produce una distribución logística . ^[6]^[3]
Otras mezclas gaussianas :
- Al componer una distribución gaussiana con una media distribuida según otra distribución gaussiana se obtiene (nuevamente) una distribución gaussiana .
- La composición de una distribución gaussiana con media distribuida según una distribución exponencial desplazada produce una distribución gaussiana modificada exponencialmente .

Al combinar una distribución de Bernoulli con probabilidad de éxito distribuida según una distribución que tiene un valor esperado definido, se obtiene una distribución de Bernoulli con probabilidad de éxito . Una consecuencia interesante es que la dispersión de no influye en la dispersión de la distribución compuesta resultante. $p$ $X$ $E[X]$ $X$
Al combinar una distribución binomial con probabilidad de éxito distribuida según una distribución beta se obtiene una distribución beta-binomial . Posee tres parámetros, un parámetro (número de muestras) de la distribución binomial y parámetros de forma y de la distribución beta. ^[7]^[8] $n$ $\alpha$ $\beta$
La composición de una distribución multinomial con un vector de probabilidad distribuido según una distribución de Dirichlet produce una distribución multinomial de Dirichlet .
La combinación de una distribución de Poisson con un parámetro de velocidad distribuido según una distribución gamma produce una distribución binomial negativa . ^[9]^[10]
Al componer una distribución de Poisson con un parámetro de velocidad distribuido según una distribución exponencial se obtiene una distribución geométrica .
Al componer una distribución exponencial con su parámetro de velocidad distribuido según una distribución gamma se obtiene una distribución Lomax . ^[11]
La combinación de una distribución gamma con un parámetro de escala inversa distribuido de acuerdo con otra distribución gamma produce una distribución beta prima de tres parámetros . ^[12]
La combinación de una distribución seminormal con su parámetro de escala distribuido según una distribución de Rayleigh produce una distribución exponencial . Esto se desprende inmediatamente de la distribución de Laplace, que resulta como una mezcla de escala normal ; véase más arriba. Los papeles de las distribuciones condicionales y de mezcla también pueden intercambiarse aquí; en consecuencia, la combinación de una distribución de Rayleigh con su parámetro de escala distribuido según una distribución seminormal también produce una distribución exponencial .
Una variable aleatoria distribuida Gamma(k=2,θ) cuyo parámetro de escala θ a su vez está distribuido uniformemente produce marginalmente una distribución exponencial .

Términos similares

El concepto de "distribución compuesta" que se utiliza, por ejemplo, en la definición de una distribución de Poisson compuesta o un proceso de Poisson compuesto es diferente de la definición que se encuentra en este artículo. El significado que se da en este artículo corresponde al que se utiliza, por ejemplo, en el modelado jerárquico bayesiano .

El caso especial de distribuciones de probabilidad compuestas donde la distribución parametrizada es la distribución de Poisson también se denomina distribución de Poisson mixta . $F$

Véase también

Referencias

^ ab Röver, C.; Friede, T. (2017). "Aproximación discreta de una distribución de mezcla mediante divergencia restringida". Revista de estadística computacional y gráfica . 26 (1): 217–222. arXiv : 1602.04060 . doi : 10.1080/10618600.2016.1276840 .
^ Gelman, A.; Carlin, JB; Stern, H.; Rubin, DB (1997). "9.5 Hallazgo de modos posteriores marginales utilizando EM y algoritmos relacionados ". Análisis de datos bayesianos (1.ª ed.). Boca Raton: Chapman & Hall / CRC. pág. 276.
^ ab Lee, SX; McLachlan, GJ (2019). "Distribución de mezcla de escala". Wiley StatsRef: Statistics Reference Online . doi :10.1002/9781118445112.stat08201.
^ Gneiting, T. (1997). "Mezclas de escala normal y densidades de probabilidad dual". Revista de computación estadística y simulación . 59 (4): 375–384. doi :10.1080/00949659708811867.
^ Mood, AM; Graybill, FA; Boes, DC (1974). Introducción a la teoría de la estadística (3.ª ed.). Nueva York: McGraw-Hill.
^ Andrews, DF; Mallows, CL (1974), "Mezclas de escalas de distribuciones normales", Journal of the Royal Statistical Society, Serie B , 36 (1): 99–102, doi :10.1111/j.2517-6161.1974.tb00989.x
^ Johnson, NL; Kemp, AW; Kotz, S. (2005). "6.2.2". Distribuciones discretas univariadas (3.ª ed.). Nueva York: Wiley. pág. 253.
^ Gelman, A.; Carlin, JB; Stern, H.; Dunson, DB; Vehtari, A.; Rubin, DB (2014). Análisis de datos bayesianos (3.ª ed.). Boca Raton: Chapman & Hall / CRC.
^ Lawless, JF (1987). "Regresión binomial negativa y regresión mixta de Poisson". Revista Canadiense de Estadística . 15 (3): 209–225. doi :10.2307/3314912. JSTOR 3314912.
^ Teich, MC; Diament, P. (1989). "Representaciones estocásticas múltiples para distribuciones K y sus transformadas de Poisson". Revista de la Sociedad Óptica de América A . 6 (1): 80–91. Código Bibliográfico :1989JOSAA...6...80T. CiteSeerX 10.1.1.64.596 . doi :10.1364/JOSAA.6.000080.
^ Johnson, NL; Kotz, S.; Balakrishnan, N. (1994). "20 distribuciones de Pareto ". Distribuciones univariadas continuas . Vol. 1 (2.ª ed.). Nueva York: Wiley. pág. 573.
^ Dubey, SD (1970). "Distribuciones compuestas gamma, beta y F". Metrika . 16 : 27–31. doi :10.1007/BF02613934.

Lectura adicional

Lindsay, BG (1995), Modelos de mezcla: teoría, geometría y aplicaciones , Serie de conferencias regionales NSF-CBMS sobre probabilidad y estadística, vol. 5, Hayward, CA, EE. UU.: Instituto de Estadística Matemática, págs. i–163, ISBN 978-0-940600-32-4, JSTOR 4153184
Seidel, W. (2010), "Modelos de mezcla", en Lovric, M. (ed.), International Encyclopedia of Statistical Science , Heidelberg: Springer, págs. 827–829, doi :10.1007/978-3-642-04898-2_368, ISBN 978-3-642-04898-2
Mood, AM; Graybill, FA; Boes, DC (1974), "III.4.3 Distribuciones contagiosas y distribuciones truncadas ", Introducción a la teoría de la estadística (3.ª ed.), Nueva York: McGraw-Hill, ISBN 978-0-85-0-312-0 978-0-07-042864-5
Johnson, NL; Kemp, AW; Kotz, S. (2005), "8 Distribuciones de mezcla ", Distribuciones discretas univariadas , Nueva York: Wiley, ISBN 978-0-471-27246-5