Distribución logística generalizada

El término distribución logística generalizada se utiliza como nombre para varias familias diferentes de distribuciones de probabilidad . Por ejemplo, Johnson et al. ^[1] enumera cuatro formas, que se enumeran a continuación.

El tipo I también ha sido denominado distribución logística sesgada . El tipo IV incluye los otros tipos y se obtiene al aplicar la transformada logit a variables aleatorias beta . Siguiendo la misma convención que para la distribución log-normal , el tipo IV puede denominarse distribución beta logística , con referencia a la función logística estándar , que es la inversa de la transformada logit.

Para otras familias de distribuciones que también han sido llamadas distribuciones logísticas generalizadas, consulte la distribución log-logística desplazada , que es una generalización de la distribución log-logística ; y la distribución metalog ("metalogística") , que es muy flexible en cuanto a forma y límites y puede ajustarse a datos con mínimos cuadrados lineales.

Definiciones

Las siguientes definiciones son para versiones estandarizadas de las familias, que se pueden expandir a la forma completa como una familia de escala de ubicación . Cada uno se define utilizando la función de distribución acumulativa ( F ) o la función de densidad de probabilidad ( ƒ ), y se define en (-∞,∞).

Tipo i

F(x;\alpha )={\frac {1}{(1+e^{-x})^{\alpha }}}\equiv (1+e^{-x})^{- \alpha },\quad \alpha >0.

La función de densidad de probabilidad correspondiente es:

f(x;\alpha )={\frac {\alpha e^{-x}}{\left(1+e^{-x}\right)^{\alpha +1}}},\ cuádruple \alpha >0.

Este tipo también se ha denominado distribución "logística sesgada".

Tipo II

F(x;\alpha )=1-{\frac {e^{-\alpha x}}{(1+e^{-x})^{\alpha }}},\quad \alpha > 0.

La función de densidad de probabilidad correspondiente es:

f(x;\alpha )={\frac {\alpha e^{-\alpha x}}{(1+e^{-x})^{\alpha +1}}},\quad \ alfa >0.

Tipo III

f(x;\alpha )={\frac {1}{B(\alpha ,\alpha )}}{\frac {e^{-\alpha x}}{(1+e^{-x })^{2\alpha }}},\quad \alpha >0.

Aquí B es la función beta . La función generadora de momento para este tipo es

M(t)={\frac {\Gamma (\alpha -t)\Gamma (\alpha +t)}{(\Gamma (\alpha ))^{2}}},\quad -\alpha <t<\alfa .

La función de distribución acumulativa correspondiente es:

F(x;\alpha )={\frac {\left(e^{x}+1\right)\Gamma (\alpha )e^{\alpha (-x)}\left(e^{ -x}+1\right)^{-2\alpha }\,_{2}{\tilde {F}}_{1}\left(1,1-\alpha ;\alpha +1;-e^ {x}\right)}{B(\alpha ,\alpha )}},\quad \alpha >0.

Tipo IV

{\begin{aligned}f(x;\alpha ,\beta )&={\frac {1}{B(\alpha ,\beta )}}{\frac {e^{-\beta x} }{(1+e^{-x})^{\alpha +\beta }}},\quad \alpha ,\beta >0\\[4pt]&={\frac {\sigma (x)^{ \alpha }\sigma (-x)^{\beta }}{B(\alpha ,\beta )}}.\end{aligned}}

Donde B es la función beta y es la función logística estándar . La función generadora de momento para este tipo es $\sigma (x)=1/(1+e^{-x})$

M(t)={\frac {\Gamma (\beta -t)\Gamma (\alpha +t)}{\Gamma (\alpha )\Gamma (\beta )}},\quad -\alpha <t<\beta.

Este tipo también se denomina "beta generalizada exponencial del segundo tipo". ^[1]

La función de distribución acumulativa correspondiente es:

F(x;\alpha ,\beta )={\frac {\left(e^{x}+1\right)\Gamma (\alpha )e^{\beta (-x)}\left( e^{-x}+1\right)^{-\alpha -\beta }\,_{2}{\tilde {F}}_{1}\left(1,1-\beta ;\alpha + 1;-e^{x}\right)}{B(\alpha ,\beta )}},\quad \alpha ,\beta >0.

Relación entre tipos

El tipo IV es la forma más general de distribución. La distribución Tipo III se puede obtener a partir del Tipo IV fijando . La distribución Tipo II se puede obtener a partir del Tipo IV fijando (y cambiando el nombre a ). La distribución Tipo I se puede obtener a partir del Tipo IV fijando . La fijación proporciona la distribución logística estándar . $\beta =\alpha$ $\alpha =1$ ${\displaystyle\beta}$ $\alpha$ $\beta =1$ $\alpha =\beta =1$

Propiedades de tipo IV (beta logística)

La logística generalizada de Tipo IV , o distribución beta logística , con parámetros de soporte y forma , tiene (como se muestra arriba) la función de densidad de probabilidad (pdf): $x\in \mathbb {R}$ $\alpha ,\beta >0$

f(x;\alpha ,\beta )={\frac {1}{B(\alpha ,\beta )}}{\frac {e^{-\beta x}}{(1+e^ {-x})^{\alpha +\beta }}}={\frac {\sigma (x)^{\alpha }\sigma (-x)^{\beta }}{B(\alpha ,\beta )}},

¿Dónde está la función logística estándar ? Las funciones de densidad de probabilidad para tres conjuntos diferentes de parámetros de forma se muestran en el gráfico, donde las distribuciones se han escalado y desplazado para dar medias cero y varianzas unitarias, para facilitar la comparación de las formas. $\sigma (x)=1/(1+e^{-x})$

En lo que sigue, la notación se utiliza para indicar la distribución de Tipo IV. $B_{\sigma}(\alpha,\beta)$

Relación con la Distribución Gamma

Esta distribución se puede obtener en términos de la distribución gamma de la siguiente manera. Dejar e independientemente , y dejar . Entonces . ^[2] $y\sim {\text{Gamma}}(\alpha,\gamma)$ $z\sim {\text{Gamma}}(\beta,\gamma)$ $x=\ln y-\ln z$ $x\sim B_{\sigma}(\alpha,\beta)$

Simetría

Si entonces . $x\sim B_{\sigma}(\alpha,\beta)$ $-x\sim B_{\sigma}(\beta,\alpha)$

Media y varianza

Al utilizar las expectativas logarítmicas de la distribución gamma, la media y la varianza se pueden derivar como:

{\begin{alineado}{\text{E}}[x]&=\psi (\alpha )-\psi (\beta )\\{\text{var}}[x]&=\psi '(\alpha )+\psi '(\beta )\\\end{alineado}}

donde está la función digamma , mientras que es su primera derivada, también conocida como función trigamma , o primera función poligamma . Como es estrictamente creciente , el signo de la media es el mismo que el de . Dado que es estrictamente decreciente, los parámetros de forma también pueden interpretarse como parámetros de concentración. De hecho, como se muestra a continuación, las colas izquierda y derecha respectivamente se vuelven más delgadas a medida que aumentan o aumentan. Los dos términos de la varianza representan las contribuciones a la varianza de las partes izquierda y derecha de la distribución. $\psi$ $\psi '=\psi ^{(1)}$ $\psi$ $\alpha -\beta$ $\psi '$ $\alpha$ ${\displaystyle\beta}$

Acumulantes y asimetría

La función generadora acumulativa es , donde la función generadora de momento se proporciona arriba. Los cumulantes , , son las -ésimas derivadas de , evaluadas en : $K(t)=\ln M(t)$ $M(t)$ $\kappa _ {n}$ $n$ $K(t)$ $t=0$

\kappa _{n}=K^{(n)}(0)=\psi ^{(n-1)}(\alpha )+(-1)^{n}\psi ^{(n-1)}(\beta )

donde y son las funciones digamma y poligamma. De acuerdo con la derivación anterior, el primer acumulante, es la media y el segundo, es la varianza. $\psi ^{(0)}=\psi$ $\psi ^{(n-1)}$ $\kappa _{1}$ $\kappa _{2}$

El tercer cumulante, es el tercer momento central , que cuando se escala por la tercera potencia de la desviación estándar da la asimetría : $\kappa _{3}$ $E[(x-E[x])^{3}]$

{\text{skew}}[x]={\frac {\psi ^{(2)}(\alpha )-\psi ^{(2)}(\beta )}{{\sqrt {{\text{var}}[x]}}^{3}}}

El signo (y por lo tanto la lateralidad ) de la asimetría es el mismo que el signo de . $\alpha -\beta$

Modo

La moda (pdf máxima) se puede derivar encontrando dónde la derivada log pdf es cero: $x$

{\frac {d}{dx}}\ln f(x;\alpha ,\beta )=\alpha \sigma (-x)-\beta \sigma (x)=0

Esto se simplifica a , de modo que: ^[2] $\alpha /\beta =e^{x}$

{\text{mode}}[x]=\ln {\frac {\alpha }{\beta }}

Comportamiento de la cola

En cada una de las colas izquierda y derecha, uno de los sigmoideos en la pdf se satura en uno, de modo que la cola está formada por el otro sigmoide. Para negativos grandes , la cola izquierda de la función de densidad de probabilidad es proporcional a , mientras que la cola derecha (positiva grande ) es proporcional a . Esto significa que las colas están controladas independientemente por y . Aunque las colas de tipo IV son más pesadas que las de la distribución normal ( , para varianza ), las medias y varianzas de tipo IV siguen siendo finitas para todas . Esto contrasta con la distribución de Cauchy para la cual la media y la varianza no existen. En los gráficos log pdf que se muestran aquí, las colas de tipo IV son lineales, las colas de distribución normal son cuadráticas y las colas de Cauchy son logarítmicas. $x$ $\sigma (x)^{\alpha }\approx e^{\alpha x}$ $x$ $\sigma (-x)^{\beta }\approx e^{-\beta x}$ $\alpha$ $\beta$ $e^{-{\frac {x^{2}}{2v}}}$ $v$ $\alpha ,\beta >0$

Propiedades familiares exponenciales

$B_{\sigma }(\alpha ,\beta )$ forma una familia exponencial con parámetros naturales y estadísticas suficientes y . Los valores esperados de las estadísticas suficientes se pueden encontrar mediante la diferenciación del log-normalizador: ^[3] $\alpha$ $\beta$ $\log \sigma (x)$ $\log \sigma (-x)$

{\begin{aligned}E[\log \sigma (x)]&={\frac {\partial \log B(\alpha ,\beta )}{\partial \alpha }}=\psi (\alpha )-\psi (\alpha +\beta )\\E[\log \sigma (-x)]&={\frac {\partial \log B(\alpha ,\beta )}{\partial \beta }}=\psi (\beta )-\psi (\alpha +\beta )\\\end{aligned}}

Dado un conjunto de datos que se supone que se generó a partir de IID , la estimación del parámetro de máxima verosimilitud es: $x_{1},\ldots ,x_{n}$ $B_{\sigma }(\alpha ,\beta )$

{\begin{aligned}{\hat {\alpha }},{\hat {\beta }}=\arg \max _{\alpha ,\beta }&\;{\frac {1}{n}}\sum _{i=1}^{n}\log f(x_{i};\alpha ,\beta )\\=\arg \max _{\alpha ,\beta }&\;\alpha {\Bigl (}{\frac {1}{n}}\sum _{i}\log \sigma (x_{i}){\Bigr )}+\beta {\Bigl (}{\frac {1}{n}}\sum _{i}\log \sigma (-x_{i}){\Bigr )}-\log B(\alpha ,\beta )\\=\arg \max _{\alpha ,\beta }&\;\alpha \,{\overline {\log \sigma (x)}}+\beta \,{\overline {\log \sigma (-x)}}-\log B(\alpha ,\beta )\end{aligned}}

donde las líneas superpuestas indican los promedios de las estadísticas suficientes. La estimación de máxima verosimilitud depende de los datos únicamente a través de estas estadísticas promedio. De hecho, en la estimación de máxima verosimilitud los valores esperados y los promedios coinciden:

{\begin{aligned}\psi ({\hat {\alpha }})-\psi ({\hat {\alpha }}+{\hat {\beta }})&={\overline {\log \sigma (x)}}\\\psi ({\hat {\beta }})-\psi ({\hat {\alpha }}+{\hat {\beta }})&={\overline {\log \sigma (-x)}}\\\end{aligned}}

que es también donde las derivadas parciales del máximo anterior desaparecen.

Relaciones con otras distribuciones

Las relaciones con otras distribuciones incluyen:

La relación logarítmica de las variables gamma es del tipo IV , como se detalla anteriormente.
Si , entonces tiene una distribución tipo IV , con parámetros y . Ver distribución beta prime . $y\sim {\text{BetaPrime}}(\alpha ,\beta )$ $x=\ln y$ $\alpha$ $\beta$
Si y , donde se utiliza como parámetro de tasa de la segunda distribución gamma, entonces tiene una distribución gamma compuesta , que es igual que , por lo que tiene una distribución de tipo IV . $z\sim {\text{Gamma}}(\beta ,1)$ $y\mid z\sim {\text{Gamma}}(\alpha ,z)$ $z$ $y$ ${\text{BetaPrime}}(\alpha ,\beta )$ $x=\ln y$
Si , entonces tiene una distribución tipo IV , con parámetros y . Ver distribución beta . La función logit , es la inversa de la función logística . Esta relación explica el nombre beta logística para esta distribución: si la función logística se aplica a variables beta logística, la distribución transformada es beta. $p\sim {\text{Beta}}(\alpha ,\beta )$ $x={\text{logit}}\,p$ $\alpha$ $\beta$ $\mathrm {logit} (p)=\log {\frac {p}{1-p}}$

Parámetros de forma grandes

Para valores grandes de los parámetros de forma, la distribución se vuelve más gaussiana , con: $\alpha ,\beta \gg 1$

{\begin{aligned}E[x]&\approx \ln {\frac {\alpha }{\beta }}\\{\text{var}}[x]&\approx {\frac {\alpha +\beta }{\alpha \beta }}\end{aligned}}

Esto se demuestra en los gráficos pdf y log pdf aquí.

Generación de variables aleatorias

Dado que el muestreo aleatorio de las distribuciones gamma y beta está disponible en muchas plataformas de software, las relaciones anteriores con esas distribuciones se pueden utilizar para generar variaciones de la distribución de tipo IV.

Generalización con parámetros de ubicación y escala.

Se puede obtener una familia flexible de cuatro parámetros agregando parámetros de ubicación y escala . Una forma de hacer esto es si , entonces let , donde está el parámetro de escala y es el parámetro de ubicación. La familia de cuatro parámetros obtenida tiene así la flexibilidad adicional deseada, pero los nuevos parámetros pueden ser difíciles de interpretar debido a y . Además, la estimación de máxima verosimilitud con esta parametrización es difícil. Estos problemas se pueden abordar de la siguiente manera. $x\sim B_{\sigma }(\alpha ,\beta )$ $y=kx+\delta$ $k>0$ $\delta \in \mathbb {R}$ $\delta \neq E[y]$ $k^{2}\neq {\text{var}}[y]$

Recuerde que la media y la varianza de son: $x$

{\begin{aligned}{\tilde {\mu }}&=\psi (\alpha )-\psi (\beta ),&{\tilde {s}}^{2}&=\psi '(\alpha )+\psi '(\beta )\end{aligned}}

Ahora expanda la familia con el parámetro de ubicación y el parámetro de escala , mediante la transformación: $\mu \in \mathbb {R}$ $s>0$

{\begin{aligned}y&=\mu +{\frac {s}{\tilde {s}}}(x-{\tilde {\mu }})\iff x={\tilde {\mu }}+{\frac {\tilde {s}}{s}}(y-\mu )\end{aligned}}

de modo que y ahora son interpretables. Cabe señalar que permitir que sea positivo o negativo no generaliza esta familia, debido a la propiedad de simetría mencionada anteriormente. Adoptamos la notación para esta familia. $\mu =E[y]$ $s^{2}={\text{var}}[y]$ $s$ $y\sim {\bar {B}}_{\sigma }(\alpha ,\beta ,\mu ,s^{2})$

Si el pdf es , entonces el pdf es: $x\sim B_{\sigma }(\alpha ,\beta )$ $f(x;\alpha ,\beta )$ $y\sim {\bar {B}}_{\sigma }(\alpha ,\beta ,\mu ,s^{2})$

{\bar {f}}(y;\alpha ,\beta ,\mu ,s^{2})={\frac {\tilde {s}}{s}}\,f(x;\alpha ,\beta )

donde se entiende que se calcula como se detalló anteriormente, en función de . Los gráficos pdf y log-pdf anteriores, donde los títulos contienen (medias = 0, variaciones = 1), son para . $x$ $y,\alpha ,\beta ,\mu ,s$ ${\bar {B}}_{\sigma }(\alpha ,\beta ,0,1)$

Estimación de parámetros de máxima verosimilitud

En esta sección, se analiza a su vez la estimación de máxima verosimilitud de los parámetros de distribución, dado un conjunto de datos, para las familias y . $x_{1},\ldots ,x_{n}$ $B_{\sigma }(\alpha ,\beta )$ ${\bar {B}}_{\sigma }(\alpha ,\beta ,\mu ,s^{2})$

Máxima probabilidad para el estándar Tipo IV

Como se señaló anteriormente, es una familia exponencial con parámetros naturales , cuyas estimaciones de máxima verosimilitud dependen únicamente de estadísticas suficientes promediadas: $B_{\sigma }(\alpha ,\beta )$ $\alpha ,\beta$

{\begin{aligned}{\overline {\log \sigma (x)}}&={\frac {1}{n}}\sum _{i}\log \sigma (x_{i})&&{\text{and}}&{\overline {\log \sigma (-x)}}&={\frac {1}{n}}\sum _{i}\log \sigma (-x_{i})\end{aligned}}

Una vez acumuladas estas estadísticas, la estimación de máxima verosimilitud viene dada por:

{\begin{aligned}{\hat {\alpha }},{\hat {\beta }}=\arg \max _{\alpha ,\beta >0}&\;\alpha \,{\overline {\log \sigma (x)}}+\beta \,{\overline {\log \sigma (-x)}}-\log B(\alpha ,\beta )\end{aligned}}

Mediante el uso de parametrización y se puede utilizar un algoritmo de optimización numérica sin restricciones como BFGS . Las iteraciones de optimización son rápidas porque son independientes del tamaño del conjunto de datos. $\theta _{1}=\log \alpha$ $\theta _{2}=\log \beta$

Una alternativa es utilizar un algoritmo EM basado en la composición: if y . Debido a la autoconjugación de la distribución gamma , las expectativas posteriores y que se requieren para el paso E se pueden calcular en forma cerrada. La actualización del parámetro de paso M se puede resolver de manera análoga a la máxima verosimilitud para la distribución gamma . $x-\log(\gamma \delta )\sim B_{\sigma }(\alpha ,\beta )$ $z\sim {\text{Gamma}}(\beta ,\gamma )$ $e^{x}\mid z\sim {\text{Gamma}}(\alpha ,z/\delta )$ $\left\langle z\right\rangle _{P(z\mid x)}$ $\left\langle \log z\right\rangle _{P(z\mid x)}$

Máxima verosimilitud para la familia de cuatro parámetros

El problema de máxima verosimilitud para tener pdf es: ${\bar {B}}_{\sigma }(\alpha ,\beta ,\mu ,s^{2})$ ${\bar {f}}$

{\hat {\alpha }},{\hat {\beta }},{\hat {\mu }},{\hat {s}}=\arg \max _{\alpha ,\beta ,\mu ,s}\log {\frac {1}{n}}\sum _{i}{\bar {f}}(x_{i};\alpha ,\beta ,\mu ,s^{2})

Esta ya no es una familia exponencial, por lo que cada iteración de optimización tiene que atravesar todo el conjunto de datos. Además, el cálculo de las derivadas parciales (como lo requiere, por ejemplo, BFGS) es considerablemente más complejo que en el caso anterior de dos parámetros. Sin embargo, todas las funciones de los componentes están disponibles en paquetes de software con diferenciación automática . Nuevamente, los parámetros positivos se pueden parametrizar en términos de sus logaritmos para obtener un problema de optimización numérica sin restricciones.

Para este problema, la optimización numérica puede fallar a menos que la ubicación inicial y los parámetros de escala se elijan adecuadamente. Sin embargo , para ello se puede aprovechar la interpretabilidad de estos parámetros antes mencionada en la parametrización . Específicamente, los valores iniciales de y se pueden establecer en la media empírica y la varianza de los datos. ${\bar {B}}_{\sigma }$ $\mu$ $s^{2}$

Ver también

Distribución Champernowne , otra generalización de la distribución logística.

Referencias

^ ab Johnson, NL, Kotz, S., Balakrishnan, N. (1995) Distribuciones univariadas continuas, volumen 2 , Wiley. ISBN 0-471-58494-0 (páginas 140 a 142)
^ ab Leigh J. Halliwell (2018). "La distribución Log-Gamma y el error no normal". S2CID 173176687. {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ CMBishop, Reconocimiento de patrones y aprendizaje automático , Springer 2006.