Distribución logística generalizada

El término distribución logística generalizada se utiliza como nombre para varias familias diferentes de distribuciones de probabilidad . Por ejemplo, Johnson et al. ^[1] enumeran cuatro formas, que se enumeran a continuación.

El tipo I también se ha denominado distribución logística-astizada . El tipo IV incluye los otros tipos y se obtiene al aplicar la transformación logit a las variables aleatorias beta . Siguiendo la misma convención que para la distribución log-normal , el tipo IV puede denominarse distribución logística-beta , con referencia a la función logística estándar , que es la inversa de la transformación logit.

Para otras familias de distribuciones que también se han denominado distribuciones logísticas generalizadas, véase la distribución log-logística desplazada , que es una generalización de la distribución log-logística ; y la distribución metalog ("meta-logística") , que es muy flexible en cuanto a forma y límites y se puede ajustar a datos con mínimos cuadrados lineales.

Definiciones

Las siguientes definiciones corresponden a versiones estandarizadas de las familias, que pueden ampliarse a la forma completa como una familia de escala de ubicación . Cada una se define utilizando la función de distribución acumulativa ( F ) o la función de densidad de probabilidad ( ƒ ), y se define en (-∞,∞).

Tipo I

F(x;\alpha )={\frac {1}{(1+e^{-x})^{\alpha }}}\equiv (1+e^{-x})^{- \alpha },\quad \alpha >0.

La función de densidad de probabilidad correspondiente es:

f(x;\alpha )={\frac {\alpha e^{-x}}{\left(1+e^{-x}\right)^{\alpha +1}}},\quad \alpha >0.

Este tipo también se ha denominado distribución "logística sesgada".

Tipo II

F(x;\alpha )=1-{\frac {e^{-\alpha x}}{(1+e^{-x})^{\alpha }}},\quad \alpha > 0.

La función de densidad de probabilidad correspondiente es:

f(x;\alpha )={\frac {\alpha e^{-\alpha x}}{(1+e^{-x})^{\alpha +1}}},\quad \ alfa >0.

Tipo III

f(x;\alpha )={\frac {1}{B(\alpha ,\alpha )}}{\frac {e^{-\alpha x}}{(1+e^{-x })^{2\alpha }}},\quad \alpha >0.

Aquí B es la función beta . La función generadora de momentos para este tipo es

M(t)={\frac {\Gamma (\alpha -t)\Gamma (\alpha +t)}{(\Gamma (\alpha ))^{2}}},\quad -\alpha <t<\alpha .

La función de distribución acumulativa correspondiente es:

F(x;\alpha )={\frac {\left(e^{x}+1\right)\Gamma (\alpha )e^{\alpha (-x)}\left(e^{-x}+1\right)^{-2\alpha }\,_{2}{\tilde {F}}_{1}\left(1,1-\alpha ;\alpha +1;-e^{x}\right)}{B(\alpha ,\alpha )}},\quad \alpha >0.

Tipo IV

{\begin{aligned}f(x;\alpha ,\beta )&={\frac {1}{B(\alpha ,\beta )}}{\frac {e^{-\beta x}}{(1+e^{-x})^{\alpha +\beta }}},\quad \alpha ,\beta >0\\[4pt]&={\frac {\sigma (x)^{\alpha }\sigma (-x)^{\beta }}{B(\alpha ,\beta )}}.\end{aligned}}

Donde B es la función beta y es la función logística estándar . La función generadora de momentos para este tipo es $\sigma(x)=1/(1+e^{-x})$

M(t)={\frac {\Gamma (\beta -t)\Gamma (\alpha +t)}{\Gamma (\alpha )\Gamma (\beta )}},\quad -\alpha <t<\beta .

Este tipo también se denomina "beta generalizada exponencial del segundo tipo". ^[1]

La función de distribución acumulativa correspondiente es:

F(x;\alpha ,\beta )={\frac {\left(e^{x}+1\right)\Gamma (\alpha )e^{\beta (-x)}\left(e^{-x}+1\right)^{-\alpha -\beta }\,_{2}{\tilde {F}}_{1}\left(1,1-\beta ;\alpha +1;-e^{x}\right)}{B(\alpha ,\beta )}},\quad \alpha ,\beta >0.

Relación entre tipos

El tipo IV es la forma más general de la distribución. La distribución de tipo III se puede obtener a partir del tipo IV fijando . La distribución de tipo II se puede obtener a partir del tipo IV fijando (y renombrando a ). La distribución de tipo I se puede obtener a partir del tipo IV fijando . La fijación da como resultado la distribución logística estándar . $\beta =\alpha$ $\alpha = 1$ ${\estilo de visualización \beta}$ ${\estilo de visualización \alpha}$ $\beta = 1$ $\alpha =\beta =1$

Propiedades del tipo IV (logística-beta)

La distribución logística generalizada tipo IV , o distribución logística-beta , con parámetros de soporte y forma , tiene (como se muestra arriba) la función de densidad de probabilidad (pdf): $x\in \mathbb {R}$ $\alpha ,\beta >0$

f(x;\alpha ,\beta )={\frac {1}{B(\alpha ,\beta )}}{\frac {e^{-\beta x}}{(1+e^{-x})^{\alpha +\beta }}}={\frac {\sigma (x)^{\alpha }\sigma (-x)^{\beta }}{B(\alpha ,\beta )}},

donde es la función logística estándar . Las funciones de densidad de probabilidad para tres conjuntos diferentes de parámetros de forma se muestran en el gráfico, donde las distribuciones se han escalado y desplazado para dar medias cero y varianzas unitarias, con el fin de facilitar la comparación de las formas. $\sigma(x)=1/(1+e^{-x})$

En lo que sigue, se utiliza la notación para denotar la distribución Tipo IV. $B_{\sigma}(\alpha,\beta)$

Relación con la distribución gamma

Esta distribución se puede obtener en términos de la distribución gamma de la siguiente manera. Sea y independientemente , y sea . Entonces . ^[2] $y\sim {\text{Gamma}}(\alfa ,\gamma )$ $z\sim {\text{Gamma}}(\beta,\gamma)$ $x=\ln y-\ln z$ $x\sim B_{\sigma}(\alpha,\beta)$

Simetría

Si , entonces . $x\sim B_{\sigma}(\alpha,\beta)$ $-x\sim B_{\sigma}(\beta,\alpha)$

Media y varianza

Utilizando las expectativas logarítmicas de la distribución gamma, la media y la varianza se pueden derivar como:

{\begin{aligned}{\text{E}}[x]&=\psi (\alpha )-\psi (\beta )\\{\text{var}}[x]&=\psi '(\alpha )+\psi '(\beta )\\\end{aligned}}

donde es la función digamma , mientras que es su primera derivada, también conocida como la función trigamma , o la primera función poligamma . Dado que es estrictamente creciente , el signo de la media es el mismo que el signo de . Dado que es estrictamente decreciente, los parámetros de forma también se pueden interpretar como parámetros de concentración. De hecho, como se muestra a continuación, las colas izquierda y derecha respectivamente se vuelven más delgadas a medida que o aumentan. Los dos términos de la varianza representan las contribuciones a la varianza de las partes izquierda y derecha de la distribución. ${\estilo de visualización \psi}$ $\psi '=\psi ^{(1)}$ ${\estilo de visualización \psi}$ $\alpha -\beta$ ${\estilo de visualización \psi '}$ ${\estilo de visualización \alpha}$ ${\estilo de visualización \beta}$

Cumulantes y asimetría

La función generadora de cumulantes es , donde la función generadora de momentos se da arriba. Los cumulantes , , son las derivadas -ésimas de , evaluadas en : $K(t)=\ln M(t)$ ${\estilo de visualización M(t)}$ $\kappa_{n}$ ${\estilo de visualización n}$ ${\estilo de visualización K(t)}$ ${\estilo de visualización t=0}$

\kappa _{n}=K^{(n)}(0)=\psi ^{(n-1)}(\alpha )+(-1)^{n}\psi ^{(n-1)}(\beta )

donde y son las funciones digamma y poligamma. De acuerdo con la derivación anterior, el primer cumulante, , es la media y el segundo, , es la varianza. $\psi ^{(0)}=\psi$ $\psi ^{(n-1)}$ $\kappa _{1}$ $\kappa _{2}$

El tercer cumulante, , es el tercer momento central , que cuando se escala por la tercera potencia de la desviación estándar da la asimetría : $\kappa _{3}$ $E[(x-E[x])^{3}]$

{\text{skew}}[x]={\frac {\psi ^{(2)}(\alpha )-\psi ^{(2)}(\beta )}{{\sqrt {{\text{var}}[x]}}^{3}}}

El signo (y por lo tanto la lateralidad ) de la asimetría es el mismo que el signo de . $\alpha -\beta$

Modo

La moda (máxima pdf) se puede derivar encontrando dónde la derivada logarítmica de pdf es cero: $x$

{\frac {d}{dx}}\ln f(x;\alpha ,\beta )=\alpha \sigma (-x)-\beta \sigma (x)=0

Esto se simplifica a , de modo que: ^[2] $\alpha /\beta =e^{x}$

{\text{mode}}[x]=\ln {\frac {\alpha }{\beta }}

Comportamiento de la cola

En cada una de las colas izquierda y derecha, uno de los sigmoides en la función de densidad de probabilidad se satura a uno, de modo que la cola está formada por el otro sigmoide. Para un valor negativo grande , la cola izquierda de la función de densidad de probabilidad es proporcional a , mientras que la cola derecha (un valor positivo grande ) es proporcional a . Esto significa que las colas están controladas independientemente por y . Aunque las colas de tipo IV son más pesadas que las de la distribución normal ( , para la varianza ), las medias y varianzas de tipo IV siguen siendo finitas para todos los . Esto contrasta con la distribución de Cauchy para la que la media y la varianza no existen. En los gráficos de función de densidad de probabilidad logarítmica que se muestran aquí, las colas de tipo IV son lineales, las colas de la distribución normal son cuadráticas y las colas de Cauchy son logarítmicas. $x$ $\sigma (x)^{\alpha }\approx e^{\alpha x}$ $x$ $\sigma (-x)^{\beta }\approx e^{-\beta x}$ $\alpha$ $\beta$ $e^{-{\frac {x^{2}}{2v}}}$ $v$ $\alpha ,\beta >0$

Propiedades de la familia exponencial

$B_{\sigma }(\alpha ,\beta )$ forma una familia exponencial con parámetros naturales y y estadísticas suficientes y . Los valores esperados de las estadísticas suficientes se pueden encontrar mediante la diferenciación del normalizador logarítmico: ^[3] $\alpha$ $\beta$ $\log \sigma (x)$ $\log \sigma (-x)$

{\begin{aligned}E[\log \sigma (x)]&={\frac {\partial \log B(\alpha ,\beta )}{\partial \alpha }}=\psi (\alpha )-\psi (\alpha +\beta )\\E[\log \sigma (-x)]&={\frac {\partial \log B(\alpha ,\beta )}{\partial \beta }}=\psi (\beta )-\psi (\alpha +\beta )\\\end{aligned}}

Dado un conjunto de datos que se supone que se generó a partir de IID , la estimación del parámetro de máxima verosimilitud es: $x_{1},\ldots ,x_{n}$ $B_{\sigma }(\alpha ,\beta )$

{\begin{aligned}{\hat {\alpha }},{\hat {\beta }}=\arg \max _{\alpha ,\beta }&\;{\frac {1}{n}}\sum _{i=1}^{n}\log f(x_{i};\alpha ,\beta )\\=\arg \max _{\alpha ,\beta }&\;\alpha {\Bigl (}{\frac {1}{n}}\sum _{i}\log \sigma (x_{i}){\Bigr )}+\beta {\Bigl (}{\frac {1}{n}}\sum _{i}\log \sigma (-x_{i}){\Bigr )}-\log B(\alpha ,\beta )\\=\arg \max _{\alpha ,\beta }&\;\alpha \,{\overline {\log \sigma (x)}}+\beta \,{\overline {\log \sigma (-x)}}-\log B(\alpha ,\beta )\end{aligned}}

donde las líneas de referencia denotan los promedios de las estadísticas suficientes. La estimación de máxima verosimilitud depende de los datos únicamente a través de estas estadísticas promedio. De hecho, en la estimación de máxima verosimilitud, los valores esperados y los promedios coinciden:

{\begin{aligned}\psi ({\hat {\alpha }})-\psi ({\hat {\alpha }}+{\hat {\beta }})&={\overline {\log \sigma (x)}}\\\psi ({\hat {\beta }})-\psi ({\hat {\alpha }}+{\hat {\beta }})&={\overline {\log \sigma (-x)}}\\\end{aligned}}

que es también donde se desvanecen las derivadas parciales del maximando anterior.

Relaciones con otras distribuciones

Las relaciones con otras distribuciones incluyen:

La relación logarítmica de las variables gamma es de tipo IV como se detalla anteriormente.
Si , entonces tiene una distribución de tipo IV , con parámetros y . Véase distribución beta prima . $y\sim {\text{BetaPrime}}(\alpha ,\beta )$ $x=\ln y$ $\alpha$ $\beta$
Si y , donde se utiliza como parámetro de velocidad de la segunda distribución gamma, entonces tiene una distribución gamma compuesta , que es la misma que , por lo que tiene una distribución de tipo IV . $z\sim {\text{Gamma}}(\beta ,1)$ $y\mid z\sim {\text{Gamma}}(\alpha ,z)$ $z$ $y$ ${\text{BetaPrime}}(\alpha ,\beta )$ $x=\ln y$
Si , entonces tiene una distribución de tipo IV , con parámetros y . Véase distribución beta . La función logit , es la inversa de la función logística . Esta relación explica el nombre de beta logística para esta distribución: si la función logística se aplica a las variables beta logísticas, la distribución transformada es beta. $p\sim {\text{Beta}}(\alpha ,\beta )$ $x={\text{logit}}\,p$ $\alpha$ $\beta$ $\mathrm {logit} (p)=\log {\frac {p}{1-p}}$

Parámetros de forma grandes

Para valores grandes de los parámetros de forma, , la distribución se vuelve más gaussiana , con: $\alpha ,\beta \gg 1$

{\begin{aligned}E[x]&\approx \ln {\frac {\alpha }{\beta }}\\{\text{var}}[x]&\approx {\frac {\alpha +\beta }{\alpha \beta }}\end{aligned}}

Esto se demuestra en los gráficos pdf y log pdf aquí.

Generación de variables aleatorias

Dado que el muestreo aleatorio de las distribuciones gamma y beta está fácilmente disponible en muchas plataformas de software, las relaciones anteriores con esas distribuciones se pueden utilizar para generar variantes de la distribución tipo IV.

Generalización con parámetros de localización y escala

Se puede obtener una familia flexible de cuatro parámetros añadiendo los parámetros de escala y de ubicación . Una forma de hacerlo es si , entonces sea , donde es el parámetro de escala y es el parámetro de ubicación. La familia de cuatro parámetros obtenida tiene así la flexibilidad adicional deseada, pero los nuevos parámetros pueden ser difíciles de interpretar porque y . Además, la estimación de máxima verosimilitud con esta parametrización es difícil. Estos problemas se pueden abordar de la siguiente manera. $x\sim B_{\sigma }(\alpha ,\beta )$ $y=kx+\delta$ $k>0$ $\delta \in \mathbb {R}$ $\delta \neq E[y]$ $k^{2}\neq {\text{var}}[y]$

Recuerde que la media y la varianza de son: $x$

{\begin{aligned}{\tilde {\mu }}&=\psi (\alpha )-\psi (\beta ),&{\tilde {s}}^{2}&=\psi '(\alpha )+\psi '(\beta )\end{aligned}}

Ahora expanda la familia con el parámetro de ubicación y el parámetro de escala , a través de la transformación: $\mu \in \mathbb {R}$ $s>0$

{\begin{aligned}y&=\mu +{\frac {s}{\tilde {s}}}(x-{\tilde {\mu }})\iff x={\tilde {\mu }}+{\frac {\tilde {s}}{s}}(y-\mu )\end{aligned}}

de modo que y ahora son interpretables. Cabe señalar que permitir que sean positivos o negativos no generaliza esta familia, debido a la propiedad de simetría mencionada anteriormente. Adoptamos la notación para esta familia. $\mu =E[y]$ $s^{2}={\text{var}}[y]$ $s$ $y\sim {\bar {B}}_{\sigma }(\alpha ,\beta ,\mu ,s^{2})$

Si el pdf de es , entonces el pdf de es: $x\sim B_{\sigma }(\alpha ,\beta )$ $f(x;\alpha ,\beta )$ $y\sim {\bar {B}}_{\sigma }(\alpha ,\beta ,\mu ,s^{2})$

{\bar {f}}(y;\alpha ,\beta ,\mu ,s^{2})={\frac {\tilde {s}}{s}}\,f(x;\alpha ,\beta )

donde se entiende que se calcula como se detalla anteriormente, como una función de . Los gráficos pdf y log-pdf anteriores, donde los títulos contienen (medias = 0, varianzas = 1), son para . $x$ $y,\alpha ,\beta ,\mu ,s$ ${\bar {B}}_{\sigma }(\alpha ,\beta ,0,1)$

Estimación de parámetros de máxima verosimilitud

En esta sección se analiza a su vez la estimación de máxima verosimilitud de los parámetros de distribución, dado un conjunto de datos, para las familias y . $x_{1},\ldots ,x_{n}$ $B_{\sigma }(\alpha ,\beta )$ ${\bar {B}}_{\sigma }(\alpha ,\beta ,\mu ,s^{2})$

Máxima probabilidad para el tipo IV estándar

Como se señaló anteriormente, es una familia exponencial con parámetros naturales , cuyas estimaciones de máxima verosimilitud dependen únicamente de estadísticas promediadas suficientes: $B_{\sigma }(\alpha ,\beta )$ $\alpha ,\beta$

{\begin{aligned}{\overline {\log \sigma (x)}}&={\frac {1}{n}}\sum _{i}\log \sigma (x_{i})&&{\text{and}}&{\overline {\log \sigma (-x)}}&={\frac {1}{n}}\sum _{i}\log \sigma (-x_{i})\end{aligned}}

Una vez acumuladas estas estadísticas, la estimación de máxima verosimilitud viene dada por:

{\begin{aligned}{\hat {\alpha }},{\hat {\beta }}=\arg \max _{\alpha ,\beta >0}&\;\alpha \,{\overline {\log \sigma (x)}}+\beta \,{\overline {\log \sigma (-x)}}-\log B(\alpha ,\beta )\end{aligned}}

Mediante la parametrización se puede utilizar un algoritmo de optimización numérica sin restricciones como BFGS . Las iteraciones de optimización son rápidas, porque son independientes del tamaño del conjunto de datos. $\theta _{1}=\log \alpha$ $\theta _{2}=\log \beta$

Una alternativa es utilizar un algoritmo EM basado en la composición: si y . Debido a la autoconjugación de la distribución gamma , las expectativas posteriores, y que se requieren para el paso E se pueden calcular en forma cerrada. La actualización del parámetro del paso M se puede resolver de manera análoga a la máxima verosimilitud para la distribución gamma . $x-\log(\gamma \delta )\sim B_{\sigma }(\alpha ,\beta )$ $z\sim {\text{Gamma}}(\beta ,\gamma )$ $e^{x}\mid z\sim {\text{Gamma}}(\alpha ,z/\delta )$ $\left\langle z\right\rangle _{P(z\mid x)}$ $\left\langle \log z\right\rangle _{P(z\mid x)}$

Máxima verosimilitud para la familia de cuatro parámetros

El problema de máxima verosimilitud para , que tiene función de densidad de probabilidad es: ${\bar {B}}_{\sigma }(\alpha ,\beta ,\mu ,s^{2})$ ${\bar {f}}$

{\hat {\alpha }},{\hat {\beta }},{\hat {\mu }},{\hat {s}}=\arg \max _{\alpha ,\beta ,\mu ,s}\log {\frac {1}{n}}\sum _{i}{\bar {f}}(x_{i};\alpha ,\beta ,\mu ,s^{2})

Ya no se trata de una familia exponencial, por lo que cada iteración de optimización debe recorrer todo el conjunto de datos. Además, el cálculo de las derivadas parciales (como lo requiere, por ejemplo, BFGS) es considerablemente más complejo que para el caso de dos parámetros mencionado anteriormente. Sin embargo, todas las funciones de los componentes están disponibles en paquetes de software con diferenciación automática . Nuevamente, los parámetros positivos se pueden parametrizar en términos de sus logaritmos para obtener un problema de optimización numérica sin restricciones.

En este problema, la optimización numérica puede fallar a menos que los parámetros iniciales de escala y ubicación se elijan adecuadamente. Sin embargo, la interpretabilidad de estos parámetros en la parametrización de mencionada anteriormente se puede utilizar para lograrlo. En concreto, los valores iniciales de y se pueden establecer en la media y la varianza empíricas de los datos. ${\bar {B}}_{\sigma }$ $\mu$ $s^{2}$

Véase también

Distribución de Champernowne , otra generalización de la distribución logística.

Referencias

^ ab Johnson, NL, Kotz, S., Balakrishnan, N. (1995) Distribuciones univariadas continuas, volumen 2 , Wiley. ISBN 0-471-58494-0 (páginas 140-142)
^ por Leigh J. Halliwell (2018). "La distribución log-gamma y el error no normal". S2CID 173176687. {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ CMBishop, Reconocimiento de patrones y aprendizaje automático , Springer 2006.