Familia exponencial

En probabilidad y estadística , una familia exponencial es un conjunto paramétrico de distribuciones de probabilidad de una determinada forma, que se especifica a continuación. Esta forma especial se elige por conveniencia matemática, lo que incluye permitir al usuario calcular expectativas y covarianzas mediante la diferenciación basada en algunas propiedades algebraicas útiles, así como por generalidad, ya que las familias exponenciales son, en cierto sentido, conjuntos de distribuciones muy naturales a tener en cuenta. El término clase exponencial se utiliza a veces en lugar de "familia exponencial", ^[1] o el término más antiguo familia Koopman-Darmois . A veces denominada vagamente "la" familia exponencial, esta clase de distribuciones es distinta porque todas poseen una variedad de propiedades deseables, la más importante de las cuales es la existencia de una estadística suficiente .

El concepto de familias exponenciales se atribuye a ^[2] EJG Pitman , ^[3] G. Darmois , ^[4] y BO Koopman ^[5] en 1935-1936. Las familias exponenciales de distribuciones proporcionan un marco general para seleccionar una posible parametrización alternativa de una familia paramétrica de distribuciones, en términos de parámetros naturales, y para definir estadísticas de muestra útiles , llamadas estadísticas naturales suficientes de la familia.

Dificultad de nomenclatura

Los términos "distribución" y "familia" se usan a menudo de manera vaga: específicamente, una familia exponencial es un conjunto de distribuciones, donde la distribución específica varía con el parámetro; ^{[a] sin embargo, a una}familia paramétrica de distribuciones a menudo se la denomina " una distribución" (como "la distribución normal", que significa "la familia de distribuciones normales"), y al conjunto de todas las familias exponenciales a veces se lo denomina vagamente "la" familia exponencial.

Definición

La mayoría de las distribuciones de uso común forman una familia exponencial o un subconjunto de una familia exponencial, que se enumeran en la subsección siguiente. Las subsecciones siguientes son una secuencia de definiciones matemáticas cada vez más generales de una familia exponencial. Un lector ocasional tal vez desee limitar su atención a la primera y más simple definición, que corresponde a una familia de distribuciones de probabilidad discretas o continuas de un solo parámetro .

Ejemplos de distribuciones familiares exponenciales

Las familias exponenciales incluyen muchas de las distribuciones más comunes. Entre muchas otras, las familias exponenciales incluyen las siguientes: ^[6]

Varias distribuciones comunes son familias exponenciales, pero solo cuando ciertos parámetros son fijos y conocidos. Por ejemplo:

binomial (con número fijo de ensayos)
multinomial (con número fijo de ensayos)
binomial negativo (con número fijo de fallos)

Obsérvese que en cada caso los parámetros que deben fijarse son aquellos que establecen un límite en el rango de valores que posiblemente se puedan observar.

Ejemplos de distribuciones comunes que no son familias exponenciales son la t de Student , la mayoría de las distribuciones mixtas e incluso la familia de distribuciones uniformes cuando los límites no son fijos. Consulte la sección a continuación sobre ejemplos para obtener más información.

Parámetro escalar

El valor de se llama parámetro de la familia. $\ \theta \$

Una familia exponencial de un solo parámetro es un conjunto de distribuciones de probabilidad cuya función de densidad de probabilidad (o función de masa de probabilidad , para el caso de una distribución discreta ) se puede expresar en la forma

\ f_{X}\!\left(x\ {\big |}\ \theta \right)=h(x)\ \exp {\bigl [}\ \eta (\theta )\cdot T(x)-A(\theta )\ {\bigr ]}\

donde y son funciones conocidas. La función debe ser no negativa. $\ T(x)\ ,$ $\ h(x)\ ,$ $\ \eta (\theta )\ ,$ $\ A(\theta )\$ $\ h(x)\$

Una forma alternativa y equivalente que se da a menudo es

\ f_{X}\!\left(x\ {\big |}\ \theta \right)=h(x)\ g(\theta )\ \exp {\bigl [}\ \eta (\theta )\cdot T(x)\ {\bigr ]}\

o equivalentemente

\ f_{X}\!\left(x\ {\big |}\ \theta \right)=\exp \!{\bigl [}\ \eta (\theta )\cdot T(x)-A(\theta )+B(x)\ {\bigr ]}~.

En términos de probabilidad logarítmica ,

\log f_{X}\!\left(x\ {\big |}\ \theta \right)=\eta (\theta )\cdot T(x)-A(\theta )+B(x).

Tenga en cuenta que y $\quad g(\theta )=e^{-A(\theta )}\quad$ $\quad h(x)=e^{B(x)}~.$

El soporte debe ser independiente de $θ$

Es importante destacar que se requiere el soporte de (todos los valores posibles para los cuales es mayor que ) para no depender de ^[7]. Este requisito se puede utilizar para excluir que una distribución familiar paramétrica sea una familia exponencial. $\ f_{X}\!\left(x{\big |}\theta \right)\$ $\ x\$ $\ f_{X}\!\left(x{\big |}\theta \right)\$ $\ 0\$ $\ \theta ~.$

Por ejemplo: La distribución de Pareto tiene una función de densidad de probabilidad que está definida para (el valor mínimo, siendo el parámetro de escala) y su soporte, por lo tanto, tiene un límite inferior de Dado que el soporte de depende del valor del parámetro, la familia de distribuciones de Pareto no forma una familia exponencial de distribuciones (al menos cuando se desconoce). $\ x\geq x_{\mathsf {m}}\$ $\ x_{m}\ ,$ $\ x_{\mathsf {m}}~.$ $\ f_{\alpha ,x_{m}}\!(x)\$ $\ x_{m}\$

Otro ejemplo: las distribuciones de tipo Bernoulli ( binomial , binomial negativa , distribución geométrica y similares) solo se pueden incluir en la clase exponencial si el número de ensayos de Bernoulli se trata como una constante fija (excluida de los parámetros libres) , ya que el número permitido de ensayos establece los límites para el número de "éxitos" o "fracasos" que se pueden observar en un conjunto de ensayos. $\ n\ ,$ $\ \theta \$

Vector valorado $incógnita$ y $θ$

A menudo es un vector de medidas, en cuyo caso puede ser una función del espacio de valores posibles de los números reales. $\ x\$ $\ T(x)\$ $\ x\$

En términos más generales, y pueden tener valores vectoriales de modo que tengan valores reales. Sin embargo, consulte la discusión a continuación sobre parámetros vectoriales, en relación con la familia exponencial curva . $\ \eta (\theta )\$ $\ T(x)\$ $\ \eta (\theta )\cdot T(x)\$

Formulación canónica

Si entonces se dice que la familia exponencial está en forma canónica . Al definir un parámetro transformado siempre es posible convertir una familia exponencial a forma canónica. La forma canónica no es única, ya que se puede multiplicar por cualquier constante distinta de cero, siempre que se multiplique por el recíproco de esa constante, o se puede añadir una constante c a y multiplicarla por para compensarla. En el caso especial de que y entonces la familia se llama familia exponencial natural . $\ \eta (\theta )=\theta \ ,$ $\ \eta =\eta (\theta )\ ,$ $\ \eta (\theta )\$ $\ T(x)\$ $\ \eta (\theta )\$ $\ h(x)\$ $\ \exp \!{\bigl [}{-c}\cdot T(x)\,{\bigr ]}\$ $\ \eta (\theta )=\theta \$ $\ T(x)=x\ ,$

Incluso cuando es un escalar y solo hay un único parámetro, las funciones y pueden ser vectores, como se describe a continuación. $\ x\$ $\ \eta (\theta )\$ $\ T(x)\$

La función o equivalentemente se determina automáticamente una vez que se han elegido las otras funciones, ya que debe asumir una forma que haga que la distribución se normalice (suma o integre a uno sobre todo el dominio). Además, ambas funciones siempre se pueden escribir como funciones de incluso cuando no es una función biunívoca , es decir, dos o más valores diferentes de se asignan al mismo valor de y, por lo tanto, no se pueden invertir. En tal caso, todos los valores de que se asignan al mismo también tendrán el mismo valor para y $\ A(\theta )\ ,$ $\ g(\theta )\ ,$ $\ \eta \ ,$ $\ \eta (\theta )\$ $\ \theta \$ $\ \eta (\theta )\ ,$ $\ \eta (\theta )\$ $\ \theta \$ $\ \eta (\theta )\$ $\ A(\theta )\$ $\ g(\theta )~.$

Factorización de las variables involucradas

Lo que es importante destacar, y que caracteriza a todas las variantes de la familia exponencial, es que los parámetros y las variables de observación deben factorizarse (pueden separarse en productos, cada uno de los cuales involucra solo un tipo de variable), ya sea directamente o dentro de cualquiera de las partes (la base o el exponente) de una operación de exponenciación . En general, esto significa que todos los factores que constituyen la función de densidad o masa deben tener una de las siguientes formas:

\ f(x)\ ,~g(\theta )\ ,~c^{f(x)}\ ,~c^{g(\theta )}\ ,~{[f(x)]}^{c}\ ,~{[g(\theta )]}^{c}\ ,~{[f(x)]}^{g(\theta )}\ ,~{[g(\theta )]}^{f(x)}\ ,~{[f(x)]}^{h(x)g(\theta )}\ ,~~~{\mathsf {or}}~~{[g(\theta )]}^{h(x)j(\theta )}\ ,\

donde y son funciones arbitrarias de la variable estadística observada; y son funciones arbitrarias de los parámetros fijos que definen la forma de la distribución; y es cualquier expresión constante arbitraria (es decir, un número o una expresión que no cambia ni con ni con ). $\ f\$ $\ h\$ $\ x\ ,$ $\ g\$ $\ j\$ $\ \theta \ ,$ $\ c\$ $\ x\$ $\ \theta \$

Existen otras restricciones sobre la cantidad de factores que pueden ocurrir. Por ejemplo, las dos expresiones:

{[f(x)g(\theta )]}^{h(x)j(\theta )},\qquad {[f(x)]}^{h(x)j(\theta )}[g(\theta )]^{h(x)j(\theta )},

son lo mismo, es decir, un producto de dos factores "permitidos". Sin embargo, cuando se reescriben en la forma factorizada,

{[f(x)g(\theta )]}^{h(x)j(\theta )}={[f(x)]}^{h(x)j(\theta )}[g(\theta )]^{h(x)j(\theta )}=e^{[h(x)\log f(x)]j(\theta )+h(x)[j(\theta )\log g(\theta )]},

Se puede observar que no se puede expresar en la forma requerida. (Sin embargo, una forma de este tipo es miembro de una familia exponencial curva , que permite múltiples términos factorizados en el exponente. ^{[ cita requerida ]} )

Para ver por qué una expresión de la forma

{[f(x)]}^{g(\theta )}

califica,

{[f(x)]}^{g(\theta )}=e^{g(\theta )\log f(x)}

y por lo tanto se factoriza dentro del exponente. De manera similar,

{[f(x)]}^{h(x)g(\theta )}=e^{h(x)g(\theta )\log f(x)}=e^{[h(x)\log f(x)]g(\theta )}

y nuevamente se factoriza dentro del exponente.

Un factor que consiste en una suma donde intervienen ambos tipos de variables (por ejemplo, un factor de la forma ) no se puede factorizar de esta manera (excepto en algunos casos en los que aparece directamente en un exponente); esta es la razón por la que, por ejemplo, la distribución de Cauchy y la distribución t de Student no son familias exponenciales. $1+f(x)g(\theta )$

Parámetro vectorial

La definición en términos de un parámetro de número real se puede extender a un parámetro de vector real .

{\boldsymbol {\theta }}\equiv \left[\,\theta _{1},\,\theta _{2},\,\ldots ,\,\theta _{s}\,\right]^{\mathsf {T}}~.

Se dice que una familia de distribuciones pertenece a una familia exponencial vectorial si la función de densidad de probabilidad (o función de masa de probabilidad, para distribuciones discretas) se puede escribir como

f_{X}(x\mid {\boldsymbol {\theta }})=h(x)\,\exp \left(\sum _{i=1}^{s}\eta _{i}({\boldsymbol {\theta }})T_{i}(x)-A({\boldsymbol {\theta }})\right)~,

o en una forma más compacta,

f_{X}(x\mid {\boldsymbol {\theta }})=h(x)\,\exp {\Big (}{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x)-A({\boldsymbol {\theta }}){\Big )}

Esta forma escribe la suma como un producto escalar de funciones con valores vectoriales y . ${\boldsymbol {\eta }}({\boldsymbol {\theta }})$ $\mathbf {T} (x)\,$

Una forma alternativa y equivalente que se ve a menudo es

f_{X}(x\mid {\boldsymbol {\theta }})=h(x)\,g({\boldsymbol {\theta }})\,\exp {\Big (}{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x){\Big )}

Al igual que en el caso de valor escalar, se dice que la familia exponencial está en forma canónica si

\quad \eta _{i}({\boldsymbol {\theta }})=\theta _{i}\quad \forall i\,.

Se dice que una familia exponencial vectorial es curva si la dimensión de

{\boldsymbol {\theta }}\equiv \left[\,\theta _{1},\,\theta _{2},\,\ldots ,\,\theta _{d}\,\,\right]^{\mathsf {T}}

es menor que la dimensión del vector

{\boldsymbol {\eta }}({\boldsymbol {\theta }})\equiv \left[\,\eta _{1}({\boldsymbol {\theta }}),\,\eta _{2}({\boldsymbol {\theta }}),\,\ldots ,\,\eta _{s}({\boldsymbol {\theta }})\,\right]^{\mathsf {T}}~.

Es decir, si la dimensión , $d$ , del vector de parámetros es menor que el número de funciones , $s$ , del vector de parámetros en la representación anterior de la función de densidad de probabilidad. La mayoría de las distribuciones comunes en la familia exponencial no son curvas, y muchos algoritmos diseñados para trabajar con cualquier familia exponencial suponen implícita o explícitamente que la distribución no es curva.

Al igual que en el caso de un parámetro de valor escalar, la función o equivalentemente se determina automáticamente por la restricción de normalización, una vez que se han elegido las otras funciones. Incluso si no es uno a uno, las funciones y se pueden definir exigiendo que la distribución se normalice para cada valor del parámetro natural . Esto produce la forma canónica $A({\boldsymbol {\theta }})$ $g({\boldsymbol {\theta }})$ ${\boldsymbol {\eta }}({\boldsymbol {\theta }})$ $A({\boldsymbol {\eta }})$ $g({\boldsymbol {\eta }})$ ${\boldsymbol {\eta }}$

f_{X}(x\mid {\boldsymbol {\eta }})=h(x)\,\exp {\Big (}{\boldsymbol {\eta }}\cdot \mathbf {T} (x)-A({\boldsymbol {\eta }}){\Big )},

o equivalentemente

f_{X}(x\mid {\boldsymbol {\eta }})=h(x)\,g({\boldsymbol {\eta }})\,\exp {\Big (}{\boldsymbol {\eta }}\cdot \mathbf {T} (x){\Big )}.

Las formas anteriores a veces se pueden ver con en lugar de . Estas son formulaciones exactamente equivalentes, solo que utilizan una notación diferente para el producto escalar . ${\boldsymbol {\eta }}^{\mathsf {T}}\mathbf {T} (x)$ ${\boldsymbol {\eta }}\cdot \mathbf {T} (x)\,$

Parámetro vectorial, variable vectorial

La forma de vector-parámetro sobre una única variable aleatoria de valor escalar se puede expandir de manera trivial para cubrir una distribución conjunta sobre un vector de variables aleatorias. La distribución resultante es simplemente la misma que la distribución anterior para una variable aleatoria de valor escalar con cada ocurrencia del escalar $x$ reemplazado por el vector

\mathbf {x} =\left(x_{1},x_{2},\cdots ,x_{k}\right)^{\mathsf {T}}~.

Las dimensiones $k$ de la variable aleatoria no necesitan coincidir con la dimensión $d$ del vector de parámetros, ni (en el caso de una función exponencial curva) con la dimensión $s$ del parámetro natural y con la estadística suficiente $T$ $($ $x$ $)$ . ${\boldsymbol {\eta }}$

La distribución en este caso se escribe como

f_{X}\!\left(\mathbf {x} \mid {\boldsymbol {\theta }}\right)=h(\mathbf {x} )\,\exp \!\left(\,\sum _{i=1}^{s}\eta _{i}({\boldsymbol {\theta }})T_{i}(\mathbf {x} )-A({\boldsymbol {\theta }})\,\right)

O más compactamente como

f_{X}\!\left(\,\mathbf {x} \mid {\boldsymbol {\theta }}\,\right)=h(\mathbf {x} )\,\exp \!{\Big (}\,{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (\mathbf {x} )-A({\boldsymbol {\theta }})\,{\Big )}

O alternativamente como

f_{X}\!\left(\,\mathbf {x} \mid {\boldsymbol {\theta }}\,\right)=g({\boldsymbol {\theta }})\;h(\mathbf {x} )\,\exp \!{\Big (}\,{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (\mathbf {x} )\,{\Big )}

Formulación teórica de la medida

Utilizamos funciones de distribución acumulativa (CDF) para abarcar distribuciones tanto discretas como continuas.

Supongamos que $H$ es una función no decreciente de una variable real. Entonces, las integrales de Lebesgue-Stieltjes con respecto a son integrales con respecto a la medida de referencia de la familia exponencial generada por $H$ . ${\rm {d\,}}H(\mathbf {x} )$

Cualquier miembro de esa familia exponencial tiene función de distribución acumulativa.

{\rm {d\,}}F\left(\,\mathbf {x} \mid {\boldsymbol {\theta }}\,\right)=\exp {\bigl (}\,{\boldsymbol {\eta }}(\theta )\cdot \mathbf {T} (\mathbf {x} )\,-\,A({\boldsymbol {\theta }})\,{\bigr )}~{\rm {d\,}}H(\mathbf {x} )~.

$H (x)$ es un integrador de Lebesgue–Stieltjes para la medida de referencia. Cuando la medida de referencia es finita, se puede normalizar y $H$ es en realidad la función de distribución acumulativa de una distribución de probabilidad. Si $F$ es absolutamente continua con una densidadcon respecto a una medida de referencia(normalmente la medida de Lebesgue ), se puede escribir. En este caso, $H$ también es absolutamente continua y se puede escribirde forma que las fórmulas se reduzcan a las de los párrafos anteriores. Si $F$ es discreta, entonces $H$ es una función escalonada (con escalones con el apoyo de $F$ ). $f(x)$ $\,{\rm {d\,}}x\,$ $\,{\rm {d\,}}F(x)=f(x)~{\rm {d\,}}x\,$ $\,{\rm {d\,}}H(x)=h(x)\,{\rm {d\,}}x\,$

Alternativamente, podemos escribir la medida de probabilidad directamente como

P\left(\,{\rm {d\,}}\mathbf {x} \mid {\boldsymbol {\theta }}\,\right)=\exp {\bigl (}\,{\boldsymbol {\eta }}(\theta )\cdot \mathbf {T} (\mathbf {x} )-A({\boldsymbol {\theta }})\,{\bigr )}~\mu ({\rm {d\,}}\mathbf {x} )~.

para alguna medida de referencia . $\mu \,$

Interpretación

En las definiciones anteriores, las funciones $T (x)$ , $η (θ)$ y $A (η)$ eran arbitrarias. Sin embargo, estas funciones tienen interpretaciones importantes en la distribución de probabilidad resultante.

$T (x)$ es una estadística suficiente de la distribución. Para familias exponenciales, la estadística suficiente es una función de los datos que contiene toda la información que los datos $x$ proporcionan con respecto a los valores de los parámetros desconocidos. Esto significa que, para cualquier conjunto de datosy, la razón de verosimilitud es la misma, es decir,si $T$ $($ $x$ $) =$ $T$ $($ $y$ $)$ . Esto es cierto incluso si $x$ e $y$ no son iguales entre sí. La dimensión de $T$ $($ $x$ $)$ es igual al número de parámetros de $θ$ y abarca toda la información sobre los datos relacionados con el parámetro $θ$ . La estadística suficiente de un conjunto de observaciones de datos independientes idénticamente distribuidos es simplemente la suma de las estadísticas suficientes individuales y encapsula toda la información necesaria para describir la distribución posterior de los parámetros, dados los datos (y, por lo tanto, para derivar cualquier estimación deseada de los parámetros). (Esta importante propiedad se analiza más adelante). $x$ $y$ ${\frac {f(x;\theta _{1})}{f(x;\theta _{2})}}={\frac {f(y;\theta _{1})}{f(y;\theta _{2})}}$
$η$ se denomina parámetro natural . El conjunto de valores de $η$ para los cuales la función es integrable se denomina espacio de parámetros naturales . Se puede demostrar que el espacio de parámetros naturales es siempre convexo . $f_{X}(x;\eta )$
$A (η)$ se llamafunción de partición logarítmica ^[b] porque es el logaritmo de un factor de normalización , sin el cual no sería una distribución de probabilidad: $f_{X}(x;\theta )$

A(\eta )=\log \left(\int _{X}h(x)\,\exp(\eta (\theta )\cdot T(x))\,\mathrm {d} x\right)

La función $A$ es importante por sí misma, porque la media , la varianza y otros momentos del estadístico suficiente $T (x)$ se pueden derivar simplemente diferenciando $A (η)$ . Por ejemplo, debido a que $log(x)$ es uno de los componentes del estadístico suficiente de la distribución gamma , se puede determinar fácilmente para esta distribución utilizando $A$ $($ $η$ $)$ . Técnicamente, esto es cierto porque $\operatorname {\mathcal {E}} [\log x]$

K\left(u\mid \eta \right)=A(\eta +u)-A(\eta )\,,

es la función generadora cumulante de la estadística suficiente.

Propiedades

Las familias exponenciales tienen una gran cantidad de propiedades que las hacen extremadamente útiles para el análisis estadístico. En muchos casos, se puede demostrar que solo las familias exponenciales tienen estas propiedades. Ejemplos:

Las familias exponenciales son las únicas familias con estadísticas suficientes para resumir cantidades arbitrarias de datos independientes distribuidos de forma idéntica utilizando un número fijo de valores. ( Teorema de Pitman – Koopman – Darmois )
Las familias exponenciales tienen valores anteriores conjugados , una propiedad importante en la estadística bayesiana .
La distribución predictiva posterior de una variable aleatoria de familia exponencial con una distribución previa conjugada siempre se puede escribir en forma cerrada (siempre que el factor normalizador de la distribución de familia exponencial se pueda escribir en forma cerrada). ^[c]
En la aproximación de campo medio en Bayes variacional (usada para aproximar la distribución posterior en redes bayesianas grandes ), la mejor aproximación de la distribución posterior de un nodo de familia exponencial (un nodo es una variable aleatoria en el contexto de redes bayesianas) con un prior conjugado está en la misma familia que el nodo. ^[8]

Dada una familia exponencial definida por , donde es el espacio de parámetros, tal que . Entonces $f_{X}(x\mid \theta )=h(x)\,\exp \!{\bigl [}\,\theta \cdot T(x)-A(\theta )\,{\bigr ]}$ $\Theta$ $\theta \in \Theta \subset \mathbb {R} ^{k}$

Si tiene un interior no vacío en , entonces, dadas muestras IID cualesquiera , la estadística es una estadística completa para . ^[9]^[10] $\Theta$ $\mathbb {R} ^{k}$ $X_{1},...,X_{n}\sim f_{X}$ $T(X_{1},...,X_{n}):=\sum _{i=1}^{n}T(X_{i})$ $\theta$
$T$ es una estadística mínima para ff para todos , y en apoyo de , si , entonces o . ^[11] $\theta$ $\theta _{1},\theta _{2}\in \Theta$ $x_{1},x_{2}$ $X$ $(\theta _{1}-\theta _{2})\cdot (T(x_{1})-T(x_{2}))=0$ $\theta _{1}=\theta _{2}$ $x_{1}=x_{2}$

Ejemplos

Al considerar los ejemplos de esta sección, es fundamental recordar el debate anterior sobre lo que significa decir que una "distribución" es una familia exponencial y, en particular, tener en cuenta que el conjunto de parámetros que pueden variar es fundamental para determinar si una "distribución" es o no una familia exponencial.

Las distribuciones normal , exponencial , log-normal , gamma , chi-cuadrado , beta , Dirichlet , Bernoulli , categórica , Poisson , geométrica , gaussiana inversa , ALAAM , von Mises y von Mises-Fisher son todas familias exponenciales.

Algunas distribuciones son familias exponenciales solo si algunos de sus parámetros se mantienen fijos. La familia de distribuciones de Pareto con un límite mínimo fijo x _m forma una familia exponencial. Las familias de distribuciones binomiales y multinomiales con un número fijo de ensayos n pero con parámetros de probabilidad desconocidos son familias exponenciales. La familia de distribuciones binomiales negativas con un número fijo de fallos (también conocido como parámetro de tiempo de parada) r es una familia exponencial. Sin embargo, cuando se permite que varíe cualquiera de los parámetros fijos mencionados anteriormente, la familia resultante no es una familia exponencial.

Como se mencionó anteriormente, como regla general, el soporte de una familia exponencial debe permanecer igual en todos los parámetros de la familia. Por eso, los casos anteriores (por ejemplo, binomial con un número variable de ensayos, Pareto con un límite mínimo variable) no son familias exponenciales: en todos los casos, el parámetro en cuestión afecta el soporte (en particular, al cambiar el valor mínimo o máximo posible). Por razones similares, ni la distribución uniforme discreta ni la distribución uniforme continua son familias exponenciales, ya que uno o ambos límites varían.

La distribución Weibull con parámetro de forma fijo k es una familia exponencial. A diferencia de los ejemplos anteriores, el parámetro de forma no afecta al soporte; el hecho de que al permitir que varíe hace que la distribución Weibull no sea exponencial se debe más bien a la forma particular de la función de densidad de probabilidad de Weibull ( k aparece en el exponente de un exponente).

En general, las distribuciones que resultan de una mezcla finita o infinita de otras distribuciones, por ejemplo, las densidades de modelos de mezcla y las distribuciones de probabilidad compuestas , no son familias exponenciales. Algunos ejemplos son los modelos de mezcla gaussianos típicos , así como muchas distribuciones de cola pesada que resultan de la composición (es decir, la mezcla infinita) de una distribución con una distribución previa sobre uno de sus parámetros, por ejemplo, la distribución t de Student (composición de una distribución normal sobre una distribución previa de precisión distribuida gamma ), y las distribuciones beta-binomial y Dirichlet-multinomial . Otros ejemplos de distribuciones que no son familias exponenciales son la distribución F , la distribución de Cauchy , la distribución hipergeométrica y la distribución logística .

A continuación se presentan algunos ejemplos detallados de la representación de algunas distribuciones útiles como familias exponenciales.

Distribución normal: media desconocida, varianza conocida

Como primer ejemplo, considere una variable aleatoria distribuida normalmente con media desconocida μ y varianza conocida σ ² . La función de densidad de probabilidad es entonces

f_{\sigma }(x;\mu )={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-(x-\mu )^{2}/2\sigma ^{2}}.

Esta es una familia exponencial de un solo parámetro, como se puede ver al configurar

{\begin{aligned}h_{\sigma }(x)&={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-x^{2}/2\sigma ^{2}}\\[4pt]T_{\sigma }(x)&={\frac {x}{\sigma }}\\[4pt]A_{\sigma }(\mu )&={\frac {\mu ^{2}}{2\sigma ^{2}}}\\[4pt]\eta _{\sigma }(\mu )&={\frac {\mu }{\sigma }}.\end{aligned}}

Si σ = 1 esto está en forma canónica, pues entonces η ( μ ) = μ .

Distribución normal: media desconocida y varianza desconocida

A continuación, considere el caso de una distribución normal con media y varianza desconocidas. La función de densidad de probabilidad es entonces

f(y;\mu ,\sigma ^{2})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-(y-\mu )^{2}/2\sigma ^{2}}.

Esta es una familia exponencial que se puede escribir en forma canónica definiendo

{\begin{aligned}{\boldsymbol {\eta }}&=\left[\,{\frac {\mu }{\sigma ^{2}}},~-{\frac {1}{2\sigma ^{2}}}\,\right]\\h(y)&={\frac {1}{\sqrt {2\pi }}}\\T(y)&=\left(y,y^{2}\right)^{\rm {T}}\\A({\boldsymbol {\eta }})&={\frac {\mu ^{2}}{2\sigma ^{2}}}+\log |\sigma |=-{\frac {\eta _{1}^{2}}{4\eta _{2}}}+{\frac {1}{2}}\log \left|{\frac {1}{2\eta _{2}}}\right|\end{aligned}}

Distribución binomial

Como ejemplo de una familia exponencial discreta, considere la distribución binomial con un número conocido de ensayos n . La función de masa de probabilidad para esta distribución es

f(x)={n \choose x}p^{x}(1-p)^{n-x},\quad x\in \{0,1,2,\ldots ,n\}.

Esto se puede escribir de manera equivalente como

f(x)={n \choose x}\exp \left(x\log \left({\frac {p}{1-p}}\right)+n\log(1-p)\right),

lo que demuestra que la distribución binomial es una familia exponencial, cuyo parámetro natural es

\eta =\log {\frac {p}{1-p}}.

Esta función de p se conoce como logit .

Tabla de distribuciones

La siguiente tabla muestra cómo reescribir una serie de distribuciones comunes como distribuciones de familia exponencial con parámetros naturales. Consulta las fichas ^[12] para conocer las principales familias exponenciales.

Para una variable escalar y un parámetro escalar, la forma es la siguiente:

f_{X}(x\mid \theta )=h(x)\exp {\Big (}\eta ({\theta })T(x)-A({\eta }){\Big )}

Para una variable escalar y un parámetro vectorial:

f_{X}(x\mid {\boldsymbol {\theta }})=h(x)\exp {\Big (}{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x)-A({\boldsymbol {\eta }}){\Big )}

f_{X}(x\mid {\boldsymbol {\theta }})=h(x)g({\boldsymbol {\theta }})\exp {\Big (}{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x){\Big )}

Para una variable vectorial y un parámetro vectorial:

f_{X}(\mathbf {x} \mid {\boldsymbol {\theta }})=h(\mathbf {x} )\exp {\Big (}{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (\mathbf {x} )-A({\boldsymbol {\eta }}){\Big )}

Las fórmulas anteriores eligen la forma funcional de la familia exponencial con una función de partición logarítmica . La razón de esto es que los momentos de las estadísticas suficientes se pueden calcular fácilmente, simplemente diferenciando esta función. Las formas alternativas implican parametrizar esta función en términos del parámetro normal en lugar del parámetro natural, y/o usar un factor fuera de la exponencial. La relación entre esta última y la primera es: $A({\boldsymbol {\eta }})$ ${\boldsymbol {\theta }}$ $g({\boldsymbol {\eta }})$

A({\boldsymbol {\eta }})=-\log g({\boldsymbol {\eta }})

g({\boldsymbol {\eta }})=e^{-A({\boldsymbol {\eta }})}

Para convertir entre las representaciones que involucran los dos tipos de parámetros, utilice las fórmulas siguientes para escribir un tipo de parámetro en términos del otro.

* El corchete de Iverson es una generalización de la función delta discreta: si la expresión entre corchetes es verdadera, el corchete tiene valor 1; si la declaración incluida es falsa, el corchete de Iverson es cero. Existen muchas notaciones variantes, por ejemplo, corchetes ondulados:

⧙ a = b ⧘

es equivalente a la notación

[a = b]

utilizada anteriormente.

Las tres variantes de la distribución categórica y la distribución multinomial se deben a que los parámetros están restringidos, de modo que $p_{i}$

\sum _{i=1}^{k}p_{i}=1~.

Por tanto, sólo hay parámetros independientes. $k-1$

La variante 1 utiliza parámetros naturales con una relación simple entre los parámetros estándar y naturales; sin embargo, solo los parámetros naturales son independientes y el conjunto de parámetros naturales no es identificable . La restricción sobre los parámetros usuales se traduce en una restricción similar sobre los parámetros naturales. $k$ $k-1$ $k$
La variante 2 demuestra el hecho de que el conjunto completo de parámetros naturales no es identificable: agregar cualquier valor constante a los parámetros naturales no tiene efecto en la distribución resultante. Sin embargo, al usar la restricción sobre los parámetros naturales, la fórmula para los parámetros normales en términos de los parámetros naturales se puede escribir de una manera que sea independiente de la constante que se agrega.
La variante 3 muestra cómo hacer que los parámetros sean identificables de una manera conveniente estableciendo Esto efectivamente "pivota" y hace que el último parámetro natural tenga el valor constante de 0. Todas las fórmulas restantes están escritas de una manera que no accede a , de modo que efectivamente el modelo solo tiene parámetros, tanto del tipo habitual como del natural. $C=-\log p_{k}\ .$ $p_{k}$ $p_{k}\$ $k-1$

Las variantes 1 y 2 no son en realidad familias exponenciales estándar en absoluto. Más bien son familias exponenciales curvas , es decir, hay parámetros independientes incrustados en un espacio de parámetros -dimensional. ^[13] Muchos de los resultados estándar para familias exponenciales no se aplican a familias exponenciales curvas. Un ejemplo es la función de partición logarítmica , que tiene el valor de 0 en los casos curvos. En las familias exponenciales estándar, las derivadas de esta función corresponden a los momentos (más técnicamente, los cumulantes ) de las estadísticas suficientes, por ejemplo, la media y la varianza. Sin embargo, un valor de 0 sugiere que la media y la varianza de todas las estadísticas suficientes son uniformemente 0, mientras que, de hecho, la media de la estadística suficiente n debería ser . (Esto surge correctamente cuando se utiliza la forma de que se muestra en la variante 3). $k-1$ $k$ $A(x)\$ $i$ $p_{i}\$ $A(x)\$

Momentos y cumulantes de la estadística suficiente

Normalización de la distribución

Comenzamos con la normalización de la distribución de probabilidad. En general, cualquier función no negativa f ( x ) que sirva como núcleo de una distribución de probabilidad (la parte que codifica toda dependencia de x ) se puede convertir en una distribución adecuada normalizándola : es decir

p(x)={\frac {1}{Z}}f(x)

dónde

Z=\int _{x}f(x)\,dx.

El factor Z a veces se denomina función normalizadora o de partición , basándose en una analogía con la física estadística .

En el caso de una familia exponencial donde

p(x;{\boldsymbol {\eta }})=g({\boldsymbol {\eta }})h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)},

El núcleo es

K(x)=h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}

y la función de partición es

Z=\int _{x}h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}\,dx.

Como la distribución debe normalizarse, tenemos

1=\int _{x}g({\boldsymbol {\eta }})h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}\,dx=g({\boldsymbol {\eta }})\int _{x}h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}\,dx=g({\boldsymbol {\eta }})Z.

En otras palabras,

g({\boldsymbol {\eta }})={\frac {1}{Z}}

o equivalentemente

A({\boldsymbol {\eta }})=-\log g({\boldsymbol {\eta }})=\log Z.

Esto justifica llamar a A la función normalizadora de registros o partición de registros .

Función generadora de momentos de la estadística suficiente

Ahora, la función generadora de momentos de T ( x ) es

M_{T}(u)\equiv E[e^{u^{\top }T(x)}\mid \eta ]=\int _{x}h(x)e^{(\eta +u)^{\top }T(x)-A(\eta )}\,dx=e^{A(\eta +u)-A(\eta )}

probando la afirmación anterior de que

K(u\mid \eta )=A(\eta +u)-A(\eta )

es la función generadora cumulante para T .

Una subclase importante de familias exponenciales son las familias exponenciales naturales , que tienen una forma similar para la función generadora de momentos para la distribución de x .

Identidades diferenciales para cumulantes

En particular, utilizando las propiedades de la función generadora de cumulantes,

\operatorname {E} (T_{j})={\frac {\partial A(\eta )}{\partial \eta _{j}}}

\operatorname {cov} \left(T_{i},\ T_{j}\right)={\frac {\partial ^{2}A(\eta )}{\partial \eta _{i}\,\partial \eta _{j}}}.

Los dos primeros momentos brutos y todos los segundos momentos mixtos se pueden recuperar a partir de estas dos identidades. Los momentos de orden superior y los cumulantes se obtienen mediante derivadas superiores. Esta técnica suele ser útil cuando T es una función complicada de los datos, cuyos momentos son difíciles de calcular mediante integración.

Otra forma de ver esto que no depende de la teoría de cumulantes es partir del hecho de que la distribución de una familia exponencial debe normalizarse y diferenciarse. Lo ilustramos utilizando el caso simple de un parámetro unidimensional, pero una derivación análoga es válida de manera más general.

En el caso unidimensional, tenemos

p(x)=g(\eta )h(x)e^{\eta T(x)}.

Esto debe normalizarse, por lo que

1=\int _{x}p(x)\,dx=\int _{x}g(\eta )h(x)e^{\eta T(x)}\,dx=g(\eta )\int _{x}h(x)e^{\eta T(x)}\,dx.

Tome la derivada de ambos lados con respecto a η :

{\begin{aligned}0&=g(\eta ){\frac {d}{d\eta }}\int _{x}h(x)e^{\eta T(x)}\,dx+g'(\eta )\int _{x}h(x)e^{\eta T(x)}\,dx\\&=g(\eta )\int _{x}h(x)\left({\frac {d}{d\eta }}e^{\eta T(x)}\right)\,dx+g'(\eta )\int _{x}h(x)e^{\eta T(x)}\,dx\\&=g(\eta )\int _{x}h(x)e^{\eta T(x)}T(x)\,dx+g'(\eta )\int _{x}h(x)e^{\eta T(x)}\,dx\\&=\int _{x}T(x)g(\eta )h(x)e^{\eta T(x)}\,dx+{\frac {g'(\eta )}{g(\eta )}}\int _{x}g(\eta )h(x)e^{\eta T(x)}\,dx\\&=\int _{x}T(x)p(x)\,dx+{\frac {g'(\eta )}{g(\eta )}}\int _{x}p(x)\,dx\\&=\operatorname {E} [T(x)]+{\frac {g'(\eta )}{g(\eta )}}\\&=\operatorname {E} [T(x)]+{\frac {d}{d\eta }}\log g(\eta )\end{aligned}}

Por lo tanto,

\operatorname {E} [T(x)]=-{\frac {d}{d\eta }}\log g(\eta )={\frac {d}{d\eta }}A(\eta ).

Ejemplo 1

Como ejemplo introductorio, considere la distribución gamma , cuya distribución está definida por

p(x)={\frac {\beta ^{\alpha }}{\Gamma (\alpha )}}x^{\alpha -1}e^{-\beta x}.

Refiriéndonos a la tabla anterior, podemos ver que el parámetro natural está dado por

\eta _{1}=\alpha -1,

\eta _{2}=-\beta ,

Las sustituciones inversas son

\alpha =\eta _{1}+1,

\beta =-\eta _{2},

Las estadísticas suficientes son y la función de partición logarítmica es $(\log x,x),$

A(\eta _{1},\eta _{2})=\log \Gamma (\eta _{1}+1)-(\eta _{1}+1)\log(-\eta _{2}).

Podemos hallar la media de las estadísticas suficientes de la siguiente manera. En primer lugar, para η ₁ :

{\begin{aligned}\operatorname {E} [\log x]&={\frac {\partial A(\eta _{1},\eta _{2})}{\partial \eta _{1}}}={\frac {\partial }{\partial \eta _{1}}}\left(\log \Gamma (\eta _{1}+1)-(\eta _{1}+1)\log(-\eta _{2})\right)\\&=\psi (\eta _{1}+1)-\log(-\eta _{2})\\&=\psi (\alpha )-\log \beta ,\end{aligned}}

¿Dónde está la función digamma (derivada de log gamma), y usamos las sustituciones inversas en el último paso? $\psi (x)$

Ahora, para η ₂ :

{\begin{aligned}\operatorname {E} [x]&={\frac {\partial A(\eta _{1},\eta _{2})}{\partial \eta _{2}}}={\frac {\partial }{\partial \eta _{2}}}\left(\log \Gamma (\eta _{1}+1)-(\eta _{1}+1)\log(-\eta _{2})\right)\\&=-(\eta _{1}+1){\frac {1}{-\eta _{2}}}(-1)={\frac {\eta _{1}+1}{-\eta _{2}}}\\&={\frac {\alpha }{\beta }},\end{aligned}}

nuevamente haciendo la sustitución inversa en el último paso.

Para calcular la varianza de x , simplemente diferenciamos nuevamente:

{\begin{aligned}\operatorname {Var} (x)&={\frac {\partial ^{2}A\left(\eta _{1},\eta _{2}\right)}{\partial \eta _{2}^{2}}}={\frac {\partial }{\partial \eta _{2}}}{\frac {\eta _{1}+1}{-\eta _{2}}}\\&={\frac {\eta _{1}+1}{\eta _{2}^{2}}}\\&={\frac {\alpha }{\beta ^{2}}}.\end{aligned}}

Todos estos cálculos se pueden realizar mediante integración, haciendo uso de varias propiedades de la función gamma , pero esto requiere significativamente más trabajo.

Ejemplo 2

Como otro ejemplo, considere una variable aleatoria X de valor real con densidad

p_{\theta }(x)={\frac {\theta e^{-x}}{\left(1+e^{-x}\right)^{\theta +1}}}

indexada por parámetro de forma (esto se llama distribución logística sesgada ). La densidad se puede reescribir como $\theta \in (0,\infty )$

{\frac {e^{-x}}{1+e^{-x}}}\exp(-\theta \log \left(1+e^{-x})+\log(\theta )\right)

Tenga en cuenta que esta es una familia exponencial con parámetro natural.

\eta =-\theta ,

estadística suficiente

T=\log \left(1+e^{-x}\right),

y función de partición de registro

A(\eta )=-\log(\theta )=-\log(-\eta )

Entonces, usando la primera identidad,

\operatorname {E} (\log(1+e^{-X}))=\operatorname {E} (T)={\frac {\partial A(\eta )}{\partial \eta }}={\frac {\partial }{\partial \eta }}[-\log(-\eta )]={\frac {1}{-\eta }}={\frac {1}{\theta }},

y usando la segunda identidad

\operatorname {var} (\log \left(1+e^{-X}\right))={\frac {\partial ^{2}A(\eta )}{\partial \eta ^{2}}}={\frac {\partial }{\partial \eta }}\left[{\frac {1}{-\eta }}\right]={\frac {1}{(-\eta )^{2}}}={\frac {1}{\theta ^{2}}}.

Este ejemplo ilustra un caso en el que utilizar este método es muy sencillo, pero el cálculo directo sería casi imposible.

Ejemplo 3

El último ejemplo es uno en el que la integración sería extremadamente difícil. Es el caso de la distribución Wishart , que se define sobre matrices. Incluso la obtención de derivadas es un poco complicada, ya que implica cálculo matricial , pero las identidades respectivas se enumeran en ese artículo.

De la tabla anterior, podemos ver que el parámetro natural viene dado por

{\boldsymbol {\eta }}_{1}=-{\frac {1}{2}}\mathbf {V} ^{-1},

\eta _{2}={\frac {n-p-1}{2}},

Las sustituciones inversas son

\mathbf {V} =-{\frac {1}{2}}{{\boldsymbol {\eta }}_{1}}^{-1},

n=2\eta _{2}+p+1,

y las estadísticas son suficientes $(\mathbf {X} ,\log |\mathbf {X} |).$

La función de partición logarítmica se escribe en varias formas en la tabla para facilitar la diferenciación y la sustitución inversa. Usamos las siguientes formas:

A({\boldsymbol {\eta }}_{1},n)=-{\frac {n}{2}}\log \left|-{\boldsymbol {\eta }}_{1}\right|+\log \Gamma _{p}\left({\frac {n}{2}}\right),

A(\mathbf {V} ,\eta _{2})=\left(\eta _{2}+{\frac {p+1}{2}}\right)(p\log 2+\log |\mathbf {V} |)+\log \Gamma _{p}\left(\eta _{2}+{\frac {p+1}{2}}\right).

Expectativa de X (asociada con η₁ )

Para diferenciar con respecto a η₁ , necesitamos la siguiente identidad de cálculo matricial :

{\frac {\partial \log |a\mathbf {X} |}{\partial \mathbf {X} }}=(\mathbf {X} ^{-1})^{\rm {T}}

Entonces:

{\begin{aligned}\operatorname {E} [\mathbf {X} ]&={\frac {\partial A\left({\boldsymbol {\eta }}_{1},\ldots \right)}{\partial {\boldsymbol {\eta }}_{1}}}\\&={\frac {\partial }{\partial {\boldsymbol {\eta }}_{1}}}\left[-{\frac {n}{2}}\log |-{\boldsymbol {\eta }}_{1}|+\log \Gamma _{p}\left({\frac {n}{2}}\right)\right]\\&=-{\frac {n}{2}}({\boldsymbol {\eta }}_{1}^{-1})^{\rm {T}}\\&={\frac {n}{2}}(-{\boldsymbol {\eta }}_{1}^{-1})^{\rm {T}}\\&=n(\mathbf {V} )^{\rm {T}}\\&=n\mathbf {V} \end{aligned}}

La última línea utiliza el hecho de que V es simétrico y, por lo tanto, es el mismo cuando se transpone.

Expectativa de log | X | (asociada con η ₂ )

Ahora, para η ₂ , primero necesitamos expandir la parte de la función de partición logarítmica que involucra la función gamma multivariada :

\log \Gamma _{p}(a)=\log \left(\pi ^{\frac {p(p-1)}{4}}\prod _{j=1}^{p}\Gamma \left(a+{\frac {1-j}{2}}\right)\right)={\frac {p(p-1)}{4}}\log \pi +\sum _{j=1}^{p}\log \Gamma \left[a+{\frac {1-j}{2}}\right]

También necesitamos la función digamma :

\psi (x)={\frac {d}{dx}}\log \Gamma (x).

Entonces:

{\begin{aligned}\operatorname {E} [\log |\mathbf {X} |]&={\frac {\partial A\left(\ldots ,\eta _{2}\right)}{\partial \eta _{2}}}\\&={\frac {\partial }{\partial \eta _{2}}}\left[-\left(\eta _{2}+{\frac {p+1}{2}}\right)(p\log 2+\log |\mathbf {V} |)+\log \Gamma _{p}\left(\eta _{2}+{\frac {p+1}{2}}\right)\right]\\&={\frac {\partial }{\partial \eta _{2}}}\left[\left(\eta _{2}+{\frac {p+1}{2}}\right)(p\log 2+\log |\mathbf {V} |)+{\frac {p(p-1)}{4}}\log \pi +\sum _{j=1}^{p}\log \Gamma \left(\eta _{2}+{\frac {p+1}{2}}+{\frac {1-j}{2}}\right)\right]\\&=p\log 2+\log |\mathbf {V} |+\sum _{j=1}^{p}\psi \left(\eta _{2}+{\frac {p+1}{2}}+{\frac {1-j}{2}}\right)\\&=p\log 2+\log |\mathbf {V} |+\sum _{j=1}^{p}\psi \left({\frac {n-p-1}{2}}+{\frac {p+1}{2}}+{\frac {1-j}{2}}\right)\\&=p\log 2+\log |\mathbf {V} |+\sum _{j=1}^{p}\psi \left({\frac {n+1-j}{2}}\right)\end{aligned}}

Esta última fórmula se incluye en el artículo sobre la distribución de Wishart . Ambas expectativas son necesarias al derivar las ecuaciones de actualización de Bayes variacional en una red de Bayes que involucra una distribución de Wishart (que es la distribución conjugada previa de la distribución normal multivariante ).

Calcular estas fórmulas mediante integración sería mucho más difícil. La primera, por ejemplo, requeriría integración matricial.

Entropía

Entropía relativa

La entropía relativa ( divergencia de Kullback–Leibler , divergencia KL) de dos distribuciones en una familia exponencial tiene una expresión simple como la divergencia de Bregman entre los parámetros naturales con respecto al normalizador logarítmico. ^[14] La entropía relativa se define en términos de una integral, mientras que la divergencia de Bregman se define en términos de una derivada y un producto interno, y por lo tanto es más fácil de calcular y tiene una expresión de forma cerrada (asumiendo que la derivada tiene una expresión de forma cerrada). Además, la divergencia de Bregman en términos de los parámetros naturales y el normalizador logarítmico es igual a la divergencia de Bregman de los parámetros duales (parámetros de expectativa), en el orden opuesto, para la función conjugada convexa . ^[15]

Fijando una familia exponencial con un normalizador logarítmico ⁠ ⁠ $A$ (con conjugado convexo ⁠ ⁠ $A^{*}$ ), escribiendo para la distribución en esta familia correspondiente un valor fijo del parámetro natural ⁠ ⁠ (escribiendo ⁠ ⁠ para otro valor, y con ⁠ ⁠ para los parámetros de expectativa/momento duales correspondientes), escribiendo $KL$ para la divergencia KL, y ⁠ ⁠ para la divergencia de Bregman, las divergencias se relacionan como: $P_{A,\theta }$ $\theta$ $\theta '$ $\eta ,\eta '$ $B_{A}$

{\rm {{KL}(P_{A,\theta }\parallel P_{A,\theta '})=B_{A}(\theta '\parallel \theta )=B_{A^{*}}(\eta \parallel \eta ').}}

La divergencia KL se escribe convencionalmente con respecto al primer parámetro, mientras que la divergencia Bregman se escribe convencionalmente con respecto al segundo parámetro, y por lo tanto esto puede leerse como "la entropía relativa es igual a la divergencia Bregman definida por el normalizador logarítmico en los parámetros naturales intercambiados", o equivalentemente como "igual a la divergencia Bregman definida por el dual al normalizador logarítmico en los parámetros de expectativa".

Derivación de máxima entropía

Las familias exponenciales surgen naturalmente como respuesta a la siguiente pregunta: ¿cuál es la distribución de máxima entropía consistente con las restricciones dadas sobre los valores esperados?

La entropía de información de una distribución de probabilidad dF ( x ) solo se puede calcular con respecto a otra distribución de probabilidad (o, de manera más general, una medida positiva), y ambas medidas deben ser absolutamente continuas entre sí . En consecuencia, debemos elegir una medida de referencia dH ( x ) con el mismo soporte que dF ( x ).

La entropía de dF ( x ) relativa a dH ( x ) es

S[dF\mid dH]=-\int {\frac {dF}{dH}}\log {\frac {dF}{dH}}\,dH

S[dF\mid dH]=\int \log {\frac {dH}{dF}}\,dF

donde dF / dH y dH / dF son derivadas de Radon–Nikodym . La definición ordinaria de entropía para una distribución discreta sustentada en un conjunto I , a saber

S=-\sum _{i\in I}p_{i}\log p_{i}

supone , aunque esto rara vez se señala, que dH se elige como medida de conteo en I.

Consideremos ahora una colección de cantidades observables (variables aleatorias) T _i . La distribución de probabilidad dF cuya entropía con respecto a dH es mayor, sujeta a las condiciones de que el valor esperado de T _i sea igual a t _i , es una familia exponencial con dH como medida de referencia y ( T ₁ , ..., T _n ) como estadístico suficiente.

La derivación es un cálculo variacional simple que utiliza multiplicadores de Lagrange . La normalización se impone dejando que T ₀ = 1 sea una de las restricciones. Los parámetros naturales de la distribución son los multiplicadores de Lagrange y el factor de normalización es el multiplicador de Lagrange asociado a T ₀ .

Para ver ejemplos de dichas derivaciones, consulte Distribución de probabilidad de máxima entropía .

Papel en las estadísticas

Estimación clásica: suficiencia

Según el teorema de Pitman - Koopman - Darmois , entre las familias de distribuciones de probabilidad cuyo dominio no varía con el parámetro que se estima, sólo en las familias exponenciales existe un estadístico suficiente cuya dimensión permanece acotada a medida que aumenta el tamaño de la muestra.

En términos menos concisos, supongamos que X _k (donde k = 1, 2, 3, ... n ) son variables aleatorias independientes , idénticamente distribuidas. Solo si su distribución es una de las de la familia exponencial de distribuciones existe un estadístico suficiente T ( X ₁ , ..., X _n ) cuyo número de componentes escalares no aumenta a medida que aumenta el tamaño de la muestra n ; el estadístico T puede ser un vector o un único número escalar , pero sea lo que sea, su tamaño no crecerá ni se reducirá cuando se obtengan más datos.

Como contraejemplo, si se relajan estas condiciones, la familia de distribuciones uniformes (ya sean discretas o continuas , con uno o ambos límites desconocidos) tiene una estadística suficiente, es decir, el máximo de la muestra, el mínimo de la muestra y el tamaño de la muestra, pero no forma una familia exponencial, ya que el dominio varía con los parámetros.

Estimación bayesiana: distribuciones conjugadas

Las familias exponenciales también son importantes en la estadística bayesiana . En la estadística bayesiana, una distribución a priori se multiplica por una función de verosimilitud y luego se normaliza para producir una distribución a posteriori . En el caso de una verosimilitud que pertenece a una familia exponencial, existe una distribución a priori conjugada , que a menudo también pertenece a una familia exponencial. Una distribución a priori conjugada π para el parámetro de una familia exponencial ${\boldsymbol {\eta }}$

f(x\mid {\boldsymbol {\eta }})=h(x)\exp \left({\boldsymbol {\eta }}^{\rm {T}}\mathbf {T} (x)-A({\boldsymbol {\eta }})\right)

viene dado por

p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu )=f({\boldsymbol {\chi }},\nu )\exp \left({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }}-\nu A({\boldsymbol {\eta }})\right),

o equivalentemente

p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu )=f({\boldsymbol {\chi }},\nu )g({\boldsymbol {\eta }})^{\nu }\exp \left({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }}\right),\qquad {\boldsymbol {\chi }}\in \mathbb {R} ^{s}

donde s es la dimensión de y y son hiperparámetros (parámetros que controlan parámetros). corresponde al número efectivo de observaciones que aporta la distribución anterior, y corresponde a la cantidad total que estas pseudoobservaciones aportan a la estadística suficiente sobre todas las observaciones y pseudoobservaciones. es una constante de normalización que se determina automáticamente por las funciones restantes y sirve para garantizar que la función dada sea una función de densidad de probabilidad (es decir, esté normalizada ). y, equivalentemente, son las mismas funciones que en la definición de la distribución sobre la que π es la anterior conjugada. ${\boldsymbol {\eta }}$ $\nu >0$ ${\boldsymbol {\chi }}$ $\nu$ ${\boldsymbol {\chi }}$ $f({\boldsymbol {\chi }},\nu )$ $A({\boldsymbol {\eta }})$ $g({\boldsymbol {\eta }})$

Una distribución a priori conjugada es aquella que, cuando se combina con la probabilidad y se normaliza, produce una distribución a posteriori que es del mismo tipo que la a priori. Por ejemplo, si uno está estimando la probabilidad de éxito de una distribución binomial, entonces si uno elige usar una distribución beta como su distribución a priori, la distribución a posteriori es otra distribución beta. Esto hace que el cálculo de la distribución a posteriori sea particularmente simple. De manera similar, si uno está estimando el parámetro de una distribución de Poisson, el uso de una distribución a priori gamma conducirá a otra distribución a posteriori gamma. Las a priori conjugadas son a menudo muy flexibles y pueden ser muy convenientes. Sin embargo, si la creencia de uno acerca del valor probable del parámetro theta de una distribución binomial está representada por (digamos) una distribución a priori bimodal (de dos jorobas), entonces esto no puede ser representado por una distribución beta. Sin embargo, puede ser representado usando una densidad de mezcla como a priori, aquí una combinación de dos distribuciones beta; esta es una forma de hiperprior .

Una probabilidad arbitraria no pertenece a una familia exponencial y, por lo tanto, en general no existe una probabilidad anterior conjugada. La probabilidad posterior deberá calcularse entonces mediante métodos numéricos.

Para demostrar que la distribución anterior es una distribución anterior conjugada, podemos derivar la distribución posterior.

En primer lugar, supongamos que la probabilidad de una sola observación sigue una familia exponencial, parametrizada utilizando su parámetro natural:

p_{F}(x\mid {\boldsymbol {\eta }})=h(x)g({\boldsymbol {\eta }})\exp \left({\boldsymbol {\eta }}^{\rm {T}}\mathbf {T} (x)\right)

Luego, para los datos , la probabilidad se calcula de la siguiente manera: $\mathbf {X} =(x_{1},\ldots ,x_{n})$

p(\mathbf {X} \mid {\boldsymbol {\eta }})=\left(\prod _{i=1}^{n}h(x_{i})\right)g({\boldsymbol {\eta }})^{n}\exp \left({\boldsymbol {\eta }}^{\rm {T}}\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)

Entonces, para el conjugado anterior:

{\begin{aligned}p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu )&=f({\boldsymbol {\chi }},\nu )g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }})\propto g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }})\end{aligned}}

Podemos entonces calcular la posterior de la siguiente manera:

{\begin{aligned}p({\boldsymbol {\eta }}\mid \mathbf {X} ,{\boldsymbol {\chi }},\nu )&\propto p(\mathbf {X} \mid {\boldsymbol {\eta }})p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu )\\&=\left(\prod _{i=1}^{n}h(x_{i})\right)g({\boldsymbol {\eta }})^{n}\exp \left({\boldsymbol {\eta }}^{\rm {T}}\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)f({\boldsymbol {\chi }},\nu )g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }})\\&\propto g({\boldsymbol {\eta }})^{n}\exp \left({\boldsymbol {\eta }}^{\rm {T}}\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }})\\&\propto g({\boldsymbol {\eta }})^{\nu +n}\exp \left({\boldsymbol {\eta }}^{\rm {T}}\left({\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)\right)\end{aligned}}

La última línea es el núcleo de la distribución posterior, es decir

p({\boldsymbol {\eta }}\mid \mathbf {X} ,{\boldsymbol {\chi }},\nu )=p_{\pi }\left({\boldsymbol {\eta }}\left|~{\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i}),\nu +n\right.\right)

Esto demuestra que el posterior tiene la misma forma que el anterior.

Los datos X entran en esta ecuación sólo en la expresión

\mathbf {T} (\mathbf {X} )=\sum _{i=1}^{n}\mathbf {T} (x_{i}),

que se denomina estadística suficiente de los datos. Es decir, el valor de la estadística suficiente es suficiente para determinar por completo la distribución posterior. Los puntos de datos reales en sí no son necesarios, y todos los conjuntos de puntos de datos con la misma estadística suficiente tendrán la misma distribución. Esto es importante porque la dimensión de la estadística suficiente no crece con el tamaño de los datos, sino que solo tiene tantos componentes como los componentes de (equivalentemente, la cantidad de parámetros de la distribución de un solo punto de datos). ${\boldsymbol {\eta }}$

Las ecuaciones de actualización son las siguientes:

{\begin{aligned}{\boldsymbol {\chi }}'&={\boldsymbol {\chi }}+\mathbf {T} (\mathbf {X} )\\&={\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i})\\\nu '&=\nu +n\end{aligned}}

Esto demuestra que las ecuaciones de actualización se pueden escribir simplemente en términos de la cantidad de puntos de datos y la estadística suficiente de los datos. Esto se puede ver claramente en los diversos ejemplos de ecuaciones de actualización que se muestran en la página de valores anteriores conjugados . Debido a la forma en que se calcula la estadística suficiente, necesariamente involucra sumas de componentes de los datos (en algunos casos disfrazados como productos u otras formas; un producto se puede escribir en términos de una suma de logaritmos ). Los casos en los que las ecuaciones de actualización para distribuciones particulares no coinciden exactamente con las formas anteriores son casos en los que el valor anterior conjugado se ha expresado utilizando una parametrización diferente a la que produce un valor anterior conjugado de la forma anterior; a menudo específicamente porque la forma anterior se define sobre el parámetro natural, mientras que los valores anteriores conjugados generalmente se definen sobre el parámetro real. ${\boldsymbol {\eta }}$ ${\boldsymbol {\theta }}.$

Estimación imparcial

Si la probabilidad es una familia exponencial, entonces el estimador imparcial de es . ^[16] $z|\eta \sim e^{\eta z}f_{1}(\eta )f_{0}(z)$ $\eta$ $-{\frac {d}{dz}}\ln f_{0}(z)$

Pruebas de hipótesis: las pruebas más potentes de manera uniforme

Una familia exponencial de un parámetro tiene una razón de verosimilitud monótona y no decreciente en la estadística suficiente T ( x ), siempre que η ( θ ) no sea decreciente. En consecuencia , existe una prueba uniformemente más potente para probar la hipótesis H ₀ : θ ≥ θ ₀ vs. H ₁ : θ < θ ₀ .

Modelos lineales generalizados

Las familias exponenciales forman la base de las funciones de distribución utilizadas en los modelos lineales generalizados (GLM), una clase de modelo que abarca muchos de los modelos de regresión que se utilizan comúnmente en estadística. Algunos ejemplos incluyen la regresión logística que utiliza la familia binomial y la regresión de Poisson .

Véase también

Notas al pie

^ Por ejemplo, la familia de distribuciones normales incluye la distribución normal estándar N (0, 1) con media 0 y varianza 1, así como otras distribuciones normales con media y varianza diferentes.
^ "Función de partición" se utiliza a menudo en estadística como sinónimo de "factor de normalización".
^ Estas distribuciones no suelen ser en sí mismas familias exponenciales. Ejemplos comunes de familias no exponenciales que surgen de las exponenciales son la distribución t de Student , la distribución beta-binomial y la distribución multinomial de Dirichlet .

Referencias

Citas

^ Kupperman, M. (1958). "Probabilidades de hipótesis y estadísticas de información en el muestreo de poblaciones de clase exponencial". Anales de estadística matemática . 9 (2): 571–575. doi : 10.1214/aoms/1177706633 . JSTOR 2237349.
^ Andersen, Erling (septiembre de 1970). "Suficiencia y familias exponenciales para espacios muestrales discretos". Revista de la Asociación Estadounidense de Estadística . 65 (331). Revista de la Asociación Estadounidense de Estadística: 1248–1255. doi :10.2307/2284291. JSTOR 2284291. MR 0268992.
^ Pitman, E. ; Wishart, J. (1936). "Estadísticas suficientes y precisión intrínseca". Actas matemáticas de la Sociedad filosófica de Cambridge . 32 (4): 567–579. Bibcode :1936PCPS...32..567P. doi :10.1017/S0305004100019307. S2CID 120708376.
^ Darmois, G. (1935). "Sur les lois de probabilites una estimación exhaustiva". CR Acad. Ciencia. París (en francés). 200 : 1265-1266.
^ Koopman, B. (1936). "Sobre la distribución que admite una estadística suficiente". Transactions of the American Mathematical Society . 39 (3). American Mathematical Society : 399–409. doi : 10.2307/1989758 . JSTOR 1989758. MR 1501854.
^ "Familias exponenciales generales". www.randomservices.org . Consultado el 30 de agosto de 2022 .
^ Abramovich y Ritov (2013). Teoría estadística: una introducción concisa . Chapman y Hall. ISBN 978-1439851845.
^ Blei, David. "Inferencia variacional" (PDF) . Universidad de Princeton.
^ Casella, George (2002). Inferencia estadística. Roger L. Berger (2.ª ed.). Australia: Thomson Learning. Teorema 6.2.25. ISBN 0-534-24312-6.OCLC 46538638 .
^ Brown, Lawrence D. (1986). Fundamentos de las familias exponenciales estadísticas: con aplicaciones en la teoría de la decisión estadística. Hayward, California: Instituto de Estadística Matemática. Teorema 2.12. ISBN 0-940600-10-2.OCLC 15986663 .
^ Keener, Robert W. (2010). Estadística teórica: temas para un curso básico. Nueva York. pp. 47, Ejemplo 3.12. ISBN 978-0-387-93839-4.OCLC 676700036 .{{cite book}}: CS1 maint: location missing publisher (link)
^ Nielsen, Frank; Garcia, Vincent (2009). "Familias exponenciales estadísticas: un compendio con fichas". arXiv : 0911.4863 [cs.LG].
^ van Garderen, Kees Jan (1997). "Modelos exponenciales curvos en econometría". Teoría econométrica . 13 (6): 771–790. doi :10.1017/S0266466600006253. S2CID 122742807.
^ Nielsen & Nock 2010, 4. Divergencias de Bregman y entropía relativa de familias exponenciales.
^ Barndorff-Nielsen 1978, 9.1 Dualidad convexa y familias exponenciales.
^ Efron, Bradley (diciembre de 2011). "Fórmula de Tweedie y sesgo de selección". Revista de la Asociación Estadounidense de Estadística . 106 (496): 1602–1614. doi :10.1198/jasa.2011.tm11181. ISSN 0162-1459. PMC 3325056. PMID 22505788 .

Fuentes

Barndorff-Nielsen, Ole (1978). Información y familias exponenciales en la teoría estadística . Serie Wiley en probabilidad y estadística matemática. Chichester: John Wiley & Sons, Ltd. pp. ix+238 pp. ISBN 0-471-99545-2.Sr . 0489333.
- Reimpreso como Barndorff-Nielsen, Ole (2014). Información y familias exponenciales en la teoría estadística . John Wiley & Sons, Ltd. doi :10.1002/9781118857281. ISBN 978-111885750-2.
Nielsen, Frank; Garcia, Vincent (2009). "Familias exponenciales estadísticas: un compendio con fichas". arXiv : 0911.4863 . Código Bibliográfico :2009arXiv0911.4863N.
Nielsen, Frank; Nock, Richard (2010). Entropías y entropías cruzadas de familias exponenciales (PDF) . IEEE International Conference on Image Processing. doi :10.1109/ICIP.2010.5652054. Archivado desde el original (PDF) el 2019-03-31.

Lectura adicional

Fahrmeir, Ludwig; Tutz, G. (1994). Modelado estadístico multivariante basado en modelos lineales generalizados . Springer. pp. 18–22, 345–349. ISBN 0-387-94233-5.
Keener, Robert W. (2006). Estadística teórica: temas para un curso básico . Springer. pp. 27-28, 32-33. ISBN 978-0-387-93838-7.
Lehmann, EL; Casella, G. (1998). Teoría de la estimación puntual (2ª ed.). segundo. 1.5. ISBN 0-387-98502-6.

Enlaces externos

Una introducción a la familia exponencial de distribuciones
Familia exponencial de distribuciones en los primeros usos conocidos de algunas de las palabras de las matemáticas
jMEF: una biblioteca Java para familias exponenciales Archivado el 11 de abril de 2013 en archive.today
Modelos gráficos, familias exponenciales e inferencia variacional de Wainwright y Jordan (2008)

Familia exponencial

Dificultad de nomenclatura

Definición

Ejemplos de distribuciones familiares exponenciales

Parámetro escalar

El soporte debe ser independiente deθ

Vector valoradoincógnitay θ

Formulación canónica

Factorización de las variables involucradas

Parámetro vectorial

Parámetro vectorial, variable vectorial

Formulación teórica de la medida

Interpretación

Propiedades

Ejemplos

Distribución normal: media desconocida, varianza conocida

Distribución normal: media desconocida y varianza desconocida

Distribución binomial

Tabla de distribuciones

Momentos y cumulantes de la estadística suficiente

Normalización de la distribución

Función generadora de momentos de la estadística suficiente

Identidades diferenciales para cumulantes

Ejemplo 1

Ejemplo 2

Ejemplo 3

Entropía

Entropía relativa

Derivación de máxima entropía

Papel en las estadísticas

Estimación clásica: suficiencia

Estimación bayesiana: distribuciones conjugadas

Estimación imparcial

Pruebas de hipótesis: las pruebas más potentes de manera uniforme

Modelos lineales generalizados

Véase también

Notas al pie

Referencias

Citas

Fuentes

Lectura adicional

Enlaces externos

El soporte debe ser independiente de $θ$

Vector valorado $incógnita$ y $θ$