stringtranslate.com

Familia exponencial

En probabilidad y estadística , una familia exponencial es un conjunto paramétrico de distribuciones de probabilidad de una determinada forma, que se especifica a continuación. Esta forma especial se elige por conveniencia matemática, lo que incluye permitir al usuario calcular expectativas y covarianzas mediante la diferenciación basada en algunas propiedades algebraicas útiles, así como por generalidad, ya que las familias exponenciales son, en cierto sentido, conjuntos de distribuciones muy naturales a tener en cuenta. El término clase exponencial se utiliza a veces en lugar de "familia exponencial", [1] o el término más antiguo familia Koopman-Darmois . A veces denominada vagamente "la" familia exponencial, esta clase de distribuciones es distinta porque todas poseen una variedad de propiedades deseables, la más importante de las cuales es la existencia de una estadística suficiente .

El concepto de familias exponenciales se atribuye a [2] EJG Pitman , [3] G. Darmois , [4] y BO Koopman [5] en 1935-1936. Las familias exponenciales de distribuciones proporcionan un marco general para seleccionar una posible parametrización alternativa de una familia paramétrica de distribuciones, en términos de parámetros naturales, y para definir estadísticas de muestra útiles , llamadas estadísticas naturales suficientes de la familia.

Dificultad de nomenclatura

Los términos "distribución" y "familia" se usan a menudo de manera imprecisa: específicamente, una familia exponencial es un conjunto de distribuciones, donde la distribución específica varía con el parámetro; [a] sin embargo, a una familia paramétrica de distribuciones a menudo se la denomina " una distribución" (como "la distribución normal", que significa "la familia de distribuciones normales"), y al conjunto de todas las familias exponenciales a veces se lo denomina de manera imprecisa "la" familia exponencial.

Definición

La mayoría de las distribuciones de uso común forman una familia exponencial o un subconjunto de una familia exponencial, que se enumeran en la subsección siguiente. Las subsecciones siguientes son una secuencia de definiciones matemáticas cada vez más generales de una familia exponencial. Un lector ocasional tal vez desee limitar su atención a la primera y más simple definición, que corresponde a una familia de distribuciones de probabilidad discretas o continuas de un solo parámetro .

Ejemplos de distribuciones familiares exponenciales

Las familias exponenciales incluyen muchas de las distribuciones más comunes. Entre muchas otras, las familias exponenciales incluyen las siguientes: [6]

Varias distribuciones comunes son familias exponenciales, pero solo cuando ciertos parámetros son fijos y conocidos. Por ejemplo:

Obsérvese que en cada caso los parámetros que deben fijarse son aquellos que establecen un límite en el rango de valores que posiblemente se puedan observar.

Ejemplos de distribuciones comunes que no son familias exponenciales son la t de Student , la mayoría de las distribuciones mixtas e incluso la familia de distribuciones uniformes cuando los límites no son fijos. Consulte la sección a continuación sobre ejemplos para obtener más información.

Parámetro escalar

El valor de se llama parámetro de la familia.

Una familia exponencial de un solo parámetro es un conjunto de distribuciones de probabilidad cuya función de densidad de probabilidad (o función de masa de probabilidad , para el caso de una distribución discreta ) se puede expresar en la forma

donde y son funciones conocidas. La función debe ser no negativa.

Una forma alternativa y equivalente que se da a menudo es

o equivalentemente

En términos de probabilidad logarítmica ,

Tenga en cuenta que y

El soporte debe ser independiente deθ

Es importante destacar que se requiere el soporte de (todos los valores posibles para los cuales es mayor que ) para no depender de [7]. Este requisito se puede utilizar para excluir que una distribución familiar paramétrica sea una familia exponencial.

Por ejemplo: La distribución de Pareto tiene una función de densidad de probabilidad que está definida para (el valor mínimo, siendo el parámetro de escala) y su soporte, por lo tanto, tiene un límite inferior de Dado que el soporte de depende del valor del parámetro, la familia de distribuciones de Pareto no forma una familia exponencial de distribuciones (al menos cuando se desconoce).

Otro ejemplo: las distribuciones de tipo Bernoulli ( binomial , binomial negativa , distribución geométrica y similares) solo se pueden incluir en la clase exponencial si el número de ensayos de Bernoulli se trata como una constante fija (excluida de los parámetros libres) , ya que el número permitido de ensayos establece los límites para el número de "éxitos" o "fracasos" que se pueden observar en un conjunto de ensayos.

Vector valoradoincógnitay θ

A menudo es un vector de medidas, en cuyo caso puede ser una función del espacio de valores posibles de los números reales.

En términos más generales, y pueden tener valores vectoriales de modo que tengan valores reales. Sin embargo, consulte la discusión a continuación sobre parámetros vectoriales, en relación con la familia exponencial curva .

Formulación canónica

Si entonces se dice que la familia exponencial está en forma canónica . Al definir un parámetro transformado siempre es posible convertir una familia exponencial a forma canónica. La forma canónica no es única, ya que se puede multiplicar por cualquier constante distinta de cero, siempre que se multiplique por el recíproco de esa constante, o se puede añadir una constante c a y multiplicarla por para compensarla. En el caso especial de que y entonces la familia se llama familia exponencial natural .

Incluso cuando es un escalar y solo hay un único parámetro, las funciones y pueden ser vectores, como se describe a continuación.

La función o equivalentemente se determina automáticamente una vez que se han elegido las otras funciones, ya que debe asumir una forma que haga que la distribución se normalice (suma o integre a uno sobre todo el dominio). Además, ambas funciones siempre se pueden escribir como funciones de incluso cuando no es una función biunívoca , es decir, dos o más valores diferentes de se asignan al mismo valor de y, por lo tanto, no se pueden invertir. En tal caso, todos los valores de que se asignan al mismo también tendrán el mismo valor para y

Factorización de las variables involucradas

Lo que es importante destacar, y que caracteriza a todas las variantes de la familia exponencial, es que los parámetros y las variables de observación deben factorizarse (pueden separarse en productos, cada uno de los cuales involucra solo un tipo de variable), ya sea directamente o dentro de cualquiera de las partes (la base o el exponente) de una operación de exponenciación . En general, esto significa que todos los factores que constituyen la función de densidad o masa deben tener una de las siguientes formas:

donde y son funciones arbitrarias de la variable estadística observada; y son funciones arbitrarias de los parámetros fijos que definen la forma de la distribución; y es cualquier expresión constante arbitraria (es decir, un número o una expresión que no cambia ni con ni con ).

Existen otras restricciones sobre la cantidad de factores que pueden ocurrir. Por ejemplo, las dos expresiones:

son lo mismo, es decir, un producto de dos factores "permitidos". Sin embargo, cuando se reescriben en la forma factorizada,

Se puede observar que no se puede expresar en la forma requerida. (Sin embargo, una forma de este tipo es miembro de una familia exponencial curva , que permite múltiples términos factorizados en el exponente. [ cita requerida ] )

Para ver por qué una expresión de la forma

califica,

y por lo tanto se factoriza dentro del exponente. De manera similar,

y nuevamente se factoriza dentro del exponente.

Un factor que consiste en una suma donde intervienen ambos tipos de variables (por ejemplo, un factor de la forma ) no se puede factorizar de esta manera (excepto en algunos casos en los que aparece directamente en un exponente); esta es la razón por la que, por ejemplo, la distribución de Cauchy y la distribución t de Student no son familias exponenciales.

Parámetro vectorial

La definición en términos de un parámetro de número real se puede extender a un parámetro de vector real .

Se dice que una familia de distribuciones pertenece a una familia exponencial vectorial si la función de densidad de probabilidad (o función de masa de probabilidad, para distribuciones discretas) se puede escribir como

o en una forma más compacta,

Esta forma escribe la suma como un producto escalar de funciones con valores vectoriales y .

Una forma alternativa y equivalente que se ve a menudo es

Al igual que en el caso de valor escalar, se dice que la familia exponencial está en forma canónica si

Se dice que una familia exponencial vectorial es curva si la dimensión de

es menor que la dimensión del vector

Es decir, si la dimensión , d , del vector de parámetros es menor que el número de funciones , s , del vector de parámetros en la representación anterior de la función de densidad de probabilidad. La mayoría de las distribuciones comunes en la familia exponencial no son curvas, y muchos algoritmos diseñados para trabajar con cualquier familia exponencial suponen implícita o explícitamente que la distribución no es curva.

Al igual que en el caso de un parámetro de valor escalar, la función o equivalentemente se determina automáticamente por la restricción de normalización, una vez que se han elegido las otras funciones. Incluso si no es uno a uno, las funciones y se pueden definir exigiendo que la distribución se normalice para cada valor del parámetro natural . Esto produce la forma canónica

o equivalentemente

Las formas anteriores a veces se pueden ver con en lugar de . Estas son formulaciones exactamente equivalentes, solo que utilizan una notación diferente para el producto escalar .

Parámetro vectorial, variable vectorial

La forma de vector-parámetro sobre una única variable aleatoria de valor escalar se puede expandir de manera trivial para cubrir una distribución conjunta sobre un vector de variables aleatorias. La distribución resultante es simplemente la misma que la distribución anterior para una variable aleatoria de valor escalar con cada ocurrencia del escalar x reemplazado por el vector

Las dimensiones k de la variable aleatoria no necesitan coincidir con la dimensión d del vector de parámetros, ni (en el caso de una función exponencial curva) con la dimensión s del parámetro natural y con la estadística suficiente T ( x )  .

La distribución en este caso se escribe como

O más compactamente como

O alternativamente como

Formulación teórica de la medida

Utilizamos funciones de distribución acumulativa (CDF) para abarcar distribuciones tanto discretas como continuas.

Supongamos que H es una función no decreciente de una variable real. Entonces, las integrales de Lebesgue-Stieltjes con respecto a son integrales con respecto a la medida de referencia de la familia exponencial generada por H  .

Cualquier miembro de esa familia exponencial tiene función de distribución acumulativa.

H ( x ) es un integrador de Lebesgue–Stieltjes para la medida de referencia. Cuando la medida de referencia es finita, se puede normalizar y H es en realidad la función de distribución acumulativa de una distribución de probabilidad. Si F es absolutamente continua con una densidadcon respecto a una medida de referencia(normalmente la medida de Lebesgue ), se puede escribir. En este caso, H también es absolutamente continua y se puede escribirde forma que las fórmulas se reduzcan a las de los párrafos anteriores. Si F es discreta, entonces H es una función escalonada (con escalones con el apoyo de F ).

Alternativamente, podemos escribir la medida de probabilidad directamente como

para alguna medida de referencia .

Interpretación

En las definiciones anteriores, las funciones T ( x ) , η ( θ ) y A ( η ) eran arbitrarias. Sin embargo, estas funciones tienen interpretaciones importantes en la distribución de probabilidad resultante.

La función A es importante por sí misma, porque la media , la varianza y otros momentos del estadístico suficiente T ( x ) se pueden derivar simplemente derivando A ( η ) . Por ejemplo, debido a que log( x ) es uno de los componentes del estadístico suficiente de la distribución gamma , se puede determinar fácilmente para esta distribución utilizando A ( η ) . Técnicamente, esto es cierto porque

es la función generadora cumulante de la estadística suficiente.

Propiedades

Las familias exponenciales tienen una gran cantidad de propiedades que las hacen extremadamente útiles para el análisis estadístico. En muchos casos, se puede demostrar que solo las familias exponenciales tienen estas propiedades. Ejemplos:

Dada una familia exponencial definida por , donde es el espacio de parámetros, tal que . Entonces

Ejemplos

Al considerar los ejemplos de esta sección, es fundamental recordar el debate anterior sobre lo que significa decir que una "distribución" es una familia exponencial y, en particular, tener en cuenta que el conjunto de parámetros que pueden variar es fundamental para determinar si una "distribución" es o no una familia exponencial.

Las distribuciones normal , exponencial , log-normal , gamma , chi-cuadrado , beta , Dirichlet , Bernoulli , categórica , Poisson , geométrica , gaussiana inversa , ALAAM , von Mises y von Mises-Fisher son todas familias exponenciales.

Algunas distribuciones son familias exponenciales solo si algunos de sus parámetros se mantienen fijos. La familia de distribuciones de Pareto con un límite mínimo fijo x m ​​forma una familia exponencial. Las familias de distribuciones binomiales y multinomiales con un número fijo de ensayos n pero con parámetros de probabilidad desconocidos son familias exponenciales. La familia de distribuciones binomiales negativas con un número fijo de fallos (también conocido como parámetro de tiempo de parada) r es una familia exponencial. Sin embargo, cuando se permite que varíe cualquiera de los parámetros fijos mencionados anteriormente, la familia resultante no es una familia exponencial.

Como se mencionó anteriormente, como regla general, el soporte de una familia exponencial debe permanecer igual en todos los parámetros de la familia. Por eso, los casos anteriores (por ejemplo, binomial con un número variable de ensayos, Pareto con un límite mínimo variable) no son familias exponenciales: en todos los casos, el parámetro en cuestión afecta el soporte (en particular, al cambiar el valor mínimo o máximo posible). Por razones similares, ni la distribución uniforme discreta ni la distribución uniforme continua son familias exponenciales, ya que uno o ambos límites varían.

La distribución Weibull con parámetro de forma fijo k es una familia exponencial. A diferencia de los ejemplos anteriores, el parámetro de forma no afecta al soporte; el hecho de que al permitir que varíe hace que la distribución Weibull no sea exponencial se debe más bien a la forma particular de la función de densidad de probabilidad de Weibull ( k aparece en el exponente de un exponente).

En general, las distribuciones que resultan de una mezcla finita o infinita de otras distribuciones, por ejemplo, las densidades de modelos de mezcla y las distribuciones de probabilidad compuestas , no son familias exponenciales. Algunos ejemplos son los modelos de mezcla gaussianos típicos , así como muchas distribuciones de cola pesada que resultan de la composición (es decir, la mezcla infinita) de una distribución con una distribución previa sobre uno de sus parámetros, por ejemplo, la distribución t de Student (composición de una distribución normal sobre una distribución previa de precisión distribuida gamma ), y las distribuciones beta-binomial y Dirichlet-multinomial . Otros ejemplos de distribuciones que no son familias exponenciales son la distribución F , la distribución de Cauchy , la distribución hipergeométrica y la distribución logística .

A continuación se presentan algunos ejemplos detallados de la representación de algunas distribuciones útiles como familias exponenciales.

Distribución normal: media desconocida, varianza conocida

Como primer ejemplo, considere una variable aleatoria distribuida normalmente con media desconocida μ y varianza conocida σ 2 . La función de densidad de probabilidad es entonces

Esta es una familia exponencial de un solo parámetro, como se puede ver al configurar

Si σ = 1 esto está en forma canónica, pues entonces  η ( μ ) =  μ .

Distribución normal: media desconocida y varianza desconocida

A continuación, considere el caso de una distribución normal con media y varianza desconocidas. La función de densidad de probabilidad es entonces

Esta es una familia exponencial que se puede escribir en forma canónica definiendo

Distribución binomial

Como ejemplo de una familia exponencial discreta, considere la distribución binomial con un número conocido de ensayos n . La función de masa de probabilidad para esta distribución es

Esto se puede escribir de forma equivalente como

lo que demuestra que la distribución binomial es una familia exponencial, cuyo parámetro natural es

Esta función de p se conoce como logit .

Tabla de distribuciones

La siguiente tabla muestra cómo reescribir una serie de distribuciones comunes como distribuciones de familia exponencial con parámetros naturales. Consulta las fichas [12] para conocer las principales familias exponenciales.

Para una variable escalar y un parámetro escalar, la forma es la siguiente:

Para una variable escalar y un parámetro vectorial:

Para una variable vectorial y un parámetro vectorial:

Las fórmulas anteriores eligen la forma funcional de la familia exponencial con una función de partición logarítmica . La razón de esto es que los momentos de las estadísticas suficientes se pueden calcular fácilmente, simplemente diferenciando esta función. Las formas alternativas implican parametrizar esta función en términos del parámetro normal en lugar del parámetro natural, y/o usar un factor fuera de la exponencial. La relación entre esta última y la primera es:

Para convertir entre las representaciones que involucran los dos tipos de parámetros, utilice las fórmulas siguientes para escribir un tipo de parámetro en términos del otro.

* El corchete de Iverson es una generalización de la función delta discreta: si la expresión entre corchetes es verdadera, el corchete tiene valor 1; si la declaración incluida es falsa, el corchete de Iverson es cero. Existen muchas notaciones variantes, por ejemplo, corchetes ondulados: a = b es equivalente a la notación [ a = b ] utilizada anteriormente.

Las tres variantes de la distribución categórica y la distribución multinomial se deben a que los parámetros están restringidos, de modo que

Por lo tanto, sólo hay parámetros independientes.

Las variantes 1 y 2 no son en realidad familias exponenciales estándar en absoluto. Más bien son familias exponenciales curvas , es decir, hay parámetros independientes incrustados en un espacio de parámetros -dimensional. [13] Muchos de los resultados estándar para familias exponenciales no se aplican a familias exponenciales curvas. Un ejemplo es la función de partición logarítmica , que tiene el valor de 0 en los casos curvos. En las familias exponenciales estándar, las derivadas de esta función corresponden a los momentos (más técnicamente, los cumulantes ) de las estadísticas suficientes, por ejemplo, la media y la varianza. Sin embargo, un valor de 0 sugiere que la media y la varianza de todas las estadísticas suficientes son uniformemente 0, mientras que, de hecho, la media de la estadística suficiente n debería ser . (Esto surge correctamente cuando se utiliza la forma de que se muestra en la variante 3).

Momentos y cumulantes de la estadística suficiente

Normalización de la distribución

Comenzamos con la normalización de la distribución de probabilidad. En general, cualquier función no negativa f ( x ) que sirva como núcleo de una distribución de probabilidad (la parte que codifica toda dependencia de x ) se puede convertir en una distribución adecuada normalizándola : es decir

dónde

El factor Z a veces se denomina función normalizadora o de partición , basándose en una analogía con la física estadística .

En el caso de una familia exponencial donde

El núcleo es

y la función de partición es

Como la distribución debe normalizarse, tenemos

En otras palabras,

o equivalentemente

Esto justifica llamar a A la función normalizadora de registros o partición de registros .

Función generadora de momentos de la estadística suficiente

Ahora, la función generadora de momentos de T ( x ) es

probando la afirmación anterior de que

es la función generadora cumulante para T .

Una subclase importante de familias exponenciales son las familias exponenciales naturales , que tienen una forma similar para la función generadora de momentos para la distribución de x .

Identidades diferenciales para cumulantes

En particular, utilizando las propiedades de la función generadora de cumulantes,

y

Los dos primeros momentos brutos y todos los segundos momentos mixtos se pueden recuperar a partir de estas dos identidades. Los momentos de orden superior y los cumulantes se obtienen mediante derivadas superiores. Esta técnica suele ser útil cuando T es una función complicada de los datos, cuyos momentos son difíciles de calcular mediante integración.

Otra forma de ver esto que no depende de la teoría de cumulantes es partir del hecho de que la distribución de una familia exponencial debe normalizarse y diferenciarse. Lo ilustramos con el caso simple de un parámetro unidimensional, pero una derivación análoga es válida de manera más general.

En el caso unidimensional, tenemos

Esto debe normalizarse, por lo que

Tome la derivada de ambos lados con respecto a η :

Por lo tanto,

Ejemplo 1

Como ejemplo introductorio, considere la distribución gamma , cuya distribución está definida por

Refiriéndonos a la tabla anterior, podemos ver que el parámetro natural está dado por

Las sustituciones inversas son

Las estadísticas suficientes son y la función de partición logarítmica es

Podemos hallar la media de las estadísticas suficientes de la siguiente manera. En primer lugar, para η 1 :

¿Dónde está la función digamma (derivada de log gamma), y usamos las sustituciones inversas en el último paso?

Ahora, para η 2 :

nuevamente haciendo la sustitución inversa en el último paso.

Para calcular la varianza de x , simplemente diferenciamos nuevamente:

Todos estos cálculos se pueden realizar mediante integración, haciendo uso de varias propiedades de la función gamma , pero esto requiere significativamente más trabajo.

Ejemplo 2

Como otro ejemplo, considere una variable aleatoria X de valor real con densidad

indexada por parámetro de forma (esto se llama distribución logística sesgada ). La densidad se puede reescribir como

Tenga en cuenta que esta es una familia exponencial con parámetro natural.

estadística suficiente

y función de partición de registro

Entonces, usando la primera identidad,

y usando la segunda identidad

Este ejemplo ilustra un caso en el que utilizar este método es muy sencillo, pero el cálculo directo sería casi imposible.

Ejemplo 3

El último ejemplo es uno en el que la integración sería extremadamente difícil. Es el caso de la distribución Wishart , que se define sobre matrices. Incluso la obtención de derivadas es un poco complicada, ya que implica cálculo matricial , pero las identidades respectivas se enumeran en ese artículo.

De la tabla anterior, podemos ver que el parámetro natural viene dado por

Las sustituciones inversas son

y las estadísticas son suficientes

La función de partición logarítmica se escribe en varias formas en la tabla, para facilitar la diferenciación y la sustitución inversa. Usamos las siguientes formas:

Expectativa de X (asociada con η 1 )

Para diferenciar con respecto a η 1 , necesitamos la siguiente identidad de cálculo matricial :

Entonces:

La última línea utiliza el hecho de que V es simétrico y, por lo tanto, es el mismo cuando se transpone.

Expectativa de log | X | (asociada con η 2 )

Ahora, para η 2 , primero necesitamos expandir la parte de la función de partición logarítmica que involucra la función gamma multivariada :

También necesitamos la función digamma :

Entonces:

Esta última fórmula se incluye en el artículo sobre la distribución de Wishart . Ambas expectativas son necesarias al derivar las ecuaciones de actualización de Bayes variacional en una red de Bayes que involucra una distribución de Wishart (que es la distribución conjugada previa de la distribución normal multivariante ).

Calcular estas fórmulas mediante integración sería mucho más difícil. La primera, por ejemplo, requeriría integración matricial.

Entropía

Entropía relativa

La entropía relativa ( divergencia de Kullback–Leibler , divergencia KL) de dos distribuciones en una familia exponencial tiene una expresión simple como la divergencia de Bregman entre los parámetros naturales con respecto al normalizador logarítmico. [14] La entropía relativa se define en términos de una integral, mientras que la divergencia de Bregman se define en términos de una derivada y un producto interno, y por lo tanto es más fácil de calcular y tiene una expresión de forma cerrada (asumiendo que la derivada tiene una expresión de forma cerrada). Además, la divergencia de Bregman en términos de los parámetros naturales y el normalizador logarítmico es igual a la divergencia de Bregman de los parámetros duales (parámetros de expectativa), en el orden opuesto, para la función conjugada convexa . [15]

Fijando una familia exponencial con un normalizador logarítmico ⁠ ⁠ (con conjugado convexo ⁠ ⁠ ), escribiendo para la distribución en esta familia correspondiente un valor fijo del parámetro natural (escribiendo para otro valor, y con para los parámetros de expectativa/momento duales correspondientes), escribiendo KL para la divergencia KL, y para la divergencia de Bregman, las divergencias se relacionan como:

La divergencia KL se escribe convencionalmente con respecto al primer parámetro, mientras que la divergencia Bregman se escribe convencionalmente con respecto al segundo parámetro, y por lo tanto esto puede leerse como "la entropía relativa es igual a la divergencia Bregman definida por el normalizador logarítmico en los parámetros naturales intercambiados", o equivalentemente como "igual a la divergencia Bregman definida por el dual al normalizador logarítmico en los parámetros de expectativa".

Derivación de máxima entropía

Las familias exponenciales surgen naturalmente como respuesta a la siguiente pregunta: ¿cuál es la distribución de máxima entropía consistente con las restricciones dadas sobre los valores esperados?

La entropía de información de una distribución de probabilidad dF ( x ) solo se puede calcular con respecto a otra distribución de probabilidad (o, de manera más general, una medida positiva), y ambas medidas deben ser mutuamente absolutamente continuas . En consecuencia, debemos elegir una medida de referencia dH ( x ) con el mismo soporte que dF ( x ).

La entropía de dF ( x ) relativa a dH ( x ) es

o

donde dF / dH y dH / dF son derivadas de Radon–Nikodym . La definición ordinaria de entropía para una distribución discreta sustentada en un conjunto I , a saber

supone , aunque esto rara vez se señala, que dH se elige como medida de conteo en I.

Consideremos ahora una colección de cantidades observables (variables aleatorias) T i . La distribución de probabilidad dF cuya entropía con respecto a dH es mayor, sujeta a las condiciones de que el valor esperado de T i sea igual a t i , es una familia exponencial con dH como medida de referencia y ( T 1 , ..., T n ) como estadístico suficiente.

La derivación es un cálculo variacional simple que utiliza multiplicadores de Lagrange . La normalización se impone dejando que T 0 = 1 sea una de las restricciones. Los parámetros naturales de la distribución son los multiplicadores de Lagrange y el factor de normalización es el multiplicador de Lagrange asociado a T 0 .

Para ver ejemplos de dichas derivaciones, consulte Distribución de probabilidad de máxima entropía .

Papel en las estadísticas

Estimación clásica: suficiencia

Según el teorema de Pitman - Koopman - Darmois , entre las familias de distribuciones de probabilidad cuyo dominio no varía con el parámetro que se estima, sólo en las familias exponenciales existe un estadístico suficiente cuya dimensión permanece acotada a medida que aumenta el tamaño de la muestra.

De manera menos concisa, supongamos que X k (donde k = 1, 2, 3, ... n ) son variables aleatorias independientes , idénticamente distribuidas. Solo si su distribución es una de las de la familia exponencial de distribuciones existe un estadístico suficiente T ( X 1 , ..., X n ) cuyo número de componentes escalares no aumenta a medida que aumenta el tamaño de la muestra n ; el estadístico T puede ser un vector o un único número escalar , pero sea lo que sea, su tamaño no crecerá ni se reducirá cuando se obtengan más datos.

Como contraejemplo, si se relajan estas condiciones, la familia de distribuciones uniformes (ya sean discretas o continuas , con uno o ambos límites desconocidos) tiene una estadística suficiente, es decir, el máximo de la muestra, el mínimo de la muestra y el tamaño de la muestra, pero no forma una familia exponencial, ya que el dominio varía con los parámetros.

Estimación bayesiana: distribuciones conjugadas

Las familias exponenciales también son importantes en la estadística bayesiana . En la estadística bayesiana, una distribución a priori se multiplica por una función de verosimilitud y luego se normaliza para producir una distribución a posteriori . En el caso de una verosimilitud que pertenece a una familia exponencial, existe una distribución a priori conjugada , que a menudo también pertenece a una familia exponencial. Una distribución a priori conjugada π para el parámetro de una familia exponencial

viene dado por

o equivalentemente

donde s es la dimensión de y y son hiperparámetros (parámetros que controlan parámetros). corresponde al número efectivo de observaciones que aporta la distribución anterior, y corresponde a la cantidad total que estas pseudoobservaciones aportan a la estadística suficiente sobre todas las observaciones y pseudoobservaciones. es una constante de normalización que se determina automáticamente por las funciones restantes y sirve para garantizar que la función dada sea una función de densidad de probabilidad (es decir, esté normalizada ). y, equivalentemente, son las mismas funciones que en la definición de la distribución sobre la que π es la anterior conjugada.

Una distribución a priori conjugada es aquella que, cuando se combina con la probabilidad y se normaliza, produce una distribución a posteriori que es del mismo tipo que la a priori. Por ejemplo, si uno está estimando la probabilidad de éxito de una distribución binomial, entonces si uno elige usar una distribución beta como su distribución a priori, la distribución a posteriori es otra distribución beta. Esto hace que el cálculo de la distribución a posteriori sea particularmente simple. De manera similar, si uno está estimando el parámetro de una distribución de Poisson, el uso de una distribución a priori gamma conducirá a otra distribución a posteriori gamma. Las a priori conjugadas son a menudo muy flexibles y pueden ser muy convenientes. Sin embargo, si la creencia de uno acerca del valor probable del parámetro theta de una distribución binomial está representada por (digamos) una distribución a priori bimodal (de dos jorobas), entonces esto no puede ser representado por una distribución beta. Sin embargo, puede ser representado usando una densidad de mezcla como la a priori, aquí una combinación de dos distribuciones beta; esta es una forma de hiperprior .

Una probabilidad arbitraria no pertenece a una familia exponencial y, por lo tanto, en general no existe una probabilidad anterior conjugada. La probabilidad posterior deberá calcularse entonces mediante métodos numéricos.

Para demostrar que la distribución anterior es una distribución anterior conjugada, podemos derivar la distribución posterior.

En primer lugar, supongamos que la probabilidad de una sola observación sigue una familia exponencial, parametrizada utilizando su parámetro natural:

Luego, para los datos , la probabilidad se calcula de la siguiente manera:

Entonces, para el conjugado anterior:

Podemos entonces calcular la posterior de la siguiente manera:

La última línea es el núcleo de la distribución posterior, es decir

Esto demuestra que el posterior tiene la misma forma que el anterior.

Los datos X entran en esta ecuación sólo en la expresión

que se denomina estadística suficiente de los datos. Es decir, el valor de la estadística suficiente es suficiente para determinar por completo la distribución posterior. Los puntos de datos reales en sí no son necesarios, y todos los conjuntos de puntos de datos con la misma estadística suficiente tendrán la misma distribución. Esto es importante porque la dimensión de la estadística suficiente no crece con el tamaño de los datos, sino que solo tiene tantos componentes como los componentes de (equivalentemente, la cantidad de parámetros de la distribución de un solo punto de datos).

Las ecuaciones de actualización son las siguientes:

Esto demuestra que las ecuaciones de actualización se pueden escribir simplemente en términos de la cantidad de puntos de datos y la estadística suficiente de los datos. Esto se puede ver claramente en los diversos ejemplos de ecuaciones de actualización que se muestran en la página de valores anteriores conjugados . Debido a la forma en que se calcula la estadística suficiente, necesariamente involucra sumas de componentes de los datos (en algunos casos disfrazados como productos u otras formas; un producto se puede escribir en términos de una suma de logaritmos ). Los casos en los que las ecuaciones de actualización para distribuciones particulares no coinciden exactamente con las formas anteriores son casos en los que el valor anterior conjugado se ha expresado utilizando una parametrización diferente a la que produce un valor anterior conjugado de la forma anterior; a menudo específicamente porque la forma anterior se define sobre el parámetro natural, mientras que los valores anteriores conjugados generalmente se definen sobre el parámetro real.

Estimación imparcial

Si la probabilidad es una familia exponencial, entonces el estimador imparcial de es . [16]

Pruebas de hipótesis: las pruebas más potentes de manera uniforme

Una familia exponencial de un parámetro tiene una razón de verosimilitud monótona y no decreciente en la estadística suficiente T ( x ), siempre que η ( θ ) no sea decreciente. En consecuencia , existe una prueba uniformemente más potente para probar la hipótesis H 0 : θθ 0 vs. H 1 : θ < θ 0 .

Modelos lineales generalizados

Las familias exponenciales forman la base de las funciones de distribución utilizadas en los modelos lineales generalizados (GLM), una clase de modelo que abarca muchos de los modelos de regresión que se utilizan comúnmente en estadística. Algunos ejemplos incluyen la regresión logística que utiliza la familia binomial y la regresión de Poisson .

Véase también

Notas al pie

  1. ^ For example, the family of normal distributions includes the standard normal distribution N(0, 1) with mean 0 and variance 1, as well as other normal distributions with different mean and variance.
  2. ^ "Partition function" is often used in statistics as a synonym of "normalization factor".
  3. ^ These distributions are often not themselves exponential families. Common examples of non-exponential families arising from exponential ones are the Student's t-distribution, beta-binomial distribution and Dirichlet-multinomial distribution.

References

Citations

  1. ^ Kupperman, M. (1958). "Probabilities of hypotheses and information-statistics in sampling from exponential-class populations". Annals of Mathematical Statistics. 9 (2): 571–575. doi:10.1214/aoms/1177706633. JSTOR 2237349.
  2. ^ Andersen, Erling (September 1970). "Sufficiency and Exponential Families for Discrete Sample Spaces". Journal of the American Statistical Association. 65 (331). Journal of the American Statistical Association: 1248–1255. doi:10.2307/2284291. JSTOR 2284291. MR 0268992.
  3. ^ Pitman, E.; Wishart, J. (1936). "Sufficient statistics and intrinsic accuracy". Mathematical Proceedings of the Cambridge Philosophical Society. 32 (4): 567–579. Bibcode:1936PCPS...32..567P. doi:10.1017/S0305004100019307. S2CID 120708376.
  4. ^ Darmois, G. (1935). "Sur les lois de probabilites a estimation exhaustive". C. R. Acad. Sci. Paris (in French). 200: 1265–1266.
  5. ^ Koopman, B. (1936). "On distribution admitting a sufficient statistic". Transactions of the American Mathematical Society. 39 (3). American Mathematical Society: 399–409. doi:10.2307/1989758. JSTOR 1989758. MR 1501854.
  6. ^ "General Exponential Families". www.randomservices.org. Retrieved 2022-08-30.
  7. ^ Abramovich & Ritov (2013). Statistical Theory: A concise introduction. Chapman & Hall. ISBN 978-1439851845.
  8. ^ Blei, David. "Variational Inference" (PDF). Princeton U.
  9. ^ Casella, George (2002). Statistical inference. Roger L. Berger (2nd ed.). Australia: Thomson Learning. Theorem 6.2.25. ISBN 0-534-24312-6. OCLC 46538638.
  10. ^ Brown, Lawrence D. (1986). Fundamentals of statistical exponential families : with applications in statistical decision theory. Hayward, Calif.: Institute of Mathematical Statistics. Theorem 2.12. ISBN 0-940600-10-2. OCLC 15986663.
  11. ^ Keener, Robert W. (2010). Theoretical statistics : topics for a core course. New York. pp. 47, Example 3.12. ISBN 978-0-387-93839-4. OCLC 676700036.{{cite book}}: CS1 maint: location missing publisher (link)
  12. ^ Nielsen, Frank; Garcia, Vincent (2009). "Statistical exponential families: A digest with flash cards". arXiv:0911.4863 [cs.LG].
  13. ^ van Garderen, Kees Jan (1997). "Curved Exponential Models in Econometrics". Econometric Theory. 13 (6): 771–790. doi:10.1017/S0266466600006253. S2CID 122742807.
  14. ^ Nielsen & Nock 2010, 4. Bregman Divergences and Relative Entropy of Exponential Families.
  15. ^ Barndorff-Nielsen 1978, 9.1 Convex duality and exponential families.
  16. ^ Efron, Bradley (December 2011). "Tweedie's Formula and Selection Bias". Journal of the American Statistical Association. 106 (496): 1602–1614. doi:10.1198/jasa.2011.tm11181. ISSN 0162-1459. PMC 3325056. PMID 22505788.

Sources

Further reading

External links