stringtranslate.com

familia exponencial

En probabilidad y estadística , una familia exponencial es un conjunto paramétrico de distribuciones de probabilidad de una determinada forma, especificada a continuación. Esta forma especial se elige por conveniencia matemática, incluida la posibilidad de que el usuario calcule expectativas, covarianzas usando diferenciación basada en algunas propiedades algebraicas útiles, así como por generalidad, ya que las familias exponenciales son, en cierto sentido, conjuntos de distribuciones muy naturales de considerar. El término clase exponencial se utiliza a veces en lugar de "familia exponencial", [1] o el término más antiguo familia Koopman-Darmois . A veces denominada vagamente "la" familia exponencial, esta clase de distribuciones se distingue porque todas poseen una variedad de propiedades deseables, la más importante la existencia de una estadística suficiente .

El concepto de familias exponenciales se atribuye a [2] EJG Pitman , [3] G. Darmois , [4] y BO Koopman [5] en 1935-1936. Las familias exponenciales de distribuciones proporcionan un marco general para seleccionar una posible parametrización alternativa de una familia paramétrica de distribuciones, en términos de parámetros naturales, y para definir estadísticas muestrales útiles , denominadas estadísticas naturales suficientes de la familia.

dificultad de nomenclatura

Los términos "distribución" y "familia" se utilizan a menudo de manera vaga: específicamente, una familia exponencial es un conjunto de distribuciones, donde la distribución específica varía con el parámetro; [a] sin embargo, una familia paramétrica de distribuciones a menudo se denomina " una distribución" (como "la distribución normal", que significa "la familia de distribuciones normales"), y el conjunto de todas las familias exponenciales a veces se denomina vagamente como "la" familia exponencial.

Definición

La mayoría de las distribuciones comúnmente utilizadas forman una familia exponencial o un subconjunto de una familia exponencial, que se enumeran en la subsección siguiente. Las subsecciones que le siguen son una secuencia de definiciones matemáticas cada vez más generales de una familia exponencial. Un lector casual tal vez desee limitar su atención a la primera y más simple definición, que corresponde a una familia de distribuciones de probabilidad discretas o continuas de un solo parámetro .

Ejemplos de distribuciones familiares exponenciales

Las familias exponenciales incluyen muchas de las distribuciones más comunes. Entre muchas otras, las familias exponenciales incluyen las siguientes: [6]

Varias distribuciones comunes son familias exponenciales, pero sólo cuando ciertos parámetros son fijos y conocidos. Por ejemplo:

Tenga en cuenta que en cada caso, los parámetros que deben fijarse son aquellos que establecen un límite en el rango de valores que posiblemente pueden observarse.

Ejemplos de distribuciones comunes que no son familias exponenciales son la t de Student , la mayoría de las distribuciones mixtas e incluso la familia de distribuciones uniformes cuando los límites no son fijos. Consulte la sección siguiente sobre ejemplos para obtener más información.

parámetro escalar

El valor de se llama parámetro de la familia.

Una familia exponencial de un solo parámetro es un conjunto de distribuciones de probabilidad cuya función de densidad de probabilidad (o función de masa de probabilidad , para el caso de una distribución discreta ) se puede expresar en la forma

donde y son funciones conocidas. La función debe ser no negativa.

Una forma alternativa equivalente que se suele dar es

o equivalente

Tenga en cuenta que y

El soporte debe ser independiente de θ

Es importante destacar que se requiere que el soporte de (todos los valores posibles para los cuales es mayor que ) no dependa de [7]. Este requisito se puede utilizar para excluir una distribución familiar paramétrica de ser una familia exponencial.

Por ejemplo: La distribución de Pareto tiene una fdp que está definida para (el valor mínimo, siendo el parámetro de escala) y su soporte, por lo tanto, tiene un límite inferior de Dado que el soporte de depende del valor del parámetro, la familia de Las distribuciones de Pareto no forman una familia exponencial de distribuciones (al menos cuando se desconoce).

Otro ejemplo: las distribuciones de tipo Bernoulli ( binomial , binomial negativa , distribución geométrica y similares) solo pueden incluirse en la clase exponencial si el número de ensayos de Bernoulli se trata como una constante fija (excluida de los parámetros libres) . ya que el número permitido de ensayos establece los límites para el número de "éxitos" o "fracasos" que se pueden observar en un conjunto de ensayos.

Vector valorado x y θ

A menudo es un vector de medidas, en cuyo caso puede ser una función desde el espacio de valores posibles de hasta los números reales.

De manera más general, cada uno de ellos puede tener un valor vectorial de modo que tenga un valor real. Sin embargo, consulte la discusión a continuación sobre los parámetros vectoriales, con respecto a la familia exponencial curva .

Formulación canónica

Si entonces se dice que la familia exponencial está en forma canónica . Al definir un parámetro transformado, siempre es posible convertir una familia exponencial a forma canónica. La forma canónica no es única, ya que puede multiplicarse por cualquier constante distinta de cero, siempre que se multiplique por el recíproco de esa constante, o se puede sumar una constante c y multiplicarla para compensarla. En el caso especial de que y luego la familia se llama familia exponencial natural .

Incluso cuando es un escalar y solo hay un parámetro, las funciones y aún pueden ser vectores, como se describe a continuación.

La función o equivalente se determina automáticamente una vez elegidas las demás funciones, ya que debe asumir una forma que haga que la distribución se normalice (suma o integre a uno en todo el dominio). Además, ambas funciones siempre se pueden escribir como funciones de incluso cuando no sean una función uno a uno , es decir, dos o más valores diferentes de se asignan al mismo valor de y, por lo tanto, no se pueden invertir. En tal caso, todos los valores de mapeo al mismo también tendrán el mismo valor para y

Factorización de las variables involucradas.

Lo que es importante tener en cuenta, y lo que caracteriza a todas las variantes de la familia exponencial, es que los parámetros y las variables de observación deben factorizarse (pueden separarse en productos, cada uno de los cuales involucra solo un tipo de variable), ya sea directamente o dentro de cualquier parte (la base o el exponente) de una operación de exponenciación . Generalmente, esto significa que todos los factores que constituyen la función de densidad o masa deben tener una de las siguientes formas:

donde y son funciones arbitrarias de la variable estadística observada; y son funciones arbitrarias de los parámetros fijos que definen la forma de la distribución; y es cualquier expresión constante arbitraria (es decir, un número o una expresión que no cambia con o ).

Existen más restricciones sobre cuántos de estos factores pueden ocurrir. Por ejemplo, las dos expresiones:

son iguales, es decir, un producto de dos factores "permitidos". Sin embargo, cuando se reescribe en la forma factorizada,

se puede ver que no se puede expresar en la forma requerida. (Sin embargo, una forma de este tipo es miembro de una familia exponencial curva , que permite múltiples términos factorizados en el exponente. [ cita necesaria ] )

Para ver por qué una expresión de la forma

califica,

y por tanto factoriza dentro del exponente. Similarmente,

y nuevamente factoriza dentro del exponente.

Un factor que consiste en una suma en la que intervienen ambos tipos de variables (por ejemplo, un factor de la forma ) no se puede factorizar de esta manera (excepto en algunos casos en los que ocurre directamente en un exponente); esta es la razón por la que, por ejemplo, la distribución de Cauchy y la distribución t de Student no son familias exponenciales.

Parámetro vectorial

La definición en términos de un parámetro de número real se puede extender a un parámetro de vector real.

Se dice que una familia de distribuciones pertenece a una familia vectorial exponencial si la función de densidad de probabilidad (o función de masa de probabilidad, para distribuciones discretas) se puede escribir como

o en una forma más compacta,

Este formulario escribe la suma como un producto escalar de funciones con valores vectoriales y .

Una forma alternativa equivalente que se ve a menudo es

Como en el caso de valores escalares, se dice que la familia exponencial está en forma canónica si

Se dice que una familia vectorial exponencial es curva si la dimensión de

es menor que la dimensión del vector

Es decir, si la dimensión , d , del vector de parámetros es menor que el número de funciones , s , del vector de parámetros en la representación anterior de la función de densidad de probabilidad. Las distribuciones más comunes en la familia exponencial no son curvas y muchos algoritmos diseñados para funcionar con cualquier familia exponencial asumen implícita o explícitamente que la distribución no es curva.

Al igual que en el caso de un parámetro con valor escalar, la función o equivalente se determina automáticamente por la restricción de normalización, una vez que se han elegido las otras funciones. Incluso si no es uno a uno, las funciones y se pueden definir exigiendo que la distribución esté normalizada para cada valor del parámetro natural . Esto produce la forma canónica

o equivalente

Los formularios anteriores a veces pueden verse con en lugar de . Estas son formulaciones exactamente equivalentes, simplemente usan una notación diferente para el producto escalar .

Parámetro vectorial, variable vectorial

La forma de parámetro vectorial sobre una única variable aleatoria de valor escalar se puede expandir trivialmente para cubrir una distribución conjunta sobre un vector de variables aleatorias. La distribución resultante es simplemente la misma que la distribución anterior para una variable aleatoria con valor escalar con cada aparición del escalar x reemplazado por el vector

Las dimensiones k de la variable aleatoria no necesitan coincidir con la dimensión d del vector de parámetros, ni (en el caso de una función exponencial curva) con la dimensión s del parámetro natural y con el estadístico suficiente T ( x )  .

La distribución en este caso se escribe como

O más compacto como

O alternativamente como

Formulación teórica de medidas

Utilizamos funciones de distribución acumulativa (CDF) para abarcar distribuciones tanto discretas como continuas.

Supongamos que H es una función no decreciente de una variable real. Entonces las integrales de Lebesgue-Stieltjes con respecto a son integrales con respecto a la medida de referencia de la  familia exponencial generada por H.

Cualquier miembro de esa familia exponencial tiene una función de distribución acumulativa.

H ( x ) es un integrador de Lebesgue-Stieltjes para la medida de referencia. Cuando la medida de referencia es finita, se puede normalizar y H es en realidad la función de distribución acumulativa de una distribución de probabilidad. Si F es absolutamente continua con una densidadcon respecto a una medida de referencia(típicamente medida de Lebesgue ), se puede escribir. En este caso, H también es absolutamente continuo y se puede escribirde modo que las fórmulas se reduzcan a las de los párrafos anteriores. Si F es discreta, entonces H es una función escalonada (con pasos sobre el soporte de F ).

Alternativamente, podemos escribir la medida de probabilidad directamente como

para alguna medida de referencia .

Interpretación

En las definiciones anteriores, las funciones T ( x ) , η ( θ ) y A ( η ) eran arbitrarias. Sin embargo, estas funciones tienen interpretaciones importantes en la distribución de probabilidad resultante.

La función A es importante por derecho propio, porque la media , la varianza y otros momentos del estadístico suficiente T ( x ) se pueden derivar simplemente diferenciando A ( η ) . Por ejemplo, debido a que log( x ) es uno de los componentes del estadístico suficiente de la distribución gamma , se puede determinar fácilmente para esta distribución usando A ( η ) . Técnicamente, esto es cierto porque

es la función generadora acumulativa del estadístico suficiente.

Propiedades

Las familias exponenciales tienen una gran cantidad de propiedades que las hacen extremadamente útiles para el análisis estadístico. En muchos casos, se puede demostrar que sólo las familias exponenciales tienen estas propiedades. Ejemplos:

Dada una familia exponencial definida por , donde está el espacio de parámetros, tal que . Entonces

Ejemplos

Es fundamental, al considerar los ejemplos de esta sección, recordar la discusión anterior sobre lo que significa decir que una "distribución" es una familia exponencial y, en particular, tener en cuenta que el conjunto de parámetros que pueden variar es fundamental para determinar si una "distribución" es o no una familia exponencial.

Las distribuciones normal , exponencial , log-normal , gamma , chi-cuadrado , beta , Dirichlet , Bernoulli , categórica , Poisson , geométrica , gaussiana inversa , ALAAM , von Mises y von Mises-Fisher son todas familias exponenciales.

Algunas distribuciones son familias exponenciales sólo si algunos de sus parámetros se mantienen fijos. La familia de distribuciones de Pareto con un límite mínimo fijo x m ​​forma una familia exponencial. Las familias de distribuciones binomiales y multinomiales con un número fijo de ensayos n pero parámetros de probabilidad desconocidos son familias exponenciales. La familia de distribuciones binomiales negativas con un número fijo de fallas (también conocido como parámetro de tiempo de parada) r es una familia exponencial. Sin embargo, cuando se permite que varíe cualquiera de los parámetros fijos mencionados anteriormente, la familia resultante no es una familia exponencial.

Como se mencionó anteriormente, como regla general, el soporte de una familia exponencial debe permanecer igual en todas las configuraciones de parámetros de la familia. Esta es la razón por la que los casos anteriores (por ejemplo, binomial con número variable de ensayos, Pareto con límite mínimo variable) no son familias exponenciales; en todos los casos, el parámetro en cuestión afecta el soporte (en particular, cambiando el valor mínimo o máximo posible). . Por razones similares, ni la distribución uniforme discreta ni la distribución uniforme continua son familias exponenciales ya que uno o ambos límites varían.

La distribución de Weibull con parámetro de forma fija k es una familia exponencial. A diferencia de los ejemplos anteriores, el parámetro de forma no afecta al soporte; el hecho de que permitirle variar hace que Weibull no sea exponencial se debe más bien a la forma particular de la función de densidad de probabilidad de Weibull ( k aparece en el exponente de un exponente).

En general, las distribuciones que resultan de una mezcla finita o infinita de otras distribuciones, por ejemplo, densidades de modelos mixtos y distribuciones de probabilidad compuestas , no son familias exponenciales. Algunos ejemplos son los modelos típicos de mezcla gaussiana, así como muchas distribuciones de colas pesadas que resultan de combinar (es decir, mezclar infinitamente) una distribución con una distribución previa sobre uno de sus parámetros, por ejemplo, la distribución t de Student (componer una distribución normal sobre una distribución gamma) . precisión distribuida anterior), y las distribuciones beta-binomial y Dirichlet-multinomial . Otros ejemplos de distribuciones que no son familias exponenciales son la distribución F , la distribución de Cauchy , la distribución hipergeométrica y la distribución logística .

A continuación se muestran algunos ejemplos detallados de la representación de algunas distribuciones útiles como familias exponenciales.

Distribución normal: media desconocida, varianza conocida

Como primer ejemplo, considere una variable aleatoria distribuida normalmente con media μ desconocida y varianza conocida σ 2 . La función de densidad de probabilidad es entonces

Esta es una familia exponencial de un solo parámetro, como se puede ver estableciendo

Si σ = 1 esto está en forma canónica, entonces  η ( μ ) =  μ .

Distribución normal: media desconocida y varianza desconocida

A continuación, considere el caso de una distribución normal con media y varianza desconocidas. La función de densidad de probabilidad es entonces

Esta es una familia exponencial que se puede escribir en forma canónica definiendo

Distribución binomial

Como ejemplo de una familia exponencial discreta, considere la distribución binomial con un número conocido de ensayos n . La función de masa de probabilidad para esta distribución es

Esto se puede escribir de manera equivalente como

lo que demuestra que la distribución binomial es una familia exponencial, cuyo parámetro natural es

Esta función de p se conoce como logit .

Tabla de distribuciones

La siguiente tabla muestra cómo reescribir una serie de distribuciones comunes como distribuciones de familia exponencial con parámetros naturales. Consulte las tarjetas [12] para conocer las principales familias exponenciales.

Para una variable escalar y un parámetro escalar, el formato es el siguiente:

Para una variable escalar y un parámetro vectorial:

Para una variable vectorial y un parámetro vectorial:

Las fórmulas anteriores eligen la forma funcional de la familia exponencial con una función de partición logarítmica . La razón de esto es que los momentos de las estadísticas suficientes se pueden calcular fácilmente, simplemente diferenciando esta función. Las formas alternativas implican parametrizar esta función en términos del parámetro normal en lugar del parámetro natural y/o usar un factor fuera del exponencial. La relación entre este último y el primero es:

Para convertir entre las representaciones que involucran los dos tipos de parámetros, use las fórmulas siguientes para escribir un tipo de parámetro en términos del otro.

* El corchete de Iverson es una generalización de la función delta discreta: si la expresión entre corchetes es verdadera, el corchete tiene el valor 1; si la afirmación adjunta es falsa, el corchete de Iverson es cero. Hay muchas notaciones variantes, por ejemplo, corchetes ondulados: a = b es equivalente a la notación [ a = b ] utilizada anteriormente.

Las tres variantes de la distribución categórica y la distribución multinomial se deben a que los parámetros están restringidos, de modo que

Por tanto, sólo existen parámetros independientes.

Las variantes 1 y 2 no son en realidad familias exponenciales estándar. Más bien son familias exponenciales curvas , es decir, hay parámetros independientes integrados en un espacio de parámetros dimensional. [13] Muchos de los resultados estándar para familias exponenciales no se aplican a familias exponenciales curvas. Un ejemplo es la función de partición logarítmica , que tiene el valor de 0 en los casos curvos. En las familias exponenciales estándar, las derivadas de esta función corresponden a los momentos (más técnicamente, los cumulantes ) de las estadísticas suficientes, por ejemplo, la media y la varianza. Sin embargo, un valor de 0 sugiere que la media y la varianza de todos los estadísticos suficientes son uniformemente 0, mientras que en realidad la media del estadístico suficiente debería ser . (Esto surge correctamente cuando se utiliza la forma que se muestra en la variante 3.)

Momentos y acumuladores de la estadística suficiente

Normalización de la distribución.

Comenzamos con la normalización de la distribución de probabilidad. En general, cualquier función no negativa f ( x ) que sirva como núcleo de una distribución de probabilidad (la parte que codifica toda dependencia de x ) se puede convertir en una distribución adecuada normalizando : es decir

dónde

El factor Z a veces se denomina normalizador o función de partición , basándose en una analogía con la física estadística .

En el caso de una familia exponencial donde

el núcleo es

y la función de partición es

Como la distribución debe normalizarse, tenemos

En otras palabras,

o equivalente

Esto justifica llamar a A la función log-normalizer o log-partition .

Función generadora de momentos de la estadística suficiente

Ahora, la función generadora de momentos de T ( x ) es

demostrando la afirmación anterior de que

es la función generadora acumulativa para T .

Una subclase importante de familias exponenciales son las familias exponenciales naturales , que tienen una forma similar para la función generadora de momentos para la distribución de x .

Identidades diferenciales para cumulantes.

En particular, utilizando las propiedades de la función generadora acumulativa,

y

Los dos primeros momentos crudos y todos los segundos momentos mezclados pueden recuperarse de estas dos identidades. Los momentos de orden superior y los cumulantes se obtienen mediante derivadas superiores. Esta técnica suele ser útil cuando T es una función complicada de los datos, cuyos momentos son difíciles de calcular mediante integración.

Otra forma de ver esto que no se basa en la teoría de los cumulantes es partir del hecho de que la distribución de una familia exponencial debe normalizarse y diferenciarse. Lo ilustramos usando el caso simple de un parámetro unidimensional, pero una derivación análoga se aplica de manera más general.

En el caso unidimensional tenemos

Esto debe normalizarse, por lo que

Tomar la derivada de ambos lados con respecto a η :

Por lo tanto,

Ejemplo 1

Como ejemplo introductorio, considere la distribución gamma , cuya distribución está definida por

Con referencia a la tabla anterior, podemos ver que el parámetro natural viene dado por

las sustituciones inversas son

las estadísticas suficientes son y la función de partición de registros es

Podemos encontrar la media de las estadísticas suficientes de la siguiente manera. Primero, para η 1 :

¿Dónde está la función digamma (derivada de log gamma)? Usamos las sustituciones inversas en el último paso.

Ahora, para η 2 :

nuevamente haciendo la sustitución inversa en el último paso.

Para calcular la varianza de x , simplemente diferenciamos nuevamente:

Todos estos cálculos se pueden realizar mediante integración, utilizando varias propiedades de la función gamma , pero esto requiere mucho más trabajo.

Ejemplo 2

Como otro ejemplo, considere una variable aleatoria X de valor real con densidad

indexado por parámetro de forma (esto se llama distribución logística sesgada ). La densidad se puede reescribir como

Observe que esta es una familia exponencial con parámetro natural.

estadística suficiente

y función de partición de registro

Entonces usando la primera identidad,

y usando la segunda identidad

Este ejemplo ilustra un caso en el que utilizar este método es muy sencillo, pero el cálculo directo sería casi imposible.

Ejemplo 3

El último ejemplo es uno en el que la integración sería extremadamente difícil. Este es el caso de la distribución Wishart , que se define sobre matrices. Incluso tomar derivadas es un poco complicado, ya que implica cálculo matricial , pero las identidades respectivas se enumeran en ese artículo.

De la tabla anterior, podemos ver que el parámetro natural está dado por

las sustituciones inversas son

y las estadísticas suficientes son

La función de partición de registros está escrita en varias formas en la tabla, para facilitar la diferenciación y la sustitución inversa. Utilizamos los siguientes formularios:

Expectativa de X (asociada con η 1 )

Para diferenciar con respecto a η 1 , necesitamos la siguiente identidad de cálculo matricial :

Entonces:

La última línea utiliza el hecho de que V es simétrico y, por lo tanto, es el mismo cuando se transpone.

Expectativa de registro | X | (asociado con η 2 )

Ahora, para η 2 , primero necesitamos expandir la parte de la función de partición logarítmica que involucra la función gamma multivariada :

También necesitamos la función digamma :

Entonces:

Esta última fórmula aparece en el artículo de distribución de Wishart . Ambas expectativas son necesarias al derivar las ecuaciones de actualización de Bayes variacionales en una red de Bayes que involucra una distribución Wishart (que es la anterior conjugada de la distribución normal multivariada ).

Calcular estas fórmulas mediante integración sería mucho más difícil. El primero, por ejemplo, requeriría integración matricial.

entropía

Entropía relativa

La entropía relativa ( divergencia Kullback-Leibler , divergencia KL) de dos distribuciones en una familia exponencial tiene una expresión simple como la divergencia de Bregman entre los parámetros naturales con respecto al log-normalizador. [14] La entropía relativa se define en términos de una integral, mientras que la divergencia de Bregman se define en términos de una derivada y un producto interno y, por lo tanto, es más fácil de calcular y tiene una expresión de forma cerrada (asumiendo que la derivada tiene una expresión cerrada). expresión de forma). Además, la divergencia de Bregman en términos de los parámetros naturales y el log-normalizador es igual a la divergencia de Bregman de los parámetros duales (parámetros de expectativa), en el orden opuesto, para la función conjugada convexa . [15]

Fijar una familia exponencial con log-normalizador (con conjugado convexo ), escribir para la distribución en esta familia correspondiente a un valor fijo del parámetro natural (escribir para otro valor y con para los parámetros duales de expectativa/momento correspondientes), escribir KL para la divergencia KL, y para la divergencia Bregman, las divergencias se relacionan como:

La divergencia KL se escribe convencionalmente con respecto al primer parámetro, mientras que la divergencia de Bregman se escribe convencionalmente con respecto al segundo parámetro y, por lo tanto, esto puede leerse como "la entropía relativa es igual a la divergencia de Bregman definida por el normalizador logarítmico". sobre los parámetros naturales intercambiados", o de manera equivalente como "igual a la divergencia de Bregman definida por el dual al log-normalizador sobre los parámetros esperados".

Derivación de máxima entropía

Las familias exponenciales surgen naturalmente como respuesta a la siguiente pregunta: ¿cuál es la distribución de máxima entropía consistente con restricciones dadas sobre los valores esperados?

La entropía de información de una distribución de probabilidad dF ( x ) solo se puede calcular con respecto a alguna otra distribución de probabilidad (o, más generalmente, una medida positiva), y ambas medidas deben ser mutuamente absolutamente continuas . En consecuencia, debemos elegir una medida de referencia dH ( x ) con el mismo soporte que dF ( x ).

La entropía de dF ( x ) relativa a dH ( x ) es

o

donde dF / dH y dH / dF son derivados del radón-Nikodym . La definición ordinaria de entropía para una distribución discreta sustentada en un conjunto I , es decir

supone , aunque esto rara vez se señala, que se elige dH como medida de conteo en I.

Consideremos ahora un conjunto de cantidades observables (variables aleatorias) T i . La distribución de probabilidad dF cuya entropía con respecto a dH es mayor, sujeta a las condiciones de que el valor esperado de Ti sea igual a ti , es una familia exponencial con dH como medida de referencia y ( T 1 , ..., T n ) como estadística suficiente.

La derivación es un cálculo variacional simple utilizando multiplicadores de Lagrange . La normalización se impone dejando que T 0 = 1 sea una de las restricciones. Los parámetros naturales de la distribución son los multiplicadores de Lagrange y el factor de normalización es el multiplicador de Lagrange asociado a T 0 .

Para ver ejemplos de tales derivaciones, consulte Distribución de probabilidad de máxima entropía .

Papel en las estadísticas

Estimación clásica: suficiencia

Según el teorema de PitmanKoopmanDarmois , entre familias de distribuciones de probabilidad cuyo dominio no varía con el parámetro que se estima, sólo en las familias exponenciales existe un estadístico suficiente cuya dimensión permanece acotada a medida que aumenta el tamaño de la muestra.

De manera menos concisa, supongamos que X k (donde k = 1, 2, 3, ... n ) son variables aleatorias independientes y distribuidas de manera idéntica. Sólo si su distribución pertenece a la familia exponencial de distribuciones existe un estadístico T ( X 1 , ..., X n ) suficiente cuyo número de componentes escalares no aumenta a medida que aumenta el tamaño de la muestra n ; el estadístico T puede ser un vector o un único número escalar , pero sea lo que sea, su tamaño no aumentará ni disminuirá cuando se obtengan más datos.

Como contraejemplo, si estas condiciones se relajan, la familia de distribuciones uniformes (ya sean discretas o continuas , con uno o ambos límites desconocidos) tiene una estadística suficiente, es decir, el máximo de la muestra, el mínimo de la muestra y el tamaño de la muestra, pero no forma una exponencial. familia, ya que el dominio varía con los parámetros.

Estimación bayesiana: distribuciones conjugadas

Las familias exponenciales también son importantes en la estadística bayesiana . En la estadística bayesiana, una distribución previa se multiplica por una función de probabilidad y luego se normaliza para producir una distribución posterior . En el caso de una probabilidad que pertenece a una familia exponencial, existe un prior conjugado , que a menudo también pertenece a una familia exponencial. Un π previo conjugado para el parámetro de una familia exponencial

es dado por

o equivalente

donde s es la dimensión de y y son hiperparámetros (parámetros que controlan los parámetros). corresponde al número efectivo de observaciones que aporta la distribución previa, y corresponde a la cantidad total que estas pseudoobservaciones aportan a la estadística suficiente sobre todas las observaciones y pseudoobservaciones. es una constante de normalización que se determina automáticamente por las funciones restantes y sirve para garantizar que la función dada sea una función de densidad de probabilidad (es decir, que esté normalizada ). y de manera equivalente son las mismas funciones que en la definición de la distribución sobre la cual π es el conjugado anterior.

Una previa conjugada es aquella que, cuando se combina con la probabilidad y se normaliza, produce una distribución posterior que es del mismo tipo que la anterior. Por ejemplo, si uno está estimando la probabilidad de éxito de una distribución binomial, entonces si elige usar una distribución beta como la anterior, la posterior es otra distribución beta. Esto hace que el cálculo de la parte posterior sea particularmente sencillo. De manera similar, si se estima el parámetro de una distribución de Poisson , el uso de una gamma anterior conducirá a otra gamma posterior. Los priores conjugados suelen ser muy flexibles y pueden resultar muy convenientes. Sin embargo, si la creencia sobre el valor probable del parámetro theta de un binomio está representada por (digamos) una distribución previa bimodal (dos jorobas), entonces esto no puede representarse por una distribución beta. Sin embargo, se puede representar utilizando una densidad de mezcla como la anterior, aquí una combinación de dos distribuciones beta; esta es una forma de hiperprior .

Una probabilidad arbitraria no pertenecerá a una familia exponencial y, por lo tanto, en general no existe un prior conjugado. La parte posterior deberá entonces calcularse mediante métodos numéricos.

Para demostrar que la distribución anterior anterior es una anterior conjugada, podemos derivar la posterior.

Primero, supongamos que la probabilidad de una sola observación sigue una familia exponencial, parametrizada utilizando su parámetro natural:

Luego, para los datos , la probabilidad se calcula de la siguiente manera:

Entonces, para el conjugado anterior anterior:

Luego podemos calcular el posterior de la siguiente manera:

La última línea es el núcleo de la distribución posterior, es decir

Esto muestra que la parte posterior tiene la misma forma que la anterior.

El dato X entra en esta ecuación sólo en la expresión

que se denomina estadístico suficiente de los datos. Es decir, el valor del estadístico suficiente es suficiente para determinar completamente la distribución posterior. Los puntos de datos reales en sí no son necesarios y todos los conjuntos de puntos de datos con la misma estadística suficiente tendrán la misma distribución. Esto es importante porque la dimensión de la estadística suficiente no crece con el tamaño de los datos: tiene solo tantos componentes como componentes de (equivalentemente, el número de parámetros de la distribución de un único punto de datos).

Las ecuaciones de actualización son las siguientes:

Esto muestra que las ecuaciones de actualización se pueden escribir simplemente en términos del número de puntos de datos y la estadística suficiente de los datos. Esto se puede ver claramente en los diversos ejemplos de ecuaciones de actualización que se muestran en la página anterior del conjugado . Debido a la forma en que se calcula la estadística suficiente, necesariamente involucra sumas de componentes de los datos (en algunos casos disfrazados de productos u otras formas; un producto se puede escribir en términos de una suma de logaritmos ). Los casos en los que las ecuaciones de actualización para distribuciones particulares no coinciden exactamente con las formas anteriores son casos en los que el conjugado previo se ha expresado usando una parametrización diferente a la que produce un conjugado previo de la forma anterior, a menudo específicamente porque la forma anterior es definido sobre el parámetro natural , mientras que los anteriores conjugados generalmente se definen sobre el parámetro real

Estimación imparcial

Si la probabilidad es una familia exponencial, entonces el estimador insesgado de es . [dieciséis]

Pruebas de hipótesis: pruebas uniformemente más potentes

Una familia exponencial de un parámetro tiene una relación de probabilidad monótona y no decreciente en el estadístico suficiente T ( x ), siempre que η ( θ ) no sea decreciente. Como consecuencia, existe una prueba uniformemente más poderosa para probar la hipótesis H 0 : θθ 0 vs . H 1 : θ < θ 0 .

Modelos lineales generalizados

Las familias exponenciales forman la base de las funciones de distribución utilizadas en los modelos lineales generalizados (GLM), una clase de modelo que abarca muchos de los modelos de regresión comúnmente utilizados en estadística. Los ejemplos incluyen la regresión logística utilizando la familia binomial y la regresión de Poisson .

Ver también

Notas a pie de página

  1. ^ Por ejemplo, la familia de distribuciones normales incluye la distribución normal estándar N (0, 1) con media 0 y varianza 1, así como otras distribuciones normales con media y varianza diferentes.
  2. ^ La "función de partición" se utiliza a menudo en estadística como sinónimo de "factor de normalización".
  3. ^ Estas distribuciones a menudo no son en sí mismas familias exponenciales. Ejemplos comunes de familias no exponenciales que surgen de familias exponenciales son la distribución t de Student , la distribución beta binomial y la distribución multinomial de Dirichlet .

Referencias

Citas

  1. ^ Kupperman, M. (1958). "Probabilidades de hipótesis e información-estadística en el muestreo de poblaciones de clases exponenciales". Anales de estadística matemática . 9 (2): 571–575. doi : 10.1214/aoms/1177706633 . JSTOR  2237349.
  2. ^ Andersen, Erling (septiembre de 1970). "Suficiencia y familias exponenciales para espacios muestrales discretos". Revista de la Asociación Estadounidense de Estadística . Revista de la Asociación Estadounidense de Estadística. 65 (331): 1248-1255. doi :10.2307/2284291. JSTOR  2284291. SEÑOR  0268992.
  3. ^ Pitman, E .; Wishart, J. (1936). "Estadísticas suficientes y precisión intrínseca". Actas matemáticas de la Sociedad Filosófica de Cambridge . 32 (4): 567–579. Código Bib : 1936PCPS...32..567P. doi :10.1017/S0305004100019307. S2CID  120708376.
  4. ^ Darmois, G. (1935). "Sur les lois de probabilites una estimación exhaustiva". CR Acad. Ciencia. París (en francés). 200 : 1265-1266.
  5. ^ Koopman, B. (1936). "Sobre la distribución admitiendo una estadística suficiente". Transacciones de la Sociedad Matemática Estadounidense . Sociedad Matemática Estadounidense . 39 (3): 399–409. doi : 10.2307/1989758 . JSTOR  1989758. SEÑOR  1501854.
  6. ^ "Familias exponenciales generales". www.randomservices.org . Consultado el 30 de agosto de 2022 .
  7. ^ Abramovich y Ritov (2013). Teoría estadística: una introducción concisa . Chapman y Hall. ISBN 978-1439851845.
  8. ^ Blei, David. "Inferencia variacional" (PDF) . Universidad de Princeton.
  9. ^ Casella, George (2002). Inferencia estadística. Roger L. Berger (2ª ed.). Australia: Thomson Learning. Teorema 6.2.25. ISBN 0-534-24312-6. OCLC  46538638.
  10. ^ Marrón, Lawrence D. (1986). Fundamentos de las familias exponenciales estadísticas: con aplicaciones en la teoría de la decisión estadística. Hayward, California: Instituto de Estadística Matemática. Teorema 2.12. ISBN 0-940600-10-2. OCLC  15986663.
  11. ^ Keener, Robert W. (2010). Estadística teórica: temas para un curso básico. Nueva York. págs. 47, ejemplo 3.12. ISBN 978-0-387-93839-4. OCLC  676700036.{{cite book}}: CS1 maint: location missing publisher (link)
  12. ^ Nielsen, Frank; García, Vicente (2009). "Familias estadísticas exponenciales: un resumen con tarjetas didácticas". arXiv : 0911.4863 [cs.LG].
  13. ^ van Garderen, Kees Jan (1997). "Modelos exponenciales curvos en econometría". Teoría econométrica . 13 (6): 771–790. doi :10.1017/S0266466600006253. S2CID  122742807.
  14. ^ Nielsen & Nock 2010, 4. Divergencias de Bregman y entropía relativa de familias exponenciales.
  15. ^ Barndorff-Nielsen 1978, 9.1 Dualidad convexa y familias exponenciales.
  16. ^ Efron, Bradley (diciembre de 2011). "Fórmula de Tweedie y sesgo de selección". Revista de la Asociación Estadounidense de Estadística . 106 (496): 1602-1614. doi : 10.1198/jasa.2011.tm11181. ISSN  0162-1459. PMC 3325056 . PMID  22505788. 

Fuentes

Otras lecturas

enlaces externos