stringtranslate.com

Método empírico de Bayes

Los métodos empíricos de Bayes son procedimientos de inferencia estadística en los que la distribución de probabilidad previa se estima a partir de los datos. Este enfoque contrasta con los métodos bayesianos estándar , para los cuales la distribución previa se fija antes de que se observe cualquier dato. A pesar de esta diferencia de perspectiva, el Bayes empírico puede verse como una aproximación a un tratamiento completamente bayesiano de un modelo jerárquico en el que los parámetros en el nivel más alto de la jerarquía se establecen en sus valores más probables, en lugar de integrarse. [1] El Bayes empírico, también conocido como máxima verosimilitud marginal , [2] representa un enfoque conveniente para establecer hiperparámetros , pero ha sido reemplazado en su mayor parte por análisis jerárquicos completamente bayesianos desde la década de 2000 con la creciente disponibilidad de técnicas de cálculo de buen rendimiento. Sin embargo, todavía se usa comúnmente para métodos variacionales en aprendizaje profundo, como los codificadores automáticos variacionales , donde los espacios de variables latentes son de alta dimensión.

Introducción

Los métodos empíricos de Bayes pueden verse como una aproximación a un tratamiento completamente bayesiano de un modelo jerárquico de Bayes .

En, por ejemplo, un modelo Bayes jerárquico de dos etapas, se supone que los datos observados se generan a partir de un conjunto de parámetros no observados según una distribución de probabilidad . A su vez, los parámetros pueden considerarse muestras extraídas de una población caracterizada por hiperparámetros según una distribución de probabilidad . En el modelo jerárquico de Bayes, aunque no en la aproximación empírica de Bayes, se considera que los hiperparámetros provienen de una distribución no parametrizada .

Por tanto , la información sobre una determinada cantidad de interés proviene no sólo de las propiedades de aquellos datos que dependen directamente de ella, sino también de las propiedades de la población de parámetros en su conjunto, inferidas a partir de los datos en su conjunto, resumidos por los hiperparámetros .

Usando el teorema de Bayes ,

En general, esta integral no será manejable analítica o simbólicamente y debe evaluarse mediante métodos numéricos . Se pueden utilizar aproximaciones estocásticas (aleatorias) o deterministas. Ejemplos de métodos estocásticos son la cadena de Markov Monte Carlo y el muestreo de Monte Carlo . Las aproximaciones deterministas se analizan en cuadratura .

Alternativamente, la expresión se puede escribir como

y el factor final de la integral se puede expresar a su vez como

Estos sugieren un esquema iterativo, cualitativamente similar en estructura a un muestreador de Gibbs , para desarrollar aproximaciones sucesivamente mejoradas a y . Primero, calcule una aproximación inicial para ignorar completamente la dependencia; luego calcule una aproximación a basada en la distribución aproximada inicial de ; luego use esto para actualizar la aproximación para ; luego actualizar ; etcétera.

Cuando la distribución verdadera tiene un pico pronunciado, la determinación integral no puede cambiar mucho reemplazando la distribución de probabilidad con una estimación puntual que represente el pico de la distribución (o, alternativamente, su media).

Con esta aproximación, el esquema iterativo anterior se convierte en el algoritmo EM .

El término "Bayes empírico" puede abarcar una amplia variedad de métodos, pero la mayoría puede considerarse como un truncamiento temprano del esquema anterior o algo parecido. Generalmente se utilizan estimaciones puntuales, en lugar de la distribución completa, para los parámetros . Las estimaciones se realizan normalmente desde la primera aproximación hasta sin refinamiento posterior. Estas estimaciones de normalmente se realizan sin considerar una distribución previa adecuada de .

Estimación puntual

Método de Robbins: Bayes empírico no paramétrico (NPEB)

Robbins [3] consideró un caso de muestreo a partir de una distribución mixta , donde la probabilidad de cada una (condicionada a ) está especificada por una distribución de Poisson ,

mientras que el prior en θ no está especificado excepto que también es iid de una distribución desconocida, con función de distribución acumulativa . El muestreo compuesto surge en una variedad de problemas de estimación estadística, como las tasas de accidentes y los ensayos clínicos. [ cita necesaria ] Simplemente buscamos una predicción puntual de todos los datos observados. Debido a que el prior no está especificado, buscamos hacer esto sin conocimiento de G. [4]

Bajo pérdida de error al cuadrado (SEL), la expectativa condicional E ( θ i  |  Y i  =  y i ) es una cantidad razonable para usar en la predicción. Para el modelo de muestreo compuesto de Poisson, esta cantidad es

Esto se puede simplificar multiplicando el numerador y el denominador por , dando como resultado

donde p G es la función de masa de probabilidad marginal obtenida integrando θ sobre G .

Para aprovechar esto, Robbins [3] sugirió estimar los marginales con sus frecuencias empíricas ( ), obteniendo una estimación totalmente no paramétrica como:

donde denota "número de". (Ver también Estimación de frecuencia de Good-Turing ).

Ejemplo: tasas de accidentes

Supongamos que cada cliente de una compañía de seguros tiene una "tasa de accidentes" Θ y está asegurado contra accidentes; la distribución de probabilidad de Θ es la distribución subyacente y se desconoce. El número de accidentes sufridos por cada cliente en un período de tiempo específico tiene una distribución de Poisson con un valor esperado igual a la tasa de accidentes de ese cliente en particular. El número real de accidentes experimentados por un cliente es la cantidad observable. Una forma aproximada de estimar la distribución de probabilidad subyacente de la tasa de accidentes Θ es estimar la proporción de miembros de toda la población que sufren 0, 1, 2, 3, ... accidentes durante el período de tiempo especificado como la proporción correspondiente en el período observado. muestra aleatoria. Una vez hecho esto, se desea predecir la tasa de accidentes de cada cliente de la muestra. Como se indicó anteriormente, se puede utilizar el valor esperado condicional de la tasa de accidentes Θ dado el número observado de accidentes durante el período de referencia. Por lo tanto, si un cliente sufre seis accidentes durante el período de referencia, la tasa de accidentes estimada de ese cliente es 7 × [la proporción de la muestra que sufrió 7 accidentes] / [la proporción de la muestra que sufrió 6 accidentes]. Tenga en cuenta que si la proporción de personas que sufren k accidentes es una función decreciente de k , la tasa de accidentes prevista por el cliente a menudo será menor que el número de accidentes observado.

Este efecto de contracción es típico de los análisis empíricos de Bayes.

Bayes empírico paramétrico

Si la probabilidad y su a priori adoptan formas paramétricas simples (como funciones de probabilidad uni o bidimensionales con a priori conjugados simples ), entonces el problema empírico de Bayes consiste solo en estimar los parámetros marginales y los hiperparámetros utilizando el conjunto completo de medidas empíricas. Por ejemplo, un enfoque común, llamado estimación puntual paramétrica empírica de Bayes, es aproximar el marginal utilizando la estimación de máxima verosimilitud (MLE), o una expansión de momentos , que permite expresar los hiperparámetros en términos de media empírica y varianza. Este marginal simplificado permite introducir los promedios empíricos en una estimación puntual del anterior . La ecuación resultante para el anterior se simplifica enormemente, como se muestra a continuación.

Existen varios modelos empíricos paramétricos de Bayes comunes, incluido el modelo de Poisson-gamma (a continuación), el modelo Beta-binomial , el modelo Gaussiano-Gaussiano, el modelo multinomial de Dirichlet , así como modelos específicos para la regresión lineal bayesiana (ver más abajo) y Regresión lineal multivariada bayesiana . Los enfoques más avanzados incluyen modelos Bayes jerárquicos y modelos mixtos bayesianos.

Modelo gaussiano-gaussiano

Para ver un ejemplo de estimación empírica de Bayes utilizando un modelo gaussiano-gaussiano, consulte Estimadores empíricos de Bayes .

Modelo de Poisson-gamma

Por ejemplo, en el ejemplo anterior, supongamos que la probabilidad sea una distribución de Poisson y que el prior ahora esté especificado por el prior conjugado , que es una distribución gamma ( ) (donde ):

Es sencillo demostrar que la parte posterior también tiene una distribución gamma. Escribir

donde se ha omitido la distribución marginal ya que no depende explícitamente de . Los términos en expansión que dependen de dan el posterior como:

Entonces, la densidad posterior también es una distribución gamma , donde , y . Observe también que la marginal es simplemente la integral de la posterior sobre todo , lo que resulta ser una distribución binomial negativa .

Para aplicar Bayes empírico, aproximaremos el marginal utilizando la estimación de máxima verosimilitud (MLE). Pero como la posterior es una distribución gamma, el MLE de la marginal resulta ser simplemente la media de la posterior, que es la estimación puntual que necesitamos. Recordando que la media de una distribución gamma es simplemente , tenemos

Para obtener los valores de y , el Bayes empírico prescribe estimar la media y la varianza utilizando el conjunto completo de datos empíricos.

La estimación puntual resultante es, por tanto, como un promedio ponderado de la media muestral y la media anterior . Esto resulta ser una característica general del Bayes empírico; las estimaciones puntuales para la estimación previa (es decir, la media) se verán como promedios ponderados de la estimación de la muestra y la estimación previa (lo mismo ocurre con las estimaciones de la varianza).

Ver también

Referencias

  1. ^ Carlin, Bradley P.; Luis, Thomas A. (2002). "Bayes empírico: pasado, presente y futuro". En Raftery, Adrian E.; Tanner, Martín A.; Wells, Martín T. (eds.). Estadísticas en el siglo XXI . Chapman y Hall. págs. 312–318. ISBN 1-58488-272-7.
  2. ^ CM Obispo (2005). Redes neuronales para reconocimiento de patrones . Prensa de la Universidad de Oxford ISBN 0-19-853864-2 
  3. ^ ab Robbins, Herbert (1956). "Un enfoque empírico de Bayes para la estadística". Actas del Tercer Simposio de Berkeley sobre probabilidad y estadística matemática, volumen 1: Contribuciones a la teoría de la estadística . Serie Springer en Estadística: 157–163. doi :10.1007/978-1-4612-0919-5_26. ISBN 978-0-387-94037-3. SEÑOR  0084919.
  4. ^ Carlin, Bradley P.; Luis, Thomas A. (2000). Métodos Bayes y empíricos de Bayes para el análisis de datos (2ª ed.). Chapman y Hall/CRC. págs. 3.2 y Apéndice B. ISBN 978-1-58488-170-4.

Otras lecturas

enlaces externos