stringtranslate.com

Método Bayes empírico

Los métodos bayesianos empíricos son procedimientos de inferencia estadística en los que se estima la distribución de probabilidad previa a partir de los datos. Este enfoque contrasta con los métodos bayesianos estándar , para los cuales la distribución previa se fija antes de observar los datos. A pesar de esta diferencia de perspectiva, el bayesiano empírico puede verse como una aproximación a un tratamiento completamente bayesiano de un modelo jerárquico en el que los parámetros en el nivel más alto de la jerarquía se establecen en sus valores más probables, en lugar de integrarse. [1] El bayesiano empírico, también conocido como máxima verosimilitud marginal , [2] representa un enfoque conveniente para establecer hiperparámetros , pero ha sido reemplazado en su mayoría por análisis jerárquicos completamente bayesianos desde la década de 2000 con la creciente disponibilidad de técnicas de computación de buen rendimiento. Sin embargo, todavía se usa comúnmente para métodos variacionales en aprendizaje profundo, como autocodificadores variacionales , donde los espacios de variables latentes son de alta dimensión.

Introducción

Los métodos Bayes empíricos pueden verse como una aproximación a un tratamiento totalmente bayesiano de un modelo Bayes jerárquico .

Por ejemplo, en un modelo Bayes jerárquico de dos etapas, se supone que los datos observados se generan a partir de un conjunto no observado de parámetros de acuerdo con una distribución de probabilidad . A su vez, los parámetros pueden considerarse muestras extraídas de una población caracterizada por hiperparámetros de acuerdo con una distribución de probabilidad . En el modelo Bayes jerárquico, aunque no en la aproximación Bayes empírica, se considera que los hiperparámetros se extraen de una distribución no parametrizada .

Por lo tanto, la información sobre una determinada cantidad de interés no proviene sólo de las propiedades de los datos que dependen directamente de ella, sino también de las propiedades de la población de parámetros en su conjunto, inferidas a partir de los datos en su conjunto, resumidas por los hiperparámetros .

Utilizando el teorema de Bayes ,

En general, esta integral no se puede analizar ni simbólicamente y debe evaluarse mediante métodos numéricos . Se pueden utilizar aproximaciones estocásticas (aleatorias) o deterministas. Algunos ejemplos de métodos estocásticos son el muestreo de Monte Carlo y el de Cadena de Markov . Las aproximaciones deterministas se analizan en la sección de cuadratura .

Alternativamente, la expresión se puede escribir como

y el factor final de la integral puede a su vez expresarse como

Estos sugieren un esquema iterativo, cualitativamente similar en estructura a un muestreador de Gibbs , para desarrollar aproximaciones sucesivamente mejoradas a y . Primero, calcule una aproximación inicial a ignorando la dependencia por completo; luego calcule una aproximación a basada en la distribución aproximada inicial de ; luego use esto para actualizar la aproximación para ; luego actualice ; y así sucesivamente.

Cuando la distribución verdadera tiene un pico muy pronunciado, la determinación integral no puede cambiar mucho si se reemplaza la distribución de probabilidad con una estimación puntual que represente el pico de la distribución (o, alternativamente, su media).

Con esta aproximación, el esquema iterativo anterior se convierte en el algoritmo EM .

El término "Bayes empírico" puede cubrir una amplia variedad de métodos, pero la mayoría puede considerarse como un truncamiento temprano del esquema anterior o algo bastante similar. Se utilizan estimaciones puntuales, en lugar de la distribución completa, para los parámetros . Las estimaciones para se realizan normalmente a partir de la primera aproximación a sin refinamiento posterior. Estas estimaciones para se realizan normalmente sin considerar una distribución previa adecuada para .

Estimación puntual

Método de Robbins: Bayes empírico no paramétrico (NPEB)

Robbins [3] consideró un caso de muestreo de una distribución mixta , donde la probabilidad para cada (condicionada a ) está especificada por una distribución de Poisson ,

mientras que la anterior en θ no está especificada excepto que también es iid de una distribución desconocida, con función de distribución acumulativa . El muestreo compuesto surge en una variedad de problemas de estimación estadística, como tasas de accidentes y ensayos clínicos. [ cita requerida ] Simplemente buscamos una predicción puntual de dados todos los datos observados. Debido a que la anterior no está especificada, buscamos hacer esto sin conocimiento de G . [4]

En el caso de la pérdida de error al cuadrado (SEL), la expectativa condicional E( θ i  |  Y i  =  y i ) es una cantidad razonable para usar en la predicción. Para el modelo de muestreo compuesto de Poisson, esta cantidad es

Esto se puede simplificar multiplicando tanto el numerador como el denominador por , obteniendo

donde p G es la función de masa de probabilidad marginal obtenida al integrar θ sobre G .

Para aprovechar esto, Robbins [3] sugirió estimar los marginales con sus frecuencias empíricas ( ), obteniendo la estimación totalmente no paramétrica como:

donde denota "número de". (Véase también estimación de frecuencia de Good-Turing ).

Ejemplo – Tasas de accidentes

Supongamos que cada cliente de una compañía de seguros tiene una "tasa de accidentes" Θ y está asegurado contra accidentes; la distribución de probabilidad de Θ es la distribución subyacente y es desconocida. El número de accidentes sufridos por cada cliente en un período de tiempo específico tiene una distribución de Poisson con un valor esperado igual a la tasa de accidentes del cliente en particular. El número real de accidentes experimentados por un cliente es la cantidad observable. Una forma rudimentaria de estimar la distribución de probabilidad subyacente de la tasa de accidentes Θ es estimar la proporción de miembros de toda la población que sufren 0, 1, 2, 3, ... accidentes durante el período de tiempo especificado como la proporción correspondiente en la muestra aleatoria observada. Una vez hecho esto, se desea predecir la tasa de accidentes de cada cliente en la muestra. Como se indicó anteriormente, se puede utilizar el valor esperado condicional de la tasa de accidentes Θ dado el número observado de accidentes durante el período de referencia. Por lo tanto, si un cliente sufre seis accidentes durante el período de referencia, la tasa de accidentes estimada de ese cliente es 7 × [la proporción de la muestra que sufrió 7 accidentes] / [la proporción de la muestra que sufrió 6 accidentes]. Obsérvese que si la proporción de personas que sufren k accidentes es una función decreciente de k , la tasa de accidentes prevista del cliente a menudo será inferior a su número observado de accidentes.

Este efecto de contracción es típico de los análisis Bayes empíricos.

Bayes empírico paramétrico

Si la probabilidad y su anterior adoptan formas paramétricas simples (como funciones de probabilidad unidimensionales o bidimensionales con anteriores conjugados simples ), entonces el problema de Bayes empírico consiste únicamente en estimar los marginales y los hiperparámetros utilizando el conjunto completo de mediciones empíricas. Por ejemplo, un enfoque común, llamado estimación puntual de Bayes empírica paramétrica, consiste en aproximar el marginal utilizando la estimación de máxima verosimilitud (MLE), o una expansión de momentos , que permite expresar los hiperparámetros en términos de la media y la varianza empíricas. Este marginal simplificado permite introducir los promedios empíricos en una estimación puntual para el anterior . La ecuación resultante para el anterior se simplifica en gran medida, como se muestra a continuación.

Existen varios modelos bayesianos empíricos paramétricos comunes, entre ellos el modelo Poisson-gamma (abajo), el modelo beta-binomial , el modelo gaussiano-gaussiano, el modelo multinomial de Dirichlet , así como modelos específicos para la regresión lineal bayesiana (ver abajo) y la regresión lineal multivariante bayesiana . Los enfoques más avanzados incluyen los modelos bayesianos jerárquicos y los modelos de mezcla bayesiana.

Modelo gaussiano-gaussiano

Para ver un ejemplo de estimación empírica de Bayes utilizando un modelo gaussiano-gaussiano, consulte Estimadores empíricos de Bayes .

Modelo de Poisson-gamma

Por ejemplo, en el ejemplo anterior, sea la probabilidad una distribución de Poisson y sea la distribución anterior ahora especificada por la distribución anterior conjugada , que es una distribución gamma ( ) (donde ):

Es sencillo demostrar que la distribución posterior también es gamma. Escribe

donde se ha omitido la distribución marginal ya que no depende explícitamente de . Al expandir los términos que sí dependen de se obtiene la distribución posterior como:

Por lo tanto, la densidad posterior también es una distribución gamma , donde , y . Observe también que la marginal es simplemente la integral de la posterior sobre todo , que resulta ser una distribución binomial negativa .

Para aplicar el método Bayes empírico, aproximaremos la marginal utilizando la estimación de máxima verosimilitud (EMV). Pero como la distribución posterior es una distribución gamma, la EMV de la marginal resulta ser simplemente la media de la distribución posterior, que es la estimación puntual que necesitamos. Recordando que la media de una distribución gamma es simplemente , tenemos

Para obtener los valores de y , el método Bayes empírico prescribe estimar la media y la varianza utilizando el conjunto completo de datos empíricos.

Por lo tanto, la estimación puntual resultante es como un promedio ponderado de la media de la muestra y la media previa . Esto resulta ser una característica general del método Bayes empírico; las estimaciones puntuales para la previa (es decir, la media) se verán como promedios ponderados de la estimación de la muestra y la estimación previa (lo mismo ocurre con las estimaciones de la varianza).

Véase también

Referencias

  1. ^ Carlin, Bradley P.; Louis, Thomas A. (2002). "Bayes empírico: pasado, presente y futuro". En Raftery, Adrian E.; Tanner, Martin A.; Wells, Martin T. (eds.). Estadísticas en el siglo XXI . Chapman & Hall. págs. 312–318. ISBN 1-58488-272-7.
  2. ^ CM Bishop (2005). Redes neuronales para el reconocimiento de patrones . Oxford University Press ISBN 0-19-853864-2 
  3. ^ ab Robbins, Herbert (1956). "Un enfoque bayesiano empírico de la estadística". Actas del Tercer Simposio de Berkeley sobre estadística matemática y probabilidad, volumen 1: Contribuciones a la teoría de la estadística . Springer Series in Statistics: 157–163. doi :10.1007/978-1-4612-0919-5_26. ISBN 978-0-387-94037-3.Sr .  0084919.
  4. ^ Carlin, Bradley P.; Louis, Thomas A. (2000). Métodos bayesianos y bayesianos empíricos para el análisis de datos (2.ª ed.). Chapman & Hall/CRC. págs. Sec. 3.2 y Apéndice B. ISBN 978-1-58488-170-4.

Lectura adicional

Enlaces externos