stringtranslate.com

Modelado jerárquico bayesiano

El modelado jerárquico bayesiano es un modelo estadístico escrito en múltiples niveles (forma jerárquica) que estima los parámetros de la distribución posterior utilizando el método bayesiano . [1] Los submodelos se combinan para formar el modelo jerárquico, y el teorema de Bayes se utiliza para integrarlos con los datos observados y dar cuenta de toda la incertidumbre presente. El resultado de esta integración es la distribución posterior, también conocida como estimación de probabilidad actualizada, a medida que se adquiere evidencia adicional sobre la distribución anterior .

Las estadísticas frecuentistas pueden producir conclusiones aparentemente incompatibles con las ofrecidas por las estadísticas bayesianas debido al tratamiento bayesiano de los parámetros como variables aleatorias y su uso de información subjetiva para establecer supuestos sobre estos parámetros. [2] Como los enfoques responden a diferentes preguntas, los resultados formales no son técnicamente contradictorios, pero los dos enfoques difieren sobre qué respuesta es relevante para aplicaciones particulares. Los bayesianos argumentan que la información relevante sobre la toma de decisiones y la actualización de creencias no se puede ignorar y que el modelado jerárquico tiene el potencial de anular los métodos clásicos en aplicaciones donde los encuestados proporcionan múltiples datos de observación. Además, el modelo ha demostrado ser robusto , con la distribución posterior menos sensible a los anteriores jerárquicos más flexibles.

El modelado jerárquico se utiliza cuando la información está disponible en varios niveles diferentes de unidades de observación. Por ejemplo, en el modelado epidemiológico para describir trayectorias de infección para múltiples países, las unidades de observación son países, y cada país tiene su propio perfil temporal de casos diarios de infección. [3] En el análisis de curvas de declive para describir la curva de declive de la producción de petróleo o gas para múltiples pozos, las unidades de observación son pozos de petróleo o gas en una región de yacimiento, y cada pozo tiene su propio perfil temporal de tasas de producción de petróleo o gas (generalmente, barriles por mes). [4] La estructura de datos para el modelado jerárquico conserva la estructura de datos anidada. La forma jerárquica de análisis y organización ayuda a comprender los problemas multiparamétricos y también juega un papel importante en el desarrollo de estrategias computacionales. [5]

Filosofía

Los métodos y modelos estadísticos comúnmente involucran múltiples parámetros que pueden considerarse relacionados o conectados de tal manera que el problema implica una dependencia del modelo de probabilidad conjunta para estos parámetros. [6] Los grados individuales de creencia, expresados ​​en forma de probabilidades, vienen con incertidumbre. [7] En medio de esto está el cambio de los grados de creencia a lo largo del tiempo. Como lo afirmaron el Profesor José M. Bernardo y el Profesor Adrian F. Smith , “La actualidad del proceso de aprendizaje consiste en la evolución de las creencias individuales y subjetivas sobre la realidad”. Estas probabilidades subjetivas están más directamente involucradas en la mente que las probabilidades físicas. [7] Por lo tanto, es con esta necesidad de actualizar las creencias que los bayesianos han formulado un modelo estadístico alternativo que toma en cuenta la ocurrencia previa de un evento particular. [8]

Teorema de Bayes

La suposición de que se producirá un acontecimiento del mundo real suele modificar las preferencias entre determinadas opciones, modificando el grado de creencia que un individuo atribuye a los acontecimientos que definen las opciones. [9]

Supongamos que en un estudio sobre la eficacia de los tratamientos cardíacos, los pacientes del hospital j tienen una probabilidad de supervivencia , la probabilidad de supervivencia se actualizará con la ocurrencia de y , el evento en el que se crea un suero controvertido que, como creen algunos, aumenta la supervivencia en pacientes cardíacos.

Para realizar afirmaciones de probabilidad actualizadas sobre , dada la ocurrencia del evento y , debemos comenzar con un modelo que proporcione una distribución de probabilidad conjunta para y y . Esto se puede escribir como un producto de las dos distribuciones que a menudo se denominan distribución previa y distribución de muestreo respectivamente:

Utilizando la propiedad básica de probabilidad condicional , la distribución posterior producirá:

Esta ecuación, que muestra la relación entre la probabilidad condicional y los eventos individuales, se conoce como teorema de Bayes. Esta expresión simple encapsula el núcleo técnico de la inferencia bayesiana, cuyo objetivo es incorporar la creencia actualizada, , de formas apropiadas y solucionables. [9]

Intercambiabilidad

El punto de partida habitual de un análisis estadístico es la suposición de que los valores n son intercambiables. Si no hay información disponible (excepto los datos y ) para distinguir ninguno de los de los demás, y no se puede realizar ningún ordenamiento o agrupamiento de los parámetros, se debe suponer simetría entre los parámetros en su distribución anterior. [10] Esta simetría se representa probabilísticamente mediante la intercambiabilidad. En general, es útil y apropiado modelar los datos de una distribución intercambiable como distribuidos de forma independiente e idéntica , dado algún vector de parámetros desconocido , con distribución .

Intercambiabilidad finita

Para un número fijo n , el conjunto es intercambiable si la probabilidad conjunta es invariante ante permutaciones de los índices. Es decir, para cada permutación o de (1, 2, …, n ), [11]

A continuación se presenta un ejemplo intercambiable, pero no independiente e idéntico (iid): considere una urna con una bola roja y una bola azul en su interior, con probabilidad de extraer cualquiera de las dos. Las bolas se extraen sin reemplazo, es decir, después de extraer una bola de las n bolas, quedarán n  − 1 bolas restantes para la siguiente extracción.

Dado que la probabilidad de seleccionar una bola roja en el primer sorteo y una bola azul en el segundo sorteo es igual a la probabilidad de seleccionar una bola azul en el primer sorteo y una roja en el segundo sorteo, ambas iguales a 1/2 (es decir, ), entonces y son intercambiables.

Pero la probabilidad de seleccionar una bola roja en el segundo sorteo dado que la bola roja ya ha sido seleccionada en el primer sorteo es 0, y no es igual a la probabilidad de que la bola roja sea seleccionada en el segundo sorteo que es igual a 1/2 (es decir ). Por lo tanto, y no son independientes.

Si son independientes y están distribuidas de forma idéntica, entonces son intercambiables, pero lo inverso no es necesariamente cierto. [12]

Intercambiabilidad infinita

La intercambiabilidad infinita es la propiedad de que cada subconjunto finito de una secuencia infinita es intercambiable. Es decir, para cualquier n , la secuencia es intercambiable. [12]

Modelos jerárquicos

Componentes

El modelado jerárquico bayesiano utiliza dos conceptos importantes para derivar la distribución posterior, [1] a saber:

  1. Hiperparámetros : parámetros de la distribución previa
  2. Hiperpriores : distribuciones de hiperparámetros

Supóngase que una variable aleatoria Y sigue una distribución normal con parámetro como media y 1 como varianza , es decir . La relación con tilde puede leerse como "tiene la distribución de" o "se distribuye como". Supóngase también que el parámetro tiene una distribución dada por una distribución normal con media y varianza 1, es decir . Además, sigue otra distribución dada, por ejemplo, por la distribución normal estándar , . El parámetro se llama hiperparámetro, mientras que su distribución dada por es un ejemplo de una distribución hiperprior. La notación de la distribución de Y cambia a medida que se agrega otro parámetro, es decir . Si hay otra etapa, digamos, sigue otra distribución normal con media y varianza , es decir , y también pueden llamarse hiperparámetros mientras que sus distribuciones son distribuciones hiperprior también. [6]

Estructura

Sea una observación y un parámetro que rigen el proceso de generación de datos para . Supongamos además que los parámetros se generan de forma intercambiable a partir de una población común, con una distribución regida por un hiperparámetro . El modelo jerárquico bayesiano contiene las siguientes etapas:

La probabilidad, como se ve en la etapa I, es , con como su distribución previa. Nótese que la probabilidad depende únicamente de hasta .

La distribución previa de la etapa I se puede desglosar en:

[de la definición de probabilidad condicional]

Con como hiperparámetro con distribución hiperprior, .

Por tanto, la distribución posterior es proporcional a:

[utilizando el teorema de Bayes]
[13]

Ejemplo

Para ilustrar esto más a fondo, considere el ejemplo: Un profesor quiere estimar qué tan bien le fue a un estudiante en el SAT . El profesor usa información sobre las calificaciones de la escuela secundaria del estudiante y el promedio de calificaciones actual (GPA) para llegar a una estimación. El GPA actual del estudiante, denotado por , tiene una probabilidad dada por alguna función de probabilidad con parámetro , es decir . Este parámetro es la puntuación SAT del estudiante. La puntuación SAT se considera como una muestra que proviene de una distribución de población común indexada por otro parámetro , que es la calificación de la escuela secundaria del estudiante (primero, segundo, tercer o cuarto año). [14] Es decir, . Además, el hiperparámetro sigue su propia distribución dada por , un hiperprior. Para resolver la puntuación SAT dada la información sobre el GPA,

Toda la información del problema se utilizará para resolver la distribución posterior. En lugar de resolver únicamente utilizando la distribución anterior y la función de verosimilitud, el uso de hiperpriores brinda más información para generar creencias más precisas sobre el comportamiento de un parámetro. [15]

Modelo jerárquico de dos etapas

En general, la distribución posterior conjunta de interés en modelos jerárquicos de dos etapas es:

[15]

Modelo jerárquico de 3 etapas

Para los modelos jerárquicos de tres etapas, la distribución posterior viene dada por:

[15]

Modelo bayesiano no lineal de efectos mixtos

Ciclo de investigación bayesiano utilizando el modelo bayesiano de efectos mixtos no lineales: (a) ciclo de investigación estándar y (b) flujo de trabajo específico bayesiano [16] .

El marco de modelado jerárquico bayesiano se utiliza con frecuencia en diversas aplicaciones. En particular, los modelos no lineales bayesianos de efectos mixtos han recibido recientemente [ ¿cuándo? ] una atención significativa. [ ¿por quién? ] Una versión básica de los modelos no lineales bayesianos de efectos mixtos se representa en las tres etapas siguientes:

Etapa 1: Modelo a nivel individual

Etapa 2: Modelo de población

Etapa 3: Previa

Aquí, denota la respuesta continua del -ésimo sujeto en el punto temporal , y es la -ésima covariable del -ésimo sujeto. Los parámetros involucrados en el modelo se escriben en letras griegas. es una función conocida parametrizada por el vector -dimensional . Normalmente, es una función "no lineal" y describe la trayectoria temporal de los individuos. En el modelo, y describen la variabilidad intraindividual y la variabilidad entre individuos, respectivamente. Si no se considera la Etapa 3: previa , entonces el modelo se reduce a un modelo frecuentista no lineal de efectos mixtos.


Una tarea central en la aplicación de los modelos bayesianos no lineales de efectos mixtos es evaluar la densidad posterior:


El panel de la derecha muestra el ciclo de investigación bayesiano utilizando el modelo no lineal bayesiano de efectos mixtos. [16] Un ciclo de investigación que utiliza el modelo no lineal bayesiano de efectos mixtos comprende dos pasos: (a) ciclo de investigación estándar y (b) flujo de trabajo específico bayesiano. El ciclo de investigación estándar implica la revisión de la literatura, la definición de un problema y la especificación de la pregunta de investigación y la hipótesis. El flujo de trabajo específico bayesiano comprende tres subpasos: (b)–(i) formalización de distribuciones previas basadas en el conocimiento de fondo y la elicitación previa; (b)–(ii) determinación de la función de verosimilitud basada en una función no lineal ; y (b)–(iii) realización de una inferencia posterior. La inferencia posterior resultante se puede utilizar para iniciar un nuevo ciclo de investigación.

Referencias

  1. ^ de Allenby, Rossi, McCulloch (enero de 2005). "Hierarchical Bayes Model: A Practitioner's Guide". Journal of Bayesian Applications in Marketing, págs. 1–4. Consultado el 26 de abril de 2014, pág. 3.
  2. ^ Gelman, Andrew ; Carlin, John B.; Stern, Hal S. y Rubin, Donald B. (2004). Análisis de datos bayesianos (segunda edición). Boca Raton, Florida: CRC Press. pp. 4–5. ISBN 1-58488-388-X.
  3. ^ Lee, Se Yoon; Lei, Bowen; Mallick, Bani (2020). "Estimación de curvas de propagación de COVID-19 integrando datos globales y tomando prestada información". PLOS ONE . ​​15 (7): e0236860. arXiv : 2005.00662 . doi : 10.1371/journal.pone.0236860 . PMC 7390340 . PMID  32726361. 
  4. ^ Lee, Se Yoon; Mallick, Bani (2021). "Modelado jerárquico bayesiano: aplicación a los resultados de producción en Eagle Ford Shale del sur de Texas". Sankhya B . 84 : 1–43. doi : 10.1007/s13571-020-00245-8 .
  5. ^ Gelman y otros. 2004, pág. 6.
  6. ^ ab Gelman et al. 2004, pág. 117.
  7. ^ ab Bueno, IJ (1980). "Un poco de historia de la metodología bayesiana jerárquica". Trabajos de Estadística y de Investigación Operativa . 31 : 489–519. doi :10.1007/BF02888365. S2CID  121270218.
  8. ^ Bernardo, Smith (1994). Teoría bayesiana. Chichester, Inglaterra: John Wiley & Sons, ISBN 0-471-92416-4 , pág. 23 
  9. ^ ab Gelman et al. 2004, págs. 6–8.
  10. ^ Bernardo, Degroot, Lindley (septiembre de 1983). “Actas de la Segunda Reunión Internacional de Valencia”. Bayesian Statistics 2. Ámsterdam: Elsevier Science Publishers BV, ISBN 0-444-87746-0 , págs. 167–168 
  11. ^ Gelman et al. 2004, págs. 121-125.
  12. ^ ab Diaconis, Freedman (1980). “Secuencias finitas intercambiables”. Anales de probabilidad, págs. 745-747
  13. ^ Bernardo, Degroot, Lindley (septiembre de 1983). “Actas de la Segunda Reunión Internacional de Valencia”. Bayesian Statistics 2. Ámsterdam: Elsevier Science Publishers BV, ISBN 0-444-87746-0 , págs. 371–372 
  14. ^ Gelman et al. 2004, págs. 120-121.
  15. ^ abc Box GEP , Tiao GC (1965). "Problema multiparamétrico desde un punto de vista bayesiano". Problemas multiparamétricos desde un punto de vista bayesiano, volumen 36, número 5. Nueva York: John Wiley & Sons, ISBN 0-471-57428-7 
  16. ^ ab Lee, Se Yoon (2022). "Modelos no lineales bayesianos para datos de medición repetidos: descripción general, implementación y aplicaciones". Matemáticas . 10 (6): 898. arXiv : 2201.12430 . doi : 10.3390/math10060898 .