El modelado jerárquico bayesiano es un modelo estadístico escrito en múltiples niveles (forma jerárquica) que estima los parámetros de la distribución posterior utilizando el método bayesiano . [1] Los submodelos se combinan para formar el modelo jerárquico, y el teorema de Bayes se utiliza para integrarlos con los datos observados y tener en cuenta toda la incertidumbre presente. El resultado de esta integración es la distribución posterior, también conocida como estimación de probabilidad actualizada, a medida que se adquiere evidencia adicional sobre la distribución anterior .
Las estadísticas frecuentistas pueden arrojar conclusiones aparentemente incompatibles con las ofrecidas por las estadísticas bayesianas debido al tratamiento bayesiano de los parámetros como variables aleatorias y su uso de información subjetiva para establecer supuestos sobre estos parámetros. [2] Como los enfoques responden a preguntas diferentes, los resultados formales no son técnicamente contradictorios, pero los dos enfoques no están de acuerdo sobre qué respuesta es relevante para aplicaciones particulares. Los bayesianos sostienen que no se puede ignorar la información relevante sobre la toma de decisiones y la actualización de creencias y que el modelado jerárquico tiene el potencial de anular los métodos clásicos en aplicaciones en las que los encuestados proporcionan múltiples datos de observación. Además, el modelo ha demostrado ser robusto , con la distribución posterior menos sensible a los priores jerárquicos más flexibles.
El modelado jerárquico se utiliza cuando hay información disponible en varios niveles diferentes de unidades de observación. Por ejemplo, en los modelos epidemiológicos para describir las trayectorias de infección de varios países, las unidades de observación son países y cada país tiene su propio perfil temporal de casos infectados diarios. [3] En el análisis de la curva de declive para describir la curva de declive de la producción de petróleo o gas para múltiples pozos, las unidades de observación son pozos de petróleo o gas en una región de yacimiento, y cada pozo tiene su propio perfil temporal de tasas de producción de petróleo o gas (generalmente, barriles por mes). [4] La estructura de datos para el modelado jerárquico conserva la estructura de datos anidada. La forma jerárquica de análisis y organización ayuda a comprender problemas multiparamétricos y también juega un papel importante en el desarrollo de estrategias computacionales. [5]
Los métodos y modelos estadísticos comúnmente involucran múltiples parámetros que pueden considerarse relacionados o conectados de tal manera que el problema implica una dependencia del modelo de probabilidad conjunta para estos parámetros. [6] Los grados individuales de creencia, expresados en forma de probabilidades, vienen acompañados de incertidumbre. [7] En medio de esto está el cambio de los grados de creencia a lo largo del tiempo. Como afirmaron el Profesor José M. Bernardo y el Profesor Adrian F. Smith , “La actualidad del proceso de aprendizaje consiste en la evolución de creencias individuales y subjetivas sobre la realidad”. Estas probabilidades subjetivas están más directamente involucradas en la mente que en las probabilidades físicas. [7] Por lo tanto, es con esta necesidad de actualizar creencias que los bayesianos han formulado un modelo estadístico alternativo que tiene en cuenta la ocurrencia previa de un evento particular. [8]
La supuesta ocurrencia de un evento del mundo real generalmente modificará las preferencias entre ciertas opciones. Esto se hace modificando los grados de creencia que un individuo atribuye a los acontecimientos que definen las opciones. [9]
Supongamos que en un estudio de efectividad de tratamientos cardíacos, los pacientes hospitalizados j tienen probabilidad de supervivencia , la probabilidad de supervivencia se actualizará con la ocurrencia de y , evento en el que se crea un suero controvertido que, como algunos creen, aumenta. supervivencia en pacientes cardíacos.
Para hacer declaraciones de probabilidad actualizadas sobre , dada la ocurrencia del evento y , debemos comenzar con un modelo que proporcione una distribución de probabilidad conjunta para y y . Esto se puede escribir como un producto de las dos distribuciones que a menudo se denominan distribución previa y distribución muestral respectivamente:
Usando la propiedad básica de probabilidad condicional , la distribución posterior producirá:
Esta ecuación, que muestra la relación entre la probabilidad condicional y los eventos individuales, se conoce como teorema de Bayes. Esta simple expresión resume el núcleo técnico de la inferencia bayesiana que tiene como objetivo incorporar la creencia actualizada, de manera apropiada y solucionable. [9]
El punto de partida habitual de un análisis estadístico es el supuesto de que los valores de n son intercambiables. Si no hay información disponible , aparte de los datos y , para distinguir cualquiera de los demás, y no se puede ordenar o agrupar los parámetros, se debe asumir simetría entre los parámetros en su distribución anterior. [10] Esta simetría está representada probabilísticamente por la intercambiabilidad. Generalmente, es útil y apropiado modelar datos de una distribución intercambiable como distribuidos de manera independiente e idéntica , dado algún vector de parámetros desconocido , con distribución .
Para un número fijo n , el conjunto es intercambiable si la probabilidad conjunta es invariante bajo permutaciones de los índices. Es decir, para cada permutación o de (1, 2,…, n ), [11]
El siguiente es un ejemplo intercambiable, pero no independiente e idéntico (iid): Considere una urna con una bola roja y una bola azul dentro, con probabilidad de sacar cualquiera de ellas. Las bolas se extraen sin reemplazo, es decir, después de extraer una bola de las n bolas, quedarán n − 1 bolas restantes para el siguiente sorteo.
Dado que la probabilidad de seleccionar una bola roja en el primer sorteo y una bola azul en el segundo sorteo es igual a la probabilidad de seleccionar una bola azul en el primer sorteo y una roja en el segundo sorteo, las cuales son iguales a 1/ 2 (es decir ), entonces y son intercambiables.
Pero la probabilidad de seleccionar una bola roja en el segundo sorteo, dado que la bola roja ya ha sido seleccionada en el primer sorteo, es 0, y no es igual a la probabilidad de que la bola roja sea seleccionada en el segundo sorteo, que es igual a 1. /2 (es decir ). Por tanto, y no son independientes.
Si son independientes y están idénticamente distribuidos, entonces son intercambiables, pero lo contrario no es necesariamente cierto. [12]
La intercambiabilidad infinita es la propiedad de que todo subconjunto finito de una secuencia infinita es intercambiable. Es decir, para cualquier n , la secuencia es intercambiable. [12]
El modelado jerárquico bayesiano utiliza dos conceptos importantes para derivar la distribución posterior, [1] a saber:
Supongamos que una variable aleatoria Y sigue una distribución normal con el parámetro θ como media y 1 como varianza , es decir . La relación de tilde se puede leer como "tiene la distribución de" o "se distribuye como". Supongamos también que el parámetro tiene una distribución dada por una distribución normal con media y varianza 1, es decir . Además, sigue otra distribución dada, por ejemplo, por la distribución normal estándar , . El parámetro se llama hiperparámetro, mientras que su distribución dada por es un ejemplo de distribución hiperprior. La notación de la distribución de Y cambia a medida que se agrega otro parámetro, es decir . Si hay otra etapa, digamos, sigue otra distribución normal con media y varianza , es decir , y también pueden denominarse hiperparámetros, mientras que sus distribuciones también son distribuciones hiperprioristas. [6]
Sea una observación y un parámetro que gobierna el proceso de generación de datos para . Supongamos además que los parámetros se generan de forma intercambiable a partir de una población común, con una distribución gobernada por un hiperparámetro . El modelo jerárquico bayesiano contiene las siguientes etapas:
La probabilidad, como se ve en la etapa I , es , teniendo como distribución previa. Tenga en cuenta que la probabilidad depende únicamente de .
La distribución previa de la etapa I se puede desglosar en:
Con como hiperparámetro con distribución hiperprior, .
Así, la distribución posterior es proporcional a:
Para ilustrar mejor esto, considere el ejemplo: un maestro quiere estimar qué tan bien le fue a un estudiante en el SAT . El maestro utiliza información sobre las calificaciones de la escuela secundaria del estudiante y el promedio de calificaciones (GPA) actual para elaborar una estimación. El GPA actual del estudiante, denotado por , tiene una probabilidad dada por alguna función de probabilidad con parámetro , es decir . Este parámetro es el puntaje SAT del estudiante. El puntaje del SAT se ve como una muestra proveniente de una distribución poblacional común indexada por otro parámetro , que es el grado de escuela secundaria del estudiante (primero, segundo, tercer o cuarto año). [14] Es decir, . Además, el hiperparámetro sigue su propia distribución dada por , un hiperprior. Para resolver el puntaje del SAT dada la información sobre el GPA,
Toda la información del problema se utilizará para resolver la distribución posterior. En lugar de resolver utilizando únicamente la distribución a priori y la función de verosimilitud, el uso de hiperpriores proporciona más información para hacer creencias más precisas sobre el comportamiento de un parámetro. [15]
En general, la distribución posterior conjunta de interés en modelos jerárquicos de 2 etapas es:
Para modelos jerárquicos de 3 etapas, la distribución posterior viene dada por:
El marco del modelado jerárquico bayesiano se utiliza con frecuencia en diversas aplicaciones. En particular, los modelos bayesianos no lineales de efectos mixtos han aparecido recientemente [ ¿cuándo? ] recibió una atención significativa. [ ¿por quién? ] Una versión básica de los modelos bayesianos no lineales de efectos mixtos se representa en las siguientes tres etapas:
Etapa 1: modelo a nivel individual
Etapa 2: Modelo de población
Etapa 3: previa
Aquí, denota la respuesta continua del -ésimo sujeto en el momento y es la -ésima covariable del -ésimo sujeto. Los parámetros involucrados en el modelo están escritos en letras griegas. es una función conocida parametrizada por el vector -dimensional . Normalmente, es una función "no lineal" y describe la trayectoria temporal de los individuos. En el modelo, y describen la variabilidad intraindividual y la variabilidad entre individuos, respectivamente. Si no se considera la Etapa 3: Previa , entonces el modelo se reduce a un modelo frecuentista no lineal de efectos mixtos.
Una tarea central en la aplicación de los modelos bayesianos no lineales de efectos mixtos es evaluar la densidad posterior:
El panel de la derecha muestra el ciclo de investigación bayesiano utilizando el modelo bayesiano de efectos mixtos no lineal. [16] Un ciclo de investigación que utiliza el modelo bayesiano de efectos mixtos no lineales comprende dos pasos: (a) ciclo de investigación estándar y (b) flujo de trabajo bayesiano específico. El ciclo de investigación estándar implica la revisión de la literatura, la definición de un problema y la especificación de la pregunta y la hipótesis de la investigación. El flujo de trabajo específico bayesiano comprende tres subpasos: (b) – (i) formalizar distribuciones previas basadas en conocimientos previos y obtención previa; (b)–(ii) determinar la función de probabilidad basándose en una función no lineal ; y (b)–(iii) hacer una inferencia posterior. La inferencia posterior resultante se puede utilizar para iniciar un nuevo ciclo de investigación.