El factor Bayes es una proporción de dos modelos estadísticos en competencia representados por su evidencia y se utiliza para cuantificar el apoyo de un modelo sobre el otro. [1] Los modelos en cuestión pueden tener un conjunto común de parámetros, como una hipótesis nula y una alternativa, pero esto no es necesario; por ejemplo, también podría ser un modelo no lineal en comparación con su aproximación lineal . El factor Bayes puede considerarse como un análogo bayesiano de la prueba de razón de verosimilitud , aunque utiliza la probabilidad integrada (es decir, marginal) en lugar de la probabilidad maximizada. Por lo tanto, ambas cantidades sólo coinciden bajo hipótesis simples (por ejemplo, dos valores de parámetros específicos). [2] Además, a diferencia de las pruebas de significación de la hipótesis nula , los factores de Bayes apoyan la evaluación de la evidencia a favor de una hipótesis nula, en lugar de permitir únicamente que la nula sea rechazada o no rechazada. [3]
Aunque conceptualmente simple, el cálculo del factor de Bayes puede resultar desafiante dependiendo de la complejidad del modelo y las hipótesis. [4] Dado que las expresiones cerradas de la probabilidad marginal generalmente no están disponibles, se han sugerido aproximaciones numéricas basadas en muestras de MCMC . [5] Para ciertos casos especiales, se pueden derivar expresiones algebraicas simplificadas; por ejemplo, la relación de densidad Savage-Dickey en el caso de una hipótesis precisa (igualdad restringida) frente a una alternativa no restringida. [6] [7] Otra aproximación, derivada de la aplicación de la aproximación de Laplace a las probabilidades integradas, se conoce como criterio de información bayesiano (BIC); [8] en grandes conjuntos de datos, el factor Bayes se acercará al BIC a medida que disminuya la influencia de los antecedentes. En conjuntos de datos pequeños, los antecedentes generalmente importan y no deben ser inadecuados, ya que el factor de Bayes no estará definido si alguna de las dos integrales en su relación no es finita.
El factor de Bayes es la relación de dos probabilidades marginales; es decir, las probabilidades de dos modelos estadísticos integrados sobre las probabilidades anteriores de sus parámetros. [9]
La probabilidad posterior de un modelo M dados los datos D viene dada por el teorema de Bayes :
El término clave dependiente de los datos representa la probabilidad de que algunos datos se produzcan bajo el supuesto del modelo M ; evaluarlo correctamente es la clave para la comparación del modelo bayesiano.
Dado un problema de selección de modelo en el que se desea elegir entre dos modelos basándose en los datos observados D , la plausibilidad de los dos modelos diferentes M 1 y M 2 , parametrizados por vectores de parámetros del modelo y , se evalúa mediante el factor de Bayes K dado por
Cuando los dos modelos tienen igual probabilidad previa, de modo que , el factor de Bayes es igual a la relación de las probabilidades posteriores de M 1 y M 2 . Si en lugar de la integral del factor de Bayes se utiliza la verosimilitud correspondiente a la estimación de máxima verosimilitud del parámetro para cada modelo estadístico, entonces la prueba se convierte en una prueba clásica de razón de verosimilitud . A diferencia de una prueba de razón de verosimilitud, esta comparación de modelos bayesianos no depende de ningún conjunto único de parámetros, ya que integra todos los parámetros en cada modelo (con respecto a los respectivos antecedentes). Una ventaja del uso de factores Bayes es que automáticamente, y de forma bastante natural, incluye una penalización por incluir demasiada estructura del modelo. [10] De este modo protege contra el sobreajuste . Para los modelos en los que no se dispone de una versión explícita de la probabilidad o su evaluación numérica es demasiado costosa, se puede utilizar el cálculo bayesiano aproximado para la selección del modelo en un marco bayesiano, [11] con la salvedad de que las estimaciones bayesianas aproximadas de los factores bayesianos suelen estar sesgadas. . [12]
Otros enfoques son:
Un valor de K > 1 significa que M 1 está más respaldado por los datos considerados que M 2 . Tenga en cuenta que las pruebas de hipótesis clásicas otorgan a una hipótesis (o modelo) un estado preferido (la 'hipótesis nula') y solo consideran la evidencia en su contra. Harold Jeffreys dio una escala para la interpretación de K : [13]
La segunda columna proporciona los pesos correspondientes de la evidencia en decihartleys (también conocidos como decibans ); Los bits se agregan en la tercera columna para mayor claridad. Según IJ Good, un cambio en el peso de la evidencia de 1 deciban o 1/3 de bit (es decir, un cambio en una razón de probabilidades de pares a aproximadamente 5:4) es tan fino como los humanos pueden percibir razonablemente su grado de creencia. en una hipótesis de uso cotidiano. [14]
Kass y Raftery (1995) proporcionan una tabla alternativa, ampliamente citada: [10]
Supongamos que tenemos una variable aleatoria que produce un éxito o un fracaso. Queremos comparar un modelo M 1 donde la probabilidad de éxito es q = 1 ⁄ 2 , y otro modelo M 2 donde q es desconocido y tomamos una distribución a priori para q que es uniforme en [0,1]. Tomamos una muestra de 200 y encontramos 115 éxitos y 85 fracasos. La probabilidad se puede calcular según la distribución binomial :
Así tenemos para M 1
mientras que para M 2 tenemos
La relación es entonces 1,2, lo que "apenas merece la pena mencionar", aunque apunta ligeramente hacia M 1 .
Una prueba de hipótesis frecuentista de M 1 (considerada aquí como una hipótesis nula ) habría producido un resultado muy diferente. Tal prueba dice que M 1 debe rechazarse al nivel de significancia del 5%, ya que la probabilidad de obtener 115 o más éxitos de una muestra de 200 si q = 1 ⁄ 2 es 0,02, y como prueba de dos colas de obtener una una cifra tan extrema o más extrema que 115 es 0,04. Tenga en cuenta que 115 está a más de dos desviaciones estándar de 100. Por lo tanto, mientras que una prueba de hipótesis frecuentista arrojaría resultados significativos al nivel de significancia del 5%, el factor de Bayes difícilmente considera que este sea un resultado extremo. Tenga en cuenta, sin embargo, que un previo no uniforme (por ejemplo, uno que refleje el hecho de que se espera que el número de éxitos y fracasos sea del mismo orden de magnitud) podría dar como resultado un factor de Bayes que esté más de acuerdo con el frecuentista. prueba de hipotesis.
Una prueba clásica de razón de verosimilitud habría encontrado la estimación de máxima verosimilitud para q , es decir , de donde
(en lugar de promediar todos los q posibles ). Esto da un ratio de verosimilitud de 0,1 y apunta hacia M 2 .
M 2 es un modelo más complejo que M 1 porque tiene un parámetro libre que le permite modelar los datos con mayor precisión. La capacidad de los factores de Bayes para tener esto en cuenta es una de las razones por las que la inferencia bayesiana se ha propuesto como justificación teórica y generalización de la navaja de Occam , reduciendo los errores de tipo I. [15]
Por otro lado, el método moderno de probabilidad relativa tiene en cuenta el número de parámetros libres en los modelos, a diferencia del índice de verosimilitud clásico. El método de probabilidad relativa podría aplicarse de la siguiente manera. El modelo M 1 tiene 0 parámetros, por lo que su valor del criterio de información de Akaike (AIC) es . El modelo M 2 tiene 1 parámetro, por lo que su valor AIC es . Por lo tanto, M 1 es aproximadamente veces más probable que M 2 para minimizar la pérdida de información. Por tanto, se prefiere ligeramente M2, pero no se puede excluir M1 .
{{cite book}}
: CS1 maint: location missing publisher (link)