Una verosimilitud marginal es una función de verosimilitud que se ha integrado sobre el espacio de parámetros . En estadística bayesiana , representa la probabilidad de generar la muestra observada para todos los valores posibles de los parámetros; puede entenderse como la probabilidad del modelo en sí y, por lo tanto, a menudo se la denomina evidencia del modelo o simplemente evidencia .
Debido a la integración sobre el espacio de parámetros, la verosimilitud marginal no depende directamente de los parámetros. Si el enfoque no está en la comparación de modelos, la verosimilitud marginal es simplemente la constante normalizadora que garantiza que la probabilidad posterior sea la adecuada. Está relacionada con la función de partición en mecánica estadística . [1]
Dado un conjunto de puntos de datos independientes distribuidos de manera idéntica donde, según alguna distribución de probabilidad parametrizada por , donde en sí misma es una variable aleatoria descrita por una distribución, es decir, la probabilidad marginal en general pregunta cuál es la probabilidad, donde se ha marginalizado (integrado):
La definición anterior se formula en el contexto de las estadísticas bayesianas, en cuyo caso se denomina densidad previa y es la verosimilitud. La verosimilitud marginal cuantifica la concordancia entre los datos y la previa en un sentido geométrico que se precisa [ ¿cómo? ] en de Carvalho et al. (2019). En las estadísticas clásicas ( frecuentistas ), el concepto de verosimilitud marginal aparece en cambio en el contexto de un parámetro conjunto , donde es el parámetro real de interés, y es un parámetro de molestia no interesante . Si existe una distribución de probabilidad para [ dudoso – discutir ] , a menudo es deseable considerar la función de verosimilitud solo en términos de , marginando :
Lamentablemente, las probabilidades marginales son generalmente difíciles de calcular. Se conocen soluciones exactas para una pequeña clase de distribuciones, en particular cuando el parámetro marginado es el conjugado anterior de la distribución de los datos. En otros casos, se necesita algún tipo de método de integración numérica , ya sea un método general como la integración gaussiana o un método de Monte Carlo , o un método especializado para problemas estadísticos como la aproximación de Laplace , el muestreo de Gibbs / Metrópolis o el algoritmo EM .
También es posible aplicar las consideraciones anteriores a una única variable aleatoria (punto de datos) , en lugar de a un conjunto de observaciones. En un contexto bayesiano, esto es equivalente a la distribución predictiva previa de un punto de datos.
En la comparación de modelos bayesianos , las variables marginalizadas son parámetros para un tipo particular de modelo y la variable restante es la identidad del modelo en sí. En este caso, la probabilidad marginalizada es la probabilidad de los datos dado el tipo de modelo, sin suponer ningún parámetro particular del modelo. Escribiendo para los parámetros del modelo, la probabilidad marginal para el modelo M es
En este contexto se utiliza normalmente el término evidencia del modelo . Esta cantidad es importante porque la razón de probabilidades posterior de un modelo M 1 frente a otro modelo M 2 implica una relación de probabilidades marginales, denominada factor de Bayes :
Lo cual puede enunciarse esquemáticamente como