La estadística bayesiana ( / ˈb eɪ z i ə n / BAY -zee-ən o / ˈb eɪ ʒ ən / BAY -zhən ) [1] es una teoría en el campo de la estadística basada en la interpretación bayesiana de la probabilidad , donde la probabilidad expresa un grado de creencia en un evento . El grado de creencia puede basarse en el conocimiento previo sobre el evento, como los resultados de experimentos anteriores, o en creencias personales sobre el evento. Esto difiere de varias otras interpretaciones de la probabilidad , como la interpretación frecuentista , que ve la probabilidad como el límite de la frecuencia relativa de un evento después de muchos ensayos. [2] Más concretamente, el análisis en métodos bayesianos codifica el conocimiento previo en forma de una distribución previa .
Los métodos estadísticos bayesianos utilizan el teorema de Bayes para calcular y actualizar las probabilidades después de obtener nuevos datos. El teorema de Bayes describe la probabilidad condicional de un evento en función de los datos, así como de la información o creencias previas sobre el evento o las condiciones relacionadas con el evento. [3] [4] Por ejemplo, en la inferencia bayesiana , el teorema de Bayes se puede utilizar para estimar los parámetros de una distribución de probabilidad o un modelo estadístico . Dado que las estadísticas bayesianas tratan la probabilidad como un grado de creencia, el teorema de Bayes puede asignar directamente una distribución de probabilidad que cuantifique la creencia al parámetro o conjunto de parámetros. [2] [3]
La estadística bayesiana debe su nombre a Thomas Bayes , quien formuló un caso específico del teorema de Bayes en un artículo publicado en 1763. En varios artículos que abarcan desde finales del siglo XVIII hasta principios del siglo XIX, Pierre-Simon Laplace desarrolló la interpretación bayesiana de la probabilidad. [5] Laplace utilizó métodos que ahora se considerarían bayesianos para resolver una serie de problemas estadísticos. Muchos métodos bayesianos fueron desarrollados por autores posteriores, pero el término no se usó comúnmente para describir dichos métodos hasta la década de 1950. Durante gran parte del siglo XX, muchos estadísticos vieron los métodos bayesianos desfavorablemente debido a consideraciones filosóficas y prácticas. Muchos métodos bayesianos requerían muchos cálculos para completarse, y la mayoría de los métodos que se usaron ampliamente durante el siglo se basaron en la interpretación frecuentista. Sin embargo, con el advenimiento de computadoras poderosas y nuevos algoritmos como la cadena de Markov Monte Carlo , los métodos bayesianos han visto un uso creciente dentro de las estadísticas en el siglo XXI. [2] [6]
El teorema de Bayes se utiliza en los métodos bayesianos para actualizar las probabilidades, que son grados de creencia, después de obtener nuevos datos. Dados dos eventos y , la probabilidad condicional de que sea verdadera se expresa de la siguiente manera: [7]
donde . Aunque el teorema de Bayes es un resultado fundamental de la teoría de la probabilidad , tiene una interpretación específica en las estadísticas bayesianas. En la ecuación anterior, generalmente representa una proposición (como la afirmación de que una moneda cae de cara el cincuenta por ciento de las veces) y representa la evidencia o los nuevos datos que se deben tener en cuenta (como el resultado de una serie de lanzamientos de moneda). es la probabilidad previa de que expresa las creencias de uno sobre antes de que se tenga en cuenta la evidencia. La probabilidad previa también puede cuantificar el conocimiento o la información previos sobre . es la función de verosimilitud , que puede interpretarse como la probabilidad de que la evidencia dada sea verdadera. La verosimilitud cuantifica el grado en que la evidencia respalda la proposición . es la probabilidad posterior , la probabilidad de la proposición después de tener en cuenta la evidencia . Esencialmente, el teorema de Bayes actualiza las creencias previas de uno después de considerar la nueva evidencia . [2]
La probabilidad de la evidencia se puede calcular utilizando la ley de probabilidad total . Si es una partición del espacio muestral , que es el conjunto de todos los resultados de un experimento, entonces, [2] [7]
Cuando hay un número infinito de resultados, es necesario integrar todos los resultados para calcular utilizando la ley de probabilidad total. A menudo, es difícil de calcular ya que el cálculo implicaría sumas o integrales que llevarían mucho tiempo evaluar, por lo que a menudo solo se considera el producto de la probabilidad previa y la probabilidad, ya que la evidencia no cambia en el mismo análisis. La probabilidad posterior es proporcional a este producto: [2]
El máximo a posteriori , que es la moda del posterior y que a menudo se calcula en las estadísticas bayesianas utilizando métodos de optimización matemática , sigue siendo el mismo. El posterior se puede aproximar incluso sin calcular el valor exacto de con métodos como el método de Monte Carlo de cadena de Markov o los métodos bayesianos variacionales . [2]
El conjunto general de técnicas estadísticas se puede dividir en varias actividades, muchas de las cuales tienen versiones bayesianas especiales.
La inferencia bayesiana se refiere a la inferencia estadística en la que la incertidumbre en las inferencias se cuantifica utilizando la probabilidad. [8] En la inferencia frecuentista clásica , los parámetros del modelo y las hipótesis se consideran fijos. Las probabilidades no se asignan a los parámetros o hipótesis en la inferencia frecuentista. Por ejemplo, no tendría sentido en la inferencia frecuentista asignar directamente una probabilidad a un evento que solo puede suceder una vez, como el resultado del siguiente lanzamiento de una moneda justa. Sin embargo, tendría sentido afirmar que la proporción de caras se acerca a la mitad a medida que aumenta el número de lanzamientos de moneda. [9]
Los modelos estadísticos especifican un conjunto de supuestos y procesos estadísticos que representan cómo se generan los datos de muestra. Los modelos estadísticos tienen una serie de parámetros que se pueden modificar. Por ejemplo, una moneda se puede representar como muestras de una distribución de Bernoulli , que modela dos resultados posibles. La distribución de Bernoulli tiene un único parámetro igual a la probabilidad de un resultado, que en la mayoría de los casos es la probabilidad de caer cara. Idear un buen modelo para los datos es central en la inferencia bayesiana. En la mayoría de los casos, los modelos solo se aproximan al proceso verdadero y pueden no tener en cuenta ciertos factores que influyen en los datos. [2] En la inferencia bayesiana, las probabilidades se pueden asignar a los parámetros del modelo. Los parámetros se pueden representar como variables aleatorias . La inferencia bayesiana utiliza el teorema de Bayes para actualizar las probabilidades después de que se obtenga o conozca más evidencia. [2] [10]
La formulación de modelos estadísticos mediante estadísticas bayesianas tiene la característica distintiva de requerir la especificación de distribuciones previas para cualquier parámetro desconocido. De hecho, los parámetros de distribuciones previas pueden tener distribuciones previas, lo que conduce al modelado jerárquico bayesiano , [11] [12] [13] también conocido como modelado multinivel. Un caso especial son las redes bayesianas .
Para realizar un análisis estadístico bayesiano, las mejores prácticas se analizan en van de Schoot et al. [14].
Para informar los resultados de un análisis estadístico bayesiano, se proporcionan pautas de informe de análisis bayesiano (BARG) en un artículo de acceso abierto de John K. Kruschke . [15]
El diseño bayesiano de experimentos incluye un concepto llamado "influencia de creencias previas". Este enfoque utiliza técnicas de análisis secuencial para incluir el resultado de experimentos anteriores en el diseño del próximo experimento. Esto se logra actualizando las "creencias" mediante el uso de la distribución previa y posterior . Esto permite que el diseño de experimentos haga un buen uso de recursos de todo tipo. Un ejemplo de esto es el problema de las máquinas tragamonedas .
El análisis exploratorio de modelos bayesianos es una adaptación o extensión del enfoque de análisis exploratorio de datos a las necesidades y peculiaridades del modelado bayesiano. En palabras de Persi Diaconis: [16]
El análisis exploratorio de datos busca revelar la estructura o descripciones simples de los datos. Observamos números o gráficos e intentamos encontrar patrones. Buscamos pistas sugeridas por la información de fondo, la imaginación, los patrones percibidos y la experiencia con otros análisis de datos.
El proceso de inferencia genera una distribución posterior, que tiene un papel central en la estadística bayesiana, junto con otras distribuciones como la distribución predictiva posterior y la distribución predictiva previa. La correcta visualización, análisis e interpretación de estas distribuciones es clave para responder adecuadamente las preguntas que motivan el proceso de inferencia. [17]
Al trabajar con modelos bayesianos hay una serie de tareas relacionadas que deben abordarse además de la inferencia misma:
Todas estas tareas forman parte del enfoque del análisis exploratorio de modelos bayesianos y su realización exitosa es fundamental para el proceso de modelado iterativo e interactivo. Estas tareas requieren resúmenes tanto numéricos como visuales. [18] [19] [20]