Se refiere a cualquier hipótesis cuya probabilidad puede verse afectada por los datos (denominados en adelante evidencia ). A menudo hay hipótesis en pugna y la tarea consiste en determinar cuál es la más probable.
, la probabilidad previa , es la estimación de la probabilidad de la hipótesis antes de que se observen los datos , la evidencia actual.
, la evidencia , corresponde a datos nuevos que no fueron utilizados para calcular la probabilidad previa.
, la probabilidad posterior , es la probabilidad de que se dé , es decir, después de que se observe. Esto es lo que queremos saber: la probabilidad de una hipótesis dada la evidencia observada.
es la probabilidad de observar un determinado valor y se denomina verosimilitud . Como función de con valores fijos, indica la compatibilidad de la evidencia con la hipótesis dada. La función de verosimilitud es una función de la evidencia, , mientras que la probabilidad posterior es una función de la hipótesis, .
A veces se denomina probabilidad marginal o "evidencia modelo". Este factor es el mismo para todas las hipótesis posibles que se consideren (como es evidente por el hecho de que la hipótesis no aparece en ninguna parte del símbolo, a diferencia de todos los demás factores) y, por lo tanto, no se tiene en cuenta para determinar las probabilidades relativas de las diferentes hipótesis.
(Otro tiene .)
Para diferentes valores de , solo los factores y , ambos en el numerador, afectan el valor de – la probabilidad posterior de una hipótesis es proporcional a su probabilidad previa (su verosimilitud inherente) y a la verosimilitud recientemente adquirida (su compatibilidad con la nueva evidencia observada).
En los casos en que ("no "), la negación lógica de , es una probabilidad válida, la regla de Bayes se puede reescribir de la siguiente manera:
porque
y Esto centra la atención en el término Si ese término es aproximadamente 1, entonces la probabilidad de la hipótesis dada la evidencia, , es de aproximadamente , aproximadamente un 50% probable - igualmente probable o no probable. Si ese término es muy pequeño, cercano a cero, entonces la probabilidad de la hipótesis, dada la evidencia, es cercana a 1 o la hipótesis condicional es bastante probable. Si ese término es muy grande, mucho mayor que 1, entonces la hipótesis, dada la evidencia, es bastante improbable. Si la hipótesis (sin considerar la evidencia) es improbable, entonces es pequeña (pero no necesariamente astronómicamente pequeña) y es mucho mayor que 1 y este término se puede aproximar como y las probabilidades relevantes se pueden comparar directamente entre sí.
La actualización bayesiana se utiliza ampliamente y es computacionalmente conveniente. Sin embargo, no es la única regla de actualización que podría considerarse racional.
Ian Hacking observó que los argumentos tradicionales del tipo " libro holandés " no especificaban la actualización bayesiana: dejaban abierta la posibilidad de que las reglas de actualización no bayesianas pudieran evitar los libros holandeses. Hacking escribió: [2] "Y ni el argumento del libro holandés ni ningún otro en el arsenal personalista de pruebas de los axiomas de probabilidad implica el supuesto dinámico. Ninguno implica bayesianismo. Por lo tanto, el personalista requiere que el supuesto dinámico sea bayesiano. Es cierto que, en coherencia, un personalista podría abandonar el modelo bayesiano de aprendizaje a partir de la experiencia. La sal podría perder su sabor".
De hecho, existen reglas de actualización no bayesianas que también evitan los libros holandeses (como se analiza en la literatura sobre " cinemática de la probabilidad ") tras la publicación de la regla de Richard C. Jeffrey , que aplica la regla de Bayes al caso en que se asigna una probabilidad a la evidencia misma. [3] Las hipótesis adicionales necesarias para requerir de manera única la actualización bayesiana se han considerado sustanciales, complicadas e insatisfactorias. [4]
Inferencia sobre posibilidades excluyentes y exhaustivas
Si se utiliza evidencia simultáneamente para actualizar la creencia sobre un conjunto de proposiciones exclusivas y exhaustivas, se puede pensar que la inferencia bayesiana actúa sobre esta distribución de creencias en su conjunto.
Formulación general
Supongamos que un proceso está generando eventos independientes e idénticamente distribuidos , pero se desconoce la distribución de probabilidad . Dejemos que el espacio de eventos represente el estado actual de creencia para este proceso. Cada modelo está representado por evento . Las probabilidades condicionales se especifican para definir los modelos. es el grado de creencia en . Antes del primer paso de inferencia, es un conjunto de probabilidades previas iniciales . Estas deben sumar 1, pero de lo contrario son arbitrarias.
Supongamos que se observa que el proceso genera . Para cada , el valor anterior se actualiza al valor posterior . Del teorema de Bayes : [5]
Si se observan más pruebas, se podrá repetir este procedimiento.
Observaciones múltiples
Para una secuencia de observaciones independientes e idénticamente distribuidas , se puede demostrar por inducción que la aplicación repetida de lo anterior es equivalente a
donde
Formulación paramétrica: motivando la descripción formal
Al parametrizar el espacio de modelos, la creencia en todos los modelos puede actualizarse en un solo paso. La distribución de la creencia en el espacio de modelos puede entonces considerarse como una distribución de la creencia en el espacio de parámetros. Las distribuciones de esta sección se expresan como continuas, representadas por densidades de probabilidad, ya que esta es la situación habitual. Sin embargo, la técnica es igualmente aplicable a distribuciones discretas.
, un punto de datos en general. De hecho, puede ser un vector de valores.
, el parámetro de la distribución del punto de datos, es decir, . Puede ser un vector de parámetros.
, el hiperparámetro de la distribución de parámetros, es decir, . Puede ser un vector de hiperparámetros.
es la muestra, un conjunto de puntos de datos observados, es decir, .
, un nuevo punto de datos cuya distribución se desea predecir.
Inferencia bayesiana
La distribución previa es la distribución del parámetro o parámetros antes de que se observen los datos, es decir , . La distribución previa puede no determinarse fácilmente; en tal caso, una posibilidad puede ser utilizar la distribución previa de Jeffreys para obtener una distribución previa antes de actualizarla con observaciones más nuevas.
La distribución de muestreo es la distribución de los datos observados condicionada a sus parámetros, es decir , también se denomina probabilidad , especialmente cuando se la considera como una función del parámetro o parámetros, a veces escritos como .
La verosimilitud marginal (a veces también denominada evidencia ) es la distribución de los datos observados marginados sobre los parámetros, es decir, cuantifica el acuerdo entre los datos y la opinión de los expertos, en un sentido geométrico que se puede hacer preciso. [6] Si la verosimilitud marginal es 0, entonces no hay acuerdo entre los datos y la opinión de los expertos y no se puede aplicar la regla de Bayes.
La distribución posterior es la distribución del parámetro o parámetros después de tener en cuenta los datos observados. Esto se determina mediante la regla de Bayes , que constituye el núcleo de la inferencia bayesiana: esto se expresa en palabras como "posterior es proporcional a la probabilidad multiplicada por la anterior", o a veces como "posterior = probabilidad multiplicada por la anterior, sobre la evidencia".
En la práctica, para casi todos los modelos bayesianos complejos utilizados en el aprendizaje automático, la distribución posterior no se obtiene en una distribución de forma cerrada, principalmente porque el espacio de parámetros para puede ser muy alto, o el modelo bayesiano conserva cierta estructura jerárquica formulada a partir de las observaciones y los parámetros . En tales situaciones, debemos recurrir a técnicas de aproximación. [7]
Caso general: Sea la distribución condicional de dados y sea la distribución de . La distribución conjunta es entonces . La distribución condicional de dados se determina entonces por
La existencia y unicidad de la expectativa condicional necesaria es una consecuencia del teorema de Radon-Nikodym . Este fue formulado por Kolmogorov en su famoso libro de 1933. Kolmogorov subraya la importancia de la probabilidad condicional al escribir "Deseo llamar la atención sobre... y especialmente la teoría de probabilidades condicionales y expectativas condicionales..." en el Prefacio. [8] El teorema de Bayes determina la distribución posterior a partir de la distribución anterior. La unicidad requiere suposiciones de continuidad. [9] El teorema de Bayes se puede generalizar para incluir distribuciones anteriores impropias, como la distribución uniforme en la línea real. [10] Los métodos modernos de Monte Carlo de cadena de Markov han impulsado la importancia del teorema de Bayes, incluidos los casos con anteriores impropias. [11]
La teoría bayesiana exige el uso de la distribución predictiva posterior para hacer inferencia predictiva , es decir, para predecir la distribución de un nuevo punto de datos no observado. Es decir, en lugar de un punto fijo como predicción, se devuelve una distribución sobre los puntos posibles. Solo de esta manera se utiliza la distribución posterior completa del parámetro o parámetros. En comparación, la predicción en las estadísticas frecuentistas a menudo implica encontrar una estimación puntual óptima del parámetro o parámetros (por ejemplo, por máxima verosimilitud o estimación máxima a posteriori (MAP)) y luego introducir esta estimación en la fórmula para la distribución de un punto de datos. Esto tiene la desventaja de que no tiene en cuenta ninguna incertidumbre en el valor del parámetro y, por lo tanto, subestimará la varianza de la distribución predictiva.
En algunos casos, las estadísticas frecuentistas pueden solucionar este problema. Por ejemplo, los intervalos de confianza y los intervalos de predicción en las estadísticas frecuentistas, cuando se construyen a partir de una distribución normal con media y varianza desconocidas , se construyen utilizando una distribución t de Student . Esto estima correctamente la varianza, debido a los hechos de que (1) el promedio de las variables aleatorias normalmente distribuidas también se distribuye normalmente, y (2) la distribución predictiva de un punto de datos normalmente distribuido con media y varianza desconocidas, utilizando valores previos conjugados o no informativos, tiene una distribución t de Student. En las estadísticas bayesianas, sin embargo, la distribución predictiva posterior siempre se puede determinar con exactitud, o al menos con un nivel arbitrario de precisión cuando se utilizan métodos numéricos.
Ambos tipos de distribuciones predictivas tienen la forma de una distribución de probabilidad compuesta (al igual que la distribución de probabilidad marginal ). De hecho, si la distribución a priori es una distribución a priori conjugada , de modo que las distribuciones a priori y a posteriori provienen de la misma familia, se puede observar que tanto la distribución predictiva a priori como la a posteriori también provienen de la misma familia de distribuciones compuestas. La única diferencia es que la distribución predictiva a posteriori utiliza los valores actualizados de los hiperparámetros (aplicando las reglas de actualización bayesianas dadas en el artículo sobre la distribución a priori conjugada ), mientras que la distribución predictiva a priori utiliza los valores de los hiperparámetros que aparecen en la distribución a priori.
Propiedades matemáticas
Interpretación del factor
. Es decir, si el modelo fuera verdadero, la evidencia sería más probable de lo que predice el estado actual de creencias. Lo contrario se aplica para una disminución en la creencia. Si la creencia no cambia, . Es decir, la evidencia es independiente del modelo. Si el modelo fuera verdadero, la evidencia sería exactamente tan probable como lo predice el estado actual de creencias.
El gobierno de Cromwell
Si entonces . Si y , entonces . Esto puede interpretarse en el sentido de que las convicciones firmes son insensibles a las pruebas en contra.
La primera se deduce directamente del teorema de Bayes. La segunda se puede derivar aplicando la primera regla al evento "no " en lugar de " ", obteniendo "si , entonces ", de donde se sigue inmediatamente el resultado.
Comportamiento asintótico de la posterior
Consideremos el comportamiento de una distribución de creencias a medida que se actualiza un gran número de veces con ensayos independientes e idénticamente distribuidos . Para probabilidades previas suficientemente buenas, el teorema de Bernstein-von Mises establece que en el límite de ensayos infinitos, la distribución posterior converge a una distribución gaussiana independiente de la distribución previa inicial bajo ciertas condiciones delineadas por primera vez y rigurosamente probadas por Joseph L. Doob en 1948, a saber, si la variable aleatoria en consideración tiene un espacio de probabilidad finito . Los resultados más generales fueron obtenidos más tarde por el estadístico David A. Freedman , quien publicó en dos artículos de investigación seminales en 1963 [12] y 1965 [13] cuándo y bajo qué circunstancias se garantiza el comportamiento asintótico de la distribución posterior. Su artículo de 1963 trata, como Doob (1949), el caso finito y llega a una conclusión satisfactoria. Sin embargo, si la variable aleatoria tiene un espacio de probabilidad infinito pero contable (es decir, correspondiente a un dado con infinitas caras), el artículo de 1965 demuestra que para un subconjunto denso de valores a priori, el teorema de Bernstein-von Mises no es aplicable. En este caso, casi con seguridad no hay convergencia asintótica. Más tarde, en los años 1980 y 1990, Freedman y Persi Diaconis continuaron trabajando en el caso de espacios de probabilidad contables infinitos. [14] En resumen, puede que no haya suficientes ensayos para suprimir los efectos de la elección inicial, y especialmente para sistemas grandes (pero finitos) la convergencia puede ser muy lenta.
Priores conjugados
En forma parametrizada, a menudo se supone que la distribución anterior proviene de una familia de distribuciones llamadas distribuciones anteriores conjugadas . La utilidad de una distribución anterior conjugada es que la distribución posterior correspondiente estará en la misma familia y el cálculo puede expresarse en forma cerrada .
Estimaciones de parámetros y predicciones
A menudo se desea utilizar una distribución posterior para estimar un parámetro o una variable. Varios métodos de estimación bayesiana seleccionan mediciones de tendencia central de la distribución posterior.
Para los problemas unidimensionales, existe una mediana única para los problemas continuos prácticos. La mediana posterior es atractiva como estimador robusto . [15]
Si existe una media finita para la distribución posterior, entonces la media posterior es un método de estimación. [16]
Hay ejemplos en los que no se alcanza ningún máximo, en cuyo caso el conjunto de estimaciones de MAP está vacío .
Existen otros métodos de estimación que minimizan el riesgo posterior (pérdida posterior esperada) con respecto a una función de pérdida , y son de interés para la teoría de decisión estadística que utiliza la distribución de muestreo ("estadística frecuentista"). [18]
La distribución predictiva posterior de una nueva observación (que es independiente de las observaciones anteriores) está determinada por [19]
Ejemplos
Probabilidad de una hipótesis
Supongamos que hay dos cuencos llenos de galletas. El cuenco n.° 1 tiene 10 galletas con chispas de chocolate y 30 galletas normales, mientras que el cuenco n.° 2 tiene 20 de cada una. Nuestro amigo Fred elige un cuenco al azar y luego elige una galleta al azar. Podemos suponer que no hay ninguna razón para creer que Fred trate un cuenco de manera diferente a otro, lo mismo ocurre con las galletas. La galleta resulta ser normal. ¿Qué probabilidad hay de que Fred la haya elegido del cuenco n.° 1?
Intuitivamente, parece claro que la respuesta debería ser más de la mitad, ya que hay más galletas simples en el recipiente n.° 1. La respuesta precisa la da el teorema de Bayes. Sea que corresponden al recipiente n.° 1 y al recipiente n.° 2. Se da que los recipientes son idénticos desde el punto de vista de Fred, por lo tanto , y los dos deben sumar 1, por lo que ambos son iguales a 0,5. El evento es la observación de una galleta simple. A partir del contenido de los recipientes, sabemos que y la fórmula de Bayes arroja entonces
Antes de observar la galleta, la probabilidad que le asignamos a Fred de haber elegido el plato n.° 1 era la probabilidad previa, , que era 0,5. Después de observar la galleta, debemos revisar la probabilidad a , que es 0,6.
Hacer una predicción
Un arqueólogo trabaja en un yacimiento que se cree que data del período medieval, entre el siglo XI y el siglo XVI. Sin embargo, no se sabe con certeza en qué momento de este período estuvo habitado el yacimiento. Se encuentran fragmentos de cerámica, algunos de los cuales están vidriados y otros decorados. Se espera que si el yacimiento estuvo habitado durante el período medieval temprano, entonces el 1% de la cerámica estaría vidriada y el 50% de su área decorada, mientras que si hubiera estado habitado en el período medieval tardío, entonces el 81% estaría vidriada y el 5% de su área decorada. ¿Qué tan seguro puede estar el arqueólogo de la fecha de ocupación a medida que se desentierran los fragmentos?
Se debe calcular el grado de creencia en la variable continua (siglo), con el conjunto discreto de eventos como evidencia. Suponiendo una variación lineal del esmalte y la decoración con el tiempo, y que estas variables son independientes,
Supongamos que hay una probabilidad previa uniforme de , y que los ensayos son independientes y se distribuyen de forma idéntica . Cuando se descubre un nuevo fragmento de tipo , se aplica el teorema de Bayes para actualizar el grado de creencia de cada :
En el gráfico se muestra una simulación por ordenador del cambio de creencias a medida que se desentierran 50 fragmentos. En la simulación, el sitio estaba habitado alrededor de 1420, o . Al calcular el área bajo la parte relevante del gráfico para 50 ensayos, el arqueólogo puede decir que prácticamente no hay posibilidad de que el sitio estuviera habitado en los siglos XI y XII, aproximadamente un 1% de probabilidad de que estuviera habitado durante el siglo XIII, un 63% de probabilidad durante el siglo XIV y un 36% durante el siglo XV. El teorema de Bernstein-von Mises afirma aquí la convergencia asintótica a la distribución "verdadera" porque el espacio de probabilidad correspondiente al conjunto discreto de eventos es finito (véase la sección anterior sobre el comportamiento asintótico de la distribución posterior).
En estadística frecuentista y teoría de decisiones
Abraham Wald dio una justificación teórica de la toma de decisiones para el uso de la inferencia bayesiana , al demostrar que todo procedimiento bayesiano único es admisible . A la inversa, todo procedimiento estadístico admisible es un procedimiento bayesiano o un límite de procedimientos bayesianos. [20]
"En determinadas condiciones, todos los procedimientos admisibles son procedimientos bayesianos o límites de procedimientos bayesianos (en varios sentidos). Estos resultados notables, al menos en su forma original, se deben esencialmente a Wald. Son útiles porque la propiedad de ser bayesiano es más fácil de analizar que la admisibilidad". [20]
"En teoría de decisiones, un método bastante general para demostrar la admisibilidad consiste en exhibir un procedimiento como una solución de Bayes única". [24]
"En los primeros capítulos de este trabajo, se utilizaron distribuciones a priori con soporte finito y los correspondientes procedimientos de Bayes para establecer algunos de los principales teoremas relacionados con la comparación de experimentos. Los procedimientos de Bayes con respecto a distribuciones a priori más generales han desempeñado un papel muy importante en el desarrollo de la estadística, incluida su teoría asintótica". "Hay muchos problemas en los que un vistazo a las distribuciones a posteriori, para obtener distribuciones a priori adecuadas, proporciona información inmediatamente interesante. Además, esta técnica difícilmente puede evitarse en el análisis secuencial". [25]
"Un hecho útil es que cualquier regla de decisión de Bayes obtenida tomando una probabilidad previa adecuada sobre todo el espacio de parámetros debe ser admisible" [26]
"Un área importante de investigación en el desarrollo de ideas de admisibilidad ha sido el de los procedimientos convencionales de teoría de muestreo, y se han obtenido muchos resultados interesantes". [27]
Selección de modelo
La metodología bayesiana también desempeña un papel en la selección de modelos , donde el objetivo es seleccionar un modelo de un conjunto de modelos en competencia que represente lo más fielmente posible el proceso subyacente que generó los datos observados. En la comparación de modelos bayesianos, se selecciona el modelo con la mayor probabilidad posterior dados los datos. La probabilidad posterior de un modelo depende de la evidencia, o verosimilitud marginal , que refleja la probabilidad de que los datos sean generados por el modelo, y de la creencia previa del modelo. Cuando dos modelos en competencia se consideran a priori equiprobables, la relación de sus probabilidades posteriores corresponde al factor de Bayes . Dado que la comparación de modelos bayesianos tiene como objetivo seleccionar el modelo con la mayor probabilidad posterior, esta metodología también se conoce como la regla de selección máxima a posteriori (MAP) [28] o la regla de probabilidad MAP. [29]
Programación probabilística
Si bien los métodos bayesianos son conceptualmente simples, pueden ser matemática y numéricamente desafiantes. Los lenguajes de programación probabilística (PPL) implementan funciones para construir fácilmente modelos bayesianos junto con métodos de inferencia automática eficientes. Esto ayuda a separar la construcción del modelo de la inferencia, lo que permite a los profesionales concentrarse en sus problemas específicos y dejar que los PPL se encarguen de los detalles computacionales por ellos. [30] [31] [32]
La inferencia inductiva de Solomonoff es la teoría de la predicción basada en observaciones; por ejemplo, predecir el siguiente símbolo basándose en una serie dada de símbolos. La única suposición es que el entorno sigue una distribución de probabilidad desconocida pero computable . Es un marco inductivo formal que combina dos principios bien estudiados de inferencia inductiva: la estadística bayesiana y la navaja de Occam . [35] [ ¿ Fuente poco fiable? ] La probabilidad previa universal de Solomonoff de cualquier prefijo p de una secuencia computable x es la suma de las probabilidades de todos los programas (para una computadora universal) que calculan algo que comienza con p . Dado un p y cualquier distribución de probabilidad computable pero desconocida de la que se toma x , la probabilidad previa universal y el teorema de Bayes se pueden usar para predecir las partes aún no vistas de x de manera óptima. [36] [37]
Bioinformática y aplicaciones sanitarias
La inferencia bayesiana se ha aplicado en diferentes aplicaciones de bioinformática , incluido el análisis de expresión genética diferencial. [38] La inferencia bayesiana también se utiliza en un modelo general de riesgo de cáncer, llamado CIRI (Índice de riesgo individualizado continuo), donde se incorporan mediciones en serie para actualizar un modelo bayesiano que se construye principalmente a partir de conocimientos previos. [39] [40]
En la sala del tribunal
Los jurados pueden utilizar la inferencia bayesiana para acumular de forma coherente las pruebas a favor y en contra de un acusado, y para ver si, en su totalidad, cumplen con su umbral personal de " más allá de una duda razonable ". [41] [42] [43] El teorema de Bayes se aplica sucesivamente a todas las pruebas presentadas, y la posterior de una etapa se convierte en la anterior de la siguiente. El beneficio de un enfoque bayesiano es que proporciona al jurado un mecanismo imparcial y racional para combinar las pruebas. Puede ser apropiado explicar el teorema de Bayes a los jurados en forma de probabilidades , ya que las probabilidades de las apuestas se entienden más ampliamente que las probabilidades. Alternativamente, un enfoque logarítmico , reemplazando la multiplicación por la suma, podría ser más fácil de manejar para un jurado.
Si no está en duda la existencia del delito, sino sólo la identidad del culpable, se ha sugerido que la probabilidad previa debería ser uniforme para toda la población calificada. [44] Por ejemplo, si 1.000 personas podrían haber cometido el delito, la probabilidad previa de culpabilidad sería 1/1000.
El uso del teorema de Bayes por parte de los jurados es controvertido. En el Reino Unido, un testigo experto de la defensa explicó el teorema de Bayes al jurado en el caso R v Adams . El jurado condenó al jurado, pero el caso fue apelado sobre la base de que no se había proporcionado ningún medio para acumular pruebas a los jurados que no deseaban utilizar el teorema de Bayes. El Tribunal de Apelación confirmó la condena, pero también opinó que "Introducir el teorema de Bayes, o cualquier método similar, en un juicio penal sumerge al jurado en ámbitos inapropiados e innecesarios de teoría y complejidad, desviándolos de su tarea adecuada".
Gardner-Medwin [45] sostiene que el criterio en el que se debe basar un veredicto en un juicio penal no es la probabilidad de culpabilidad, sino más bien la probabilidad de la evidencia, dado que el acusado es inocente (similar a un valor p frecuentista ). Sostiene que si se debe calcular la probabilidad posterior de culpabilidad mediante el teorema de Bayes, se debe conocer la probabilidad previa de culpabilidad. Esto dependerá de la incidencia del delito, que es una prueba poco común a considerar en un juicio penal. Consideremos las siguientes tres proposiciones:
A – los hechos y testimonios conocidos podrían haber surgido si el acusado es culpable.
B – los hechos y testimonios conocidos podrían haber surgido si el acusado es inocente.
C – el acusado es culpable.
Gardner-Medwin sostiene que el jurado debería creer tanto en A como en B para poder condenar. A y no B implica la verdad de C , pero lo inverso no es cierto. Es posible que B y C sean ambas verdaderas, pero en este caso sostiene que un jurado debería absolver, aunque sepa que estará dejando libres a algunas personas culpables. Véase también la paradoja de Lindley .
Epistemología bayesiana
La epistemología bayesiana es un movimiento que aboga por la inferencia bayesiana como un medio para justificar las reglas de la lógica inductiva.
Karl Popper y David Miller han rechazado la idea del racionalismo bayesiano, es decir, el uso de la regla de Bayes para hacer inferencias epistemológicas: [46] Es propensa al mismo círculo vicioso que cualquier otra epistemología justificacionista , porque presupone lo que intenta justificar. Según este punto de vista, una interpretación racional de la inferencia bayesiana la vería meramente como una versión probabilística de la falsación , rechazando la creencia, comúnmente sostenida por los bayesianos, de que la alta probabilidad lograda por una serie de actualizaciones bayesianas probaría la hipótesis más allá de cualquier duda razonable, o incluso con una probabilidad mayor que 0.
Otro
El método científico se interpreta a veces como una aplicación de la inferencia bayesiana. En esta perspectiva, la regla de Bayes guía (o debería guiar) la actualización de probabilidades sobre hipótesis condicionadas a nuevas observaciones o experimentos . [47] La inferencia bayesiana también se ha aplicado para tratar problemas de programación estocástica con información incompleta por Cai et al. (2009). [48]
El término bayesiano se refiere a Thomas Bayes (1701-1761), quien demostró que se podían poner límites probabilísticos a un evento desconocido. [ cita requerida ] Sin embargo, fue Pierre-Simon Laplace (1749-1827) quien introdujo (como Principio VI) lo que ahora se llama teorema de Bayes y lo utilizó para abordar problemas en mecánica celeste , estadística médica, confiabilidad y jurisprudencia . [54] La inferencia bayesiana temprana, que usaba valores previos uniformes siguiendo el principio de razón insuficiente de Laplace , se llamó " probabilidad inversa " (porque infiere hacia atrás de las observaciones a los parámetros, o de los efectos a las causas [55] ). Después de la década de 1920, la "probabilidad inversa" fue suplantada en gran medida por una colección de métodos que llegaron a llamarse estadísticas frecuentistas . [55]
En el siglo XX, las ideas de Laplace se desarrollaron aún más en dos direcciones diferentes, dando lugar a corrientes objetivas y subjetivas en la práctica bayesiana. En la corriente objetiva o "no informativa", el análisis estadístico depende únicamente del modelo asumido, los datos analizados, [56] y el método de asignación de la anterior, que difiere de un practicante bayesiano objetivo a otro. En la corriente subjetiva o "informativa", la especificación de la anterior depende de la creencia (es decir, proposiciones sobre las que se prepara el análisis para actuar), que puede resumir información de expertos, estudios previos, etc.
En la década de 1980, hubo un crecimiento espectacular en la investigación y las aplicaciones de los métodos bayesianos, atribuido principalmente al descubrimiento de los métodos de Monte Carlo de cadenas de Markov , que eliminaron muchos de los problemas computacionales, y un creciente interés en aplicaciones complejas no estándar. [57] A pesar del crecimiento de la investigación bayesiana, la mayor parte de la enseñanza de pregrado todavía se basa en estadísticas frecuentistas. [58] No obstante, los métodos bayesianos son ampliamente aceptados y utilizados, como por ejemplo en el campo del aprendizaje automático . [59]
^ Hacking, Ian (diciembre de 1967). "Probabilidad personal ligeramente más realista". Filosofía de la ciencia . 34 (4): 316. doi :10.1086/288169. S2CID 14344339.
^ "Teorema de Bayes (Enciclopedia de Filosofía de Stanford)". Plato.stanford.edu . Consultado el 5 de enero de 2014 .
^ Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B. (2013). Análisis de datos bayesianos , tercera edición. Chapman y Hall/CRC. ISBN 978-1-4398-4095-5 .
^ de Carvalho, Miguel; Page, Garritt; Barney, Bradley (2019). "Sobre la geometría de la inferencia bayesiana" (PDF) . Análisis bayesiano . 14 (4): 1013‒1036. doi :10.1214/18-BA1112. S2CID 88521802.
^ Lee, Se Yoon (2021). "Inferencia variacional de ascenso de coordenadas y muestreador de Gibbs: una revisión de la teoría de conjuntos". Communications in Statistics – Theory and Methods . 51 (6): 1549–1568. arXiv : 2008.01006 . doi :10.1080/03610926.2021.1921214. S2CID 220935477.
^ Kolmogorov, AN (1933) [1956]. Fundamentos de la teoría de la probabilidad . Chelsea Publishing Company.
^ Tjur, Tue (1980). Probabilidad basada en medidas de radón. Internet Archive. Chichester [Eng.] ; Nueva York : Wiley. ISBN978-0-471-27824-5.
^ Taraldsen, Gunnar; Tufto, Jarle; Lindqvist, Bo H. (24 de julio de 2021). "Antes inadecuados y posteriores inadecuados". Revista escandinava de estadística . 49 (3): 969–991. doi : 10.1111/sjos.12550 . hdl : 11250/2984409 . ISSN 0303-6898. S2CID 237736986.
^ Robert, Christian P.; Casella, George (2004). Métodos estadísticos de Monte Carlo. Springer. ISBN978-1475741452.OCLC 1159112760 .
^ Freedman, DA (1963). "Sobre el comportamiento asintótico de las estimaciones de Bayes en el caso discreto". Anales de estadística matemática . 34 (4): 1386–1403. doi : 10.1214/aoms/1177703871 . JSTOR 2238346.
^ Freedman, DA (1965). "Sobre el comportamiento asintótico de las estimaciones de Bayes en el caso discreto II". Anales de estadística matemática . 36 (2): 454–456. doi : 10.1214/aoms/1177700155 . JSTOR 2238150.
^ Robins, James; Wasserman, Larry (2000). "Condicionamiento, verosimilitud y coherencia: una revisión de algunos conceptos fundamentales". Revista de la Asociación Estadounidense de Estadística . 95 (452): 1340–1346. doi :10.1080/01621459.2000.10474344. S2CID 120767108.
^ Sen, Pranab K. ; Keating, JP; Mason, RL (1993). Medida de proximidad de Pitman: una comparación de estimadores estadísticos . Filadelfia: SIAM.
^ Choudhuri, Nidhan; Ghosal, Subhashis; Roy, Anindya (1 de enero de 2005). "Métodos bayesianos para la estimación de funciones". Manual de estadística . Pensamiento bayesiano. Vol. 25. págs. 373–414. CiteSeerX 10.1.1.324.3052 . doi :10.1016/s0169-7161(05)25013-7. ISBN .9780444515391.
^ "Estimación máxima a posteriori (MAP)" www.probabilitycourse.com . Consultado el 2 de junio de 2017 .
^ Yu, Angela. "Introducción a la teoría de la decisión bayesiana" (PDF) . cogsci.ucsd.edu/ . Archivado desde el original (PDF) el 28 de febrero de 2013.
^ Kiefer, J. ; Schwartz R. (1965). "Carácter bayesiano admisible de pruebas T2, R2 y otras totalmente invariantes para problemas normales multivariados". Anales de estadística matemática . 36 (3): 747–770. doi : 10.1214/aoms/1177700051 .
^ Schwartz, R. (1969). "Pruebas Bayesianas Propias Invariantes para Familias Exponenciales". Anales de Estadística Matemática . 40 : 270–283. doi : 10.1214/aoms/1177697822 .
^ Hwang, JT y Casella, George (1982). "Conjuntos de confianza minimáx para la media de una distribución normal multivariante" (PDF) . Anales de estadística . 10 (3): 868–881. doi : 10.1214/aos/1176345877 .
^ Lehmann, Erich (1986). Prueba de hipótesis estadísticas (segunda edición).(véase la pág. 309 del Capítulo 6.7 “Admisibilidad”, y las págs. 17-18 del Capítulo 1.8 “Clases completas”
^ Le Cam, Lucien (1986). Métodos asintóticos en la teoría de decisiones estadísticas . Springer-Verlag. ISBN978-0-387-96307-5.(Del "Capítulo 12 Distribuciones posteriores y soluciones de Bayes", pág. 324)
^ Stoica, P.; Selen, Y. (2004). "Una revisión de las reglas de criterios de información". Revista IEEE de procesamiento de señales . 21 (4): 36–47. doi :10.1109/MSP.2004.1311138. S2CID 17338979.
^ Fatermans, J.; Van Aert, S.; den Dekker, AJ (2019). "La regla de máxima probabilidad a posteriori para la detección de columnas de átomos a partir de imágenes STEM de HAADF". Ultramicroscopía . 201 : 81–91. arXiv : 1902.05809 . doi :10.1016/j.ultramic.2019.02.003. PMID 30991277. S2CID 104419861.
^ Bessiere, P., Mazer, E., Ahuactzin, JM, y Mekhnacha, K. (2013). Programación bayesiana (1 edición) Chapman y Hall/CRC.
^ Daniel Roy (2015). "Programación probabilística". probabilistic-programming.org . Archivado desde el original el 10 de enero de 2016. Consultado el 2 de enero de 2020 .
^ Ghahramani, Z (2015). "Aprendizaje automático probabilístico e inteligencia artificial". Nature . 521 (7553): 452–459. Bibcode :2015Natur.521..452G. doi :10.1038/nature14541. PMID 26017444. S2CID 216356.
^ Fienberg, Stephen E. (1 de marzo de 2006). "¿Cuándo la inferencia bayesiana se volvió "bayesiana"?". Análisis bayesiano . 1 (1). doi : 10.1214/06-BA101 .
^ Jim Albert (2009). Cálculo bayesiano con R, segunda edición . Nueva York, Dordrecht, etc.: Springer. ISBN978-0-387-92297-3.
^ Rathmanner, Samuel; Hutter, Marcus; Ormerod, Thomas C (2011). "Un tratado filosófico de inducción universal". Entropía . 13 (6): 1076–1136. arXiv : 1105.5721 . Código Bibliográfico :2011Entrp..13.1076R. doi : 10.3390/e13061076 . S2CID 2499910.
^ Hutter, Marcus; He, Yang-Hui; Ormerod, Thomas C (2007). "Sobre la predicción universal y la confirmación bayesiana". Ciencias de la computación teórica . 384 (2007): 33–48. arXiv : 0709.1516 . Código Bibliográfico :2007arXiv0709.1516H. doi :10.1016/j.tcs.2007.05.016. S2CID 1500830.
^ Gács, Peter; Vitányi, Paul MB (2 de diciembre de 2010). "Raymond J. Solomonoff 1926-2009". CiteSeerX 10.1.1.186.8268 .
^ Robinson, Mark D y McCarthy, Davis J y Smyth, Gordon K edgeR: un paquete Bioconductor para el análisis de expresión diferencial de datos de expresión genética digital, Bioinformática.
^ "CIRI". ciri.stanford.edu . Consultado el 11 de agosto de 2019 .
^ Kurtz, David M.; Esfahani, Mohammad S.; Scherer, Florian; Soo, Joanne; Jin, Michael C.; Liu, Chih Long; Newman, Aaron M.; Dührsen, Ulrich; Hüttmann, Andreas (25 de julio de 2019). "Elaboración de perfiles de riesgo dinámicos utilizando biomarcadores tumorales seriados para la predicción personalizada de resultados". Cell . 178 (3): 699–713.e19. doi : 10.1016/j.cell.2019.06.011 . ISSN 1097-4172. PMC 7380118 . PMID 31280963.
^ Dawid, A. P. y Mortera, J. (1996) "Análisis coherente de la evidencia de identificación forense". Journal of the Royal Statistical Society , Serie B, 58, 425–443.
^
Foreman, L. A.; Smith, A. F. M., y Evett, I. W. (1997). "Análisis bayesiano de datos de perfiles de ácido desoxirribonucleico en aplicaciones de identificación forense (con discusión)". Journal of the Royal Statistical Society , Serie A, 160, 429–469.
^ Robertson, B. y Vignaux, G. A. (1995) Interpretación de la evidencia: evaluación de la ciencia forense en los tribunales . John Wiley and Sons. Chichester. ISBN 978-0-471-96026-3 .
^ Dawid, AP (2001) Teorema de Bayes y ponderación de la evidencia por parte de los jurados. Archivado el 1 de julio de 2015 en Wayback Machine.
^ Gardner-Medwin, A. (2005) "¿Qué probabilidad debería considerar el jurado?". Significance , 2 (1), marzo de 2005.
^ Miller, David (1994). Racionalismo crítico. Chicago: Open Court. ISBN.978-0-8126-9197-9.
^ Howson y Urbach (2005), Jaynes (2003)
^ Cai, XQ; Wu, XY; Zhou, X. (2009). "Programación estocástica sujeta a desgloses de repetición con información incompleta". Investigación de operaciones . 57 (5): 1236–1249. doi :10.1287/opre.1080.0660.
^ Ogle, Kiona; Tucker, Colin; Cable, Jessica M. (1 de enero de 2014). "Más allá de los modelos de mezcla lineal simple: partición isotópica basada en procesos de procesos ecológicos". Aplicaciones ecológicas . 24 (1): 181–195. doi :10.1890/1051-0761-24.1.181. ISSN 1939-5582. PMID 24640543.
^ Evaristo, Jaivime; McDonnell, Jeffrey J.; Scholl, Martha A.; Bruijnzeel, L. Adrian; Chun, Kwok P. (1 de enero de 2016). "Información sobre la absorción de agua por las plantas a partir de mediciones de isótopos de agua en el xilema en dos cuencas tropicales con condiciones de humedad contrastantes". Procesos hidrológicos . 30 (18): 3210–3227. Bibcode :2016HyPr...30.3210E. doi :10.1002/hyp.10841. ISSN 1099-1085. S2CID 131588159.
^ Gupta, Ankur; Rawlings, James B. (abril de 2014). "Comparación de métodos de estimación de parámetros en modelos cinéticos químicos estocásticos: ejemplos en biología de sistemas". AIChE Journal . 60 (4): 1253–1268. Bibcode :2014AIChE..60.1253G. doi :10.1002/aic.14409. ISSN 0001-1541. PMC 4946376 . PMID 27429455.
^ Fornalski, KW (2016). "El modelo bayesiano Tadpole para detectar cambios de tendencia en cotizaciones financieras" (PDF) . R&R Journal of Statistics and Mathematical Sciences . 2 (1): 117–122.
^ Schütz, N.; Holschneider, M. (2011). "Detección de cambios de tendencia en series temporales mediante inferencia bayesiana". Physical Review E . 84 (2): 021120. arXiv : 1104.3448 . Bibcode :2011PhRvE..84b1120S. doi :10.1103/PhysRevE.84.021120. PMID 21928962. S2CID 11460968.
^ Stigler, Stephen M. (1986). "Capítulo 3" . Historia de la estadística . Harvard University Press. ISBN9780674403406.
^ ab Fienberg, Stephen E. (2006). "¿Cuándo la inferencia bayesiana se volvió 'bayesiana'?". Bayesian Analysis . 1 (1): 1–40 [p. 5]. doi : 10.1214/06-ba101 .
^ Bernardo, José-Miguel (2005). "Análisis de referencias". Manual de estadística . Vol. 25. págs. 17–90.
^ Wolpert, R. L. (2004). "Una conversación con James O. Berger". Ciencia estadística . 19 (1): 205–218. CiteSeerX 10.1.1.71.6112 . doi :10.1214/088342304000000053. MR 2082155. S2CID 120094454.
^ Bernardo, José M. (2006). "Introducción a la estadística matemática bayesiana" (PDF) . Icots-7 .
^ Bishop, CM (2007). Reconocimiento de patrones y aprendizaje automático . Nueva York: Springer. ISBN978-0387310732.
Fuentes
Aster, Richard; Borchers, Brian y Thurber, Clifford (2012). Estimación de parámetros y problemas inversos , segunda edición, Elsevier. ISBN 0123850487 , ISBN 978-0123850485
Bickel, Peter J. y Doksum, Kjell A. (2001). Estadística matemática, volumen 1: temas básicos y selectos (segunda edición, edición actualizada en 2007). Pearson Prentice–Hall. ISBN 978-0-13-850363-5.
Edwards, Ward (1968). "Conservadurismo en el procesamiento de la información humana". En Kleinmuntz, B. (ed.). Representación formal del juicio humano . Wiley.
Edwards, Ward (1982). Daniel Kahneman ; Paul Slovic ; Amos Tversky (eds.). "Juicio bajo incertidumbre: heurística y sesgos". Science . 185 (4157): 1124–1131. Bibcode :1974Sci...185.1124T. doi :10.1126/science.185.4157.1124. PMID 17835457. S2CID 143452957. Capítulo: Conservadurismo en el procesamiento de información humana (extracto)
Jaynes E. T. (2003) Teoría de la probabilidad: la lógica de la ciencia , CUP. ISBN 978-0-521-59271-0 (Enlace a la edición fragmentaria de marzo de 1996).
Phillips, LD; Edwards, Ward (octubre de 2008). "Capítulo 6: Conservadurismo en una tarea de inferencia de probabilidad simple ( Revista de Psicología Experimental (1966) 72: 346-354)". En Jie W. Weiss; David J. Weiss (eds.). Una ciencia de la toma de decisiones: el legado de Ward Edwards . Oxford University Press. pág. 536. ISBN 978-0-19-532298-9.
Lectura adicional
Para un informe completo sobre la historia de las estadísticas bayesianas y los debates con los enfoques frecuentistas, lea Vallverdu, Jordi (2016). Bayesianos versus frecuentistas. Un debate filosófico sobre el razonamiento estadístico . Nueva York: Springer. ISBN 978-3-662-48638-2.
Clayton, Aubrey (agosto de 2021). La falacia de Bernoulli: falta de lógica estadística y la crisis de la ciencia moderna. Columbia University Press. ISBN 978-0-231-55335-3.
Elemental
Los siguientes libros se enumeran en orden ascendente de sofisticación probabilística:
Stone, JV (2013), "La regla de Bayes: una introducción tutorial al análisis bayesiano", Descargue el primer capítulo aquí, Sebtel Press, Inglaterra.
Bolstad, William M. (2007) Introducción a la estadística bayesiana : segunda edición, John Wiley ISBN 0-471-27020-2
Winkler, Robert L (2003). Introducción a la inferencia y decisión bayesianas (2.ª ed.). Probabilística. ISBN 978-0-9647938-4-2.Libro de texto clásico actualizado. La teoría bayesiana se presenta con claridad.
Lee, Peter M. Estadística bayesiana: una introducción . Cuarta edición (2012), John Wiley ISBN 978-1-1183-3257-3
Carlin, Bradley P. y Louis, Thomas A. (2008). Métodos bayesianos para el análisis de datos, tercera edición . Boca Raton, FL: Chapman and Hall/CRC. ISBN 978-1-58488-697-6.
Gelman, Andrew ; Carlin, John B.; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B. (2013). Análisis de datos bayesianos, tercera edición . Chapman y Hall/CRC. ISBN 978-1-4398-4095-5.
Intermedio o avanzado
Berger, James O (1985). Teoría de la decisión estadística y análisis bayesiano . Springer Series in Statistics (segunda edición). Springer-Verlag. Bibcode :1985sdtb.book.....B. ISBN 978-0-387-96098-2.
DeGroot, Morris H. , Decisiones estadísticas óptimas . Wiley Classics Library. 2004. (Publicado originalmente (1970) por McGraw-Hill.) ISBN 0-471-68029-X .
Schervish, Mark J. (1995). Teoría de la estadística . Springer-Verlag. ISBN 978-0-387-94546-0.
Jaynes, ET (1998). Teoría de la probabilidad: la lógica de la ciencia.
O'Hagan, A. y Forster, J. (2003). Kendall's Advanced Theory of Statistics , Volumen 2B: Inferencia bayesiana . Arnold, Nueva York. ISBN 0-340-52922-9 .
Robert, Christian P (2007). La elección bayesiana: desde los fundamentos teóricos de la decisión hasta la implementación computacional (edición de bolsillo). Springer. ISBN 978-0-387-71598-8.
Pearl, Judea . (1988). Razonamiento probabilístico en sistemas inteligentes: redes de inferencia plausible , San Mateo, CA: Morgan Kaufmann.
Pierre Bessière et al. (2013). "Programación bayesiana". Prensa CRC. ISBN 9781439880326
Francisco J. Samaniego (2010). "Una comparación de los enfoques bayesiano y frecuentista para la estimación". Springer. Nueva York, ISBN 978-1-4419-5940-9
Introducción a la probabilidad bayesiana de la Universidad Queen Mary de Londres
Notas matemáticas sobre estadística bayesiana y cadenas de Markov Monte Carlo
Lista de lectura bayesiana Archivado el 25 de junio de 2011 en Wayback Machine , categorizado y anotado por Tom Griffiths
A. Hajek y S. Hartmann: Epistemología bayesiana, en: J. Dancy et al. (eds.), A Companion to Epistemology. Oxford: Blackwell 2010, 93–106.
S. Hartmann y J. Sprenger: Epistemología bayesiana, en: S. Bernecker y D. Pritchard (eds.), Routledge Companion to Epistemology. Londres: Routledge 2010, 609–620.
Enciclopedia de filosofía de Stanford: "Lógica inductiva"
Teoría de la confirmación bayesiana (PDF)
¿Qué es el aprendizaje bayesiano?
Datos, incertidumbre e inferencia: introducción informal con numerosos ejemplos, libro electrónico (PDF) disponible gratuitamente en causaScientia