representa cualquier hipótesis cuya probabilidad pueda verse afectada por los datos (llamada evidencia a continuación). A menudo hay hipótesis contrapuestas y la tarea es determinar cuál es la más probable.
, la probabilidad previa , es la estimación de la probabilidad de la hipótesis antes de que se observen los datos , la evidencia actual.
, la evidencia , corresponde a datos nuevos que no se utilizaron para calcular la probabilidad anterior.
, la probabilidad posterior , es la probabilidad de que se dé , es decir, después de que se observe. Esto es lo que queremos saber: la probabilidad de una hipótesis dada la evidencia observada.
es la probabilidad de observar dada y se llama verosimilitud . En función de fijo , indica la compatibilidad de la evidencia con la hipótesis dada. La función de verosimilitud es función de la evidencia, mientras que la probabilidad posterior es función de la hipótesis .
a veces se denomina probabilidad marginal o "evidencia modelo". Este factor es el mismo para todas las posibles hipótesis que se consideran (como se desprende del hecho de que la hipótesis no aparece en ninguna parte del símbolo, a diferencia de todos los demás factores) y, por lo tanto, no influye en la determinación de las probabilidades relativas de diferentes hipótesis.
(De lo contrario, uno tiene ).
Para diferentes valores de , sólo los factores y , ambos en el numerador, afectan el valor de : la probabilidad posterior de una hipótesis es proporcional a su probabilidad anterior (su verosimilitud inherente) y a la probabilidad recién adquirida (su compatibilidad con la nueva evidencia observada). ).
En los casos en que ("no "), la negación lógica de , sea una probabilidad válida, la regla de Bayes se puede reescribir de la siguiente manera:
porque
y Esto centra la atención en el término Si ese término es aproximadamente 1, entonces la probabilidad de la hipótesis dada la evidencia es aproximadamente 50% probable, igualmente probable o no. Si ese término es muy pequeño, cercano a cero, entonces la probabilidad de la hipótesis, dada la evidencia, es cercana a 1 o la hipótesis condicional es bastante probable. Si ese término es muy grande, mucho mayor que 1, entonces la hipótesis, dada la evidencia, es bastante improbable. Si la hipótesis (sin considerar la evidencia) es improbable, entonces es pequeña (pero no necesariamente astronómicamente pequeña) y es mucho mayor que 1 y este término puede aproximarse ya que las probabilidades relevantes se pueden comparar directamente entre sí.
La actualización bayesiana se utiliza ampliamente y es computacionalmente conveniente. Sin embargo, no es la única regla de actualización que podría considerarse racional.
Ian Hacking señaló que los argumentos tradicionales sobre los " libros holandeses " no especificaban la actualización bayesiana: dejaban abierta la posibilidad de que reglas de actualización no bayesianas pudieran evitar los libros holandeses. Hacking escribió: [2] "Y ni el argumento del libro holandés ni ningún otro en el arsenal personalista de pruebas de los axiomas de probabilidad implica el supuesto dinámico. Ninguno implica bayesianismo. Así que el personalista requiere que el supuesto dinámico sea bayesiano. Es cierto que, en coherencia, un personalista podría abandonar el modelo bayesiano de aprender de la experiencia. Salt podría perder su sabor".
De hecho, existen reglas de actualización no bayesianas que también evitan los libros holandeses (como se analiza en la literatura sobre " cinemática de probabilidad ") tras la publicación de la regla de Richard C. Jeffrey , que aplica la regla de Bayes al caso en el que la evidencia misma se le asigna una probabilidad. [3] Las hipótesis adicionales necesarias para requerir únicamente una actualización bayesiana se han considerado sustanciales, complicadas e insatisfactorias. [4]
Inferencia sobre posibilidades exclusivas y exhaustivas.
Si la evidencia se utiliza simultáneamente para actualizar la creencia sobre un conjunto de proposiciones exclusivas y exhaustivas, se puede pensar que la inferencia bayesiana actúa sobre esta distribución de creencias en su conjunto.
formulación general
Supongamos que un proceso genera eventos independientes y distribuidos idénticamente , pero se desconoce la distribución de probabilidad . Deje que el espacio del evento represente el estado actual de creencia para este proceso. Cada modelo está representado por evento . Las probabilidades condicionales se especifican para definir los modelos. es el grado de creencia en . Antes del primer paso de inferencia, hay un conjunto de probabilidades previas iniciales . Estos deben sumar 1, pero por lo demás son arbitrarios.
Supongamos que se observa que el proceso genera . Para cada uno , el anterior se actualiza al posterior . Del teorema de Bayes : [5]
Al observarse más pruebas, este procedimiento podrá repetirse.
Múltiples observaciones
Para una secuencia de observaciones independientes e idénticamente distribuidas , se puede demostrar por inducción que la aplicación repetida de lo anterior es equivalente a
donde
Formulación paramétrica: motivando la descripción formal.
Al parametrizar el espacio de los modelos, la creencia en todos los modelos puede actualizarse en un solo paso. La distribución de creencias en el espacio modelo puede considerarse entonces como una distribución de creencias en el espacio de parámetros. Las distribuciones en esta sección se expresan como continuas, representadas por densidades de probabilidad, ya que esta es la situación habitual. Sin embargo, la técnica es igualmente aplicable a distribuciones discretas.
, un punto de datos en general. De hecho, esto puede ser un vector de valores.
, el parámetro de la distribución del punto de datos, es decir, . Este puede ser un vector de parámetros.
, el hiperparámetro de la distribución de parámetros, es decir, . Este puede ser un vector de hiperparámetros.
es la muestra, un conjunto de puntos de datos observados, es decir, .
, un nuevo punto de datos cuya distribución se va a predecir.
Inferencia bayesiana
La distribución previa es la distribución de los parámetros antes de que se observe cualquier dato, es decir . Es posible que la distribución anterior no sea fácil de determinar; en tal caso, una posibilidad puede ser utilizar Jeffreys antes de obtener una distribución previa antes de actualizarla con observaciones más recientes.
La distribución muestral es la distribución de los datos observados condicionada a sus parámetros, es decir . Esto también se denomina probabilidad , especialmente cuando se ve como una función de los parámetros, a veces escritos .
La probabilidad marginal (a veces también denominada evidencia ) es la distribución de los datos observados marginados sobre el parámetro(s), es decir, cuantifica la concordancia entre los datos y la opinión de los expertos, en un sentido geométrico que puede precisarse. [6] Si la probabilidad marginal es 0, entonces no hay acuerdo entre los datos y la opinión de los expertos y no se puede aplicar la regla de Bayes.
La distribución posterior es la distribución de los parámetros después de tener en cuenta los datos observados. Esto está determinado por la regla de Bayes , que forma el corazón de la inferencia bayesiana: esto se expresa en palabras como "posterior es proporcional a la probabilidad multiplicada por la anterior", o a veces como "posterior = probabilidad multiplicada por la anterior, sobre la evidencia".
En la práctica, para casi todos los modelos bayesianos complejos utilizados en el aprendizaje automático, la distribución posterior no se obtiene en una distribución de forma cerrada, principalmente porque el espacio de parámetros puede ser muy alto, o el modelo bayesiano conserva cierta estructura jerárquica formulada a partir de las observaciones y parámetro . En tales situaciones, debemos recurrir a técnicas de aproximación. [7]
Caso general: Sea la distribución condicional de dado y sea la distribución de . La distribución conjunta es entonces . La distribución condicional de dado está entonces determinada por
La existencia y unicidad de la expectativa condicional necesaria es una consecuencia del teorema de Radon-Nikodym . Esto fue formulado por Kolmogorov en su famoso libro de 1933. Kolmogorov subraya la importancia de la probabilidad condicional escribiendo "Deseo llamar la atención sobre... y especialmente sobre la teoría de las probabilidades condicionales y las expectativas condicionales..." en el Prefacio. [8] El teorema de Bayes determina la distribución posterior a partir de la distribución anterior. La unicidad requiere supuestos de continuidad. [9] El teorema de Bayes se puede generalizar para incluir distribuciones previas impropias, como la distribución uniforme en la recta real. [10] Los métodos modernos de Monte Carlo de la cadena de Markov han aumentado la importancia del teorema de Bayes, incluidos los casos con antecedentes inadecuados. [11]
La teoría bayesiana exige el uso de la distribución predictiva posterior para realizar inferencias predictivas , es decir, predecir la distribución de un nuevo punto de datos no observado. Es decir, en lugar de un punto fijo como predicción, se devuelve una distribución sobre puntos posibles. Sólo de esta manera se utiliza toda la distribución posterior de los parámetros. En comparación, la predicción en las estadísticas frecuentistas a menudo implica encontrar una estimación puntual óptima de los parámetros (por ejemplo, mediante máxima verosimilitud o estimación máxima a posteriori (MAP)) y luego introducir esta estimación en la fórmula para la distribución de un punto de datos. . Esto tiene la desventaja de que no tiene en cuenta ninguna incertidumbre en el valor del parámetro y, por tanto, subestimará la varianza de la distribución predictiva.
En algunos casos, las estadísticas frecuentistas pueden solucionar este problema. Por ejemplo, los intervalos de confianza y los intervalos de predicción en las estadísticas frecuentistas cuando se construyen a partir de una distribución normal con media y varianza desconocidas se construyen utilizando una distribución t de Student . Esto estima correctamente la varianza, debido al hecho de que (1) el promedio de variables aleatorias distribuidas normalmente también se distribuye normalmente, y (2) la distribución predictiva de un punto de datos distribuido normalmente con media y varianza desconocidas, utilizando antecedentes conjugados o no informativos. , tiene una distribución t de Student. Sin embargo, en la estadística bayesiana, la distribución predictiva posterior siempre se puede determinar exactamente, o al menos con un nivel arbitrario de precisión cuando se utilizan métodos numéricos.
Ambos tipos de distribuciones predictivas tienen la forma de una distribución de probabilidad compuesta (al igual que la probabilidad marginal ). De hecho, si la distribución previa es una previa conjugada , de modo que las distribuciones anterior y posterior provienen de la misma familia, se puede ver que las distribuciones predictivas anterior y posterior también provienen de la misma familia de distribuciones compuestas. La única diferencia es que la distribución predictiva posterior utiliza los valores actualizados de los hiperparámetros (aplicando las reglas de actualización bayesiana dadas en el artículo anterior conjugado ), mientras que la distribución predictiva anterior utiliza los valores de los hiperparámetros que aparecen en la distribución anterior.
Propiedades matemáticas
Interpretación del factor
. Es decir, si el modelo fuera verdadero, la evidencia sería más probable de lo que predice el estado actual de creencia. Lo contrario se aplica a una disminución de la creencia. Si la creencia no cambia, . Es decir, la evidencia es independiente del modelo. Si el modelo fuera cierto, la evidencia sería exactamente tan probable como lo predice el estado actual de creencia.
La regla de Cromwell
Si entonces . Si y , entonces . Esto puede interpretarse en el sentido de que las condenas duras son insensibles a las pruebas en contra.
Lo primero se deriva directamente del teorema de Bayes. Esto último se puede derivar aplicando la primera regla al evento "no " en lugar de " ", dando como resultado "si , entonces ", del cual se sigue inmediatamente el resultado.
Comportamiento asintótico de la parte posterior.
Considere el comportamiento de una distribución de creencias a medida que se actualiza una gran cantidad de veces con ensayos independientes e idénticamente distribuidos . Para probabilidades previas suficientemente buenas, el teorema de Bernstein-von Mises establece que en el límite de infinitas pruebas, la distribución posterior converge a una distribución gaussiana independiente de la previa inicial bajo algunas condiciones descritas por primera vez y probadas rigurosamente por Joseph L. Doob en 1948, a saber si la variable aleatoria en consideración tiene un espacio de probabilidad finito . Los resultados más generales los obtuvo más tarde el estadístico David A. Freedman, quien publicó en dos artículos de investigación fundamentales en 1963 [12] y 1965 [13] cuándo y bajo qué circunstancias se garantiza el comportamiento asintótico de la parte posterior. Su artículo de 1963 trata, como Doob (1949), el caso finito y llega a una conclusión satisfactoria. Sin embargo, si la variable aleatoria tiene un espacio de probabilidad infinito pero contable (es decir, correspondiente a un dado con infinitas caras), el artículo de 1965 demuestra que para un subconjunto denso de antecedentes el teorema de Bernstein-von Mises no es aplicable. En este caso es casi seguro que no hay convergencia asintótica. Más tarde, en las décadas de 1980 y 1990, Freedman y Persi Diaconis continuaron trabajando en el caso de espacios de probabilidad contables infinitos. [14] En resumen, puede que no haya pruebas suficientes para suprimir los efectos de la elección inicial y, especialmente para sistemas grandes (pero finitos), la convergencia podría ser muy lenta.
Priores conjugados
En forma parametrizada, a menudo se supone que la distribución a priori proviene de una familia de distribuciones llamadas priores conjugadas . La utilidad de una prior conjugada es que la distribución posterior correspondiente estará en la misma familia y el cálculo se puede expresar en forma cerrada .
Estimaciones de parámetros y predicciones.
A menudo se desea utilizar una distribución posterior para estimar un parámetro o variable. Varios métodos de estimación bayesiana seleccionan medidas de tendencia central de la distribución posterior.
Para problemas unidimensionales, existe una mediana única para problemas prácticos continuos. La mediana posterior es atractiva como estimador robusto . [15]
Si existe una media finita para la distribución posterior, entonces la media posterior es un método de estimación. [dieciséis]
Hay ejemplos en los que no se alcanza ningún máximo, en cuyo caso el conjunto de estimaciones MAP está vacío .
Existen otros métodos de estimación que minimizan el riesgo posterior (pérdida posterior esperada) con respecto a una función de pérdida , y estos son de interés para la teoría de la decisión estadística utilizando la distribución muestral ("estadísticas frecuentistas"). [18]
La distribución predictiva posterior de una nueva observación (que es independiente de observaciones anteriores) está determinada por [19]
Ejemplos
Probabilidad de una hipótesis
Supongamos que hay dos tazones llenos de galletas. El tazón n.° 1 tiene 10 galletas con chispas de chocolate y 30 galletas simples, mientras que el tazón n.° 2 tiene 20 de cada uno. Nuestro amigo Fred elige un tazón al azar y luego elige una galleta al azar. Podemos suponer que no hay razón para creer que Fred trata un plato diferente a otro, lo mismo ocurre con las galletas. La galleta resulta ser simple. ¿Qué probabilidad hay de que Fred lo haya sacado del cuenco número 1?
Intuitivamente, parece claro que la respuesta debería ser más de la mitad, ya que hay más galletas simples en el recipiente número 1. La respuesta precisa la da el teorema de Bayes. Dejemos que corresponda al cuenco n.º 1 y al cuenco n.º 2. Se da que los tazones son idénticos desde el punto de vista de Fred, por lo tanto , y los dos deben sumar 1, por lo que ambos son iguales a 0,5. El evento es la observación de una simple galleta. Por el contenido de los tazones, sabemos eso y la fórmula de Bayes da como resultado
Antes de observar la galleta, la probabilidad que asignamos a que Fred hubiera elegido el tazón número 1 era la probabilidad previa, que era 0,5. Después de observar la galleta, debemos revisar la probabilidad a , que es 0,6.
haciendo una predicción
Un arqueólogo trabaja en un yacimiento que se cree que data de la época medieval, entre los siglos XI y XVI. Sin embargo, no se sabe exactamente cuándo estuvo habitado el sitio en este período. Se encuentran fragmentos de cerámica, algunos vidriados y otros decorados. Se espera que si el sitio estuvo habitado durante el período medieval temprano, entonces el 1% de la cerámica estaría vidriada y el 50% de su superficie decorada, mientras que si hubiera estado habitado en el período medieval tardío entonces el 81% estaría vidriado y 5% de su superficie decorada. ¿Qué confianza puede tener el arqueólogo en la fecha de ocupación a medida que se desentierran los fragmentos?
Se debe calcular el grado de creencia en la variable continua (siglo), con el conjunto discreto de eventos como evidencia. Suponiendo una variación lineal del esmalte y la decoración con el tiempo, y que estas variables son independientes,
Supongamos un a priori uniforme y que las pruebas sean independientes y estén distribuidas de manera idéntica . Cuando se descubre un nuevo fragmento de tipo , se aplica el teorema de Bayes para actualizar el grado de creencia de cada uno :
En el gráfico se muestra una simulación por computadora del cambio de creencia a medida que se desentierran 50 fragmentos. En la simulación, el sitio estuvo habitado alrededor de 1420, o . Al calcular el área bajo la parte relevante del gráfico para 50 ensayos, el arqueólogo puede decir que prácticamente no hay posibilidad de que el sitio estuviera habitado en los siglos XI y XII, aproximadamente un 1% de probabilidad de que estuviera habitado durante el siglo XIII, 63 % de probabilidad durante el siglo XIV y 36% durante el siglo XV. El teorema de Bernstein-von Mises afirma aquí la convergencia asintótica a la distribución "verdadera" porque el espacio de probabilidad correspondiente al conjunto discreto de eventos es finito (ver la sección anterior sobre el comportamiento asintótico del posterior).
En estadística frecuentista y teoría de la decisión.
Abraham Wald dio una justificación teórica del uso de la inferencia bayesiana , quien demostró que cada procedimiento bayesiano único es admisible . Por el contrario, todo procedimiento estadístico admisible es un procedimiento bayesiano o un límite de procedimientos bayesianos. [20]
"Bajo algunas condiciones, todos los procedimientos admisibles son procedimientos de Bayes o límites de los procedimientos de Bayes (en varios sentidos). Estos resultados notables, al menos en su forma original, se deben esencialmente a Wald. Son útiles porque la propiedad de ser Bayes es más fácil de analizar que la admisibilidad." [20]
"En la teoría de la decisión, un método bastante general para demostrar la admisibilidad consiste en presentar un procedimiento como una solución única de Bayes." [24]
"En los primeros capítulos de este trabajo, se utilizaron distribuciones previas con soporte finito y los correspondientes procedimientos de Bayes para establecer algunos de los principales teoremas relacionados con la comparación de experimentos. Los procedimientos de Bayes con respecto a distribuciones previas más generales han jugado un papel muy importante. en el desarrollo de la estadística, incluida su teoría asintótica." "Existen muchos problemas en los que un vistazo a las distribuciones posteriores, en busca de distribuciones anteriores adecuadas, produce inmediatamente información interesante. Además, esta técnica difícilmente puede evitarse en el análisis secuencial". [25]
"Un hecho útil es que cualquier regla de decisión de Bayes obtenida tomando un previo adecuado sobre todo el espacio de parámetros debe ser admisible" [26]
"Un área importante de investigación en el desarrollo de ideas de admisibilidad ha sido la de los procedimientos convencionales de la teoría de muestreo, y se han obtenido muchos resultados interesantes". [27]
Selección de modelo
La metodología bayesiana también desempeña un papel en la selección de modelos , donde el objetivo es seleccionar un modelo de un conjunto de modelos competitivos que represente más fielmente el proceso subyacente que generó los datos observados. En la comparación de modelos bayesianos, se selecciona el modelo con la mayor probabilidad posterior dados los datos. La probabilidad posterior de un modelo depende de la evidencia, o verosimilitud marginal , que refleja la probabilidad de que los datos sean generados por el modelo, y de la creencia previa del modelo. Cuando dos modelos en competencia se consideran a priori equiprobables, la relación de sus probabilidades posteriores corresponde al factor de Bayes . Dado que la comparación de modelos bayesianos tiene como objetivo seleccionar el modelo con la mayor probabilidad posterior, esta metodología también se conoce como regla de selección máxima a posteriori (MAP) [28] o regla de probabilidad MAP. [29]
Programación probabilística
Si bien son conceptualmente simples, los métodos bayesianos pueden resultar desafiantes matemática y numéricamente. Los lenguajes de programación probabilística (PPL) implementan funciones para construir fácilmente modelos bayesianos junto con métodos eficientes de inferencia automática. Esto ayuda a separar la construcción del modelo de la inferencia, lo que permite a los profesionales centrarse en sus problemas específicos y dejar que los PPL se encarguen de los detalles computacionales. [30] [31] [32]
La inferencia bayesiana tiene aplicaciones en inteligencia artificial y sistemas expertos . Las técnicas de inferencia bayesiana han sido una parte fundamental de las técnicas de reconocimiento de patrones computarizados desde finales de los años cincuenta. [33] También existe una conexión cada vez mayor entre los métodos bayesianos y las técnicas de Monte Carlo basadas en simulación , ya que los modelos complejos no pueden procesarse en forma cerrada mediante un análisis bayesiano, mientras que una estructura de modelo gráfico puede permitir algoritmos de simulación eficientes como el muestreo de Gibbs. y otros esquemas de algoritmos de Metropolis-Hastings . [34] Recientemente [ ¿cuándo? ] La inferencia bayesiana ha ganado popularidad entre la comunidad filogenética por estas razones; Varias aplicaciones permiten estimar simultáneamente muchos parámetros demográficos y evolutivos.
La inferencia inductiva de Solomonoff es la teoría de la predicción basada en observaciones; por ejemplo, predecir el siguiente símbolo basándose en una serie determinada de símbolos. La única suposición es que el entorno sigue una distribución de probabilidad desconocida pero computable . Es un marco inductivo formal que combina dos principios de inferencia inductiva bien estudiados: la estadística bayesiana y la navaja de Occam . [35] [ ¿ fuente poco confiable? ] La probabilidad previa universal de Solomonoff de cualquier prefijo p de una secuencia computable x es la suma de las probabilidades de todos los programas (para una computadora universal) que calculan algo que comienza con p . Dada alguna p y cualquier distribución de probabilidad computable pero desconocida de la cual se muestree x , el prior universal y el teorema de Bayes pueden usarse para predecir las partes aún no vistas de x de manera óptima. [36] [37]
Bioinformática y aplicaciones sanitarias.
La inferencia bayesiana se ha aplicado en diferentes aplicaciones de la bioinformática , incluido el análisis diferencial de expresión génica. [38] La inferencia bayesiana también se utiliza en un modelo general de riesgo de cáncer, llamado CIRI (Índice de riesgo individualizado continuo), donde se incorporan mediciones en serie para actualizar un modelo bayesiano que se construye principalmente a partir de conocimientos previos. [39] [40]
en la sala del tribunal
Los jurados pueden utilizar la inferencia bayesiana para acumular de forma coherente pruebas a favor y en contra de un acusado y para ver si, en su totalidad, cumple con su umbral personal de " más allá de toda duda razonable ". [41] [42] [43] El teorema de Bayes se aplica sucesivamente a todas las pruebas presentadas, y la posterior de una etapa se convierte en la anterior de la siguiente. El beneficio de un enfoque bayesiano es que le brinda al jurado un mecanismo racional e imparcial para combinar pruebas. Puede ser apropiado explicar el teorema de Bayes a los miembros del jurado en forma de probabilidades , ya que las probabilidades de apuestas se entienden mejor que las probabilidades. Alternativamente, un enfoque logarítmico , reemplazando la multiplicación por la suma, podría ser más fácil de manejar para un jurado.
Si no hay duda de la existencia del delito, sólo de la identidad del culpable, se ha sugerido que la priorización debe ser uniforme en toda la población calificada. [44] Por ejemplo, si 1.000 personas hubieran podido cometer el delito, la probabilidad previa de culpabilidad sería 1/1000.
El uso del teorema de Bayes por parte de los jurados es controvertido. En el Reino Unido, un perito de la defensa explicó el teorema de Bayes al jurado en el caso R contra Adams . El jurado lo condenó, pero el caso fue apelado sobre la base de que no se habían proporcionado medios para acumular pruebas a los jurados que no deseaban utilizar el teorema de Bayes. El Tribunal de Apelación confirmó la condena, pero también opinó que "Introducir el teorema de Bayes, o cualquier método similar, en un juicio penal sumerge al jurado en ámbitos inapropiados e innecesarios de teoría y complejidad, desviándolos de su tarea adecuada". ".
Gardner-Medwin [45] sostiene que el criterio en el que debe basarse un veredicto en un proceso penal no es la probabilidad de culpabilidad, sino más bien la probabilidad de la evidencia, dado que el acusado es inocente (similar a un valor p frecuentista ). Sostiene que si se va a calcular la probabilidad posterior de culpa mediante el teorema de Bayes, se debe conocer la probabilidad previa de culpa. Esto dependerá de la incidencia del delito, que es una prueba inusual a considerar en un juicio penal. Considere las siguientes tres proposiciones:
A – los hechos conocidos y los testimonios podrían haber surgido si el acusado es culpable.
B – los hechos conocidos y los testimonios podrían haberse producido si el imputado es inocente.
C – el acusado es culpable.
Gardner-Medwin sostiene que el jurado debe creer tanto en A como en no B para poder condenar. A y no B implican la verdad de C , pero lo contrario no es cierto. Es posible que tanto B como C sean ciertos, pero en este caso sostiene que un jurado debería absolver, aunque sepa que dejará en libertad a algunos culpables. Véase también la paradoja de Lindley .
epistemología bayesiana
La epistemología bayesiana es un movimiento que aboga por la inferencia bayesiana como medio para justificar las reglas de la lógica inductiva.
Karl Popper y David Miller han rechazado la idea del racionalismo bayesiano, es decir, utilizar la regla de Bayes para hacer inferencias epistemológicas: [46] Es propenso al mismo círculo vicioso que cualquier otra epistemología justificacionista , porque presupone lo que intenta justificar. Según este punto de vista, una interpretación racional de la inferencia bayesiana la vería simplemente como una versión probabilística de la falsación , rechazando la creencia, comúnmente sostenida por los bayesianos, de que una alta probabilidad lograda mediante una serie de actualizaciones bayesianas probaría la hipótesis más allá de cualquier duda razonable. o incluso con probabilidad mayor que 0.
Otro
El método científico a veces se interpreta como una aplicación de la inferencia bayesiana. Desde este punto de vista, la regla de Bayes guía (o debería guiar) la actualización de probabilidades sobre hipótesis condicionadas a nuevas observaciones o experimentos . [47] La inferencia bayesiana también se ha aplicado para tratar problemas de programación estocástica con información incompleta por Cai et al. (2009). [48]
El término bayesiano se refiere a Thomas Bayes (1701-1761), quien demostró que se podían imponer límites probabilísticos a un evento desconocido. [ cita necesaria ] Sin embargo, fue Pierre-Simon Laplace (1749-1827) quien introdujo (como Principio VI) lo que ahora se llama teorema de Bayes y lo utilizó para abordar problemas de mecánica celeste , estadística médica, confiabilidad y jurisprudencia . [54] La inferencia bayesiana temprana, que utilizaba antecedentes uniformes siguiendo el principio de razón insuficiente de Laplace , se llamaba " probabilidad inversa " (porque infiere hacia atrás de las observaciones a los parámetros, o de los efectos a las causas [55] ). Después de la década de 1920, la "probabilidad inversa" fue suplantada en gran medida por una colección de métodos que llegaron a denominarse estadísticas frecuentistas . [55]
En el siglo XX, las ideas de Laplace se desarrollaron en dos direcciones diferentes, dando lugar a corrientes objetivas y subjetivas en la práctica bayesiana. En la corriente objetiva o "no informativa", el análisis estadístico depende únicamente del modelo asumido, de los datos analizados [56] y del método de asignación del prior, que difiere de un practicante bayesiano objetivo a otro. En la corriente subjetiva o "informativa", la especificación de lo previo depende de la creencia (es decir, proposiciones sobre las que el análisis está preparado para actuar), que puede resumir información de expertos, estudios previos, etc.
En la década de 1980, hubo un crecimiento espectacular en la investigación y las aplicaciones de los métodos bayesianos, atribuido principalmente al descubrimiento de los métodos Monte Carlo de la cadena de Markov , que eliminaron muchos de los problemas computacionales, y un interés creciente en aplicaciones complejas y no estándar. [57] A pesar del crecimiento de la investigación bayesiana, la mayor parte de la enseñanza universitaria todavía se basa en estadísticas frecuentistas. [58] No obstante, los métodos bayesianos son ampliamente aceptados y utilizados, como por ejemplo en el campo del aprendizaje automático . [59]
^ Hackear, Ian (diciembre de 1967). "Probabilidad personal un poco más realista". Filosofía de la Ciencia . 34 (4): 316. doi : 10.1086/288169. S2CID 14344339.
^ "Teorema de Bayes (Enciclopedia de Filosofía de Stanford)". Platón.stanford.edu . Consultado el 5 de enero de 2014 .
^ Gelman, Andrés; Carlín, John B.; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B. (2013). Análisis de datos bayesianos , tercera edición. Chapman y Hall/CRC. ISBN 978-1-4398-4095-5 .
^ de Carvalho, Miguel; Página, Garritt; Barney, Bradley (2019). "Sobre la geometría de la inferencia bayesiana" (PDF) . Análisis bayesiano . 14 (4): 1013-1036. doi :10.1214/18-BA1112. S2CID 88521802.
^ Lee, Se Yoon (2021). "Muestreador de Gibbs e inferencia variacional de ascenso de coordenadas: una revisión de la teoría de conjuntos". Comunicaciones en estadística: teoría y métodos . 51 (6): 1549-1568. arXiv : 2008.01006 . doi :10.1080/03610926.2021.1921214. S2CID 220935477.
^ Kolmogorov, AN (1933) [1956]. Fundamentos de la Teoría de la Probabilidad . Compañía editorial de Chelsea.
^ Tjur, martes (1980). Probabilidad basada en medidas de Radón. Archivo de Internet. Chichester [inglés]; Nueva York: Wiley. ISBN978-0-471-27824-5.
^ Taraldsen, Gunnar; Tufto, Jarle; Lindqvist, Bo H. (24 de julio de 2021). "Antes inadecuados y posteriores inadecuados". Revista escandinava de estadística . 49 (3): 969–991. doi : 10.1111/sjos.12550 . hdl : 11250/2984409 . ISSN 0303-6898. S2CID 237736986.
^ Robert, Christian P.; Casella, George (2004). Métodos estadísticos de Montecarlo. Saltador. ISBN978-1475741452. OCLC 1159112760.
^ Freedman, DA (1963). "Sobre el comportamiento asintótico de las estimaciones de Bayes en el caso discreto". Los anales de la estadística matemática . 34 (4): 1386-1403. doi : 10.1214/aoms/1177703871 . JSTOR 2238346.
^ Freedman, DA (1965). "Sobre el comportamiento asintótico de las estimaciones de Bayes en el caso discreto II". Los anales de la estadística matemática . 36 (2): 454–456. doi : 10.1214/aoms/1177700155 . JSTOR 2238150.
^ Petirrojos, James; Wasserman, Larry (2000). "Condicionamiento, probabilidad y coherencia: una revisión de algunos conceptos fundamentales". Revista de la Asociación Estadounidense de Estadística . 95 (452): 1340-1346. doi :10.1080/01621459.2000.10474344. S2CID 120767108.
^ Sen, Pranab K .; Keating, JP; Masón, RL (1993). "Medida de cercanía de Pitman: una comparación de estimadores estadísticos" . Filadelfia: SIAM.
^ Choudhuri, Nidhan; Ghosal, Subhashis; Roy, Anindya (1 de enero de 2005). "Métodos bayesianos para la estimación de funciones". Manual de estadística . Pensamiento bayesiano. vol. 25. págs. 373–414. CiteSeerX 10.1.1.324.3052 . doi :10.1016/s0169-7161(05)25013-7. ISBN9780444515391.
^ "Estimación máxima a posteriori (MAP)". www.probabilitycourse.com . Consultado el 2 de junio de 2017 .
^ Yu, Ángela. "Introducción a la teoría de la decisión bayesiana" (PDF) . cogsci.ucsd.edu/ . Archivado desde el original (PDF) el 28 de febrero de 2013.
^ Hitchcock, David. "Diapositiva de estadísticas de distribución predictiva posterior" (PDF) . stat.sc.edu .
^ ab Bickel y Doksum (2001, pág.32)
^ Kiefer, J .; Schwartz R. (1965). "Carácter Bayes admisible de T2, R2 y otras pruebas totalmente invariantes para problemas normales multivariados". Anales de estadística matemática . 36 (3): 747–770. doi : 10.1214/aoms/1177700051 .
^ Schwartz, R. (1969). "Pruebas de Bayes adecuadas invariantes para familias exponenciales". Anales de estadística matemática . 40 : 270–283. doi : 10.1214/aoms/1177697822 .
^ Hwang, JT y Casella, George (1982). "Conjuntos de confianza minimax para la media de una distribución normal multivariada" (PDF) . Anales de Estadística . 10 (3): 868–881. doi : 10.1214/aos/1176345877 .
^ Lehmann, Erich (1986). Prueba de hipótesis estadísticas (Segunda ed.).(ver página 309 del Capítulo 6.7 "Admisibilidad", y páginas 17-18 del Capítulo 1.8 "Clases completas"
^ Le Cam, Lucien (1986). Métodos asintóticos en la teoría de la decisión estadística . Springer-Verlag. ISBN978-0-387-96307-5.(Del "Capítulo 12 Distribuciones posteriores y soluciones Bayes", p. 324)
^ Cox, DR ; Hinkley, DV (1974). Estadística Teórica . Chapman y Hall. pag. 432.ISBN978-0-04-121537-3.
^ Cox, DR ; Hinkley, DV (1974). Estadística Teórica . Chapman y Hall. pag. 433.ISBN978-0-04-121537-3.)
^ Estoica, P.; Selen, Y. (2004). "Una revisión de las reglas de criterios de información". Revista de procesamiento de señales IEEE . 21 (4): 36–47. doi :10.1109/MSP.2004.1311138. S2CID 17338979.
^ Fatermans, J.; Van Aert, S.; den Dekker, AJ (2019). "La regla de máxima probabilidad a posteriori para la detección de columnas de átomos a partir de imágenes HAADF STEM". Ultramicroscopía . 201 : 81–91. arXiv : 1902.05809 . doi :10.1016/j.ultramic.2019.02.003. PMID 30991277. S2CID 104419861.
^ Bessiere, P., Mazer, E., Ahuactzin, JM y Mekhnacha, K. (2013). Programación bayesiana (1 edición) Chapman y Hall/CRC.
^ Daniel Roy (2015). "Programación probabilística". programación-probabilística.org . Archivado desde el original el 10 de enero de 2016 . Consultado el 2 de enero de 2020 .
^ Ghahramani, Z (2015). "Aprendizaje automático probabilístico e inteligencia artificial". Naturaleza . 521 (7553): 452–459. Código Bib :2015Natur.521..452G. doi : 10.1038/naturaleza14541. PMID 26017444. S2CID 216356.
^ Fienberg, Stephen E. (1 de marzo de 2006). "¿Cuándo se volvió la inferencia bayesiana" bayesiana "?" Análisis bayesiano . 1 (1). doi : 10.1214/06-BA101 .
^ Jim Albert (2009). Computación Bayesiana con R, Segunda edición . Nueva York, Dordrecht, etc.: Springer. ISBN978-0-387-92297-3.
^ Rathmanner, Samuel; Hutter, Marco; Ormerod, Thomas C (2011). "Un tratado filosófico de inducción universal". Entropía . 13 (6): 1076-1136. arXiv : 1105.5721 . Código Bib : 2011Entrp..13.1076R. doi : 10.3390/e13061076 . S2CID 2499910.
^ Hutter, Marco; Él, Yang-Hui; Ormerod, Thomas C (2007). "Sobre la predicción universal y la confirmación bayesiana". Informática Teórica . 384 (2007): 33–48. arXiv : 0709.1516 . Código Bib : 2007arXiv0709.1516H. doi : 10.1016/j.tcs.2007.05.016. S2CID 1500830.
^ Gács, Peter; Vitányi, Paul MB (2 de diciembre de 2010). "Raymond J. Solomonoff 1926-2009". CiteSeerX 10.1.1.186.8268 .
^ Robinson, Mark D & McCarthy, Davis J & Smyth, Gordon K edgeR: un paquete de bioconductores para análisis de expresión diferencial de datos de expresión génica digital, Bioinformática.
^ "CIRI". ciri.stanford.edu . Consultado el 11 de agosto de 2019 .
^ Kurtz, David M.; Esfahani, Mohammad S.; Scherer, Florian; Bueno, Joanne; Jin, Michael C.; Liu, Chih Long; Newman, Aaron M.; Dührsen, Ulrich; Hüttmann, Andreas (25 de julio de 2019). "Perfil de riesgo dinámico utilizando biomarcadores tumorales en serie para la predicción personalizada de resultados". Celúla . 178 (3): 699–713.e19. doi : 10.1016/j.cell.2019.06.011 . ISSN 1097-4172. PMC 7380118 . PMID 31280963.
^ Dawid, A. P. y Mortera, J. (1996) "Análisis coherente de pruebas de identificación forense". Revista de la Royal Statistical Society , Serie B, 58, 425–443.
^
Capataz, LA; Smith, AFM y Evett, IW (1997). "Análisis bayesiano de datos de perfiles de ácido desoxirribonucleico en aplicaciones de identificación forense (con discusión)". Revista de la Royal Statistical Society , Serie A, 160, 429–469.
^ Robertson, B. y Vignaux, G. A. (1995) Interpretación de la evidencia: evaluación de la ciencia forense en la sala del tribunal . John Wiley e hijos. Chichester. ISBN 978-0-471-96026-3 .
^ Dawid, AP (2001) Teorema de Bayes y ponderación de la evidencia por parte de los jurados. Archivado el 1 de julio de 2015 en la Wayback Machine.
^ Gardner-Medwin, A. (2005) "¿Qué probabilidad debería abordar el jurado?". Importancia , 2 (1), marzo de 2005.
^ Molinero, David (1994). Racionalismo crítico. Chicago: Corte abierta. ISBN978-0-8126-9197-9.
^ Howson y Urbach (2005), Jaynes (2003)
^ Cai, XQ; Wu, XY; Zhou, X. (2009). "Programación estocástica sujeta a averías repetidas con información incompleta". La investigación de operaciones . 57 (5): 1236-1249. doi :10.1287/opre.1080.0660.
^ Ogle, Kiona; Tucker, Colin; Cable, Jessica M. (1 de enero de 2014). "Más allá de los simples modelos de mezcla lineal: partición isotópica de procesos ecológicos basada en procesos". Aplicaciones ecológicas . 24 (1): 181-195. doi :10.1890/1051-0761-24.1.181. ISSN 1939-5582. PMID 24640543.
^ Evaristo, Jaivime; McDonnell, Jeffrey J.; Scholl, Marta A.; Bruijnzeel, L. Adrian; Chun, Kwok P. (1 de enero de 2016). "Información sobre la absorción de agua de las plantas a partir de mediciones de isótopos de agua y xilema en dos cuencas tropicales con condiciones de humedad contrastantes". Procesos Hidrológicos . 30 (18): 3210–3227. Código Bib : 2016HyPr...30.3210E. doi : 10.1002/hyp.10841. ISSN 1099-1085. S2CID 131588159.
^ Gupta, Ankur; Rawlings, James B. (abril de 2014). "Comparación de métodos de estimación de parámetros en modelos cinéticos químicos estocásticos: ejemplos en biología de sistemas". Revista AIChE . 60 (4): 1253–1268. Código Bib : 2014AIChE..60.1253G. doi :10.1002/aic.14409. ISSN 0001-1541. PMC 4946376 . PMID 27429455.
^ Fornalski, KW (2016). "El modelo bayesiano de Tadpole para detectar cambios de tendencia en cotizaciones financieras" (PDF) . Revista R&R de Estadística y Ciencias Matemáticas . 2 (1): 117–122.
^ Schütz, N.; Holschneider, M. (2011). "Detección de cambios de tendencia en series temporales mediante inferencia bayesiana". Revisión física E. 84 (2): 021120. arXiv : 1104.3448 . Código bibliográfico : 2011PhRvE..84b1120S. doi : 10.1103/PhysRevE.84.021120. PMID 21928962. S2CID 11460968.
^ Stigler, Stephen M. (1986). "Capítulo 3" . La Historia de la Estadística . Prensa de la Universidad de Harvard. ISBN9780674403406.
^ ab Fienberg, Stephen E. (2006). "¿Cuándo la inferencia bayesiana se volvió 'bayesiana'?". Análisis bayesiano . 1 (1): 1–40 [pág. 5]. doi : 10.1214/06-ba101 .
^ Bernardo, José-Miguel (2005). "Análisis de referencias". Manual de estadística . vol. 25. págs. 17–90.
^ Wolpert, RL (2004). "Una conversación con James O. Berger". Ciencia estadística . 19 (1): 205–218. CiteSeerX 10.1.1.71.6112 . doi :10.1214/088342304000000053. SEÑOR 2082155. S2CID 120094454.
^ Bernardo, José M. (2006). "Una introducción a la estadística matemática bayesiana" (PDF) . Icots-7 .
^ Obispo, CM (2007). Reconocimiento de patrones y aprendizaje automático . Nueva York: Springer. ISBN978-0387310732.
Fuentes
Aster, Ricardo; Borchers, Brian y Thurber, Clifford (2012). Estimación de parámetros y problemas inversos , segunda edición, Elsevier. ISBN 0123850487 , ISBN 978-0123850485
Bickel, Peter J. y Doksum, Kjell A. (2001). Estadística matemática, volumen 1: temas básicos y seleccionados (segunda edición (impresión actualizada en 2007)). Pearson Prentice-Hall. ISBN 978-0-13-850363-5.
Edwards, sala (1968). "Conservadurismo en el procesamiento de información humana". En Kleinmuntz, B. (ed.). Representación formal del juicio humano . Wiley.
Edwards, sala (1982). Daniel Kahneman ; Pablo Slovic ; Amos Tversky (eds.). "Juicio en condiciones de incertidumbre: heurísticas y sesgos". Ciencia . 185 (4157): 1124-1131. Código Bib : 1974 Ciencia... 185.1124T. doi : 10.1126/ciencia.185.4157.1124. PMID 17835457. S2CID 143452957. Capítulo: Conservadurismo en el procesamiento de información humana (extraído)
Jaynes E. T. (2003) Teoría de la probabilidad: la lógica de la ciencia , CUP. ISBN 978-0-521-59271-0 (Enlace a la edición fragmentaria de marzo de 1996).
Phillips, LD; Edwards, Ward (octubre de 2008). "Capítulo 6: Conservadurismo en una tarea de inferencia de probabilidad simple ( Journal of Experimental Psychology (1966) 72: 346-354)". En Jie W. Weiss; David J. Weiss (eds.). Una ciencia de la toma de decisiones: el legado de Ward Edwards . Prensa de la Universidad de Oxford. pag. 536.ISBN 978-0-19-532298-9.
Otras lecturas
Para un informe completo sobre la historia de la estadística bayesiana y los debates con enfoques frecuentistas, leer Vallverdu, Jordi (2016). Bayesianos versus frecuentistas: un debate filosófico sobre el razonamiento estadístico . Nueva York: Springer. ISBN 978-3-662-48638-2.
Clayton, Aubrey (agosto de 2021). La falacia de Bernoulli: la ilógica estadística y la crisis de la ciencia moderna. Prensa de la Universidad de Columbia. ISBN 978-0-231-55335-3.
Elemental
Los siguientes libros están enumerados en orden ascendente de sofisticación probabilística:
Stone, JV (2013), "Regla de Bayes: un tutorial de introducción al análisis bayesiano", descargue el primer capítulo aquí, Sebtel Press, Inglaterra.
Bolstad, William M. (2007) Introducción a la estadística bayesiana : segunda edición, John Wiley ISBN 0-471-27020-2
Winkler, Robert L. (2003). Introducción a la inferencia y decisión bayesiana (2ª ed.). Probabilístico. ISBN 978-0-9647938-4-2.Libro de texto clásico actualizado. Teoría bayesiana claramente presentada.
Lee, Peter M. Estadística bayesiana: una introducción . Cuarta edición (2012), John Wiley ISBN 978-1-1183-3257-3
Carlin, Bradley P. y Louis, Thomas A. (2008). Métodos bayesianos para el análisis de datos, tercera edición . Boca Ratón, FL: Chapman y Hall/CRC. ISBN 978-1-58488-697-6.
Gelman, Andrés ; Carlín, John B.; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B. (2013). Análisis de datos bayesianos, tercera edición . Chapman y Hall/CRC. ISBN 978-1-4398-4095-5.
Intermedio o avanzado
Berger, James O (1985). Teoría de la decisión estadística y análisis bayesiano . Serie Springer en Estadística (Segunda ed.). Springer-Verlag. Código Bib : 1985sdtb.book.....B. ISBN 978-0-387-96098-2.
DeGroot, Morris H. , Decisiones estadísticas óptimas . Biblioteca de clásicos de Wiley. 2004. (Publicado originalmente (1970) por McGraw-Hill.) ISBN 0-471-68029-X .
Schervish, Mark J. (1995). Teoría de la estadística . Springer-Verlag. ISBN 978-0-387-94546-0.
Jaynes, ET (1998). Teoría de la probabilidad: la lógica de la ciencia.
O'Hagan, A. y Forster, J. (2003). Teoría avanzada de la estadística de Kendall , volumen 2B: inferencia bayesiana . Arnold, Nueva York. ISBN 0-340-52922-9 .
Robert, Christian P (2007). La elección bayesiana: de los fundamentos teóricos de la decisión a la implementación computacional (edición de bolsillo). Saltador. ISBN 978-0-387-71598-8.
Perla, Judea . (1988). Razonamiento probabilístico en sistemas inteligentes: redes de inferencia plausible , San Mateo, CA: Morgan Kaufmann.
Pierre Bessière et al. (2013). "Programación bayesiana". Prensa CRC. ISBN 9781439880326
Francisco J. Samaniego (2010). "Una comparación de los enfoques de estimación bayesiano y frecuentista". Saltador. Nueva York, ISBN 978-1-4419-5940-9
Introducción a la probabilidad bayesiana de la Universidad Queen Mary de Londres
Notas matemáticas sobre estadística bayesiana y cadena de Markov Monte Carlo
Lista de lectura bayesiana Archivada el 25 de junio de 2011 en Wayback Machine , categorizada y comentada por Tom Griffiths.
A. Hajek y S. Hartmann: Epistemología bayesiana, en: J. Dancy et al. (eds.), Un compañero de la epistemología. Oxford: Blackwell 2010, 93-106.
S. Hartmann y J. Sprenger: Bayesian Epistemology, en: S. Bernecker y D. Pritchard (eds.), Routledge Companion to Epistemology. Londres: Routledge 2010, 609–620.
Enciclopedia de Filosofía de Stanford: "Lógica inductiva"
Teoría de la confirmación bayesiana (PDF)
¿Qué es el aprendizaje bayesiano?
Datos, incertidumbre e inferencia: introducción informal con muchos ejemplos, libro electrónico (PDF) disponible gratuitamente en causaScientia