stringtranslate.com

Inferencia bayesiana

La inferencia bayesiana ( / ˈ b z i ən / BAY -zee-ən o / ˈ b ʒ ən / BAY -zhən ) [1] es un método de inferencia estadística en el que se utiliza el teorema de Bayes para actualizar la probabilidad de una hipótesis a medida que haya más evidencia o información disponible. Fundamentalmente, la inferencia bayesiana utiliza conocimiento previo, en forma de distribución previa , para estimar probabilidades posteriores. La inferencia bayesiana es una técnica importante en estadística , y especialmente en estadística matemática . La actualización bayesiana es particularmente importante en el análisis dinámico de una secuencia de datos . La inferencia bayesiana ha encontrado aplicación en una amplia gama de actividades, incluidas la ciencia , la ingeniería , la filosofía , la medicina , el deporte y el derecho . En la filosofía de la teoría de la decisión , la inferencia bayesiana está estrechamente relacionada con la probabilidad subjetiva, a menudo llamada " probabilidad bayesiana ".

Introducción a la regla de Bayes

Una visualización geométrica del teorema de Bayes. En la tabla, los valores 2, 3, 6 y 9 dan los pesos relativos de cada condición y caso correspondiente. Las cifras indican las celdas de la tabla involucradas en cada métrica, siendo la probabilidad la fracción de cada cifra que está sombreada. Esto muestra que P(A|B) P(B) = P(B|A) P(A), es decir, P(A|B) =P(B|A) P(A)/P(B). Se puede utilizar un razonamiento similar para demostrar que P(¬A|B) =P(B|¬A) P(¬A)/P(B)etc.

Explicación formal

La inferencia bayesiana deriva la probabilidad posterior como consecuencia de dos antecedentes : una probabilidad previa y una " función de verosimilitud " derivada de un modelo estadístico para los datos observados. La inferencia bayesiana calcula la probabilidad posterior según el teorema de Bayes :

Para diferentes valores de , sólo los factores y , ambos en el numerador, afectan el valor de  : la probabilidad posterior de una hipótesis es proporcional a su probabilidad anterior (su verosimilitud inherente) y a la probabilidad recién adquirida (su compatibilidad con la nueva evidencia observada). ).

En los casos en los que ("no "), la negación lógica de , sea una probabilidad válida, la regla de Bayes se puede reescribir de la siguiente manera:

Una forma rápida y sencilla de recordar la ecuación sería utilizar la regla de la multiplicación :

Alternativas a la actualización bayesiana

La actualización bayesiana se utiliza ampliamente y es computacionalmente conveniente. Sin embargo, no es la única regla de actualización que podría considerarse racional.

Ian Hacking señaló que los argumentos tradicionales sobre los " libros holandeses " no especificaban la actualización bayesiana: dejaban abierta la posibilidad de que reglas de actualización no bayesianas pudieran evitar los libros holandeses. Hacking escribió: [2] "Y ni el argumento del libro holandés ni ningún otro en el arsenal personalista de pruebas de los axiomas de probabilidad implica el supuesto dinámico. Ninguno implica bayesianismo. Así que el personalista requiere que el supuesto dinámico sea bayesiano. Es cierto que, en coherencia, un personalista podría abandonar el modelo bayesiano de aprender de la experiencia. La sal podría perder su sabor".

De hecho, existen reglas de actualización no bayesianas que también evitan los libros holandeses (como se analiza en la literatura sobre " cinemática de probabilidad ") tras la publicación de la regla de Richard C. Jeffrey , que aplica la regla de Bayes al caso en el que la evidencia misma se le asigna una probabilidad. [3] Las hipótesis adicionales necesarias para requerir únicamente una actualización bayesiana se han considerado sustanciales, complicadas e insatisfactorias. [4]

Inferencia sobre posibilidades exclusivas y exhaustivas.

Si la evidencia se utiliza simultáneamente para actualizar la creencia sobre un conjunto de proposiciones exclusivas y exhaustivas, se puede pensar que la inferencia bayesiana actúa sobre esta distribución de creencias en su conjunto.

formulación general

Diagrama que ilustra el espacio de eventos en la formulación general de la inferencia bayesiana. Aunque este diagrama muestra modelos y eventos discretos, el caso continuo se puede visualizar de manera similar usando densidades de probabilidad.

Supongamos que un proceso genera eventos independientes y distribuidos idénticamente , pero se desconoce la distribución de probabilidad . Deje que el espacio del evento represente el estado actual de creencia para este proceso. Cada modelo está representado por evento . Las probabilidades condicionales se especifican para definir los modelos. es el grado de creencia en . Antes del primer paso de inferencia, hay un conjunto de probabilidades previas iniciales . Estos deben sumar 1, pero por lo demás son arbitrarios.

Supongamos que se observa que el proceso genera . Para cada uno , el anterior se actualiza al posterior . Del teorema de Bayes : [5]

Al observarse más pruebas, este procedimiento podrá repetirse.

Múltiples observaciones

Para una secuencia de observaciones independientes e idénticamente distribuidas , se puede demostrar por inducción que la aplicación repetida de lo anterior es equivalente a

Formulación paramétrica: motivando la descripción formal.

Al parametrizar el espacio de los modelos, la creencia en todos los modelos puede actualizarse en un solo paso. La distribución de creencias en el espacio modelo puede entonces considerarse como una distribución de creencias en el espacio de parámetros. Las distribuciones en esta sección se expresan como continuas, representadas por densidades de probabilidad, ya que esta es la situación habitual. Sin embargo, la técnica es igualmente aplicable a distribuciones discretas.

Deje que el vector abarque el espacio de parámetros. Sea la distribución previa inicial , donde hay un conjunto de parámetros para la distribución anterior misma, o hiperparámetros . Sea una secuencia de observaciones de eventos independientes e idénticamente distribuidas , donde todas están distribuidas como para algunas . Se aplica el teorema de Bayes para encontrar la distribución posterior sobre :

Descripción formal de la inferencia bayesiana

Definiciones

Inferencia bayesiana

Predicción bayesiana

La teoría bayesiana exige el uso de la distribución predictiva posterior para realizar inferencias predictivas , es decir, predecir la distribución de un nuevo punto de datos no observado. Es decir, en lugar de un punto fijo como predicción, se devuelve una distribución sobre puntos posibles. Sólo de esta manera se utiliza toda la distribución posterior de los parámetros. En comparación, la predicción en las estadísticas frecuentistas a menudo implica encontrar una estimación puntual óptima de los parámetros (por ejemplo, por máxima verosimilitud o estimación máxima a posteriori (MAP)) y luego introducir esta estimación en la fórmula para la distribución de un punto de datos. . Esto tiene la desventaja de que no tiene en cuenta ninguna incertidumbre en el valor del parámetro y, por tanto, subestimará la varianza de la distribución predictiva.

En algunos casos, las estadísticas frecuentistas pueden solucionar este problema. Por ejemplo, los intervalos de confianza y los intervalos de predicción en las estadísticas frecuentistas cuando se construyen a partir de una distribución normal con media y varianza desconocidas se construyen utilizando una distribución t de Student . Esto estima correctamente la varianza, debido al hecho de que (1) el promedio de variables aleatorias distribuidas normalmente también se distribuye normalmente, y (2) la distribución predictiva de un punto de datos distribuido normalmente con media y varianza desconocidas, utilizando antecedentes conjugados o no informativos. , tiene una distribución t de Student. Sin embargo, en la estadística bayesiana, la distribución predictiva posterior siempre se puede determinar exactamente, o al menos con un nivel arbitrario de precisión cuando se utilizan métodos numéricos.

Ambos tipos de distribuciones predictivas tienen la forma de una distribución de probabilidad compuesta (al igual que la probabilidad marginal ). De hecho, si la distribución previa es una previa conjugada , de modo que las distribuciones anterior y posterior provienen de la misma familia, se puede ver que las distribuciones predictivas anterior y posterior también provienen de la misma familia de distribuciones compuestas. La única diferencia es que la distribución predictiva posterior utiliza los valores actualizados de los hiperparámetros (aplicando las reglas de actualización bayesiana dadas en el artículo anterior conjugado ), mientras que la distribución predictiva anterior utiliza los valores de los hiperparámetros que aparecen en la distribución anterior.


Propiedades matemáticas

Interpretación del factor

. Es decir, si el modelo fuera verdadero, la evidencia sería más probable de lo que predice el estado actual de creencia. Lo contrario se aplica a una disminución de la creencia. Si la creencia no cambia, . Es decir, la evidencia es independiente del modelo. Si el modelo fuera cierto, la evidencia sería exactamente tan probable como lo predice el estado actual de creencia.

La regla de Cromwell

Si entonces . Si y , entonces . Esto puede interpretarse en el sentido de que las condenas duras son insensibles a las pruebas en contra.

Lo primero se deriva directamente del teorema de Bayes. Esto último se puede derivar aplicando la primera regla al evento "no " en lugar de " ", dando como resultado "si , entonces ", del cual se sigue inmediatamente el resultado.

Comportamiento asintótico de la parte posterior.

Considere el comportamiento de una distribución de creencias a medida que se actualiza una gran cantidad de veces con ensayos independientes e idénticamente distribuidos . Para probabilidades previas suficientemente buenas, el teorema de Bernstein-von Mises establece que en el límite de infinitas pruebas, la posterior converge a una distribución gaussiana independiente de la previa inicial bajo algunas condiciones descritas por primera vez y probadas rigurosamente por Joseph L. Doob en 1948, a saber si la variable aleatoria en consideración tiene un espacio de probabilidad finito . Los resultados más generales los obtuvo más tarde el estadístico David A. Freedman , quien publicó en dos artículos de investigación fundamentales en 1963 [8] y 1965 [9] cuándo y bajo qué circunstancias se garantiza el comportamiento asintótico de la parte posterior. Su artículo de 1963 trata, como Doob (1949), el caso finito y llega a una conclusión satisfactoria. Sin embargo, si la variable aleatoria tiene un espacio de probabilidad infinito pero contable (es decir, correspondiente a un dado con infinitas caras), el artículo de 1965 demuestra que para un subconjunto denso de antecedentes el teorema de Bernstein-von Mises no es aplicable. En este caso es casi seguro que no hay convergencia asintótica. Más tarde, en las décadas de 1980 y 1990, Freedman y Persi Diaconis continuaron trabajando en el caso de espacios de probabilidad contables infinitos. [10] En resumen, puede que no haya pruebas suficientes para suprimir los efectos de la elección inicial y, especialmente para sistemas grandes (pero finitos), la convergencia podría ser muy lenta.

Priores conjugados

En forma parametrizada, a menudo se supone que la distribución a priori proviene de una familia de distribuciones llamadas a priori conjugadas . La utilidad de una prior conjugada es que la distribución posterior correspondiente estará en la misma familia y el cálculo se puede expresar en forma cerrada .

Estimaciones de parámetros y predicciones.

A menudo se desea utilizar una distribución posterior para estimar un parámetro o variable. Varios métodos de estimación bayesiana seleccionan medidas de tendencia central de la distribución posterior.

Para problemas unidimensionales, existe una mediana única para problemas prácticos continuos. La mediana posterior es atractiva como estimador robusto . [11]

Si existe una media finita para la distribución posterior, entonces la media posterior es un método de estimación. [12]

Tomar un valor con la mayor probabilidad define estimaciones máximas a posteriori (MAP) : [13]

Hay ejemplos en los que no se alcanza ningún máximo, en cuyo caso el conjunto de estimaciones MAP está vacío .

Existen otros métodos de estimación que minimizan el riesgo posterior (pérdida posterior esperada) con respecto a una función de pérdida , y estos son de interés para la teoría de la decisión estadística utilizando la distribución muestral ("estadísticas frecuentistas"). [14]

La distribución predictiva posterior de una nueva observación (que es independiente de observaciones anteriores) está determinada por [15]

Ejemplos

Probabilidad de una hipótesis

Supongamos que hay dos tazones llenos de galletas. El tazón n.° 1 tiene 10 galletas con chispas de chocolate y 30 galletas simples, mientras que el tazón n.° 2 tiene 20 de cada uno. Nuestro amigo Fred elige un tazón al azar y luego elige una galleta al azar. Podemos suponer que no hay razón para creer que Fred trata un plato diferente a otro, lo mismo ocurre con las galletas. La galleta resulta ser simple. ¿Qué probabilidad hay de que Fred lo haya sacado del cuenco número 1?

Intuitivamente, parece claro que la respuesta debería ser más de la mitad, ya que hay más galletas simples en el recipiente número 1. La respuesta precisa la da el teorema de Bayes. Dejemos que corresponda al cuenco n.º 1 y al cuenco n.º 2. Se da que los tazones son idénticos desde el punto de vista de Fred, por lo tanto , y los dos deben sumar 1, por lo que ambos son iguales a 0,5. El evento es la observación de una simple galleta. Por el contenido de los tazones, sabemos eso y la fórmula de Bayes da como resultado

Antes de observar la galleta, la probabilidad que asignamos a que Fred hubiera elegido el tazón número 1 era la probabilidad previa, que era 0,5. Después de observar la galleta, debemos revisar la probabilidad a , que es 0,6.

haciendo una predicción

Resultados de ejemplo para el ejemplo de arqueología. Esta simulación se generó usando c=15,2.

Un arqueólogo trabaja en un yacimiento que se cree que data de la época medieval, entre los siglos XI y XVI. Sin embargo, no se sabe exactamente cuándo estuvo habitado el sitio en este período. Se encuentran fragmentos de cerámica, algunos vidriados y otros decorados. Se espera que si el sitio estuvo habitado durante el período medieval temprano, entonces el 1% de la cerámica estaría vidriada y el 50% de su superficie decorada, mientras que si hubiera estado habitado en el período medieval tardío entonces el 81% estaría vidriado y 5% de su superficie decorada. ¿Qué confianza puede tener el arqueólogo en la fecha de la ocupación a medida que se desentierran los fragmentos?

Se debe calcular el grado de creencia en la variable continua (siglo), con el conjunto discreto de eventos como evidencia. Suponiendo una variación lineal del esmalte y la decoración con el tiempo, y que estas variables son independientes,

Supongamos un a priori uniforme y que las pruebas sean independientes y estén distribuidas de forma idéntica . Cuando se descubre un nuevo fragmento de tipo , se aplica el teorema de Bayes para actualizar el grado de creencia de cada uno :

En el gráfico se muestra una simulación por computadora del cambio de creencia a medida que se desentierran 50 fragmentos. En la simulación, el sitio estuvo habitado alrededor de 1420, o . Al calcular el área bajo la parte relevante del gráfico para 50 ensayos, el arqueólogo puede decir que prácticamente no hay posibilidad de que el sitio estuviera habitado en los siglos XI y XII, aproximadamente un 1% de probabilidad de que estuviera habitado durante el siglo XIII, 63 % de probabilidad durante el siglo XIV y 36% durante el siglo XV. El teorema de Bernstein-von Mises afirma aquí la convergencia asintótica a la distribución "verdadera" porque el espacio de probabilidad correspondiente al conjunto discreto de eventos es finito (ver la sección anterior sobre el comportamiento asintótico del posterior).

En estadística frecuentista y teoría de la decisión.

Abraham Wald dio una justificación teórica del uso de la inferencia bayesiana , quien demostró que cada procedimiento bayesiano único es admisible . Por el contrario, todo procedimiento estadístico admisible es un procedimiento bayesiano o un límite de procedimientos bayesianos. [dieciséis]

Wald caracterizó los procedimientos admisibles como procedimientos bayesianos (y los límites de los procedimientos bayesianos), haciendo del formalismo bayesiano una técnica central en áreas de inferencia frecuentista como la estimación de parámetros , la prueba de hipótesis y el cálculo de intervalos de confianza . [17] [18] [19] Por ejemplo:

Selección de modelo

La metodología bayesiana también juega un papel en la selección de modelos , donde el objetivo es seleccionar un modelo de un conjunto de modelos competitivos que represente más fielmente el proceso subyacente que generó los datos observados. En la comparación de modelos bayesianos, se selecciona el modelo con la mayor probabilidad posterior dados los datos. La probabilidad posterior de un modelo depende de la evidencia, o verosimilitud marginal , que refleja la probabilidad de que los datos sean generados por el modelo, y de la creencia previa del modelo. Cuando dos modelos en competencia se consideran a priori equiprobables, la relación de sus probabilidades posteriores corresponde al factor de Bayes . Dado que la comparación de modelos bayesianos tiene como objetivo seleccionar el modelo con la mayor probabilidad posterior, esta metodología también se conoce como regla de selección máxima a posteriori (MAP) [24] o regla de probabilidad MAP. [25]

Programación probabilística

Si bien conceptualmente son simples, los métodos bayesianos pueden resultar desafiantes matemática y numéricamente. Los lenguajes de programación probabilística (PPL) implementan funciones para construir fácilmente modelos bayesianos junto con métodos eficientes de inferencia automática. Esto ayuda a separar la construcción del modelo de la inferencia, lo que permite a los profesionales centrarse en sus problemas específicos y dejar que los PPL se encarguen de los detalles computacionales. [26] [27] [28]

Aplicaciones

Análisis de datos estadísticos.

Consulte la entrada separada de Wikipedia sobre estadísticas bayesianas , específicamente la sección de modelado estadístico en esa página.

Aplicaciones computacionales

La inferencia bayesiana tiene aplicaciones en inteligencia artificial y sistemas expertos . Las técnicas de inferencia bayesiana han sido una parte fundamental de las técnicas de reconocimiento de patrones computarizados desde finales de los años cincuenta. [29] También existe una conexión cada vez mayor entre los métodos bayesianos y las técnicas de Monte Carlo basadas en simulación , ya que los modelos complejos no pueden procesarse en forma cerrada mediante un análisis bayesiano, mientras que una estructura de modelo gráfico puede permitir algoritmos de simulación eficientes como el muestreo de Gibbs. y otros esquemas de algoritmos de Metropolis-Hastings . [30] Recientemente [ ¿cuándo? ] La inferencia bayesiana ha ganado popularidad entre la comunidad filogenética por estas razones; Varias aplicaciones permiten estimar simultáneamente muchos parámetros demográficos y evolutivos.

Aplicada a la clasificación estadística , la inferencia bayesiana se ha utilizado para desarrollar algoritmos para identificar el correo no deseado . Las aplicaciones que utilizan la inferencia bayesiana para el filtrado de spam incluyen CRM114 , DSPAM, Bogofilter , SpamAssassin , SpamBayes , Mozilla , XEAMS y otras. La clasificación del spam se trata con más detalle en el artículo sobre el clasificador ingenuo de Bayes .

La inferencia inductiva de Solomonoff es la teoría de la predicción basada en observaciones; por ejemplo, predecir el siguiente símbolo basándose en una serie determinada de símbolos. La única suposición es que el entorno sigue una distribución de probabilidad desconocida pero computable . Es un marco inductivo formal que combina dos principios de inferencia inductiva bien estudiados: la estadística bayesiana y la navaja de Occam . [31] [ ¿ fuente poco confiable? ] La probabilidad previa universal de Solomonoff de cualquier prefijo p de una secuencia computable x es la suma de las probabilidades de todos los programas (para una computadora universal) que calculan algo que comienza con p . Dada alguna p y cualquier distribución de probabilidad computable pero desconocida de la cual se muestree x , el prior universal y el teorema de Bayes pueden usarse para predecir las partes aún no vistas de x de manera óptima. [32] [33]

Bioinformática y aplicaciones sanitarias.

La inferencia bayesiana se ha aplicado en diferentes aplicaciones de la bioinformática , incluido el análisis diferencial de expresión génica. [34] La inferencia bayesiana también se utiliza en un modelo general de riesgo de cáncer, llamado CIRI (Índice de riesgo individualizado continuo), donde se incorporan mediciones en serie para actualizar un modelo bayesiano que se construye principalmente a partir de conocimientos previos. [35] [36]

en la sala del tribunal

Los jurados pueden utilizar la inferencia bayesiana para acumular de manera coherente las pruebas a favor y en contra de un acusado, y para ver si, en su totalidad, cumple con su umbral personal de " más allá de toda duda razonable ". [37] [38] [39] El teorema de Bayes se aplica sucesivamente a todas las pruebas presentadas, y la posterior de una etapa se convierte en la anterior de la siguiente. El beneficio de un enfoque bayesiano es que le brinda al jurado un mecanismo racional e imparcial para combinar pruebas. Puede ser apropiado explicar el teorema de Bayes a los miembros del jurado en forma de probabilidades , ya que las probabilidades de apuestas se entienden mejor que las probabilidades. Alternativamente, un enfoque logarítmico , reemplazando la multiplicación por la suma, podría ser más fácil de manejar para un jurado.

Sumando evidencia.

Si no hay duda de la existencia del delito, sólo de la identidad del culpable, se ha sugerido que la priorización debe ser uniforme en toda la población calificada. [40] Por ejemplo, si 1.000 personas hubieran podido cometer el delito, la probabilidad previa de culpabilidad sería 1/1000.

El uso del teorema de Bayes por parte de los jurados es controvertido. En el Reino Unido, un perito de la defensa explicó el teorema de Bayes al jurado en el caso R contra Adams . El jurado lo condenó, pero el caso fue apelado sobre la base de que no se habían proporcionado medios para acumular pruebas a los jurados que no deseaban utilizar el teorema de Bayes. El Tribunal de Apelación confirmó la condena, pero también opinó que "Introducir el teorema de Bayes, o cualquier método similar, en un juicio penal sumerge al jurado en ámbitos inapropiados e innecesarios de teoría y complejidad, desviándolos de su tarea adecuada". ".

Gardner-Medwin [41] sostiene que el criterio en el que debe basarse un veredicto en un proceso penal no es la probabilidad de culpabilidad, sino más bien la probabilidad de la evidencia, dado que el acusado es inocente (similar a un valor p frecuentista ). Sostiene que si se va a calcular la probabilidad posterior de culpa mediante el teorema de Bayes, se debe conocer la probabilidad previa de culpa. Esto dependerá de la incidencia del delito, que es una prueba inusual a considerar en un juicio penal. Considere las siguientes tres proposiciones:

Gardner-Medwin sostiene que el jurado debe creer tanto en A como en no B para poder condenar. A y no B implican la verdad de C, pero lo contrario no es cierto. Es posible que tanto B como C sean ciertos, pero en este caso sostiene que un jurado debería absolver, aunque sepa que dejará en libertad a algunos culpables. Véase también la paradoja de Lindley .

Epistemología bayesiana

La epistemología bayesiana es un movimiento que aboga por la inferencia bayesiana como medio para justificar las reglas de la lógica inductiva.

Karl Popper y David Miller han rechazado la idea del racionalismo bayesiano, es decir, utilizar la regla de Bayes para hacer inferencias epistemológicas: [42] Es propenso al mismo círculo vicioso que cualquier otra epistemología justificacionista , porque presupone lo que intenta justificar. Según este punto de vista, una interpretación racional de la inferencia bayesiana la vería simplemente como una versión probabilística de la falsación , rechazando la creencia, comúnmente sostenida por los bayesianos, de que una alta probabilidad lograda mediante una serie de actualizaciones bayesianas probaría la hipótesis más allá de cualquier duda razonable. o incluso con probabilidad mayor que 0.

Otro

Bayes y la inferencia bayesiana

El problema considerado por Bayes en la Proposición 9 de su ensayo, " Un ensayo para resolver un problema en la doctrina de las posibilidades ", es la distribución posterior del parámetro a (la tasa de éxito) de la distribución binomial . [ cita necesaria ]

Historia

El término bayesiano se refiere a Thomas Bayes (1701-1761), quien demostró que se podían imponer límites probabilísticos a un evento desconocido. [ cita necesaria ] Sin embargo, fue Pierre-Simon Laplace (1749-1827) quien introdujo (como Principio VI) lo que ahora se llama teorema de Bayes y lo utilizó para abordar problemas de mecánica celeste , estadística médica, confiabilidad y jurisprudencia . [50] La inferencia bayesiana temprana, que utilizaba antecedentes uniformes siguiendo el principio de razón insuficiente de Laplace , se llamaba " probabilidad inversa " (porque infiere hacia atrás de las observaciones a los parámetros, o de los efectos a las causas [51] ). Después de la década de 1920, la "probabilidad inversa" fue suplantada en gran medida por una colección de métodos que llegaron a denominarse estadísticas frecuentistas . [51]

En el siglo XX, las ideas de Laplace se desarrollaron en dos direcciones diferentes, dando lugar a corrientes objetivas y subjetivas en la práctica bayesiana. En la corriente objetiva o "no informativa", el análisis estadístico depende únicamente del modelo asumido, de los datos analizados [52] y del método de asignación del prior, que difiere de un practicante bayesiano objetivo a otro. En la corriente subjetiva o "informativa", la especificación de lo previo depende de la creencia (es decir, proposiciones sobre las que el análisis está preparado para actuar), que puede resumir información de expertos, estudios previos, etc.

En la década de 1980, hubo un crecimiento espectacular en la investigación y las aplicaciones de los métodos bayesianos, atribuido principalmente al descubrimiento de los métodos Monte Carlo de la cadena de Markov , que eliminaron muchos de los problemas computacionales, y un interés creciente en aplicaciones complejas y no estándar. [53] A pesar del crecimiento de la investigación bayesiana, la mayor parte de la enseñanza universitaria todavía se basa en estadísticas frecuentistas. [54] No obstante, los métodos bayesianos son ampliamente aceptados y utilizados, como por ejemplo en el campo del aprendizaje automático . [55]

Ver también

Referencias

Citas

  1. ^ "Bayesiano". Diccionario Merriam-Webster.com .
  2. ^ Hackear, Ian (diciembre de 1967). "Probabilidad personal un poco más realista". Filosofía de la Ciencia . 34 (4): 316. doi : 10.1086/288169. S2CID  14344339.
  3. ^ "Teorema de Bayes (Enciclopedia de Filosofía de Stanford)". Platón.stanford.edu . Consultado el 5 de enero de 2014 .
  4. ^ van Fraassen, B. (1989) Leyes y simetría , Oxford University Press. ISBN 0-19-824860-1
  5. ^ Gelman, Andrés; Carlín, John B.; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B. (2013). Análisis de datos bayesianos , tercera edición. Chapman y Hall/CRC. ISBN 978-1-4398-4095-5
  6. ^ de Carvalho, Miguel; Página, Garritt; Barney, Bradley (2019). "Sobre la geometría de la inferencia bayesiana" (PDF) . Análisis bayesiano . 14 (4): 1013-1036. doi :10.1214/18-BA1112. S2CID  88521802.
  7. ^ Lee, Se Yoon (2021). "Muestreador de Gibbs e inferencia variacional de ascenso de coordenadas: una revisión de la teoría de conjuntos". Comunicaciones en estadística: teoría y métodos . 51 (6): 1549-1568. arXiv : 2008.01006 . doi :10.1080/03610926.2021.1921214. S2CID  220935477.
  8. ^ Freedman, DA (1963). "Sobre el comportamiento asintótico de las estimaciones de Bayes en el caso discreto". Los anales de la estadística matemática . 34 (4): 1386-1403. doi : 10.1214/aoms/1177703871 . JSTOR  2238346.
  9. ^ Freedman, DA (1965). "Sobre el comportamiento asintótico de las estimaciones de Bayes en el caso discreto II". Los anales de la estadística matemática . 36 (2): 454–456. doi : 10.1214/aoms/1177700155 . JSTOR  2238150.
  10. ^ Petirrojos, James; Wasserman, Larry (2000). "Condicionamiento, probabilidad y coherencia: una revisión de algunos conceptos fundamentales". Revista de la Asociación Estadounidense de Estadística . 95 (452): 1340-1346. doi :10.1080/01621459.2000.10474344. S2CID  120767108.
  11. ^ Sen, Pranab K .; Keating, JP; Masón, RL (1993). "Medida de cercanía de Pitman: una comparación de estimadores estadísticos ". Filadelfia: SIAM.
  12. ^ Choudhuri, Nidhan; Ghosal, Subhashis; Roy, Anindya (1 de enero de 2005). "Métodos bayesianos para la estimación de funciones". Manual de estadística . Pensamiento bayesiano. vol. 25. págs. 373–414. CiteSeerX 10.1.1.324.3052 . doi :10.1016/s0169-7161(05)25013-7. ISBN  9780444515391.
  13. ^ "Estimación máxima a posteriori (MAP)". www.probabilitycourse.com . Consultado el 2 de junio de 2017 .
  14. ^ Yu, Ángela. "Introducción a la teoría de la decisión bayesiana" (PDF) . cogsci.ucsd.edu/ . Archivado desde el original (PDF) el 28 de febrero de 2013.
  15. ^ Hitchcock, David. "Diapositiva de estadísticas de distribución predictiva posterior" (PDF) . stat.sc.edu .
  16. ^ ab Bickel y Doksum (2001, pág.32)
  17. ^ Kiefer, J .; Schwartz R. (1965). "Carácter Bayes admisible de T2, R2 y otras pruebas totalmente invariantes para problemas normales multivariados". Anales de estadística matemática . 36 (3): 747–770. doi : 10.1214/aoms/1177700051 .
  18. ^ Schwartz, R. (1969). "Pruebas de Bayes adecuadas invariantes para familias exponenciales". Anales de estadística matemática . 40 : 270–283. doi : 10.1214/aoms/1177697822 .
  19. ^ Hwang, JT y Casella, George (1982). "Conjuntos de confianza minimax para la media de una distribución normal multivariada" (PDF) . Anales de Estadística . 10 (3): 868–881. doi : 10.1214/aos/1176345877 .
  20. ^ Lehmann, Erich (1986). Prueba de hipótesis estadísticas (Segunda ed.).(ver página 309 del Capítulo 6.7 "Admisibilidad", y páginas 17-18 del Capítulo 1.8 "Clases completas"
  21. ^ Le Cam, Lucien (1986). Métodos asintóticos en la teoría de la decisión estadística . Springer-Verlag. ISBN 978-0-387-96307-5.(Del "Capítulo 12 Distribuciones posteriores y soluciones Bayes", p. 324)
  22. ^ Cox, DR ; Hinkley, DV (1974). Estadística Teórica . Chapman y Hall. pag. 432.ISBN _ 978-0-04-121537-3.
  23. ^ Cox, DR ; Hinkley, DV (1974). Estadística Teórica . Chapman y Hall. pag. 433.ISBN _ 978-0-04-121537-3.)
  24. ^ Estoica, P.; Selen, Y. (2004). "Una revisión de las reglas de criterios de información". Revista de procesamiento de señales IEEE . 21 (4): 36–47. doi :10.1109/MSP.2004.1311138. S2CID  17338979.
  25. ^ Fatermans, J.; Van Aert, S.; den Dekker, AJ (2019). "La regla de máxima probabilidad a posteriori para la detección de columnas de átomos a partir de imágenes HAADF STEM". Ultramicroscopía . 201 : 81–91. arXiv : 1902.05809 . doi :10.1016/j.ultramic.2019.02.003. PMID  30991277. S2CID  104419861.
  26. ^ Bessiere, P., Mazer, E., Ahuactzin, JM y Mekhnacha, K. (2013). Programación bayesiana (1 edición) Chapman y Hall/CRC.
  27. ^ Daniel Roy (2015). "Programación probabilística". programación-probabilística.org . Archivado desde el original el 10 de enero de 2016 . Consultado el 2 de enero de 2020 .
  28. ^ Ghahramani, Z (2015). "Aprendizaje automático probabilístico e inteligencia artificial". Naturaleza . 521 (7553): 452–459. Código Bib :2015Natur.521..452G. doi : 10.1038/naturaleza14541. PMID  26017444. S2CID  216356.
  29. ^ Fienberg, Stephen E. (1 de marzo de 2006). "¿Cuándo se volvió la inferencia bayesiana" bayesiana "?" Análisis bayesiano . 1 (1). doi : 10.1214/06-BA101 .
  30. ^ Jim Albert (2009). Computación Bayesiana con R, Segunda edición . Nueva York, Dordrecht, etc.: Springer. ISBN 978-0-387-92297-3.
  31. ^ Rathmanner, Samuel; Hutter, Marco; Ormerod, Thomas C (2011). "Un tratado filosófico de inducción universal". Entropía . 13 (6): 1076-1136. arXiv : 1105.5721 . Código Bib : 2011Entrp..13.1076R. doi : 10.3390/e13061076 . S2CID  2499910.
  32. ^ Hutter, Marco; Él, Yang-Hui; Ormerod, Thomas C (2007). "Sobre la predicción universal y la confirmación bayesiana". Informática Teórica . 384 (2007): 33–48. arXiv : 0709.1516 . Código Bib : 2007arXiv0709.1516H. doi : 10.1016/j.tcs.2007.05.016. S2CID  1500830.
  33. ^ Gács, Peter; Vitányi, Paul MB (2 de diciembre de 2010). "Raymond J. Solomonoff 1926-2009". CiteSeerX 10.1.1.186.8268 . 
  34. ^ Robinson, Mark D & McCarthy, Davis J & Smyth, Gordon K edgeR: un paquete de bioconductores para análisis de expresión diferencial de datos de expresión génica digital, Bioinformática.
  35. ^ "CIRI". ciri.stanford.edu . Consultado el 11 de agosto de 2019 .
  36. ^ Kurtz, David M.; Esfahani, Mohammad S.; Scherer, Florian; Bueno, Joanne; Jin, Michael C.; Liu, Chih Long; Newman, Aaron M.; Dührsen, Ulrich; Hüttmann, Andreas (25 de julio de 2019). "Perfil de riesgo dinámico utilizando biomarcadores tumorales en serie para la predicción personalizada de resultados". Celúla . 178 (3): 699–713.e19. doi : 10.1016/j.cell.2019.06.011 . ISSN  1097-4172. PMC 7380118 . PMID  31280963. 
  37. ^ Dawid, A. P. y Mortera, J. (1996) "Análisis coherente de pruebas de identificación forense". Revista de la Royal Statistical Society , Serie B, 58, 425–443.
  38. ^ Capataz, LA; Smith, AFM y Evett, IW (1997). "Análisis bayesiano de datos de perfiles de ácido desoxirribonucleico en aplicaciones de identificación forense (con discusión)". Revista de la Royal Statistical Society , Serie A, 160, 429–469.
  39. ^ Robertson, B. y Vignaux, G. A. (1995) Interpretación de la evidencia: evaluación de la ciencia forense en la sala del tribunal . John Wiley e hijos. Chichester. ISBN 978-0-471-96026-3 
  40. ^ Dawid, AP (2001) Teorema de Bayes y ponderación de la evidencia por parte de jurados Archivado el 1 de julio de 2015 en la Wayback Machine.
  41. ^ Gardner-Medwin, A. (2005) "¿Qué probabilidad debería abordar el jurado?". Importancia , 2 (1), marzo de 2005
  42. ^ Molinero, David (1994). Racionalismo crítico. Chicago: Corte abierta. ISBN 978-0-8126-9197-9.
  43. ^ Howson y Urbach (2005), Jaynes (2003)
  44. ^ Cai, XQ; Wu, XY; Zhou, X. (2009). "Programación estocástica sujeta a averías repetidas con información incompleta". La investigación de operaciones . 57 (5): 1236-1249. doi :10.1287/opre.1080.0660.
  45. ^ Ogle, Kiona; Tucker, Colin; Cable, Jessica M. (1 de enero de 2014). "Más allá de los simples modelos de mezcla lineal: partición isotópica de procesos ecológicos basada en procesos". Aplicaciones ecológicas . 24 (1): 181-195. doi :10.1890/1051-0761-24.1.181. ISSN  1939-5582. PMID  24640543.
  46. ^ Evaristo, Jaivime; McDonnell, Jeffrey J.; Scholl, Marta A.; Bruijnzeel, L. Adrian; Chun, Kwok P. (1 de enero de 2016). "Información sobre la absorción de agua de las plantas a partir de mediciones de isótopos de agua y xilema en dos cuencas tropicales con condiciones de humedad contrastantes". Procesos Hidrológicos . 30 (18): 3210–3227. Código Bib : 2016HyPr...30.3210E. doi : 10.1002/hyp.10841. ISSN  1099-1085. S2CID  131588159.
  47. ^ Gupta, Ankur; Rawlings, James B. (abril de 2014). "Comparación de métodos de estimación de parámetros en modelos cinéticos químicos estocásticos: ejemplos en biología de sistemas". Revista AIChE . 60 (4): 1253–1268. Código Bib : 2014AIChE..60.1253G. doi :10.1002/aic.14409. ISSN  0001-1541. PMC 4946376 . PMID  27429455. 
  48. ^ Fornalski, KW (2016). "El modelo bayesiano de Tadpole para detectar cambios de tendencia en cotizaciones financieras" (PDF) . Revista R&R de Estadística y Ciencias Matemáticas . 2 (1): 117–122.
  49. ^ Schütz, N.; Holschneider, M. (2011). "Detección de cambios de tendencia en series temporales mediante inferencia bayesiana". Revisión física E. 84 (2): 021120. arXiv : 1104.3448 . Código bibliográfico : 2011PhRvE..84b1120S. doi : 10.1103/PhysRevE.84.021120. PMID  21928962. S2CID  11460968.
  50. ^ Stigler, Stephen M. (1986). "Capítulo 3" . La Historia de la Estadística . Prensa de la Universidad de Harvard. ISBN 9780674403406.
  51. ^ ab Fienberg, Stephen E. (2006). "¿Cuándo la inferencia bayesiana se volvió 'bayesiana'?". Análisis bayesiano . 1 (1): 1–40 [pág. 5]. doi : 10.1214/06-ba101 .
  52. ^ Bernardo, José-Miguel (2005). "Análisis de referencias". Manual de estadística . vol. 25. págs. 17–90.
  53. ^ Wolpert, RL (2004). "Una conversación con James O. Berger". Ciencia estadística . 19 (1): 205–218. CiteSeerX 10.1.1.71.6112 . doi :10.1214/088342304000000053. SEÑOR  2082155. S2CID  120094454. 
  54. ^ Bernardo, José M. (2006). "Una introducción a la estadística matemática bayesiana" (PDF) . Icots-7 .
  55. ^ Obispo, CM (2007). Reconocimiento de patrones y aprendizaje automático . Nueva York: Springer. ISBN 978-0387310732.

Fuentes

Otras lecturas

Elemental

Los siguientes libros están enumerados en orden ascendente de sofisticación probabilística:

Intermedio o avanzado

enlaces externos