stringtranslate.com

Inferencia bayesiana

La inferencia bayesiana ( / ˈb z i ə n / BAY -zee-ən o / ˈb ʒ ən / BAY -zhən ) [1] es un método de inferencia estadística en el que se utiliza el teorema de Bayes para calcular una probabilidad de una hipótesis dada una distribución previa, y actualizarla a medida que se dispone de más evidencia o información . Fundamentalmente, la inferencia bayesiana utiliza el conocimiento previo, en forma de una distribución previa para estimar probabilidades posteriores. La inferencia bayesiana es una técnica importante en estadística , y especialmente en estadística matemática . La actualización bayesiana es particularmente importante en el análisis dinámico de una secuencia de datos . La inferencia bayesiana ha encontrado aplicación en una amplia gama de actividades, incluidas la ciencia , la ingeniería , la filosofía , la medicina , el deporte y el derecho . En la filosofía de la teoría de la decisión , la inferencia bayesiana está estrechamente relacionada con la probabilidad subjetiva, a menudo llamada " probabilidad bayesiana ".

Introducción a la regla de Bayes

Una visualización geométrica del teorema de Bayes. En la tabla, los valores 2, 3, 6 y 9 dan los pesos relativos de cada condición y caso correspondiente. Las cifras indican las celdas de la tabla involucradas en cada métrica, siendo la probabilidad la fracción de cada cifra que está sombreada. Esto muestra que P(A|B) P(B) = P(B|A) P(A) es decir, P(A|B) = P(B|A) P(A)/P(B) . Se puede utilizar un razonamiento similar para demostrar que P(¬A|B) = P(B|¬A) P(¬A)/P(B)etc.

Explicación formal

La inferencia bayesiana deriva la probabilidad posterior como consecuencia de dos antecedentes : una probabilidad previa y una " función de verosimilitud " derivada de un modelo estadístico para los datos observados. La inferencia bayesiana calcula la probabilidad posterior según el teorema de Bayes : donde

Para diferentes valores de , solo los factores y , ambos en el numerador, afectan el valor de  – la probabilidad posterior de una hipótesis es proporcional a su probabilidad previa (su verosimilitud inherente) y a la verosimilitud recientemente adquirida (su compatibilidad con la nueva evidencia observada).

En los casos en que ("no "), la negación lógica de , es una probabilidad válida, la regla de Bayes se puede reescribir de la siguiente manera: porque y Esto centra la atención en el término Si ese término es aproximadamente 1, entonces la probabilidad de la hipótesis dada la evidencia, , es de aproximadamente , aproximadamente un 50% probable - igualmente probable o no probable. Si ese término es muy pequeño, cercano a cero, entonces la probabilidad de la hipótesis, dada la evidencia, es cercana a 1 o la hipótesis condicional es bastante probable. Si ese término es muy grande, mucho mayor que 1, entonces la hipótesis, dada la evidencia, es bastante improbable. Si la hipótesis (sin considerar la evidencia) es improbable, entonces es pequeña (pero no necesariamente astronómicamente pequeña) y es mucho mayor que 1 y este término se puede aproximar como y las probabilidades relevantes se pueden comparar directamente entre sí.

Una forma rápida y sencilla de recordar la ecuación sería utilizar la regla de multiplicación :

Alternativas a la actualización bayesiana

La actualización bayesiana se utiliza ampliamente y es computacionalmente conveniente. Sin embargo, no es la única regla de actualización que podría considerarse racional.

Ian Hacking observó que los argumentos tradicionales del tipo " libro holandés " no especificaban la actualización bayesiana: dejaban abierta la posibilidad de que las reglas de actualización no bayesianas pudieran evitar los libros holandeses. Hacking escribió: [2] "Y ni el argumento del libro holandés ni ningún otro en el arsenal personalista de pruebas de los axiomas de probabilidad implica el supuesto dinámico. Ninguno implica bayesianismo. Por lo tanto, el personalista requiere que el supuesto dinámico sea bayesiano. Es cierto que, en coherencia, un personalista podría abandonar el modelo bayesiano de aprendizaje a partir de la experiencia. La sal podría perder su sabor".

De hecho, existen reglas de actualización no bayesianas que también evitan los libros holandeses (como se analiza en la literatura sobre " cinemática de la probabilidad ") tras la publicación de la regla de Richard C. Jeffrey , que aplica la regla de Bayes al caso en que se asigna una probabilidad a la evidencia misma. [3] Las hipótesis adicionales necesarias para requerir de manera única la actualización bayesiana se han considerado sustanciales, complicadas e insatisfactorias. [4]

Inferencia sobre posibilidades excluyentes y exhaustivas

Si se utiliza evidencia simultáneamente para actualizar la creencia sobre un conjunto de proposiciones exclusivas y exhaustivas, se puede pensar que la inferencia bayesiana actúa sobre esta distribución de creencias en su conjunto.

Formulación general

Diagrama que ilustra el espacio de eventos en la formulación general de la inferencia bayesiana. Aunque este diagrama muestra modelos y eventos discretos, el caso continuo puede visualizarse de manera similar utilizando densidades de probabilidad.

Supongamos que un proceso está generando eventos independientes e idénticamente distribuidos , pero se desconoce la distribución de probabilidad . Dejemos que el espacio de eventos represente el estado actual de creencia para este proceso. Cada modelo está representado por evento . Las probabilidades condicionales se especifican para definir los modelos. es el grado de creencia en . Antes del primer paso de inferencia, es un conjunto de probabilidades previas iniciales . Estas deben sumar 1, pero de lo contrario son arbitrarias.

Supongamos que se observa que el proceso genera . Para cada , el valor anterior se actualiza al valor posterior . Del teorema de Bayes : [5]

Si se observan más pruebas, se podrá repetir este procedimiento.

Observaciones múltiples

Para una secuencia de observaciones independientes e idénticamente distribuidas , se puede demostrar por inducción que la aplicación repetida de lo anterior es equivalente a donde

Formulación paramétrica: motivando la descripción formal

Al parametrizar el espacio de modelos, la creencia en todos los modelos puede actualizarse en un solo paso. La distribución de la creencia en el espacio de modelos puede entonces considerarse como una distribución de la creencia en el espacio de parámetros. Las distribuciones de esta sección se expresan como continuas, representadas por densidades de probabilidad, ya que esta es la situación habitual. Sin embargo, la técnica es igualmente aplicable a distribuciones discretas.

Sea el vector el que abarca el espacio de parámetros. Sea la distribución previa inicial sobre , donde es un conjunto de parámetros para la distribución previa misma, o hiperparámetros . Sea una secuencia de observaciones de eventos independientes e idénticamente distribuidas , donde todas se distribuyen como para algún . Se aplica el teorema de Bayes para encontrar la distribución posterior sobre :

dónde

Descripción formal de la inferencia bayesiana

Definiciones

Inferencia bayesiana

La existencia y unicidad de la expectativa condicional necesaria es una consecuencia del teorema de Radon-Nikodym . Este fue formulado por Kolmogorov en su famoso libro de 1933. Kolmogorov subraya la importancia de la probabilidad condicional al escribir "Deseo llamar la atención sobre... y especialmente la teoría de probabilidades condicionales y expectativas condicionales..." en el Prefacio. [8] El teorema de Bayes determina la distribución posterior a partir de la distribución anterior. La unicidad requiere suposiciones de continuidad. [9] El teorema de Bayes se puede generalizar para incluir distribuciones anteriores impropias, como la distribución uniforme en la línea real. [10] Los métodos modernos de Monte Carlo de cadena de Markov han impulsado la importancia del teorema de Bayes, incluidos los casos con anteriores impropias. [11]

Predicción bayesiana

La teoría bayesiana exige el uso de la distribución predictiva posterior para hacer inferencia predictiva , es decir, para predecir la distribución de un nuevo punto de datos no observado. Es decir, en lugar de un punto fijo como predicción, se devuelve una distribución sobre los puntos posibles. Solo de esta manera se utiliza la distribución posterior completa del parámetro o parámetros. En comparación, la predicción en las estadísticas frecuentistas a menudo implica encontrar una estimación puntual óptima del parámetro o parámetros (por ejemplo, por máxima verosimilitud o estimación máxima a posteriori (MAP)) y luego introducir esta estimación en la fórmula para la distribución de un punto de datos. Esto tiene la desventaja de que no tiene en cuenta ninguna incertidumbre en el valor del parámetro y, por lo tanto, subestimará la varianza de la distribución predictiva.

En algunos casos, las estadísticas frecuentistas pueden solucionar este problema. Por ejemplo, los intervalos de confianza y los intervalos de predicción en las estadísticas frecuentistas, cuando se construyen a partir de una distribución normal con media y varianza desconocidas , se construyen utilizando una distribución t de Student . Esto estima correctamente la varianza, debido a los hechos de que (1) el promedio de las variables aleatorias normalmente distribuidas también se distribuye normalmente, y (2) la distribución predictiva de un punto de datos normalmente distribuido con media y varianza desconocidas, utilizando valores previos conjugados o no informativos, tiene una distribución t de Student. En las estadísticas bayesianas, sin embargo, la distribución predictiva posterior siempre se puede determinar con exactitud, o al menos con un nivel arbitrario de precisión cuando se utilizan métodos numéricos.

Ambos tipos de distribuciones predictivas tienen la forma de una distribución de probabilidad compuesta (al igual que la distribución de probabilidad marginal ). De hecho, si la distribución a priori es una distribución a priori conjugada , de modo que las distribuciones a priori y a posteriori provienen de la misma familia, se puede observar que tanto la distribución predictiva a priori como la a posteriori también provienen de la misma familia de distribuciones compuestas. La única diferencia es que la distribución predictiva a posteriori utiliza los valores actualizados de los hiperparámetros (aplicando las reglas de actualización bayesianas dadas en el artículo sobre la distribución a priori conjugada ), mientras que la distribución predictiva a priori utiliza los valores de los hiperparámetros que aparecen en la distribución a priori.


Propiedades matemáticas

Interpretación del factor

. Es decir, si el modelo fuera verdadero, la evidencia sería más probable de lo que predice el estado actual de creencias. Lo contrario se aplica para una disminución en la creencia. Si la creencia no cambia, . Es decir, la evidencia es independiente del modelo. Si el modelo fuera verdadero, la evidencia sería exactamente tan probable como lo predice el estado actual de creencias.

El gobierno de Cromwell

Si entonces . Si y , entonces . Esto puede interpretarse en el sentido de que las convicciones firmes son insensibles a las pruebas en contra.

La primera se deduce directamente del teorema de Bayes. La segunda se puede derivar aplicando la primera regla al evento "no " en lugar de " ", obteniendo "si , entonces ", de donde se sigue inmediatamente el resultado.

Comportamiento asintótico de la posterior

Consideremos el comportamiento de una distribución de creencias a medida que se actualiza un gran número de veces con ensayos independientes e idénticamente distribuidos . Para probabilidades previas suficientemente buenas, el teorema de Bernstein-von Mises establece que en el límite de ensayos infinitos, la distribución posterior converge a una distribución gaussiana independiente de la distribución previa inicial bajo ciertas condiciones delineadas por primera vez y rigurosamente probadas por Joseph L. Doob en 1948, a saber, si la variable aleatoria en consideración tiene un espacio de probabilidad finito . Los resultados más generales fueron obtenidos más tarde por el estadístico David A. Freedman , quien publicó en dos artículos de investigación seminales en 1963 [12] y 1965 [13] cuándo y bajo qué circunstancias se garantiza el comportamiento asintótico de la distribución posterior. Su artículo de 1963 trata, como Doob (1949), el caso finito y llega a una conclusión satisfactoria. Sin embargo, si la variable aleatoria tiene un espacio de probabilidad infinito pero contable (es decir, correspondiente a un dado con infinitas caras), el artículo de 1965 demuestra que para un subconjunto denso de valores a priori, el teorema de Bernstein-von Mises no es aplicable. En este caso, casi con seguridad no hay convergencia asintótica. Más tarde, en los años 1980 y 1990, Freedman y Persi Diaconis continuaron trabajando en el caso de espacios de probabilidad contables infinitos. [14] En resumen, puede que no haya suficientes ensayos para suprimir los efectos de la elección inicial, y especialmente para sistemas grandes (pero finitos) la convergencia puede ser muy lenta.

Priores conjugados

En forma parametrizada, a menudo se supone que la distribución anterior proviene de una familia de distribuciones llamadas distribuciones anteriores conjugadas . La utilidad de una distribución anterior conjugada es que la distribución posterior correspondiente estará en la misma familia y el cálculo puede expresarse en forma cerrada .

Estimaciones de parámetros y predicciones

A menudo se desea utilizar una distribución posterior para estimar un parámetro o una variable. Varios métodos de estimación bayesiana seleccionan mediciones de tendencia central de la distribución posterior.

Para los problemas unidimensionales, existe una mediana única para los problemas continuos prácticos. La mediana posterior es atractiva como estimador robusto . [15]

Si existe una media finita para la distribución posterior, entonces la media posterior es un método de estimación. [16]

Tomar un valor con la mayor probabilidad define estimaciones máximas a posteriori (MAP) : [17]

Hay ejemplos en los que no se alcanza ningún máximo, en cuyo caso el conjunto de estimaciones de MAP está vacío .

Existen otros métodos de estimación que minimizan el riesgo posterior (pérdida posterior esperada) con respecto a una función de pérdida , y son de interés para la teoría de decisión estadística que utiliza la distribución de muestreo ("estadística frecuentista"). [18]

La distribución predictiva posterior de una nueva observación (que es independiente de las observaciones anteriores) está determinada por [19]

Ejemplos

Probabilidad de una hipótesis

Supongamos que hay dos cuencos llenos de galletas. El cuenco n.° 1 tiene 10 galletas con chispas de chocolate y 30 galletas normales, mientras que el cuenco n.° 2 tiene 20 de cada una. Nuestro amigo Fred elige un cuenco al azar y luego elige una galleta al azar. Podemos suponer que no hay ninguna razón para creer que Fred trate un cuenco de manera diferente a otro, lo mismo ocurre con las galletas. La galleta resulta ser normal. ¿Qué probabilidad hay de que Fred la haya elegido del cuenco n.° 1?

Intuitivamente, parece claro que la respuesta debería ser más de la mitad, ya que hay más galletas simples en el recipiente n.° 1. La respuesta precisa la da el teorema de Bayes. Sea que corresponden al recipiente n.° 1 y al recipiente n.° 2. Se da que los recipientes son idénticos desde el punto de vista de Fred, por lo tanto , y los dos deben sumar 1, por lo que ambos son iguales a 0,5. El evento es la observación de una galleta simple. A partir del contenido de los recipientes, sabemos que y la fórmula de Bayes arroja entonces

Antes de observar la galleta, la probabilidad que le asignamos a Fred de haber elegido el plato n.° 1 era la probabilidad previa, , que era 0,5. Después de observar la galleta, debemos revisar la probabilidad a , que es 0,6.

Hacer una predicción

Resultados de ejemplo para el ejemplo de arqueología. Esta simulación se generó utilizando c=15.2.

Un arqueólogo trabaja en un yacimiento que se cree que data del período medieval, entre el siglo XI y el siglo XVI. Sin embargo, no se sabe con certeza en qué momento de este período estuvo habitado el yacimiento. Se encuentran fragmentos de cerámica, algunos de los cuales están vidriados y otros decorados. Se espera que si el yacimiento estuvo habitado durante el período medieval temprano, entonces el 1% de la cerámica estaría vidriada y el 50% de su área decorada, mientras que si hubiera estado habitado en el período medieval tardío, entonces el 81% estaría vidriada y el 5% de su área decorada. ¿Qué tan seguro puede estar el arqueólogo de la fecha de ocupación a medida que se desentierran los fragmentos?

Se debe calcular el grado de creencia en la variable continua (siglo), con el conjunto discreto de eventos como evidencia. Suponiendo una variación lineal del esmalte y la decoración con el tiempo, y que estas variables son independientes,

Supongamos que hay una probabilidad previa uniforme de , y que los ensayos son independientes y se distribuyen de forma idéntica . Cuando se descubre un nuevo fragmento de tipo , se aplica el teorema de Bayes para actualizar el grado de creencia de cada :

En el gráfico se muestra una simulación por ordenador del cambio de creencias a medida que se desentierran 50 fragmentos. En la simulación, el sitio estaba habitado alrededor de 1420, o . Al calcular el área bajo la parte relevante del gráfico para 50 ensayos, el arqueólogo puede decir que prácticamente no hay posibilidad de que el sitio estuviera habitado en los siglos XI y XII, aproximadamente un 1% de probabilidad de que estuviera habitado durante el siglo XIII, un 63% de probabilidad durante el siglo XIV y un 36% durante el siglo XV. El teorema de Bernstein-von Mises afirma aquí la convergencia asintótica a la distribución "verdadera" porque el espacio de probabilidad correspondiente al conjunto discreto de eventos es finito (véase la sección anterior sobre el comportamiento asintótico de la distribución posterior).

En estadística frecuentista y teoría de decisiones

Abraham Wald dio una justificación teórica de la toma de decisiones para el uso de la inferencia bayesiana , al demostrar que todo procedimiento bayesiano único es admisible . A la inversa, todo procedimiento estadístico admisible es un procedimiento bayesiano o un límite de procedimientos bayesianos. [20]

Wald caracterizó los procedimientos admisibles como procedimientos bayesianos (y los límites de los procedimientos bayesianos), haciendo del formalismo bayesiano una técnica central en áreas de inferencia frecuentista como la estimación de parámetros , la prueba de hipótesis y el cálculo de intervalos de confianza . [21] [22] [23] Por ejemplo:

Selección de modelo

La metodología bayesiana también desempeña un papel en la selección de modelos , donde el objetivo es seleccionar un modelo de un conjunto de modelos en competencia que represente lo más fielmente posible el proceso subyacente que generó los datos observados. En la comparación de modelos bayesianos, se selecciona el modelo con la mayor probabilidad posterior dados los datos. La probabilidad posterior de un modelo depende de la evidencia, o verosimilitud marginal , que refleja la probabilidad de que los datos sean generados por el modelo, y de la creencia previa del modelo. Cuando dos modelos en competencia se consideran a priori equiprobables, la relación de sus probabilidades posteriores corresponde al factor de Bayes . Dado que la comparación de modelos bayesianos tiene como objetivo seleccionar el modelo con la mayor probabilidad posterior, esta metodología también se conoce como la regla de selección máxima a posteriori (MAP) [28] o la regla de probabilidad MAP. [29]

Programación probabilística

Si bien los métodos bayesianos son conceptualmente simples, pueden ser matemática y numéricamente desafiantes. Los lenguajes de programación probabilística (PPL) implementan funciones para construir fácilmente modelos bayesianos junto con métodos de inferencia automática eficientes. Esto ayuda a separar la construcción del modelo de la inferencia, lo que permite a los profesionales concentrarse en sus problemas específicos y dejar que los PPL se encarguen de los detalles computacionales por ellos. [30] [31] [32]

Aplicaciones

Análisis de datos estadísticos

Consulte la entrada separada de Wikipedia sobre estadísticas bayesianas , específicamente la sección de modelado estadístico en esa página.

Aplicaciones informáticas

La inferencia bayesiana tiene aplicaciones en inteligencia artificial y sistemas expertos . Las técnicas de inferencia bayesiana han sido una parte fundamental de las técnicas de reconocimiento de patrones computarizados desde fines de la década de 1950. [33] También existe una conexión cada vez mayor entre los métodos bayesianos y las técnicas de Monte Carlo basadas en simulación , ya que los modelos complejos no pueden procesarse en forma cerrada mediante un análisis bayesiano, mientras que una estructura de modelo gráfica puede permitir algoritmos de simulación eficientes como el muestreo de Gibbs y otros esquemas de algoritmos de Metropolis-Hastings . [34] Recientemente [ ¿cuándo? ] la inferencia bayesiana ha ganado popularidad entre la comunidad filogenética por estas razones; varias aplicaciones permiten estimar simultáneamente muchos parámetros demográficos y evolutivos.

En su aplicación a la clasificación estadística , la inferencia bayesiana se ha utilizado para desarrollar algoritmos de identificación de correo no deseado . Entre las aplicaciones que utilizan la inferencia bayesiana para el filtrado de correo no deseado se incluyen CRM114 , DSPAM, Bogofilter , SpamAssassin , SpamBayes , Mozilla , XEAMS y otras. La clasificación de correo no deseado se trata con más detalle en el artículo sobre el clasificador bayesiano ingenuo .

La inferencia inductiva de Solomonoff es la teoría de la predicción basada en observaciones; por ejemplo, predecir el siguiente símbolo basándose en una serie dada de símbolos. La única suposición es que el entorno sigue una distribución de probabilidad desconocida pero computable . Es un marco inductivo formal que combina dos principios bien estudiados de inferencia inductiva: la estadística bayesiana y la navaja de Occam . [35] [ ¿ Fuente poco fiable? ] La probabilidad previa universal de Solomonoff de cualquier prefijo p de una secuencia computable x es la suma de las probabilidades de todos los programas (para una computadora universal) que calculan algo que comienza con p . Dado un p y cualquier distribución de probabilidad computable pero desconocida de la que se toma x , la probabilidad previa universal y el teorema de Bayes se pueden usar para predecir las partes aún no vistas de x de manera óptima. [36] [37]

Bioinformática y aplicaciones sanitarias

La inferencia bayesiana se ha aplicado en diferentes aplicaciones de bioinformática , incluido el análisis de expresión genética diferencial. [38] La inferencia bayesiana también se utiliza en un modelo general de riesgo de cáncer, llamado CIRI (Índice de riesgo individualizado continuo), donde se incorporan mediciones en serie para actualizar un modelo bayesiano que se construye principalmente a partir de conocimientos previos. [39] [40]

En la sala del tribunal

Los jurados pueden utilizar la inferencia bayesiana para acumular de forma coherente las pruebas a favor y en contra de un acusado, y para ver si, en su totalidad, cumplen con su umbral personal de " más allá de una duda razonable ". [41] [42] [43] El teorema de Bayes se aplica sucesivamente a todas las pruebas presentadas, y la posterior de una etapa se convierte en la anterior de la siguiente. El beneficio de un enfoque bayesiano es que proporciona al jurado un mecanismo imparcial y racional para combinar las pruebas. Puede ser apropiado explicar el teorema de Bayes a los jurados en forma de probabilidades , ya que las probabilidades de las apuestas se entienden más ampliamente que las probabilidades. Alternativamente, un enfoque logarítmico , reemplazando la multiplicación por la suma, podría ser más fácil de manejar para un jurado.

Sumando evidencia

Si no está en duda la existencia del delito, sino sólo la identidad del culpable, se ha sugerido que la probabilidad previa debería ser uniforme para toda la población calificada. [44] Por ejemplo, si 1.000 personas podrían haber cometido el delito, la probabilidad previa de culpabilidad sería 1/1000.

El uso del teorema de Bayes por parte de los jurados es controvertido. En el Reino Unido, un testigo experto de la defensa explicó el teorema de Bayes al jurado en el caso R v Adams . El jurado condenó al jurado, pero el caso fue apelado sobre la base de que no se había proporcionado ningún medio para acumular pruebas a los jurados que no deseaban utilizar el teorema de Bayes. El Tribunal de Apelación confirmó la condena, pero también opinó que "Introducir el teorema de Bayes, o cualquier método similar, en un juicio penal sumerge al jurado en ámbitos inapropiados e innecesarios de teoría y complejidad, desviándolos de su tarea adecuada".

Gardner-Medwin [45] sostiene que el criterio en el que se debe basar un veredicto en un juicio penal no es la probabilidad de culpabilidad, sino más bien la probabilidad de la evidencia, dado que el acusado es inocente (similar a un valor p frecuentista ). Sostiene que si se debe calcular la probabilidad posterior de culpabilidad mediante el teorema de Bayes, se debe conocer la probabilidad previa de culpabilidad. Esto dependerá de la incidencia del delito, que es una prueba poco común a considerar en un juicio penal. Consideremos las siguientes tres proposiciones:

A – los hechos y testimonios conocidos podrían haber surgido si el acusado es culpable.
B – los hechos y testimonios conocidos podrían haber surgido si el acusado es inocente.
C – el acusado es culpable.

Gardner-Medwin sostiene que el jurado debería creer tanto en A como en B para poder condenar. A y no B implica la verdad de C , pero lo inverso no es cierto. Es posible que B y C sean ambas verdaderas, pero en este caso sostiene que un jurado debería absolver, aunque sepa que estará dejando libres a algunas personas culpables. Véase también la paradoja de Lindley .

Epistemología bayesiana

La epistemología bayesiana es un movimiento que aboga por la inferencia bayesiana como un medio para justificar las reglas de la lógica inductiva.

Karl Popper y David Miller han rechazado la idea del racionalismo bayesiano, es decir, el uso de la regla de Bayes para hacer inferencias epistemológicas: [46] Es propensa al mismo círculo vicioso que cualquier otra epistemología justificacionista , porque presupone lo que intenta justificar. Según este punto de vista, una interpretación racional de la inferencia bayesiana la vería meramente como una versión probabilística de la falsación , rechazando la creencia, comúnmente sostenida por los bayesianos, de que la alta probabilidad lograda por una serie de actualizaciones bayesianas probaría la hipótesis más allá de cualquier duda razonable, o incluso con una probabilidad mayor que 0.

Otro

Bayes y la inferencia bayesiana

El problema considerado por Bayes en la Proposición 9 de su ensayo, " Un ensayo para resolver un problema en la doctrina de las probabilidades ", es la distribución posterior para el parámetro a (la tasa de éxito) de la distribución binomial . [ cita requerida ]

Historia

El término bayesiano se refiere a Thomas Bayes (1701-1761), quien demostró que se podían poner límites probabilísticos a un evento desconocido. [ cita requerida ] Sin embargo, fue Pierre-Simon Laplace (1749-1827) quien introdujo (como Principio VI) lo que ahora se llama teorema de Bayes y lo utilizó para abordar problemas en mecánica celeste , estadística médica, confiabilidad y jurisprudencia . [54] La inferencia bayesiana temprana, que usaba valores previos uniformes siguiendo el principio de razón insuficiente de Laplace , se llamó " probabilidad inversa " (porque infiere hacia atrás de las observaciones a los parámetros, o de los efectos a las causas [55] ). Después de la década de 1920, la "probabilidad inversa" fue suplantada en gran medida por una colección de métodos que llegaron a llamarse estadísticas frecuentistas . [55]

En el siglo XX, las ideas de Laplace se desarrollaron aún más en dos direcciones diferentes, dando lugar a corrientes objetivas y subjetivas en la práctica bayesiana. En la corriente objetiva o "no informativa", el análisis estadístico depende únicamente del modelo asumido, los datos analizados, [56] y el método de asignación de la anterior, que difiere de un practicante bayesiano objetivo a otro. En la corriente subjetiva o "informativa", la especificación de la anterior depende de la creencia (es decir, proposiciones sobre las que se prepara el análisis para actuar), que puede resumir información de expertos, estudios previos, etc.

En la década de 1980, hubo un crecimiento espectacular en la investigación y las aplicaciones de los métodos bayesianos, atribuido principalmente al descubrimiento de los métodos de Monte Carlo de cadenas de Markov , que eliminaron muchos de los problemas computacionales, y un creciente interés en aplicaciones complejas no estándar. [57] A pesar del crecimiento de la investigación bayesiana, la mayor parte de la enseñanza de pregrado todavía se basa en estadísticas frecuentistas. [58] No obstante, los métodos bayesianos son ampliamente aceptados y utilizados, como por ejemplo en el campo del aprendizaje automático . [59]

Véase también

Referencias

Citas

  1. ^ "Bayesiano". Diccionario Merriam-Webster.com . Merriam-Webster.
  2. ^ Hacking, Ian (diciembre de 1967). "Probabilidad personal ligeramente más realista". Filosofía de la ciencia . 34 (4): 316. doi :10.1086/288169. S2CID  14344339.
  3. ^ "Teorema de Bayes (Enciclopedia de Filosofía de Stanford)". Plato.stanford.edu . Consultado el 5 de enero de 2014 .
  4. ^ van Fraassen, B. (1989) Leyes y simetría , Oxford University Press. ISBN 0-19-824860-1
  5. ^ Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B. (2013). Análisis de datos bayesianos , tercera edición. Chapman y Hall/CRC. ISBN 978-1-4398-4095-5
  6. ^ de Carvalho, Miguel; Page, Garritt; Barney, Bradley (2019). "Sobre la geometría de la inferencia bayesiana" (PDF) . Análisis bayesiano . 14 (4): 1013‒1036. doi :10.1214/18-BA1112. S2CID  88521802.
  7. ^ Lee, Se Yoon (2021). "Inferencia variacional de ascenso de coordenadas y muestreador de Gibbs: una revisión de la teoría de conjuntos". Communications in Statistics – Theory and Methods . 51 (6): 1549–1568. arXiv : 2008.01006 . doi :10.1080/03610926.2021.1921214. S2CID  220935477.
  8. ^ Kolmogorov, AN (1933) [1956]. Fundamentos de la teoría de la probabilidad . Chelsea Publishing Company.
  9. ^ Tjur, Tue (1980). Probabilidad basada en medidas de radón. Internet Archive. Chichester [Eng.] ; Nueva York : Wiley. ISBN 978-0-471-27824-5.
  10. ^ Taraldsen, Gunnar; Tufto, Jarle; Lindqvist, Bo H. (24 de julio de 2021). "Antes inadecuados y posteriores inadecuados". Revista escandinava de estadística . 49 (3): 969–991. doi : 10.1111/sjos.12550 . hdl : 11250/2984409 . ISSN  0303-6898. S2CID  237736986.
  11. ^ Robert, Christian P.; Casella, George (2004). Métodos estadísticos de Monte Carlo. Springer. ISBN 978-1475741452.OCLC 1159112760  .
  12. ^ Freedman, DA (1963). "Sobre el comportamiento asintótico de las estimaciones de Bayes en el caso discreto". Anales de estadística matemática . 34 (4): 1386–1403. doi : 10.1214/aoms/1177703871 . JSTOR  2238346.
  13. ^ Freedman, DA (1965). "Sobre el comportamiento asintótico de las estimaciones de Bayes en el caso discreto II". Anales de estadística matemática . 36 (2): 454–456. doi : 10.1214/aoms/1177700155 . JSTOR  2238150.
  14. ^ Robins, James; Wasserman, Larry (2000). "Condicionamiento, verosimilitud y coherencia: una revisión de algunos conceptos fundamentales". Revista de la Asociación Estadounidense de Estadística . 95 (452): 1340–1346. doi :10.1080/01621459.2000.10474344. S2CID  120767108.
  15. ^ Sen, Pranab K. ; Keating, JP; Mason, RL (1993). Medida de proximidad de Pitman: una comparación de estimadores estadísticos . Filadelfia: SIAM.
  16. ^ Choudhuri, Nidhan; Ghosal, Subhashis; Roy, Anindya (1 de enero de 2005). "Métodos bayesianos para la estimación de funciones". Manual de estadística . Pensamiento bayesiano. Vol. 25. págs. 373–414. CiteSeerX 10.1.1.324.3052 . doi :10.1016/s0169-7161(05)25013-7. ISBN .  9780444515391.
  17. ^ "Estimación máxima a posteriori (MAP)" www.probabilitycourse.com . Consultado el 2 de junio de 2017 .
  18. ^ Yu, Angela. "Introducción a la teoría de la decisión bayesiana" (PDF) . cogsci.ucsd.edu/ . Archivado desde el original (PDF) el 28 de febrero de 2013.
  19. ^ Hitchcock, David. "Diapositiva estadística de distribución predictiva posterior" (PDF) . stat.sc.edu .
  20. ^ ab Bickel y Doksum (2001, pág.32)
  21. ^ Kiefer, J. ; Schwartz R. (1965). "Carácter bayesiano admisible de pruebas T2, R2 y otras totalmente invariantes para problemas normales multivariados". Anales de estadística matemática . 36 (3): 747–770. doi : 10.1214/aoms/1177700051 .
  22. ^ Schwartz, R. (1969). "Pruebas Bayesianas Propias Invariantes para Familias Exponenciales". Anales de Estadística Matemática . 40 : 270–283. doi : 10.1214/aoms/1177697822 .
  23. ^ Hwang, JT y Casella, George (1982). "Conjuntos de confianza minimáx para la media de una distribución normal multivariante" (PDF) . Anales de estadística . 10 (3): 868–881. doi : 10.1214/aos/1176345877 .
  24. ^ Lehmann, Erich (1986). Prueba de hipótesis estadísticas (segunda edición).(véase la pág. 309 del Capítulo 6.7 “Admisibilidad”, y las págs. 17-18 del Capítulo 1.8 “Clases completas”
  25. ^ Le Cam, Lucien (1986). Métodos asintóticos en la teoría de decisiones estadísticas . Springer-Verlag. ISBN 978-0-387-96307-5.(Del "Capítulo 12 Distribuciones posteriores y soluciones de Bayes", pág. 324)
  26. ^ Cox, DR ; Hinkley, DV (1974). Estadística teórica . Chapman y Hall. pág. 432. ISBN. 978-0-04-121537-3.
  27. ^ Cox, DR ; Hinkley, DV (1974). Estadística teórica . Chapman y Hall. pág. 433. ISBN. 978-0-04-121537-3.)
  28. ^ Stoica, P.; Selen, Y. (2004). "Una revisión de las reglas de criterios de información". Revista IEEE de procesamiento de señales . 21 (4): 36–47. doi :10.1109/MSP.2004.1311138. S2CID  17338979.
  29. ^ Fatermans, J.; Van Aert, S.; den Dekker, AJ (2019). "La regla de máxima probabilidad a posteriori para la detección de columnas de átomos a partir de imágenes STEM de HAADF". Ultramicroscopía . 201 : 81–91. arXiv : 1902.05809 . doi :10.1016/j.ultramic.2019.02.003. PMID  30991277. S2CID  104419861.
  30. ^ Bessiere, P., Mazer, E., Ahuactzin, JM, y Mekhnacha, K. (2013). Programación bayesiana (1 edición) Chapman y Hall/CRC.
  31. ^ Daniel Roy (2015). "Programación probabilística". probabilistic-programming.org . Archivado desde el original el 10 de enero de 2016. Consultado el 2 de enero de 2020 .
  32. ^ Ghahramani, Z (2015). "Aprendizaje automático probabilístico e inteligencia artificial". Nature . 521 (7553): 452–459. Bibcode :2015Natur.521..452G. doi :10.1038/nature14541. PMID  26017444. S2CID  216356.
  33. ^ Fienberg, Stephen E. (1 de marzo de 2006). "¿Cuándo la inferencia bayesiana se volvió "bayesiana"?". Análisis bayesiano . 1 (1). doi : 10.1214/06-BA101 .
  34. ^ Jim Albert (2009). Cálculo bayesiano con R, segunda edición . Nueva York, Dordrecht, etc.: Springer. ISBN 978-0-387-92297-3.
  35. ^ Rathmanner, Samuel; Hutter, Marcus; Ormerod, Thomas C (2011). "Un tratado filosófico de inducción universal". Entropía . 13 (6): 1076–1136. arXiv : 1105.5721 . Código Bibliográfico :2011Entrp..13.1076R. doi : 10.3390/e13061076 . S2CID  2499910.
  36. ^ Hutter, Marcus; He, Yang-Hui; Ormerod, Thomas C (2007). "Sobre la predicción universal y la confirmación bayesiana". Ciencias de la computación teórica . 384 (2007): 33–48. arXiv : 0709.1516 . Código Bibliográfico :2007arXiv0709.1516H. doi :10.1016/j.tcs.2007.05.016. S2CID  1500830.
  37. ^ Gács, Peter; Vitányi, Paul MB (2 de diciembre de 2010). "Raymond J. Solomonoff 1926-2009". CiteSeerX 10.1.1.186.8268 . 
  38. ^ Robinson, Mark D y McCarthy, Davis J y Smyth, Gordon K edgeR: un paquete Bioconductor para el análisis de expresión diferencial de datos de expresión genética digital, Bioinformática.
  39. ^ "CIRI". ciri.stanford.edu . Consultado el 11 de agosto de 2019 .
  40. ^ Kurtz, David M.; Esfahani, Mohammad S.; Scherer, Florian; Soo, Joanne; Jin, Michael C.; Liu, Chih Long; Newman, Aaron M.; Dührsen, Ulrich; Hüttmann, Andreas (25 de julio de 2019). "Elaboración de perfiles de riesgo dinámicos utilizando biomarcadores tumorales seriados para la predicción personalizada de resultados". Cell . 178 (3): 699–713.e19. doi : 10.1016/j.cell.2019.06.011 . ISSN  1097-4172. PMC 7380118 . PMID  31280963. 
  41. ^ Dawid, A. P. y Mortera, J. (1996) "Análisis coherente de la evidencia de identificación forense". Journal of the Royal Statistical Society , Serie B, 58, 425–443.
  42. ^ Foreman, L. A.; Smith, A. F. M., y Evett, I. W. (1997). "Análisis bayesiano de datos de perfiles de ácido desoxirribonucleico en aplicaciones de identificación forense (con discusión)". Journal of the Royal Statistical Society , Serie A, 160, 429–469.
  43. ^ Robertson, B. y Vignaux, G. A. (1995) Interpretación de la evidencia: evaluación de la ciencia forense en los tribunales . John Wiley and Sons. Chichester. ISBN 978-0-471-96026-3
  44. ^ Dawid, AP (2001) Teorema de Bayes y ponderación de la evidencia por parte de los jurados. Archivado el 1 de julio de 2015 en Wayback Machine.
  45. ^ Gardner-Medwin, A. (2005) "¿Qué probabilidad debería considerar el jurado?". Significance , 2 (1), marzo de 2005.
  46. ^ Miller, David (1994). Racionalismo crítico. Chicago: Open Court. ISBN. 978-0-8126-9197-9.
  47. ^ Howson y Urbach (2005), Jaynes (2003)
  48. ^ Cai, XQ; Wu, XY; Zhou, X. (2009). "Programación estocástica sujeta a desgloses de repetición con información incompleta". Investigación de operaciones . 57 (5): 1236–1249. doi :10.1287/opre.1080.0660.
  49. ^ Ogle, Kiona; Tucker, Colin; Cable, Jessica M. (1 de enero de 2014). "Más allá de los modelos de mezcla lineal simple: partición isotópica basada en procesos de procesos ecológicos". Aplicaciones ecológicas . 24 (1): 181–195. doi :10.1890/1051-0761-24.1.181. ISSN  1939-5582. PMID  24640543.
  50. ^ Evaristo, Jaivime; McDonnell, Jeffrey J.; Scholl, Martha A.; Bruijnzeel, L. Adrian; Chun, Kwok P. (1 de enero de 2016). "Información sobre la absorción de agua por las plantas a partir de mediciones de isótopos de agua en el xilema en dos cuencas tropicales con condiciones de humedad contrastantes". Procesos hidrológicos . 30 (18): 3210–3227. Bibcode :2016HyPr...30.3210E. doi :10.1002/hyp.10841. ISSN  1099-1085. S2CID  131588159.
  51. ^ Gupta, Ankur; Rawlings, James B. (abril de 2014). "Comparación de métodos de estimación de parámetros en modelos cinéticos químicos estocásticos: ejemplos en biología de sistemas". AIChE Journal . 60 (4): 1253–1268. Bibcode :2014AIChE..60.1253G. doi :10.1002/aic.14409. ISSN  0001-1541. PMC 4946376 . PMID  27429455. 
  52. ^ Fornalski, KW (2016). "El modelo bayesiano Tadpole para detectar cambios de tendencia en cotizaciones financieras" (PDF) . R&R Journal of Statistics and Mathematical Sciences . 2 (1): 117–122.
  53. ^ Schütz, N.; Holschneider, M. (2011). "Detección de cambios de tendencia en series temporales mediante inferencia bayesiana". Physical Review E . 84 (2): 021120. arXiv : 1104.3448 . Bibcode :2011PhRvE..84b1120S. doi :10.1103/PhysRevE.84.021120. PMID  21928962. S2CID  11460968.
  54. ^ Stigler, Stephen M. (1986). "Capítulo 3" . Historia de la estadística . Harvard University Press. ISBN 9780674403406.
  55. ^ ab Fienberg, Stephen E. (2006). "¿Cuándo la inferencia bayesiana se volvió 'bayesiana'?". Bayesian Analysis . 1 (1): 1–40 [p. 5]. doi : 10.1214/06-ba101 .
  56. ^ Bernardo, José-Miguel (2005). "Análisis de referencias". Manual de estadística . Vol. 25. págs. 17–90.
  57. ^ Wolpert, R. L. (2004). "Una conversación con James O. Berger". Ciencia estadística . 19 (1): 205–218. CiteSeerX 10.1.1.71.6112 . doi :10.1214/088342304000000053. MR  2082155. S2CID  120094454. 
  58. ^ Bernardo, José M. (2006). "Introducción a la estadística matemática bayesiana" (PDF) . Icots-7 .
  59. ^ Bishop, CM (2007). Reconocimiento de patrones y aprendizaje automático . Nueva York: Springer. ISBN 978-0387310732.

Fuentes

Lectura adicional

Elemental

Los siguientes libros se enumeran en orden ascendente de sofisticación probabilística:

Intermedio o avanzado

Enlaces externos