stringtranslate.com

Probabilidad bayesiana

La probabilidad bayesiana ( / ˈb z i ə n / BAY -zee-ən o / ˈb ʒ ən / BAY -zhən ) [1] es una interpretación del concepto de probabilidad , en la que, en lugar de frecuencia o propensión de algún fenómeno, la probabilidad se interpreta como expectativa razonable [2] que representa un estado de conocimiento [3] o como cuantificación de una creencia personal. [4]

La interpretación bayesiana de la probabilidad puede verse como una extensión de la lógica proposicional que permite razonar con hipótesis ; [5] [6] es decir, con proposiciones cuya verdad o falsedad se desconoce. En la perspectiva bayesiana, se asigna una probabilidad a una hipótesis, mientras que bajo la inferencia frecuentista , una hipótesis normalmente se prueba sin que se le asigne una probabilidad.

La probabilidad bayesiana pertenece a la categoría de probabilidades evidenciales; para evaluar la probabilidad de una hipótesis, el probabilista bayesiano especifica una probabilidad previa . Esta, a su vez, se actualiza a una probabilidad posterior a la luz de nuevos datos relevantes (evidencia). [7] La ​​interpretación bayesiana proporciona un conjunto estándar de procedimientos y fórmulas para realizar este cálculo.

El término bayesiano deriva del matemático y teólogo del siglo XVIII Thomas Bayes , quien proporcionó el primer tratamiento matemático de un problema no trivial de análisis de datos estadísticos utilizando lo que ahora se conoce como inferencia bayesiana . [8] : 131  El matemático Pierre-Simon Laplace fue pionero y popularizó lo que ahora se llama probabilidad bayesiana. [8] : 97–98 

Metodología bayesiana

Los métodos bayesianos se caracterizan por los siguientes conceptos y procedimientos:

Probabilidades bayesianas objetivas y subjetivas

En términos generales, existen dos interpretaciones de la probabilidad bayesiana. Para los objetivistas, que interpretan la probabilidad como una extensión de la lógica , la probabilidad cuantifica la expectativa razonable de que todos (incluso un "robot") que comparten el mismo conocimiento deberían compartirlo de acuerdo con las reglas de la estadística bayesiana, lo que puede justificarse mediante el teorema de Cox . [3] [10] Para los subjetivistas, la probabilidad corresponde a una creencia personal. [4] La racionalidad y la coherencia permiten una variación sustancial dentro de las restricciones que plantean; las restricciones se justifican mediante el argumento del libro holandés o mediante la teoría de la decisión y el teorema de De Finetti . [4] Las variantes objetiva y subjetiva de la probabilidad bayesiana difieren principalmente en su interpretación y construcción de la probabilidad previa.

Historia

El término bayesiano deriva de Thomas Bayes (1702-1761), quien demostró un caso especial de lo que ahora se llama teorema de Bayes en un artículo titulado " Un ensayo para resolver un problema en la doctrina de las probabilidades ". [11] En ese caso especial, las distribuciones previa y posterior eran distribuciones beta y los datos provenían de ensayos de Bernoulli . Fue Pierre-Simon Laplace (1749-1827) quien introdujo una versión general del teorema y lo utilizó para abordar problemas en mecánica celeste , estadística médica, confiabilidad y jurisprudencia . [12] La inferencia bayesiana temprana, que usaba valores previos uniformes siguiendo el principio de razón insuficiente de Laplace , se llamó " probabilidad inversa " (porque infiere hacia atrás de las observaciones a los parámetros, o de los efectos a las causas). [13] Después de la década de 1920, la "probabilidad inversa" fue suplantada en gran medida por una colección de métodos que llegaron a llamarse estadísticas frecuentistas . [13]

En el siglo XX, las ideas de Laplace se desarrollaron en dos direcciones, dando lugar a corrientes objetivas y subjetivas en la práctica bayesiana. La Teoría de la probabilidad de Harold Jeffreys (publicada por primera vez en 1939) jugó un papel importante en el resurgimiento de la visión bayesiana de la probabilidad, seguida por trabajos de Abraham Wald (1950) y Leonard J. Savage (1954). El adjetivo bayesiano en sí data de la década de 1950; el bayesianismo derivado , el neobayesianismo, es de la década de 1960. [14] [15] [16] En la corriente objetivista, el análisis estadístico depende solo del modelo asumido y los datos analizados. [17] No es necesario involucrar decisiones subjetivas. Por el contrario, los estadísticos "subjetivistas" niegan la posibilidad de un análisis completamente objetivo para el caso general.

En la década de 1980, hubo un crecimiento espectacular en la investigación y las aplicaciones de los métodos bayesianos, atribuido principalmente al descubrimiento de los métodos de Monte Carlo de cadenas de Markov y la consiguiente eliminación de muchos de los problemas computacionales, y a un creciente interés en aplicaciones complejas no estándar. [18] Si bien las estadísticas frecuentistas siguen siendo sólidas (como lo demuestra el hecho de que gran parte de la enseñanza de pregrado se basa en ellas [19] ), los métodos bayesianos son ampliamente aceptados y utilizados, por ejemplo, en el campo del aprendizaje automático . [20]

Justificación

El uso de probabilidades bayesianas como base de la inferencia bayesiana ha sido respaldado por varios argumentos, como los axiomas de Cox , el argumento del libro holandés , argumentos basados ​​en la teoría de la decisión y el teorema de De Finetti .

Enfoque axiomático

Richard T. Cox demostró que la actualización bayesiana se desprende de varios axiomas, incluidas dos ecuaciones funcionales y una hipótesis de diferenciabilidad. [10] [21] La suposición de diferenciabilidad o incluso de continuidad es controvertida; Halpern encontró un contraejemplo basado en su observación de que el álgebra booleana de enunciados puede ser finita. [22] Varios autores han sugerido otras axiomatizaciones con el propósito de hacer más rigurosa la teoría. [9]

Enfoque del libro holandés

Bruno de Finetti propuso el argumento del libro holandés basado en las apuestas. Un corredor de apuestas astuto crea un libro holandés estableciendo las probabilidades y las apuestas para garantizar que el corredor de apuestas obtenga ganancias (a expensas de los apostadores) independientemente del resultado del evento (una carrera de caballos, por ejemplo) en el que los apostadores apuestan. Está asociado con probabilidades implícitas por la falta de coherencia de las probabilidades .

Sin embargo, Ian Hacking señaló que los argumentos tradicionales de los libros holandeses no especificaban la actualización bayesiana: dejaban abierta la posibilidad de que las reglas de actualización no bayesianas pudieran evitar los libros holandeses. Por ejemplo, Hacking escribe [23] [24] "Y ni el argumento del libro holandés, ni ningún otro en el arsenal personalista de pruebas de los axiomas de probabilidad, implica el supuesto dinámico. Ninguno implica bayesianismo. Por lo tanto, el personalista requiere que el supuesto dinámico sea bayesiano. Es cierto que, en coherencia, un personalista podría abandonar el modelo bayesiano de aprendizaje a partir de la experiencia. La sal podría perder su sabor".

De hecho, existen reglas de actualización no bayesianas que también evitan los libros holandeses (como se analiza en la literatura sobre " cinemática de la probabilidad " [25] tras la publicación de la regla de Richard C. Jeffrey , que se considera bayesiana [26] ). Las hipótesis adicionales suficientes para especificar (de manera única) la actualización bayesiana son sustanciales [27] y no se consideran universalmente satisfactorias. [28]

Enfoque de la teoría de la decisión

Abraham Wald dio una justificación teórica de la decisión del uso de la inferencia bayesiana (y por lo tanto de las probabilidades bayesianas) , quien demostró que todo procedimiento estadístico admisible es un procedimiento bayesiano o un límite de procedimientos bayesianos. [29] Por el contrario, todo procedimiento bayesiano es admisible . [30]

Probabilidades personales y métodos objetivos para la construcción de probabilidades previas

Siguiendo el trabajo sobre la teoría de la utilidad esperada de Ramsey y von Neumann , los teóricos de la decisión han explicado el comportamiento racional utilizando una distribución de probabilidad para el agente . Johann Pfanzagl completó la Teoría de los juegos y el comportamiento económico al proporcionar una axiomatización de la probabilidad subjetiva y la utilidad, una tarea que von Neumann y Oskar Morgenstern dejaron sin completar : su teoría original suponía que todos los agentes tenían la misma distribución de probabilidad, por conveniencia. [31] La axiomatización de Pfanzagl fue respaldada por Oskar Morgenstern: "Von Neumann y yo hemos anticipado ... [la cuestión de si las probabilidades] podrían, quizás más típicamente, ser subjetivas y hemos declarado específicamente que en el último caso se podrían encontrar axiomas de los cuales se podría derivar la utilidad numérica deseada junto con un número para las probabilidades (cf. p. 19 de La teoría de los juegos y el comportamiento económico). No llevamos a cabo esto; fue demostrado por Pfanzagl ... con todo el rigor necesario". [32]

Ramsey y Savage observaron que la distribución de probabilidad del agente individual podía estudiarse objetivamente en experimentos. Los procedimientos para probar hipótesis sobre probabilidades (utilizando muestras finitas) se deben a Ramsey (1931) y de Finetti (1931, 1937, 1964, 1970). Tanto Bruno de Finetti [33] [34] como Frank P. Ramsey [34] [35] reconocen sus deudas con la filosofía pragmática , particularmente (para Ramsey) con Charles S. Peirce . [34] [35]

La "prueba de Ramsey" para evaluar distribuciones de probabilidad es implementable en teoría y ha mantenido ocupados a los psicólogos experimentales durante medio siglo. [36] Este trabajo demuestra que las proposiciones de probabilidad bayesiana pueden ser falsadas y, por lo tanto, cumplen con un criterio empírico de Charles S. Peirce , cuyo trabajo inspiró a Ramsey. (Este criterio de falsabilidad fue popularizado por Karl Popper . [37] [38] )

Los trabajos modernos sobre la evaluación experimental de probabilidades personales utilizan los procedimientos de aleatorización, cegamiento y decisión booleana del experimento de Peirce-Jastrow. [39] Dado que los individuos actúan de acuerdo con diferentes juicios de probabilidad, las probabilidades de estos agentes son "personales" (pero susceptibles de estudio objetivo).

Las probabilidades personales son problemáticas para la ciencia y para algunas aplicaciones en las que los encargados de tomar decisiones carecen del conocimiento o el tiempo necesarios para especificar una distribución de probabilidad informada (sobre la que estén preparados para actuar). Para satisfacer las necesidades de la ciencia y las limitaciones humanas, los estadísticos bayesianos han desarrollado métodos "objetivos" para especificar probabilidades previas.

De hecho, algunos bayesianos han sostenido que el estado previo de conocimiento define la distribución de probabilidad previa (única) para problemas estadísticos "regulares"; cf. problemas bien planteados . Encontrar el método correcto para construir tales valores previos "objetivos" (para clases apropiadas de problemas regulares) ha sido la búsqueda de los teóricos estadísticos desde Laplace hasta John Maynard Keynes , Harold Jeffreys y Edwin Thompson Jaynes . Estos teóricos y sus sucesores han sugerido varios métodos para construir valores previos "objetivos" (desafortunadamente, no siempre está claro cómo evaluar la "objetividad" relativa de los valores previos propuestos bajo estos métodos):

Cada uno de estos métodos aporta valores a priori útiles para problemas "regulares" de un parámetro, y cada valor a priori puede manejar algunos modelos estadísticos desafiantes (con "irregularidad" o con varios parámetros). Cada uno de estos métodos ha sido útil en la práctica bayesiana. De hecho, los métodos para construir valores a priori "objetivos" (alternativamente, "por defecto" o "por ignorancia") han sido desarrollados por bayesianos subjetivos (o "personales") declarados como James Berger ( Universidad de Duke ) y José-Miguel Bernardo ( Universitat de València ), simplemente porque tales valores a priori son necesarios para la práctica bayesiana, particularmente en ciencia. [40] La búsqueda del "método universal para construir valores a priori" continúa atrayendo a los teóricos estadísticos. [40]

Por lo tanto, el estadístico bayesiano necesita utilizar datos previos informados (utilizando experiencia relevante o datos previos) o elegir entre los métodos en competencia para construir datos previos "objetivos".

Véase también

Referencias

  1. ^ "Bayesiano". Diccionario Merriam-Webster.com . Merriam-Webster.
  2. ^ Cox, RT (1946). "Probabilidad, frecuencia y expectativa razonable". Revista estadounidense de física . 14 (1): 1–10. Código Bibliográfico :1946AmJPh..14....1C. doi :10.1119/1.1990764.
  3. ^ ab Jaynes, ET (1986). "Métodos bayesianos: antecedentes generales". En Justice, JH (ed.). Métodos bayesianos y de máxima entropía en estadística aplicada . Cambridge: Cambridge University Press. CiteSeerX 10.1.1.41.1055 . 
  4. ^ abc de Finetti, Bruno (2017). Teoría de la probabilidad: un tratamiento introductorio crítico . Chichester: John Wiley & Sons Ltd. ISBN 9781119286370.
  5. ^ Hailperin, Theodore (1996). Lógica de probabilidad oracional: orígenes, desarrollo, estado actual y aplicaciones técnicas . Londres: Associated University Press. ISBN 0934223459.
  6. ^ Howson, Colin (2001). "La lógica de la probabilidad bayesiana". En Corfield, D.; Williamson, J. (eds.). Fundamentos del bayesianismo . Dordrecht: Kluwer. págs. 137–159. ISBN 1-4020-0223-8.
  7. ^ Paulos, John Allen (5 de agosto de 2011). "Las matemáticas de cambiar de opinión [por Sharon Bertsch McGrayne]". Reseña de libro. New York Times . Archivado desde el original el 1 de enero de 2022. Consultado el 6 de agosto de 2011 .
  8. ^ ab Stigler, Stephen M. (marzo de 1990). La historia de la estadística . Harvard University Press. ISBN 9780674403413.
  9. ^ ab Dupré, Maurice J.; Tipler, Frank J. (2009). "Nuevos axiomas para la probabilidad bayesiana rigurosa". Análisis bayesiano . 4 (3): 599–606. CiteSeerX 10.1.1.612.3036 . doi :10.1214/09-BA422. 
  10. ^ ab Cox, Richard T. (1961). El álgebra de la inferencia probable (edición reimpresa). Baltimore, MD; Londres, Reino Unido: Johns Hopkins Press; Oxford University Press [distribuidor]. ISBN 9780801869822.
  11. ^ McGrayne, Sharon Bertsch (2011). La teoría que no quería morir . [https://archive.org/details/theorythatwouldn0000mcgr/page/10 10 ] , p. 10, en Google Books .
  12. ^ Stigler, Stephen M. (1986). "Capítulo 3" . Historia de la estadística . Harvard University Press. ISBN 9780674403406.
  13. ^ ab Fienberg, Stephen. E. (2006). "¿Cuándo la inferencia bayesiana se volvió "bayesiana"?" (PDF) . Bayesian Analysis . 1 (1): 5, 1–40. doi : 10.1214/06-BA101 . Archivado desde el original (PDF) el 10 de septiembre de 2014.
  14. ^ Harris, Marshall Dees (1959). "Recent developments of the so-called bayesian approach to statistics". Agricultural Law Center. Legal-Economic Research . University of Iowa: 125 (fn. #52), 126. Los trabajos de Wald , Statistical Decision Functions (1950) y Savage , The Foundation of Statistics (1954) se consideran comúnmente puntos de partida para los enfoques bayesianos actuales.
  15. ^ Anales del Laboratorio de Computación de la Universidad de Harvard . Vol. 31. 1962. p. 180. Esta revolución, que puede tener éxito o no, es el neobayesianismo. Jeffreys intentó introducir este enfoque, pero no logró en su momento darle un atractivo general.
  16. ^ Kempthorne, Oscar (1967). El problema clásico de la inferencia: bondad del ajuste. Quinto simposio de Berkeley sobre estadística matemática y probabilidad. p. 235. Es curioso que incluso en sus actividades no relacionadas con la ética, la humanidad busque una religión. En la actualidad, la religión que se está "impulsando" con más fuerza es el bayesianismo.
  17. ^ Bernardo, JM (2005). "Análisis de referencia". Pensamiento bayesiano: modelado y computación . Manual de estadística. Vol. 25. Manual de estadística. pp. 17–90. doi :10.1016/S0169-7161(05)25002-2. ISBN 9780444515391.
  18. ^ Wolpert, RL (2004). "Una conversación con James O. Berger". Ciencia estadística . 9 : 205–218. doi : 10.1214/088342304000000053 .
  19. ^ Bernardo, José M. (2006). Introducción a la estadística matemática bayesiana (PDF) . ICOTS-7. Berna. Archivado (PDF) desde el original el 9 de octubre de 2022.
  20. ^ Bishop, CM (2007). Reconocimiento de patrones y aprendizaje automático . Springer.
  21. ^ Smith, C. Ray; Erickson, Gary (1989). "De la racionalidad y la consistencia a la probabilidad bayesiana". En Skilling, John (ed.). Máxima entropía y métodos bayesianos . Dordrecht: Kluwer. págs. 29–44. doi :10.1007/978-94-015-7860-8_2. ISBN 0-7923-0224-9.
  22. ^ Halpern, J. (1999). "Un contraejemplo de los teoremas de Cox y Fine" (PDF) . Revista de investigación en inteligencia artificial . 10 : 67–85. doi : 10.1613/jair.536 . S2CID  1538503. Archivado (PDF) desde el original el 2022-10-09.
  23. ^ Hacking (1967), Sección 3, página 316
  24. ^ Hacking (1988, página 124)
  25. ^ Skyrms, Brian (1 de enero de 1987). "Coherencia dinámica y cinemática de probabilidad". Filosofía de la ciencia . 54 (1): 1–20. CiteSeerX 10.1.1.395.5723 . doi :10.1086/289350. JSTOR  187470. S2CID  120881078. 
  26. ^ Joyce, James (30 de septiembre de 2003). "Teorema de Bayes". The Stanford Encyclopedia of Philosophy . stanford.edu.
  27. ^ Fuchs, Christopher A.; Schack, Rüdiger (1 de enero de 2012). "Condicionamiento bayesiano, principio de reflexión y decoherencia cuántica". En Ben-Menahem, Yemima; Hemmo, Meir (eds.). Probabilidad en física . Colección Frontiers. Springer Berlin Heidelberg. págs. 233–247. arXiv : 1103.5950 . doi :10.1007/978-3-642-21329-8_15. ISBN . 9783642213281.ID S2C  119215115.
  28. ^ van Frassen, Bas (1989). Leyes y simetría . Oxford University Press. ISBN 0-19-824860-1.
  29. ^ Wald, Abraham (1950). Funciones de decisión estadística . Wiley.
  30. ^ Bernardo, José M.; Smith, Adrian FM (1994). Teoría bayesiana . John Wiley. ISBN 0-471-92416-4.
  31. ^ Pfanzagl (1967, 1968)
  32. ^ Morgenstern (1976, página 65)
  33. ^ Galavotti, Maria Carla (1 de enero de 1989). "El antirrealismo en la filosofía de la probabilidad: el subjetivismo de Bruno de Finetti". Erkenntnis . 31 (2/3): 239–261. doi :10.1007/bf01236565. JSTOR  20012239. S2CID  170802937.
  34. ^ abc Galavotti, Maria Carla (1 de diciembre de 1991). "La noción de probabilidad subjetiva en la obra de Ramsey y de Finetti". Theoria . 57 (3): 239–259. doi :10.1111/j.1755-2567.1991.tb00839.x. ISSN  1755-2567.
  35. ^ ab Dokic, Jérôme; Engel, Pascal (2003). Frank Ramsey: Verdad y éxito . Routledge. ISBN 9781134445936.
  36. ^ Davidson y otros (1957)
  37. ^ Thornton, Stephen (7 de agosto de 2018). "Karl Popper". Stanford Encyclopedia of Philosophy. Laboratorio de Investigación en Metafísica, Universidad de Stanford.
  38. ^ Popper, Karl (2002) [1959]. La lógica del descubrimiento científico (2.ª ed.). Routledge. pág. 57. ISBN 0-415-27843-0– a través de Google Books.(traducción del original de 1935, en alemán).
  39. ^ Peirce y Jastrow (1885)
  40. ^ ab Bernardo, JM (2005). "Análisis de referencia". En Dey, DK; Rao, CR (eds.). Handbook of Statistics (PDF) . Vol. 25. Ámsterdam: Elsevier. pp. 17–90. Archivado (PDF) desde el original el 2022-10-09.

Bibliografía

(Parcialmente reimpreso en Gärdenfors, Peter ; Sahlin, Nils-Eric (1988). Decisión, probabilidad y utilidad: lecturas seleccionadas . Cambridge University Press. ISBN 0-521-33658-9.)