stringtranslate.com

probabilidad previa

Una distribución de probabilidad a priori de una cantidad incierta, a menudo llamada simplemente a priori , es su distribución de probabilidad asumida antes de que se tenga en cuenta alguna evidencia. Por ejemplo, el prior podría ser la distribución de probabilidad que representa las proporciones relativas de votantes que votarán por un político particular en una elección futura. La cantidad desconocida puede ser un parámetro del modelo o una variable latente en lugar de una variable observable .

En estadística bayesiana , la regla de Bayes prescribe cómo actualizar la información anterior con nueva información para obtener la distribución de probabilidad posterior , que es la distribución condicional de la cantidad incierta dados nuevos datos. Históricamente, la elección de priores a menudo se limitaba a una familia conjugada de una función de probabilidad dada , por lo que daría como resultado un posterior manejable de la misma familia. Sin embargo, la amplia disponibilidad de los métodos Monte Carlo de la cadena de Markov ha hecho que esto sea menos preocupante.

Hay muchas formas de construir una distribución previa. [1] En algunos casos, se puede determinar un anterior a partir de información pasada, como experimentos anteriores. Un previo también puede obtenerse de la evaluación puramente subjetiva de un experto experimentado. [2] [3] Cuando no se disponga de información, podrá adoptarse un previo no informativo justificado por el principio de indiferencia . [4] [5] En las aplicaciones modernas, los prior también se eligen a menudo por sus propiedades mecánicas, como la regularización y la selección de características . [6] [7] [8]

Las distribuciones previas de los parámetros del modelo a menudo dependerán de sus propios parámetros. La incertidumbre sobre estos hiperparámetros puede, a su vez, expresarse como distribuciones de probabilidad hiperprior . Por ejemplo, si se utiliza una distribución beta para modelar la distribución del parámetro p de una distribución de Bernoulli , entonces:

En principio, los priores se pueden descomponer en muchos niveles condicionales de distribuciones, los llamados priores jerárquicos . [9]

Antecedentes informativos

Un previo informativo expresa información específica y definida sobre una variable. Un ejemplo es una distribución previa de la temperatura de mañana al mediodía. Un enfoque razonable es hacer que la distribución anterior sea normal con un valor esperado igual a la temperatura del mediodía de hoy, con una varianza igual a la varianza diaria de la temperatura atmosférica, o una distribución de la temperatura para ese día del año.

Este ejemplo tiene una propiedad en común con muchos anteriores, a saber, que el posterior de un problema (la temperatura de hoy) se convierte en el anterior de otro problema (la temperatura de mañana); La evidencia preexistente que ya ha sido tomada en cuenta es parte de la anterior y, a medida que se acumula más evidencia, la posterior está determinada en gran medida por la evidencia más que por cualquier supuesto original, siempre que el supuesto original admitiera la posibilidad de lo que es la evidencia. sugerencia. Los términos "anterior" y "posterior" generalmente se refieren a un dato u observación específica.

fuerte antes

Un a priori fuerte es un supuesto, teoría, concepto o idea precedente sobre el cual, después de tener en cuenta nueva información, se funda un supuesto, teoría, concepto o idea actual. [ cita necesaria ] Un previo fuerte es un tipo de previo informativo en el que la información contenida en la distribución anterior domina la información contenida en los datos que se analizan. El análisis bayesiano combina la información contenida en la distribución anterior con la extraída de los datos para producir la distribución posterior que, en el caso de una "prior fuerte", cambiaría poco con respecto a la distribución anterior.

Antecedentes débilmente informativos

Un previo débilmente informativo expresa información parcial sobre una variable, dirigiendo el análisis hacia soluciones que se alinean con el conocimiento existente sin limitar demasiado los resultados y evitar estimaciones extremas. Un ejemplo es, al establecer la distribución previa para la temperatura de mañana al mediodía en St. Louis, usar una distribución normal con una media de 50 grados Fahrenheit y una desviación estándar de 40 grados, lo que restringe muy vagamente la temperatura al rango (10 grados, 90 grados). grados) con una pequeña probabilidad de estar por debajo de -30 grados o por encima de 130 grados. El propósito de un prior débilmente informativo es la regularización , es decir, mantener las inferencias en un rango razonable.

Antecedentes poco informativos

Un prior poco informativo , plano o difuso expresa información vaga o general sobre una variable. [4] El término "anterior no informativo" es algo inapropiado. Tal a priori también podría denominarse a priori no muy informativo , o a priori objetivo , es decir, uno que no se obtiene subjetivamente.

Los antecedentes no informativos pueden expresar información "objetiva" como "la variable es positiva" o "la variable es menor que algún límite". La regla más simple y antigua para determinar un prior no informativo es el principio de indiferencia , que asigna iguales probabilidades a todas las posibilidades. En los problemas de estimación de parámetros, el uso de un a priori no informativo normalmente produce resultados que no son muy diferentes del análisis estadístico convencional, ya que la función de probabilidad a menudo produce más información que el a priori no informativo.

Se han hecho algunos intentos de encontrar probabilidades a priori , es decir, distribuciones de probabilidad en algún sentido lógicamente requeridas por la naturaleza del propio estado de incertidumbre; Estos son un tema de controversia filosófica, con los bayesianos divididos aproximadamente en dos escuelas: "bayesianos objetivos", que creen que tales antecedentes existen en muchas situaciones útiles, y "bayesianos subjetivos" que creen que en la práctica los antecedentes generalmente representan juicios de opinión subjetivos que no puede justificarse rigurosamente (Williamson 2010). Quizás los argumentos más sólidos a favor del bayesianismo objetivo los dio Edwin T. Jaynes , basándose principalmente en las consecuencias de las simetrías y en el principio de máxima entropía.

Como ejemplo de priori a priori, según Jaynes (2003), consideremos una situación en la que se sabe que una pelota ha estado escondida debajo de uno de tres vasos, A, B o C, pero no hay otra información disponible sobre su ubicación. . En este caso, un prior uniforme de p ( A ) = p ( B ) = p ( C ) = 1/3 parece intuitivamente la única opción razonable. Más formalmente, podemos ver que el problema sigue siendo el mismo si intercambiamos las etiquetas ("A", "B" y "C") de las tazas. Por lo tanto, sería extraño elegir un a priori para el cual una permutación de las etiquetas provocaría un cambio en nuestras predicciones sobre en qué copa se encontrará la pelota; el prior uniforme es el único que conserva esta invariancia. Si se acepta este principio de invariancia, entonces se puede ver que el previo uniforme es el previo lógicamente correcto para representar este estado de conocimiento. Este prior es "objetivo" en el sentido de ser la elección correcta para representar un estado particular de conocimiento, pero no es objetivo en el sentido de ser una característica del mundo independiente del observador: en realidad la pelota existe bajo una copa particular. , y sólo tiene sentido hablar de probabilidades en esta situación si hay un observador con conocimiento limitado sobre el sistema. [10]

Como ejemplo más polémico, Jaynes publicó un argumento basado en la invariancia del previo bajo un cambio de parámetros que sugiere que el previo que representa una incertidumbre completa sobre una probabilidad debería ser el previo de Haldane p −1 (1 −  p ) −1 . [11] El ejemplo que da Jaynes es el de encontrar una sustancia química en un laboratorio y preguntar si se disolverá en agua en experimentos repetidos. El previo de Haldane [12] otorga, con diferencia, el mayor peso a y , lo que indica que la muestra se disolverá siempre o nunca se disolverá, con la misma probabilidad. Sin embargo, si se ha observado que las muestras del producto químico se disuelven en un experimento y no se disuelven en otro experimento, entonces este resultado previo se actualiza a la distribución uniforme en el intervalo [0, 1]. Esto se obtiene aplicando el teorema de Bayes al conjunto de datos que consta de una observación de disolución y otra de no disolución, utilizando lo anterior. El prior de Haldane es una distribución previa impropia (lo que significa que tiene una masa infinita). Harold Jeffreys ideó una forma sistemática de diseñar antecedentes no informativos como, por ejemplo, el anterior de Jeffreys p −1/2 (1 −  p ) −1/2 para la variable aleatoria de Bernoulli.

Se pueden construir prioridades que sean proporcionales a la medida de Haar si el espacio de parámetros X lleva una estructura de grupo natural que deja invariante nuestro estado de conocimiento bayesiano. [11] Esto puede verse como una generalización del principio de invariancia utilizado para justificar el prior uniforme sobre las tres copas en el ejemplo anterior. Por ejemplo, en física podríamos esperar que un experimento dé los mismos resultados independientemente de nuestra elección del origen de un sistema de coordenadas. Esto induce la estructura de grupo del grupo de traducción en X , lo que determina la probabilidad a priori como una a priori constante e impropia . De manera similar, algunas medidas son naturalmente invariantes ante la elección de una escala arbitraria (por ejemplo, ya sea que se utilicen centímetros o pulgadas, los resultados físicos deben ser iguales). En tal caso, el grupo de escala es la estructura del grupo natural, y el prior correspondiente en X es proporcional a 1/ x . A veces importa si utilizamos la medida de Haar invariante por la izquierda o por la derecha. Por ejemplo, las medidas de Haar invariantes izquierda y derecha en el grupo afín no son iguales. Berger (1985, p. 413) sostiene que la medida de Haar invariante por la derecha es la elección correcta.

Otra idea, defendida por Edwin T. Jaynes , es utilizar el principio de máxima entropía (MAXENT). La motivación es que la entropía de Shannon de una distribución de probabilidad mide la cantidad de información contenida en la distribución. Cuanto mayor es la entropía, menos información proporciona la distribución. Por lo tanto, al maximizar la entropía sobre un conjunto adecuado de distribuciones de probabilidad en X , se encuentra la distribución que es menos informativa en el sentido de que contiene la menor cantidad de información consistente con las restricciones que definen el conjunto. Por ejemplo, la entropía máxima previa en un espacio discreto, dado solo que la probabilidad está normalizada a 1, es la previa que asigna igual probabilidad a cada estado. Y en el caso continuo, la entropía máxima previa dado que la densidad está normalizada con media cero y varianza unitaria es la distribución normal estándar . El principio de entropía cruzada mínima generaliza MAXENT al caso de "actualizar" una distribución previa arbitraria con restricciones adecuadas en el sentido de máxima entropía.

José-Miguel Bernardo introdujo una idea relacionada, los priores de referencia . Aquí, la idea es maximizar la divergencia esperada de Kullback-Leibler de la distribución posterior en relación con la anterior. Esto maximiza la información posterior esperada sobre X cuando la densidad previa es p ( x ); por lo tanto, en cierto sentido, p ( x ) es el a priori "menos informativo" sobre X. El a priori de referencia se define en el límite asintótico, es decir, se considera el límite de los a priori así obtenidos cuando el número de puntos de datos llega al infinito. . En el presente caso, la divergencia KL entre las distribuciones anterior y posterior viene dada por

Aquí hay una estadística suficiente para algún parámetro . La integral interna es la divergencia KL entre las distribuciones anterior y posterior y el resultado es la media ponderada de todos los valores de . Dividiendo el logaritmo en dos partes, invirtiendo el orden de las integrales en la segunda parte y observando que

La integral interna en la segunda parte es la integral de la densidad conjunta . Esta es la distribución marginal , por lo que tenemos

Ahora usamos el concepto de entropía que, en el caso de distribuciones de probabilidad, es el valor esperado negativo del logaritmo de la función de masa o densidad de probabilidad o Usando esto en la última ecuación se obtiene

En palabras, KL es el valor esperado negativo de la entropía de condicional más la entropía marginal (es decir, incondicional) de . En el caso límite donde el tamaño de la muestra tiende al infinito, el teorema de Bernstein-von Mises establece que la distribución de condicional a un valor observado dado de es normal con una varianza igual al recíproco de la información de Fisher en el valor "verdadero" de . La entropía de una función de densidad normal es igual a la mitad del logaritmo de donde está la varianza de la distribución. En este caso por lo tanto

Se trata de una divergencia cuasi-KL ("cuasi" en el sentido de que la raíz cuadrada de la información de Fisher puede ser el núcleo de una distribución impropia). Debido al signo menos, debemos minimizarlo para maximizar la divergencia KL con la que comenzamos. El valor mínimo de la última ecuación ocurre cuando las dos distribuciones en el argumento del logaritmo, impropias o no, no divergen. Esto a su vez ocurre cuando la distribución previa es proporcional a la raíz cuadrada de la información de Fisher de la función de verosimilitud. Por lo tanto, en el caso de un solo parámetro, los antecedentes de referencia y los de Jeffreys son idénticos, aunque Jeffreys tiene una justificación muy diferente.

Los priores de referencia son a menudo los prioritarios objetivos de elección en problemas multivariados, ya que otras reglas (por ejemplo, la regla de Jeffreys ) pueden resultar en prioritarios con comportamiento problemático. [ Se necesita aclaración. ¿Un previo de Jeffreys está relacionado con la divergencia de KL? ]

Las distribuciones previas objetivas también pueden derivarse de otros principios, como la teoría de la información o la codificación (ver, por ejemplo, longitud mínima de descripción ) o estadísticas frecuentistas (las llamadas prioridades de coincidencia de probabilidad). [13] Estos métodos se utilizan en la teoría de la inferencia inductiva de Solomonoff . La construcción de antecedentes objetivos se ha introducido recientemente en bioinformática, y especialmente en la inferencia en biología de sistemas cancerosos, donde el tamaño de la muestra es limitado y se encuentra disponible una gran cantidad de conocimiento previo . En estos métodos, se utiliza un criterio basado en la teoría de la información, como la divergencia KL o la función de probabilidad logarítmica para problemas binarios de aprendizaje supervisado [14] y problemas de modelos mixtos. [15]

Los problemas filosóficos asociados con antecedentes poco informativos están asociados con la elección de una métrica o escala de medición adecuada. Supongamos que queremos una información previa para la velocidad de carrera de un corredor que no conocemos. Podríamos especificar, digamos, una distribución normal como prior para su velocidad, pero alternativamente podríamos especificar una prior normal para el tiempo que tarda en completar 100 metros, que es proporcional al recíproco de la primera prior. Se trata de antecedentes muy diferentes, pero no está claro cuál es el preferido. El método de Jaynes de transformación de grupos puede responder a esta pregunta en algunas situaciones. [dieciséis]

De manera similar, si se nos pide que estimemos una proporción desconocida entre 0 y 1, podríamos decir que todas las proporciones son igualmente probables y utilizar un a priori uniforme. Alternativamente, podríamos decir que todos los órdenes de magnitud de la proporción son igualmente probables, laprior logarítmico , que es el prior uniforme del logaritmo de proporción. Ela priori de Jeffreysintenta resolver este problema calculando un a priori que expresa la misma creencia sin importar qué métrica se utilice. El adelanto de Jeffreys para una proporción desconocidapesp−1/2(1 − p)−1/2, que difiere de la recomendación de Jaynes.

Los a priori basados ​​en nociones de probabilidad algorítmica se utilizan en la inferencia inductiva como base para la inducción en entornos muy generales.

Los problemas prácticos asociados con antecedentes poco informativos incluyen el requisito de que la distribución posterior sea adecuada. Los habituales antecedentes poco informativos sobre variables continuas e ilimitadas son inadecuados. Esto no tiene por qué ser un problema si la distribución posterior es adecuada. Otra cuestión importante es que si se va a utilizar rutinariamente un previo no informativo , es decir, con muchos conjuntos de datos diferentes, debe tener buenas propiedades frecuentistas . Normalmente, a un bayesiano no le preocuparían estos problemas, pero puede ser importante en esta situación. Por ejemplo, uno querría que cualquier regla de decisión basada en la distribución posterior fuera admisible bajo la función de pérdida adoptada. Desafortunadamente, a menudo es difícil comprobar la admisibilidad, aunque se conocen algunos resultados (por ejemplo, Berger y Strawderman 1996). El problema es particularmente grave con los modelos jerárquicos de Bayes ; los antecedentes habituales (por ejemplo, el de Jeffreys) pueden dar reglas de decisión muy inadmisibles si se emplean en los niveles más altos de la jerarquía.

Antecedentes inadecuados

Dejemos que los eventos sean mutuamente excluyentes y exhaustivos. Si el teorema de Bayes se escribe como

PA iPA jvariable aleatoria continuaprior impropio[17]BA j

Los estadísticos a veces utilizan antecedentes inadecuados como antecedentes no informativos . [18] Por ejemplo, si necesitan una distribución previa para la media y la varianza de una variable aleatoria, pueden suponer p ( mv ) ~ 1/ v (para v  > 0), lo que sugeriría que cualquier valor de la media es "igualmente probable" y que un valor para la varianza positiva se vuelve "menos probable" en proporción inversa a su valor. Muchos autores (Lindley, 1973; De Groot, 1937; Kass y Wasserman, 1996) [ cita necesaria ] advierten contra el peligro de sobreinterpretar esos antecedentes, ya que no son densidades de probabilidad. La única relevancia que tienen se encuentra en el posterior correspondiente, siempre que esté bien definido para todas las observaciones. (El anterior de Haldane es un contraejemplo típico. [ aclaración necesaria ] [ cita necesaria ] )

Por el contrario, no es necesario integrar las funciones de probabilidad , y una función de probabilidad que es uniformemente 1 corresponde a la ausencia de datos (todos los modelos son igualmente probables si no hay datos): la regla de Bayes multiplica un a priori por la probabilidad, y un El producto vacío es solo la probabilidad constante 1. Sin embargo, sin comenzar con una distribución de probabilidad previa, no se termina obteniendo una distribución de probabilidad posterior y, por lo tanto, no se pueden integrar ni calcular los valores esperados o la pérdida. Consulte Función de probabilidad § No integrabilidad para obtener más detalles.

Ejemplos

Ejemplos de antecedentes inadecuados incluyen:

Estas funciones, interpretadas como distribuciones uniformes, también pueden interpretarse como la función de probabilidad en ausencia de datos, pero no son antecedentes adecuados.

Probabilidad previa en mecánica estadística.

Mientras que en la estadística bayesiana la probabilidad a priori se utiliza para representar creencias iniciales sobre un parámetro incierto, en la mecánica estadística la probabilidad a priori se utiliza para describir el estado inicial de un sistema. [19] La versión clásica se define como la relación entre el número de eventos elementales (por ejemplo, el número de veces que se lanza un dado) y el número total de eventos, y estos se consideran puramente deductivamente, es decir, sin ningún experimento. En el caso del dado, si lo miramos sobre la mesa sin tirarlo, se razona deductivamente que cada evento elemental tiene la misma probabilidad; de ahí la probabilidad de cada resultado de un lanzamiento imaginario del dado (perfecto) o simplemente contando. el número de caras es 1/6. Cada cara del dado aparece con la misma probabilidad; la probabilidad es una medida definida para cada evento elemental. El resultado es diferente si lanzamos el dado veinte veces y preguntamos cuántas veces (sobre 20) aparece el número 6 en la cara superior. En este caso entra en juego el tiempo y tenemos diferente tipo de probabilidad dependiendo del tiempo o del número de veces que se lanza el dado. Por otro lado, la probabilidad a priori es independiente del tiempo: puedes mirar el dado sobre la mesa todo el tiempo que quieras sin tocarlo y deduces que la probabilidad de que aparezca el número 6 en la cara superior es 1/6. .

En mecánica estadística, por ejemplo la de un gas contenido en un volumen finito , tanto las coordenadas espaciales como las coordenadas de momento de los elementos individuales del gas (átomos o moléculas) son finitas en el espacio de fases abarcado por estas coordenadas. En analogía con el caso del dado, la probabilidad a priori es aquí (en el caso de un continuo) proporcional al elemento de volumen del espacio de fase dividido por , y es el número de ondas estacionarias (es decir, estados) en el mismo, donde es el rango de la variable y es el rango de la variable (aquí por simplicidad considerado en una dimensión). En 1 dimensión (longitud ), este número o peso estadístico o ponderación a priori es . En las 3 dimensiones habituales (volumen ), se puede calcular que el número correspondiente es . [20] Para entender que esta cantidad proporciona una serie de estados en la mecánica cuántica (es decir, ondulatoria), recordemos que en la mecánica cuántica cada partícula está asociada con una onda de materia que es la solución de una ecuación de Schrödinger. En el caso de partículas libres (de energía ) como las de un gas en una caja de volumen, tal onda de materia es explícitamente

relación de incertidumbre
teorema de Liouville[21]

En toda la teoría cuántica se tiene una ley de conservación análoga. En este caso, la región del espacio de fase se reemplaza por un subespacio del espacio de estados expresado en términos de un operador de proyección , y en lugar de la probabilidad en el espacio de fase, se tiene la densidad de probabilidad.

matriz S.conjunto microcanónico

Ejemplo

El siguiente ejemplo ilustra la probabilidad a priori (o ponderación a priori) en contextos (a) clásico y (b) cuántico.

  1. Probabilidad clásica a priori

    Considere la energía de rotación E de una molécula diatómica con momento de inercia I en coordenadas polares esféricas (esto significa que arriba está aquí ), es decir

    La curva para la constante E y es una elipse de área.
    Integrando sobre y el volumen total del espacio de fase cubierto para energía constante E es
    y por lo tanto la ponderación clásica a priori en el rango de energía es
    (volumen del espacio de fase en ) menos (volumen del espacio de fase en ) viene dado por
  2. Probabilidad cuántica a priori

    Suponiendo que el número de estados cuánticos en un rango para cada dirección de movimiento viene dado, por elemento, por un factor , el número de estados en el rango de energía dE es, como se ve en (a) para la molécula diatómica en rotación. De la mecánica ondulatoria se sabe que los niveles de energía de una molécula diatómica en rotación están dados por

    cada uno de esos niveles es (2n+1) veces degenerado. Al evaluar se obtiene
    Así, en comparación con lo anterior, se encuentra que el número aproximado de estados en el rango dE viene dado por la degeneración, es decir
    Así, la ponderación a priori en el contexto clásico (a) corresponde a la ponderación a priori aquí en el contexto cuántico (b). En el caso del oscilador armónico simple unidimensional de frecuencia natural se encuentra correspondientemente: (a) y (b) (sin degeneración). Así, en mecánica cuántica la probabilidad a priori es efectivamente una medida de la degeneración , es decir, del número de estados que tienen la misma energía. En el caso del átomo de hidrógeno o del potencial de Coulomb (donde la evaluación del volumen del espacio de fases para energía constante es más complicada) se sabe que la degeneración de la mecánica cuántica es con . Así en este caso .

Funciones de probabilidad y distribución a priori

En mecánica estadística (ver cualquier libro) se derivan las llamadas funciones de distribución para diversas estadísticas. En el caso de las estadísticas de Fermi-Dirac y de Bose-Einstein, estas funciones son respectivamente

principio de Pauli
ecuación de transporte de Boltzmann

Ver también

Notas

  1. ^ Robert, cristiano (1994). "De la información previa a las distribuciones previas". La elección bayesiana . Nueva York: Springer. págs. 89-136. ISBN 0-387-94296-3.
  2. ^ Chaloner, Kathryn (1996). "Obtención de distribuciones previas". En Berry, Donald A.; Stangl, Dalene (eds.). Bioestadística bayesiana . Nueva York: Marcel Dekker. págs. 141-156. ISBN 0-8247-9334-X.
  3. ^ Mikkola, Petrus; et al. (2023). "Obtención de conocimientos previos: pasado, presente y futuro". Análisis bayesiano . Próximo. doi :10.1214/23-BA1381. hdl : 11336/183197 . S2CID  244798734.
  4. ^ ab Zellner, Arnold (1971). "Distribuciones anteriores para representar 'saber poco'". Introducción a la inferencia bayesiana en econometría . Nueva York: John Wiley & Sons. págs. 41–53. ISBN 0-471-98165-6.
  5. ^ Precio, Harold J.; Manson, Allison R. (2001). "Antecedentes poco informativos del teorema de Bayes". Conferencia AIP. Proc . 617 : 379–391. doi :10.1063/1.1477060.
  6. ^ Piironen, Juho; Vehtari, Aki (2017). "Información de escasez y regularización en la herradura y otros antecedentes de merma". Revista Electrónica de Estadística . 11 (2): 5018–5051. arXiv : 1707.01694 . doi : 10.1214/17-EJS1337SI .
  7. ^ Simpson, Daniel; et al. (2017). "Penalización de la complejidad de los componentes del modelo: un enfoque práctico y basado en principios para la construcción de antecedentes". Ciencia estadística . 32 (1): 1–28. arXiv : 1403.4630 . doi :10.1214/16-STS576. S2CID  88513041.
  8. ^ Fortuin, Vicente (2022). "Antecedentes en el aprendizaje profundo bayesiano: una revisión". Revista estadística internacional . 90 (3): 563–591. doi :10.1111/insr.12502. hdl : 20.500.11850/547969 . S2CID  234681651.
  9. ^ Congdon, Peter D. (2020). "Técnicas de regresión utilizando prioridades jerárquicas". Modelos jerárquicos bayesianos (2ª ed.). Boca Ratón: CRC Press. págs. 253–315. ISBN 978-1-03-217715-1.
  10. ^ Florens, Jean-Pierre; Mouchart, Michael; Rolin, Jean-Marie (1990). "Argumentos de invariancia en estadística bayesiana". Toma de Decisiones Económicas: Juegos, Econometría y Optimización . Holanda del Norte. págs. 351–367. ISBN 0-444-88422-X.
  11. ^ ab Jaynes, Edwin T. (septiembre de 1968). "Probabilidades previas" (PDF) . Transacciones IEEE sobre ciencia de sistemas y cibernética . 4 (3): 227–241. doi :10.1109/TSSC.1968.300117.
  12. ^ Esta anterior fue propuesta por JBS Haldane en "Una nota sobre la probabilidad inversa", Mathematical Proceedings of the Cambridge Philosophical Society 28, 55–61, 1932, doi :10.1017/S0305004100010495. Véase también J. Haldane, "La precisión de los valores observados de frecuencias pequeñas", Biometrika, 35:297–300, 1948, doi :10.2307/2332350, JSTOR  2332350.
  13. ^ Datta, Gauri Sankar; Mukerjee, Rahul (2004). Prioridades de coincidencia de probabilidad: asintóticas de orden superior . Saltador. ISBN 978-0-387-20329-4.
  14. ^ Isfahani, MS; Dougherty, ER (2014). "Incorporación del conocimiento de las vías biológicas en la construcción de antecedentes para una clasificación bayesiana óptima - IEEE Journals & Magazine". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 11 (1): 202–18. doi :10.1109/TCBB.2013.143. PMID  26355519. S2CID  10096507.
  15. ^ Boluki, Shahin; Esfahaní, Mohammad Shahrokh; Qian, Xiao Ning; Dougherty, Edward R (diciembre de 2017). "Incorporación de conocimientos biológicos previos para el aprendizaje bayesiano a través de información previa máxima basada en conocimientos". Bioinformática BMC . 18 (T14): 552. doi : 10.1186/s12859-017-1893-4 . ISSN  1471-2105. PMC 5751802 . PMID  29297278. 
  16. ^ Jaynes (1968), págs. 17, véase también Jaynes (2003), capítulo 12. Tenga en cuenta que el capítulo 12 no está disponible en la preimpresión en línea, pero se puede obtener una vista previa a través de Google Books.
  17. ^ David, AP; Piedra, M.; Zidek, JV (1973). "Paradojas de la marginación en la inferencia estructural y bayesiana". Revista de la Real Sociedad de Estadística . Serie B (Metodológica). 35 (2): 189–233. JSTOR  2984907.
  18. ^ Christensen, Ronald; Johnson, Wesley; Branscum, Adán; Hanson, Timothy E. (2010). Ideas bayesianas y análisis de datos: una introducción para científicos y estadísticos . Hoboken: Prensa CRC. pag. 69.ISBN 9781439894798.
  19. ^ Iba, Y. (1989). "Estadística bayesiana y mecánica estadística". En Takayama, H. (ed.). Dinámica cooperativa en sistemas físicos complejos . Serie Springer en Sinergética. vol. 43. Berlín: Springer. págs. 235-236. doi :10.1007/978-3-642-74554-6_60. ISBN 978-3-642-74556-0.
  20. ^ Müller-Kirsten, HJW (2013). Conceptos básicos de física estadística (2ª ed.). Singapur: World Scientific. Capítulo 6.
  21. ^ Ben-Naim, A. (2007). Entropía desmitificada . Singapur: World Scientific.

Referencias