Probabilidad posterior

La probabilidad posterior es un tipo de probabilidad condicional que resulta de actualizar la probabilidad anterior con información resumida por la probabilidad mediante una aplicación de la regla de Bayes . ^[1] Desde una perspectiva epistemológica , la probabilidad posterior contiene todo lo que hay que saber sobre una proposición incierta (como una hipótesis científica o valores de parámetros), dado el conocimiento previo y un modelo matemático que describe las observaciones disponibles en un momento particular. ^[2] Después de la llegada de nueva información, la probabilidad posterior actual puede servir como previa en otra ronda de actualización bayesiana. ^[3]

En el contexto de la estadística bayesiana , la distribución de probabilidad posterior generalmente describe la incertidumbre epistémica sobre los parámetros estadísticos condicionada a una recopilación de datos observados. A partir de una distribución posterior determinada, se pueden derivar varias estimaciones puntuales y de intervalo , como el máximo a posteriori (MAP) o el intervalo de densidad posterior más alto (HPDI). ^[4] Pero aunque conceptualmente simple, la distribución posterior generalmente no es manejable y por lo tanto necesita ser aproximada analítica o numéricamente. ^[5]

Definición en el caso distributivo.

En los métodos bayesianos variacionales , la probabilidad posterior es la probabilidad de los parámetros dada la evidencia , y se denota . $\theta$ $X$ $p(\theta |X)$

Contrasta con la función de verosimilitud , que es la probabilidad de la evidencia dados los parámetros: . $p(X|\theta )$

Los dos están relacionados de la siguiente manera:

Dada una creencia previa de que existe una función de distribución de probabilidad y que las observaciones tienen probabilidad , entonces la probabilidad posterior se define como $p(\theta )$ $x$ $p(x|\theta )$

p(\theta |x)={\frac {p(x|\theta )}{p(x)}}p(\theta )

, ^[6]

donde es la constante de normalización y se calcula como $p(x)$

p(x)=\int p(x|\theta )p(\theta )d\theta

para continuo , o sumando todos los valores posibles de para discreto . ^[7] $\theta$ $p(x|\theta )p(\theta )$ $\theta$ $\theta$

La probabilidad posterior es por tanto proporcional al producto Probabilidad · Probabilidad previa . ^[8]

Ejemplo

Supongamos que hay una escuela con un 60% de niños y un 40% de niñas como estudiantes. Las niñas visten pantalones o faldas en igual número; todos los niños usan pantalones. Un observador ve a un estudiante (al azar) desde la distancia; Todo lo que el observador puede ver es que este estudiante lleva pantalones. ¿Cuál es la probabilidad de que este estudiante sea una niña? La respuesta correcta se puede calcular utilizando el teorema de Bayes.

El evento es que el estudiante observado es una niña, y el evento es que el estudiante observado lleva pantalones. Para calcular la probabilidad posterior , primero necesitamos saber: $G$ $T$ $P(G|T)$

$P(G)$ , o la probabilidad de que la estudiante sea una niña independientemente de cualquier otra información. Dado que el observador ve un estudiante al azar, lo que significa que todos los estudiantes tienen la misma probabilidad de ser observados, y el porcentaje de niñas entre los estudiantes es del 40%, esta probabilidad es igual a 0,4.
$P(B)$ , o la probabilidad de que el estudiante no sea una niña (es decir, un niño) independientemente de cualquier otra información ( es el evento complementario a ). Esto es 60%, o 0,6. $B$ $G$
$P(T|G)$ , o la probabilidad de que el estudiante use pantalones dado que el estudiante es una niña. Como es más probable que usen faldas que pantalones, esto es 0,5.
$P(T|B)$ , o la probabilidad de que el estudiante use pantalones dado que el estudiante es un niño. Esto se da como 1.
$P(T)$ , o la probabilidad de que un estudiante (seleccionado al azar) use pantalones independientemente de cualquier otra información. Dado que (a través de la ley de probabilidad total ), esto es . $P(T)=P(T|G)P(G)+P(T|B)P(B)$ $P(T)=0.5\times 0.4+1\times 0.6=0.8$

Dada toda esta información, la probabilidad posterior de que el observador haya visto a una niña dado que el estudiante observado lleva pantalones se puede calcular sustituyendo estos valores en la fórmula:

P(G|T)={\frac {P(T|G)P(G)}{P(T)}}={\frac {0.5\times 0.4}{0.8}}=0.25.

Una forma intuitiva de resolver esto es asumir que la escuela tiene N estudiantes. Número de niños = 0,6N y número de niñas = 0,4N. Si N es suficientemente grande, el número total de usuarios de pantalones = 0,6 N + 50 % de 0,4 N. Y número de chicas que usan pantalones = 50% de 0,4N. Por tanto, en la población de pantalones, las niñas son (50% de 0,4N)/(0,6N+ 50% de 0,4N) = 25%. En otras palabras, si separamos el grupo de usuarios de pantalones, una cuarta parte de ese grupo serán niñas. Por tanto, si ves pantalones, lo máximo que puedes deducir es que estás mirando una única muestra de un subconjunto de estudiantes donde el 25% son chicas. Y, por definición, la probabilidad de que este estudiante aleatorio sea una niña es del 25%. Todo problema del teorema de Bayes se puede resolver de esta forma. ^[9]

Cálculo

La distribución de probabilidad posterior de una variable aleatoria dado el valor de otra se puede calcular con el teorema de Bayes multiplicando la distribución de probabilidad anterior por la función de verosimilitud y luego dividiéndola por la constante de normalización , de la siguiente manera:

f_{X\mid Y=y}(x)={f_{X}(x){\mathcal {L}}_{X\mid Y=y}(x) \over {\int _{-\infty }^{\infty }f_{X}(u){\mathcal {L}}_{X\mid Y=y}(u)\,du}}

da la función de densidad de probabilidad posterior para una variable aleatoria dados los datos , donde $X$ $Y=y$

$f_{X}(x)$ es la densidad previa de , $X$
${\mathcal {L}}_{X\mid Y=y}(x)=f_{Y\mid X=x}(y)$ es la función de verosimilitud en función de , $x$
$\int _{-\infty }^{\infty }f_{X}(u){\mathcal {L}}_{X\mid Y=y}(u)\,du$ es la constante de normalización, y
$f_{X\mid Y=y}(x)$ es la densidad posterior de dados los datos . ^[10] $X$ $Y=y$

Intervalo creíble

La probabilidad posterior es una probabilidad condicional condicionada a datos observados aleatoriamente. Por tanto es una variable aleatoria. Para una variable aleatoria, es importante resumir su grado de incertidumbre. Una forma de lograr este objetivo es proporcionar un intervalo creíble de probabilidad posterior. ^[11]

Clasificación

En clasificación , las probabilidades posteriores reflejan la incertidumbre de evaluar una observación para una clase particular; consulte también probabilidades de pertenencia a una clase . Mientras que los métodos de clasificación estadística, por definición, generan probabilidades posteriores, los estudiantes automáticos suelen proporcionar valores de membresía que no inducen ninguna confianza probabilística. Es deseable transformar o reescalar los valores de membresía a probabilidades de membresía de clase, ya que son comparables y, además, más fácilmente aplicables para el posprocesamiento. ^[12]

Ver también

Referencias

^ Lambert, Ben (2018). "Lo posterior: el objetivo de la inferencia bayesiana". Una guía para estudiantes de estadística bayesiana . Sabio. págs. 121-140. ISBN 978-1-4739-1636-4.
^ Grossman, Jason (2005). Inferencias de observaciones a hipótesis estadísticas simples (tesis doctoral). Universidad de Sídney. hdl :2123/9107.
^ Etz, Alex (25 de julio de 2015). "Comprensión de Bayes: actualización de antecedentes a través de la probabilidad". Los archivos Etz . Consultado el 18 de agosto de 2022 .
^ Gill, Jeff (2014). "Resumiendo distribuciones posteriores con intervalos". Métodos bayesianos: un enfoque de las ciencias sociales y del comportamiento (tercera ed.). Chapman y Hall. págs. 42–48. ISBN 978-1-4398-6248-3.
^ Prensa, S. James (1989). "Aproximaciones, métodos numéricos y programas informáticos". Estadística bayesiana: principios, modelos y aplicaciones . Nueva York: John Wiley & Sons. págs. 69-102. ISBN 0-471-63729-7.
^ Christopher M. Obispo (2006). Reconocimiento de patrones y aprendizaje automático . Saltador. págs. 21-24. ISBN 978-0-387-31073-2.
^ Andrew Gelman, John B. Carlin, Hal S. Stern, David B. Dunson, Aki Vehtari y Donald B. Rubin (2014). Análisis de datos bayesianos . Prensa CRC. pag. 7.ISBN 978-1-4398-4095-5.{{cite book}}: CS1 maint: multiple names: authors list (link)
^ Ross, Kevin. Capítulo 8 Introducción a las distribuciones previas y posteriores continuas | Introducción al razonamiento y los métodos bayesianos.
^ "Teorema de Bayes: C o T ex T". sitios.google.com . Consultado el 18 de agosto de 2022 .
^ "Probabilidad posterior - motor de búsqueda de fórmulas". fórmulasearchengine.com . Consultado el 19 de agosto de 2022 .
^ Clyde, Merlise; Çetinkaya-Rundel, mía; Rundel, Colin; Bancos, David; Chai, Cristina; Huang, Lizzy. Capítulo 1 Los fundamentos de la estadística bayesiana | Una introducción al pensamiento bayesiano.
^ Boedeker, Pedro; Kearns, Nathan T. (9 de julio de 2019). "Análisis discriminante lineal para la predicción de la pertenencia a un grupo: una introducción fácil de usar". Avances en métodos y prácticas en ciencia psicológica . 2 (3): 250–263. doi :10.1177/2515245919849378. ISSN 2515-2459. S2CID 199007973.

Otras lecturas

Lancaster, Tony (2004). Introducción a la econometría bayesiana moderna . Oxford: Blackwell. ISBN 1-4051-1720-6.
Lee, Peter M. (2004). Estadística bayesiana: introducción (3ª ed.). Wiley . ISBN 0-340-81405-5.