Teorema de Bayes

El teorema de Bayes (también conocido como ley de Bayes o regla de Bayes , en honor a Thomas Bayes ) proporciona una regla matemática para invertir las probabilidades condicionales , lo que nos permite hallar la probabilidad de una causa dado su efecto. ^[1] Por ejemplo, si se sabe que el riesgo de desarrollar problemas de salud aumenta con la edad, el teorema de Bayes permite evaluar con mayor precisión el riesgo de un individuo de una edad conocida condicionándolo en relación con su edad, en lugar de asumir que el individuo es típico de la población en su conjunto. Según la ley de Bayes, se deben tener en cuenta tanto la prevalencia de una enfermedad en una población dada como la tasa de error de una prueba de enfermedad infecciosa para evaluar correctamente el significado de un resultado positivo de la prueba y evitar la falacia de la tasa base .

Una de las muchas aplicaciones del teorema de Bayes es la inferencia bayesiana , un enfoque particular de la inferencia estadística , donde se utiliza para invertir la probabilidad de las observaciones dada una configuración del modelo (es decir, la función de verosimilitud ) para obtener la probabilidad de la configuración del modelo dadas las observaciones (es decir, la probabilidad posterior ).

Historia

El teorema de Bayes recibe su nombre del reverendo Thomas Bayes ( / b eɪ z / ), también estadístico y filósofo. Bayes utilizó la probabilidad condicional para proporcionar un algoritmo (su Proposición 9) que utiliza evidencia para calcular límites sobre un parámetro desconocido. Su trabajo fue publicado en 1763 como Un ensayo para resolver un problema en la doctrina de las probabilidades . Bayes estudió cómo calcular una distribución para el parámetro de probabilidad de una distribución binomial (en terminología moderna). A la muerte de Bayes, su familia transfirió sus documentos a un amigo, el ministro, filósofo y matemático Richard Price .

Durante dos años, Richard Price editó en profundidad el manuscrito inédito, antes de enviárselo a un amigo que lo leyó en voz alta en la Royal Society el 23 de diciembre de 1763. ^[2] Price editó ^[3] la obra principal de Bayes "An Essay Towards Solving a Problem in the Doctrine of Chances" (1763), que apareció en Philosophical Transactions , ^[4] y que contiene el teorema de Bayes. Price escribió una introducción al artículo que proporciona algunas de las bases filosóficas de las estadísticas bayesianas y eligió una de las dos soluciones ofrecidas por Bayes. En 1765, Price fue elegido miembro de la Royal Society en reconocimiento a su trabajo sobre el legado de Bayes. ^[5]^[6] El 27 de abril se leyó en la Royal Society una carta enviada a su amigo Benjamin Franklin , que luego se publicó, en la que Price aplica este trabajo a la población y al cálculo de "anualidades vitalicias". ^[7]

Independientemente de Bayes, Pierre-Simon Laplace en 1774, y más tarde en su Théorie analytique des probabilités de 1812 , utilizó la probabilidad condicional para formular la relación de una probabilidad posterior actualizada a partir de una probabilidad previa, dada la evidencia. Reprodujo y amplió los resultados de Bayes en 1774, aparentemente sin conocer el trabajo de Bayes. ^{[nota 1]}^[8] La interpretación bayesiana de la probabilidad fue desarrollada principalmente por Laplace. ^[9]

Unos 200 años después, Sir Harold Jeffreys puso el algoritmo de Bayes y la formulación de Laplace sobre una base axiomática , escribiendo en un libro de 1973 que el teorema de Bayes "es a la teoría de la probabilidad lo que el teorema de Pitágoras es a la geometría". ^[10]

Stephen Stigler utilizó un argumento bayesiano para concluir que el teorema de Bayes fue descubierto por Nicholas Saunderson , un matemático inglés ciego, algún tiempo antes que Bayes; ^[11]^[12] sin embargo, esa interpretación ha sido cuestionada. ^[13] Martyn Hooper ^[14] y Sharon McGrayne ^[15] han argumentado que la contribución de Richard Price fue sustancial:

Según los estándares modernos, deberíamos referirnos a la regla de Bayes-Price. Price descubrió el trabajo de Bayes, reconoció su importancia, lo corrigió, contribuyó al artículo y encontró un uso para él. La convención moderna de emplear solo el nombre de Bayes es injusta, pero está tan arraigada que cualquier otra cosa tiene poco sentido. ^[15]

Enunciado del teorema

El teorema de Bayes se enuncia matemáticamente como la siguiente ecuación: ^[16]

$P(A\vert B)={\frac {P(B\vert A)P(A)}{P(B)}}$

donde y son eventos y . ${\estilo de visualización A}$ ${\estilo de visualización B}$ $P(B)\neq 0$

$P(A\vert B)$ es una probabilidad condicional : la probabilidad de que ocurra un evento dado que es verdadero. También se denomina probabilidad posterior de un evento dado . ${\estilo de visualización A}$ ${\estilo de visualización B}$ ${\estilo de visualización A}$ ${\estilo de visualización B}$
$P(B\vert A)$ También es una probabilidad condicional: la probabilidad de que ocurra un evento dado que es cierto. También se puede interpretar como la probabilidad de que se dé un evento fijo porque . ${\estilo de visualización B}$ ${\estilo de visualización A}$ ${\estilo de visualización A}$ ${\estilo de visualización B}$ $P(B\vert A)=L(A\vert B)$
${\estilo de visualización P(A)}$ y son las probabilidades de observar y respectivamente sin ninguna condición dada; se conocen como probabilidad previa y probabilidad marginal . ${\estilo de visualización P(B)}$ ${\estilo de visualización A}$ ${\estilo de visualización B}$

Prueba

Para eventos

El teorema de Bayes puede derivarse de la definición de probabilidad condicional :

P(A\vert B)={\frac {P(A\cap B)}{P(B)}},{\text{ if }}P(B)\neq 0,

donde es la probabilidad de que tanto A como B sean verdaderas. De manera similar, $P(A\cap B)$

P(B\vert A)={\frac {P(A\cap B)}{P(A)}},{\text{ if }}P(A)\neq 0.

Resolviendo y sustituyendo en la expresión anterior se obtiene el teorema de Bayes: $P(A\cap B)$ $P(A\vert B)$

P(A\vert B)={\frac {P(B\vert A)P(A)}{P(B)}},{\text{ if }}P(B)\neq 0.

Para variables aleatorias continuas

Para dos variables aleatorias continuas X e Y , el teorema de Bayes puede derivarse análogamente de la definición de densidad condicional :

f_{X\vert Y=y}(x)={\frac {f_{X,Y}(x,y)}{f_{Y}(y)}}

f_{Y\vert X=x}(y)={\frac {f_{X,Y}(x,y)}{f_{X}(x)}}

Por lo tanto,

f_{X\vert Y=y}(x)={\frac {f_{Y\vert X=x}(y)f_{X}(x)}{f_{Y}(y)}}.

Caso general

Sea la distribución condicional de dados y sea la distribución de . La distribución conjunta es entonces . La distribución condicional de dados se determina entonces por $P_{Y}^{x}$ $Y$ $X=x$ $P_{X}$ $X$ $P_{X,Y}(dx,dy)=P_{Y}^{x}(dy)P_{X}(dx)$ $P_{X}^{y}$ $X$ $Y=y$

$P_{X}^{y}(A)=E(1_{A}(X)|Y=y)$

La existencia y unicidad de la expectativa condicional necesaria es una consecuencia del teorema de Radon-Nikodym . Este fue formulado por Kolmogorov en su famoso libro de 1933. Kolmogorov subraya la importancia de la probabilidad condicional al escribir "Deseo llamar la atención sobre... y especialmente la teoría de probabilidades condicionales y expectativas condicionales..." en el Prefacio. ^[17] El teorema de Bayes determina la distribución posterior a partir de la distribución anterior. La unicidad requiere suposiciones de continuidad. ^[18] El teorema de Bayes se puede generalizar para incluir distribuciones anteriores impropias, como la distribución uniforme en la línea real. ^[19] Los métodos modernos de Monte Carlo de cadena de Markov han impulsado la importancia del teorema de Bayes, incluidos los casos con anteriores impropias. ^[20]

Ejemplos

Matemáticas recreativas

La regla de Bayes y el cálculo de probabilidades condicionales proporcionan un método de solución para una serie de problemas populares, como el problema de los tres prisioneros , el problema de Monty Hall , el problema de los dos niños y el problema de los dos sobres .

Prueba de drogas

Supongamos que una prueba particular para determinar si alguien ha consumido cannabis tiene una sensibilidad del 90 % , es decir, una tasa de verdaderos positivos (TPR) de 0,90. Por lo tanto, arroja un 90 % de resultados verdaderos positivos (identificación correcta del consumo de drogas) para los consumidores de cannabis.

La prueba también tiene una especificidad del 80 % , lo que significa que la tasa de verdaderos negativos (TNR) es de 0,80. Por lo tanto, la prueba identifica correctamente el 80 % de no uso en el caso de los no usuarios, pero también genera un 20 % de falsos positivos, o una tasa de falsos positivos (FPR) de 0,20 en el caso de los no usuarios.

Suponiendo una prevalencia de 0,05 , es decir, que el 5% de las personas consumen cannabis, ¿cuál es la probabilidad de que una persona al azar que dé positivo sea realmente un consumidor de cannabis?

El valor predictivo positivo (VPP) de una prueba es la proporción de personas que realmente dan positivo de todas las que dan positivo, y se puede calcular a partir de una muestra como:

PPV = Verdadero positivo / Probado positivo

Si se conocen la sensibilidad, la especificidad y la prevalencia, el VPP se puede calcular utilizando el teorema de Bayes. Sea "la probabilidad de que alguien sea consumidor de cannabis dado que dé positivo en la prueba", que es lo que se entiende por VPP. Podemos escribir: $P({\text{User}}\vert {\text{Positive}})$

{\begin{aligned}P({\text{User}}\vert {\text{Positive}})&={\frac {P({\text{Positive}}\vert {\text{User}})P({\text{User}})}{P({\text{Positive}})}}\\&={\frac {P({\text{Positive}}\vert {\text{User}})P({\text{User}})}{P({\text{Positive}}\vert {\text{User}})P({\text{User}})+P({\text{Positive}}\vert {\text{Non-user}})P({\text{Non-user}})}}\\[8pt]&={\frac {0.90\times 0.05}{0.90\times 0.05+0.20\times 0.95}}={\frac {0.045}{0.045+0.19}}\approx 19\%\end{aligned}}

El denominador es una aplicación directa de la Ley de Probabilidad Total . En este caso, dice que la probabilidad de que alguien dé positivo es la probabilidad de que un usuario dé positivo multiplicada por la probabilidad de ser un usuario, más la probabilidad de que un no usuario dé positivo multiplicada por la probabilidad de ser un no usuario. Esto es cierto porque las clasificaciones usuario y no usuario forman una partición de un conjunto , es decir, el conjunto de personas que se someten a la prueba de drogas. Esto, combinado con la definición de probabilidad condicional , da como resultado la afirmación anterior. $P({\text{Positive}})=P({\text{Positive}}\vert {\text{User}})P({\text{User}})+P({\text{Positive}}\vert {\text{Non-user}})P({\text{Non-user}})$

En otras palabras, incluso si alguien da positivo, la probabilidad de que sea consumidor de cannabis es solo del 19%; esto se debe a que en este grupo, solo el 5% de las personas son consumidores y la mayoría de los positivos son falsos positivos provenientes del 95% restante.

Usando un cuadro de frecuencia para mostrar visualmente mediante comparación las áreas sombreadas, observe cuán pequeña es la zona rosada de los verdaderos positivos en comparación con la zona azul de los falsos positivos. $P({\text{User}}\vert {\text{Positive}})$

Si se hicieran la prueba a 1.000 personas:

950 son no usuarios y 190 de ellos dan falso positivo (0,20 × 950)
50 de ellos son usuarios y 45 de ellos dan verdaderos positivos (0,90 × 50)

De las 1.000 personas analizadas se obtienen 235 pruebas positivas, de las que sólo 45 son auténticos consumidores de drogas, aproximadamente el 19%.

Sensibilidad o especificidad

La importancia de la especificidad se puede ver al mostrar que incluso si la sensibilidad se eleva al 100% y la especificidad se mantiene en el 80%, la probabilidad de que alguien que dé positivo sea realmente un consumidor de cannabis solo aumenta del 19% al 21%, pero si la sensibilidad se mantiene en el 90% y la especificidad se incrementa al 95%, la probabilidad aumenta al 49%.

Tasa de cáncer

Aunque el 100% de los pacientes con cáncer de páncreas presenten un determinado síntoma, el hecho de que alguien presente el mismo síntoma no significa que esa persona tenga un 100% de posibilidades de padecer cáncer de páncreas. Suponiendo que la tasa de incidencia del cáncer de páncreas sea de 1/100000, mientras que 10/99999 individuos sanos presentan los mismos síntomas en todo el mundo, la probabilidad de padecer cáncer de páncreas dados los síntomas es de tan solo el 9,1%, y el otro 90,9% podría ser "falso positivo" (es decir, que se diga falsamente que se padece cáncer; "positivo" es un término confuso cuando, como en este caso, la prueba da malas noticias).

Según la tasa de incidencia, la siguiente tabla presenta los números correspondientes por cada 100.000 personas.

Que luego se puede utilizar para calcular la probabilidad de tener cáncer cuando se presentan los síntomas:

{\begin{aligned}P({\text{Cancer}}|{\text{Symptoms}})&={\frac {P({\text{Symptoms}}|{\text{Cancer}})P({\text{Cancer}})}{P({\text{Symptoms}})}}\\&={\frac {P({\text{Symptoms}}|{\text{Cancer}})P({\text{Cancer}})}{P({\text{Symptoms}}|{\text{Cancer}})P({\text{Cancer}})+P({\text{Symptoms}}|{\text{Non-Cancer}})P({\text{Non-Cancer}})}}\\[8pt]&={\frac {1\times 0.00001}{1\times 0.00001+(10/99999)\times 0.99999}}={\frac {1}{11}}\approx 9.1\%\end{aligned}}

Tasa de artículos defectuosos

Una fábrica produce artículos utilizando tres máquinas (A, B y C), que representan el 20%, el 30% y el 50% de su producción respectivamente. De los artículos producidos por la máquina A, el 5% son defectuosos; de manera similar, el 3% de los artículos de la máquina B y el 1% de los de la máquina C son defectuosos. Si un artículo seleccionado al azar es defectuoso, ¿cuál es la probabilidad de que haya sido producido por la máquina C?

Una vez más, se puede llegar a la respuesta sin utilizar la fórmula aplicando las condiciones a un número hipotético de casos. Por ejemplo, si la fábrica produce 1.000 artículos, 200 serán producidos por la máquina A, 300 por la máquina B y 500 por la máquina C. La máquina A producirá el 5% × 200 = 10 artículos defectuosos, la máquina B el 3% × 300 = 9 y la máquina C el 1% × 500 = 5, para un total de 24. Por lo tanto, la probabilidad de que un artículo defectuoso seleccionado al azar haya sido producido por la máquina C es 5/24 (~20,83%).

Este problema también se puede resolver utilizando el teorema de Bayes: Sea X _i el evento de que un artículo elegido al azar haya sido fabricado por la i ^-ésima máquina (para i = A, B, C). Sea Y el evento de que un artículo elegido al azar sea defectuoso. Entonces, tenemos la siguiente información:

P(X_{A})=0.2,\quad P(X_{B})=0.3,\quad P(X_{C})=0.5.

Si el artículo fue fabricado por la primera máquina, entonces la probabilidad de que esté defectuoso es 0,05; es decir, P ( Y | X _A ) = 0,05. En general, tenemos

P(Y|X_{A})=0.05,\quad P(Y|X_{B})=0.03,\quad P(Y|X_{C})=0.01.

Para responder a la pregunta original, primero hallamos P (Y). Esto se puede hacer de la siguiente manera:

P(Y)=\sum _{i}P(Y|X_{i})P(X_{i})=(0.05)(0.2)+(0.03)(0.3)+(0.01)(0.5)=0.024.

Por lo tanto, el 2,4% de la producción total es defectuosa.

Se nos da que Y ha ocurrido y queremos calcular la probabilidad condicional de X _C . Por el teorema de Bayes,

P(X_{C}|Y)={\frac {P(Y|X_{C})P(X_{C})}{P(Y)}}={\frac {0.01\cdot 0.50}{0.024}}={\frac {5}{24}}

Dado que el artículo es defectuoso, la probabilidad de que haya sido fabricado por la máquina C es 5/24. Aunque la máquina C produce la mitad de la producción total, produce una fracción mucho menor de los artículos defectuosos. Por lo tanto, el conocimiento de que el artículo seleccionado era defectuoso nos permite reemplazar la probabilidad previa P ( X _C ) = 1/2 por la probabilidad posterior más pequeña P ( X _C | Y ) = 5/24.

Interpretaciones

La interpretación de la regla de Bayes depende de la interpretación de la probabilidad que se le asigne a los términos. A continuación se describen las dos interpretaciones predominantes.

Interpretación bayesiana

En la interpretación bayesiana (o epistemológica) , la probabilidad mide un "grado de creencia". El teorema de Bayes vincula el grado de creencia en una proposición antes y después de tener en cuenta la evidencia. Por ejemplo, supongamos que se cree con un 50% de certeza que una moneda tiene el doble de probabilidades de caer cara que cruz. Si se lanza la moneda varias veces y se observan los resultados, ese grado de creencia probablemente aumentará o disminuirá, pero incluso podría permanecer igual, dependiendo de los resultados. Para la proposición A y la evidencia B ,

P ( A ), el anterior , es el grado inicial de creencia en A .
P ( A | B ), la posterior , es el grado de creencia después de incorporar la noticia de que B es verdadera.
el cocienteP ( B | A )/P ( B )⁠ representa el apoyo que B proporciona a A.

Para más información sobre la aplicación del teorema de Bayes bajo la interpretación bayesiana de la probabilidad, véase Inferencia bayesiana .

Interpretación frecuentista

En la interpretación frecuentista , la probabilidad mide una "proporción de resultados". Por ejemplo, supongamos que un experimento se realiza muchas veces. P ( A ) es la proporción de resultados con la propiedad A (la anterior) y P ( B ) es la proporción con la propiedad B . P ( B | A ) es la proporción de resultados con la propiedad B de los resultados con la propiedad A , y P ( A | B ) es la proporción de aquellos con A de aquellos con B (la posterior).

El papel del teorema de Bayes se visualiza mejor con diagramas de árbol. Los dos diagramas dividen los mismos resultados entre A y B en órdenes opuestos, para obtener las probabilidades inversas. El teorema de Bayes vincula las diferentes divisiones.

Ejemplo

Un entomólogo descubre lo que podría ser, debido al patrón en su espalda, una subespecie rara de escarabajo . Un 98% de los miembros de la subespecie rara tienen el patrón, por lo que P (Patrón | Raro) = 98%. Solo el 5% de los miembros de la subespecie común tienen el patrón. La subespecie rara es el 0,1% de la población total. ¿Qué probabilidad hay de que el escarabajo que tiene el patrón sea raro? ¿Qué es P (Raro | Patrón)?

De la forma extendida del teorema de Bayes (ya que cualquier escarabajo es raro o común),

{\begin{aligned}P({\text{Rare}}\vert {\text{Pattern}})&={\frac {P({\text{Pattern}}\vert {\text{Rare}})P({\text{Rare}})}{P({\text{Pattern}})}}\\[8pt]&={\frac {P({\text{Pattern}}\vert {\text{Rare}})P({\text{Rare}})}{P({\text{Pattern}}\vert {\text{Rare}})P({\text{Rare}})+P({\text{Pattern}}\vert {\text{Common}})P({\text{Common}})}}\\[8pt]&={\frac {0.98\times 0.001}{0.98\times 0.001+0.05\times 0.999}}\\[8pt]&\approx 1.9\%\end{aligned}}

Formularios

Eventos

Forma simple

Para los eventos A y B , siempre que P ( B ) ≠ 0,

P(A|B)={\frac {P(B|A)P(A)}{P(B)}}.

En muchas aplicaciones, por ejemplo en la inferencia bayesiana , el evento B está fijado en la discusión, y deseamos considerar el impacto de haber sido observado en nuestra creencia en varios eventos posibles A. En tal situación, el denominador de la última expresión, la probabilidad de la evidencia dada B , está fijado; lo que queremos variar es A. El teorema de Bayes muestra entonces que las probabilidades posteriores son proporcionales al numerador, por lo que la última ecuación se convierte en:

P(A|B)\propto P(A)\cdot P(B|A).

En palabras, el posterior es proporcional al anterior multiplicado por la probabilidad. ^[21]

Si los eventos A ₁ , A ₂ , ..., son mutuamente excluyentes y exhaustivos, es decir, uno de ellos es seguro que ocurrirá pero no pueden ocurrir dos juntos, podemos determinar la constante de proporcionalidad utilizando el hecho de que sus probabilidades deben sumar uno. Por ejemplo, para un evento dado A , el evento A mismo y su complemento ¬ A son excluyentes y exhaustivos. Denotando la constante de proporcionalidad por c tenemos

P(A|B)=c\cdot P(A)\cdot P(B|A){\text{ and }}P(\neg A|B)=c\cdot P(\neg A)\cdot P(B|\neg A).

Sumando estas dos fórmulas deducimos que

1=c\cdot (P(B|A)\cdot P(A)+P(B|\neg A)\cdot P(\neg A)),

c={\frac {1}{P(B|A)\cdot P(A)+P(B|\neg A)\cdot P(\neg A)}}={\frac {1}{P(B)}}.

Forma alternativa

Otra forma del teorema de Bayes para dos afirmaciones o hipótesis en competencia es:

P(A|B)={\frac {P(B|A)P(A)}{P(B|A)P(A)+P(B|\neg A)P(\neg A)}}.

Para una interpretación epistemológica:

Para la proposición A y la evidencia o antecedentes B , ^[22]

$P(A)$ es la probabilidad previa , el grado inicial de creencia en A.
$P(\neg A)$ es el grado inicial correspondiente de creencia en no-A , que A es falso, donde $P(\neg A)=1-P(A)$
$P(B|A)$ es la probabilidad o verosimilitud condicional, el grado de creencia en B dado que la proposición A es verdadera.
$P(B|\neg A)$ es la probabilidad o verosimilitud condicional, el grado de creencia en B dado que la proposición A es falsa.
$P(A|B)$ es la probabilidad posterior , la probabilidad de A después de tomar en cuenta B.

Forma extendida

A menudo, para alguna partición { A _j } del espacio muestral , el espacio de eventos se da en términos de P ( A _j ) y P ( B | A _j ). Entonces resulta útil calcular P ( B ) utilizando la ley de probabilidad total :

$P(B)=\sum _{j}P(B\cap A_{j}),$

O (utilizando la regla de multiplicación para la probabilidad condicional), ^[23]

P(B)={\sum _{j}P(B|A_{j})P(A_{j})},

\Rightarrow P(A_{i}|B)={\frac {P(B|A_{i})P(A_{i})}{\sum \limits _{j}P(B|A_{j})P(A_{j})}}\cdot

En el caso especial donde A es una variable binaria :

P(A|B)={\frac {P(B|A)P(A)}{P(B|A)P(A)+P(B|\neg A)P(\neg A)}}\cdot

Variables aleatorias

Consideremos un espacio muestral Ω generado por dos variables aleatorias X e Y con distribuciones de probabilidad conocidas. En principio, el teorema de Bayes se aplica a los eventos A = { X = x } y B = { Y = y }.

P(X{=}x|Y{=}y)={\frac {P(Y{=}y|X{=}x)P(X{=}x)}{P(Y{=}y)}}

Sin embargo, los términos se vuelven 0 en los puntos donde cualquiera de las variables tiene una densidad de probabilidad finita . Para que siga siendo útil, el teorema de Bayes se puede formular en términos de las densidades relevantes (ver Derivación).

Forma simple

Si X es continua e Y es discreta,

f_{X|Y{=}y}(x)={\frac {P(Y{=}y|X{=}x)f_{X}(x)}{P(Y{=}y)}}

donde cada uno es una función de densidad. $f$

Si X es discreto e Y es continuo,

P(X{=}x|Y{=}y)={\frac {f_{Y|X{=}x}(y)P(X{=}x)}{f_{Y}(y)}}.

Si tanto X como Y son continuas,

f_{X|Y{=}y}(x)={\frac {f_{Y|X{=}x}(y)f_{X}(x)}{f_{Y}(y)}}.

Forma extendida

Un espacio de eventos continuos suele conceptualizarse en términos de los términos del numerador. En ese caso, resulta útil eliminar el denominador utilizando la ley de probabilidad total . Para f _Y ( y ), esto se convierte en una integral:

f_{Y}(y)=\int _{-\infty }^{\infty }f_{Y|X=\xi }(y)f_{X}(\xi )\,d\xi .

Regla de Bayes en forma de probabilidades

El teorema de Bayes en forma de probabilidades es:

O(A_{1}:A_{2}\vert B)=O(A_{1}:A_{2})\cdot \Lambda (A_{1}:A_{2}\vert B)

dónde

\Lambda (A_{1}:A_{2}\vert B)={\frac {P(B\vert A_{1})}{P(B\vert A_{2})}}

se llama factor de Bayes o razón de verosimilitud . Las probabilidades entre dos eventos son simplemente la razón de las probabilidades de los dos eventos. Por lo tanto

O(A_{1}:A_{2})={\frac {P(A_{1})}{P(A_{2})}},

O(A_{1}:A_{2}\vert B)={\frac {P(A_{1}\vert B)}{P(A_{2}\vert B)}},

Por lo tanto, la regla dice que las probabilidades posteriores son las probabilidades anteriores multiplicadas por el factor de Bayes , o en otras palabras, la probabilidad posterior es proporcional a la probabilidad anterior multiplicada por la probabilidad.

En el caso especial de que y , se escribe , y se utiliza una abreviatura similar para el factor de Bayes y para las probabilidades condicionales. Las probabilidades de son por definición las probabilidades a favor y en contra de . La regla de Bayes se puede escribir entonces en la forma abreviada $A_{1}=A$ $A_{2}=\neg A$ $O(A)=O(A:\neg A)=P(A)/(1-P(A))$ $A$ $A$

O(A\vert B)=O(A)\cdot \Lambda (A\vert B),

o, en palabras, las probabilidades posteriores son iguales a las probabilidades previas multiplicadas por la razón de verosimilitud para una información dada . En resumen, las probabilidades posteriores son iguales a las probabilidades previas multiplicadas por la razón de verosimilitud . $A$ $A$ $A$ $B$

Por ejemplo, si una prueba médica tiene una sensibilidad del 90% y una especificidad del 91%, entonces el factor Bayes positivo es . Ahora bien, si la prevalencia de esta enfermedad es del 9,09%, y si tomamos eso como la probabilidad previa, entonces las probabilidades previas son de aproximadamente 1:10. Entonces, después de recibir un resultado positivo en la prueba, las probabilidades posteriores de tener realmente la enfermedad se convierten en 1:1, lo que significa que la probabilidad posterior de tener la enfermedad es del 50%. Si se realiza una segunda prueba en pruebas seriadas, y esta también resulta positiva, entonces las probabilidades posteriores de tener realmente la enfermedad se convierten en 10:1, lo que significa una probabilidad posterior de aproximadamente el 90,91%. El factor Bayes negativo se puede calcular como 91%/(100%-90%)=9,1, por lo que si la segunda prueba resulta negativa, entonces las probabilidades posteriores de tener realmente la enfermedad son 1:9,1, lo que significa una probabilidad posterior de aproximadamente el 9,9%. $\Lambda _{+}=P({\text{True Positive}})/P({\text{False Positive}})=90\%/(100\%-91\%)=10$

El ejemplo anterior también se puede entender con números más sólidos: supongamos que el paciente que se realiza la prueba pertenece a un grupo de 1000 personas, donde 91 de ellas tienen realmente la enfermedad (prevalencia del 9,1%). Si todas estas 1000 personas se realizan la prueba médica, 82 de las que tienen la enfermedad obtendrán un resultado positivo verdadero (sensibilidad del 90,1%), 9 de las que tienen la enfermedad obtendrán un resultado negativo falso ( tasa de falsos negativos del 9,9%), 827 de las que no tienen la enfermedad obtendrán un resultado negativo verdadero (especificidad del 91,0%) y 82 de las que no tienen la enfermedad obtendrán un resultado positivo falso (tasa de falsos positivos del 9,0%). Antes de realizar cualquier prueba, las probabilidades del paciente de tener la enfermedad son de 91:909. Después de recibir un resultado positivo, las probabilidades del paciente de tener la enfermedad son

{\frac {91}{909}}\times {\frac {90.1\%}{9.0\%}}={\frac {91\times 90.1\%}{909\times 9.0\%}}=1:1

lo cual es consistente con el hecho de que hay 82 verdaderos positivos y 82 falsos positivos en el grupo de 1000 personas.

Correspondencia con otros marcos matemáticos

Lógica proposicional

Usando dos veces, se puede usar el teorema de Bayes para expresar también en términos de y sin negaciones: $P(\neg B\vert A)=1-P(B\vert A)$ $P(\neg B\vert \neg A)$ $P(A\vert B)$

P(\neg B\vert \neg A)=1-\left(1-P(A\vert B)\right){\frac {P(B)}{P(\neg A)}},

cuando . De esto podemos leer la inferencia $P(\neg A)=1-P(A)\neq 0$

P(A\vert B)=1\implies P(\neg B\vert \neg A)=1

En palabras: Si ciertamente implica , inferimos que ciertamente implica . Donde , siendo ciertas las dos implicaciones, son afirmaciones equivalentes. En las fórmulas de probabilidad, la probabilidad condicional generaliza la implicación lógica , donde ahora, además de asignar verdadero o falso, asignamos valores de probabilidad a las afirmaciones. La afirmación de es capturada por la certeza del condicional, la afirmación de . Relacionando las direcciones de la implicación, el teorema de Bayes representa una generalización de la ley de contraposición , que en la lógica proposicional clásica puede expresarse como: $B$ $A$ $\neg A$ $\neg B$ $P(B)\neq 0$ $P(A\vert B)$ $B\implies A$ $B\implies A$ $P(A\vert B)=1$

(B\implies A)\iff (\neg A\implies \neg B)

En esta relación entre implicaciones, las posiciones de resp. se invierten. $A$ $B$

La fórmula correspondiente en términos de cálculo de probabilidad es el teorema de Bayes, que en su forma expandida que involucra la probabilidad previa / tasa base de solo , se expresa como: ^[1] $a$ $A$

P(A\vert B)=P(B\vert A){\frac {a(A)}{P(B\vert A)\,a(A)+P(B\vert \neg A)\,a(\neg A)}}.

Lógica subjetiva

El teorema de Bayes representa un caso especial de derivación de opiniones condicionales invertidas en lógica subjetiva expresada como:

(\omega _{A{\tilde {|}}B}^{S},\omega _{A{\tilde {|}}\lnot B}^{S})=(\omega _{B\vert A}^{S},\omega _{B\vert \lnot A}^{S}){\widetilde {\phi }}a_{A},

donde denota el operador para invertir opiniones condicionales. El argumento denota un par de opiniones condicionales binomiales dadas por source , y el argumento denota la probabilidad previa (también conocida como la tasa base ) de . El par de opiniones condicionales invertidas derivadas se denota . La opinión condicional generaliza la condicional probabilística , es decir, además de asignar una probabilidad, la source puede asignar cualquier opinión subjetiva al enunciado condicional . Una opinión subjetiva binomial es la creencia en la verdad de un enunciado con grados de incertidumbre epistémica, tal como lo expresa source . Cada opinión subjetiva tiene una probabilidad proyectada correspondiente . La aplicación del teorema de Bayes a las probabilidades proyectadas de las opiniones es un homomorfismo , lo que significa que el teorema de Bayes se puede expresar en términos de probabilidades proyectadas de las opiniones: ${\widetilde {\phi }}$ $(\omega _{B\vert A}^{S},\omega _{B\vert \lnot A}^{S})$ $S$ $a_{A}$ $A$ $(\omega _{A{\tilde {|}}B}^{S},\omega _{A{\tilde {|}}\lnot B}^{S})$ $\omega _{A\vert B}^{S}$ $P(A\vert B)$ $S$ $(A\vert B)$ $\omega _{A}^{S}$ $A$ $S$ $P(\omega _{A}^{S})$

P(\omega _{A{\tilde {|}}B}^{S})={\frac {P(\omega _{B\vert A}^{S})a(A)}{P(\omega _{B\vert A}^{S})a(A)+P(\omega _{B\vert \lnot A}^{S})a(\lnot A)}}.

Por lo tanto, el teorema de Bayes subjetivo representa una generalización del teorema de Bayes. ^[24]

Generalizaciones

Teorema de Bayes para 3 eventos

Una versión del teorema de Bayes para 3 eventos ^[25] resulta de la adición de un tercer evento , con el que se condicionan todas las probabilidades: $C$ $P(C)>0,$

P(A\vert B\cap C)={\frac {P(B\vert A\cap C)\,P(A\vert C)}{P(B\vert C)}}

Derivación

Usando la regla de la cadena

P(A\cap B\cap C)=P(A\vert B\cap C)\,P(B\vert C)\,P(C)

Y, por otro lado

P(A\cap B\cap C)=P(B\cap A\cap C)=P(B\vert A\cap C)\,P(A\vert C)\,P(C)

El resultado deseado se obtiene identificando ambas expresiones y resolviendo para . $P(A\vert B\cap C)$

Uso en genética

En genética, la regla de Bayes se puede utilizar para estimar la probabilidad de que un individuo tenga un genotipo específico. Muchas personas intentan aproximarse a sus posibilidades de verse afectadas por una enfermedad genética o su probabilidad de ser portadores de un gen recesivo de interés. Se puede realizar un análisis bayesiano basándose en los antecedentes familiares o en pruebas genéticas , con el fin de predecir si un individuo desarrollará una enfermedad o la transmitirá a sus hijos. Las pruebas y predicciones genéticas son una práctica común entre las parejas que planean tener hijos pero les preocupa que ambos puedan ser portadores de una enfermedad, especialmente dentro de comunidades con baja varianza genética. ^[26]

Utilizando el pedigrí para calcular probabilidades

Ejemplo de una tabla de análisis bayesiano para el riesgo de una mujer de padecer una enfermedad basándose en el conocimiento de que la enfermedad está presente en sus hermanos pero no en sus padres o en ninguno de sus cuatro hijos. Basándose únicamente en el estado de los hermanos y padres de la mujer, es igualmente probable que sea portadora que no lo sea (esta probabilidad se denota por la Hipótesis previa). Sin embargo, la probabilidad de que los cuatro hijos de la mujer no se vean afectados es 1/16 ( 1 ⁄ 2 ⋅ 1 ⁄ 2 ⋅ 1 ⁄ 2 ⋅ 1 ⁄ 2 ) si es portadora, aproximadamente 1 si no es portadora (esta es la Probabilidad Condicional). La Probabilidad Conjunta reconcilia estas dos predicciones multiplicándolas entre sí. La última línea (la Probabilidad Posterior) se calcula dividiendo la Probabilidad Conjunta para cada hipótesis por la suma de ambas probabilidades conjuntas. ^[27]

Utilizando los resultados de pruebas genéticas

Las pruebas genéticas parentales pueden detectar alrededor del 90% de los alelos de enfermedades conocidas en los padres que pueden dar lugar a un estado de portador o afectado en su hijo. La fibrosis quística es una enfermedad hereditaria causada por una mutación autosómica recesiva en el gen CFTR, ^[28] ubicado en el brazo q del cromosoma 7. ^[29]

Análisis bayesiano de una paciente con antecedentes familiares de fibrosis quística (FQ) que dio negativo en la prueba de FQ, que demuestra cómo se utilizó este método para determinar su riesgo de tener un hijo nacido con FQ:

Como la paciente no está afectada, es homocigótica para el alelo de tipo salvaje o heterocigótica. Para establecer probabilidades previas, se utiliza un cuadro de Punnett, basado en el conocimiento de que ninguno de los padres estaba afectado por la enfermedad, pero ambos podrían haber sido portadores:

Dado que el paciente no está afectado, solo hay tres posibilidades. Dentro de estas tres, hay dos escenarios en los que el paciente es portador del alelo mutante. Por lo tanto, las probabilidades previas son 2 ⁄ 3 y 1 ⁄ 3 .

A continuación, el paciente se somete a una prueba genética que da negativo en el test de fibrosis quística. Esta prueba tiene una tasa de detección del 90%, por lo que las probabilidades condicionales de un test negativo son 1/10 y 1. Por último, se calculan las probabilidades conjuntas y posteriores como antes.

Después de realizar el mismo análisis en la pareja masculina del paciente (con un resultado negativo en la prueba), las probabilidades de que su hijo esté afectado son iguales al producto de las respectivas probabilidades posteriores de los padres de ser portadores por las probabilidades de que dos portadores produzcan una descendencia afectada ( 1 ⁄ 4 ).

Pruebas genéticas realizadas en paralelo con la identificación de otros factores de riesgo.

El análisis bayesiano se puede realizar utilizando información fenotípica asociada con una condición genética, y cuando se combina con pruebas genéticas este análisis se vuelve mucho más complicado. La fibrosis quística, por ejemplo, se puede identificar en un feto a través de una ecografía que busque un intestino ecogénico, es decir, uno que aparezca más brillante de lo normal en una exploración. Esta no es una prueba infalible, ya que un intestino ecogénico puede estar presente en un feto perfectamente sano. Las pruebas genéticas parentales son muy influyentes en este caso, donde una faceta fenotípica puede ser demasiado influyente en el cálculo de probabilidad. En el caso de un feto con un intestino ecogénico, con una madre que se ha sometido a pruebas y se sabe que es portadora de fibrosis quística, la probabilidad posterior de que el feto realmente tenga la enfermedad es muy alta (0,64). Sin embargo, una vez que el padre ha dado negativo en la prueba de fibrosis quística, la probabilidad posterior disminuye significativamente (a 0,16). ^[27]

El cálculo de los factores de riesgo es una herramienta poderosa en el asesoramiento genético y la planificación reproductiva, pero no puede ser considerado como el único factor importante a tener en cuenta. Como se mencionó anteriormente, las pruebas incompletas pueden arrojar una probabilidad falsamente alta de estado de portador, y las pruebas pueden ser económicamente inaccesibles o inviables cuando uno de los padres no está presente.

Véase también

Epistemología bayesiana
Probabilidad inductiva
Bayesianismo cuántico
Por qué la mayoría de los resultados de las investigaciones publicadas son falsos , un ensayo de 2005 sobre metaciencia de John Ioannidis
Probabilidad condicional regular
Persuasión bayesiana

Notas

^
Laplace refinó el teorema de Bayes a lo largo de un período de décadas:
- Laplace anunció su descubrimiento independiente del teorema de Bayes en: Laplace (1774) "Mémoire sur la probabilité des cause par les événements", "Mémoires de l'Académie royale des Sciences de MI (Savants étrangers)", 4 : 621–656. Reimpreso en: Laplace, "Oeuvres complètes" (París, Francia: Gauthier-Villars et fils, 1841), vol. 8, págs. 27–65. Disponible online en: Gallica. El teorema de Bayes aparece en la p. 29.
- Laplace presentó un refinamiento del teorema de Bayes en: Laplace (leído: 1783 / publicado: 1785) "Mémoire sur les approximations des formules qui sont fonctions de très grands nombres", "Mémoires de l'Académie royale des Sciences de Paris", 423 –467. Reimpreso en: Laplace, "Oeuvres complètes" (París, Francia: Gauthier-Villars et fils, 1844), vol. 10, págs. 295–338. Disponible online en: Gallica. El teorema de Bayes se establece en la página 301.
- Véase también: Laplace, "Essai philosophique sur les probabilités" (París, Francia: Mme. Ve. Courcier [Madame veuve (es decir, viuda) Courcier], 1814), página 10. Traducción al inglés: Pierre Simon, Marquis de Laplace con FW Truscott y FL Emory, trad., "A Philosophical Essay on Probabilities" (Nueva York, Nueva York: John Wiley & Sons, 1902), p. 15.

Referencias

^ de Audun Jøsang, 2016, Lógica subjetiva: un formalismo para razonar en condiciones de incertidumbre. Springer, Cham, ISBN 978-3-319-42337-1
^ Frame, Paul (2015). El apóstol de la libertad. Gales: University of Wales Press. pág. 44. ISBN 978-1783162161. Recuperado el 23 de febrero de 2021 .
^ Allen, Richard (1999). David Hartley sobre la naturaleza humana. SUNY Press. págs. 243-244. ISBN 978-0791494516. Recuperado el 16 de junio de 2013 .
^ Bayes, Thomas y Price, Richard (1763). "Un ensayo para resolver un problema en la doctrina del azar. Por el difunto reverendo Sr. Bayes, comunicado por el Sr. Price, en una carta a John Canton, AMFRS" Philosophical Transactions of the Royal Society of London . 53 : 370–418. doi : 10.1098/rstl.1763.0053 .
^ Holanda, págs. 46-7.
^ Price, Richard (1991). Price: Escritos políticos. Cambridge University Press. pág. xxiii. ISBN 978-0521409698. Recuperado el 16 de junio de 2013 .
^ Mitchell 1911, pág. 314.
^ Daston, Lorraine (1988). Probabilidad clásica en la Ilustración. Princeton Univ Press. pág. 268. ISBN 0691084971.
^ Stigler, Stephen M. (1986). "Probabilidad inversa". Historia de la estadística: la medición de la incertidumbre antes de 1900. Harvard University Press. págs. 99-138. ISBN 978-0674403413.
^ Jeffreys, Harold (1973). Inferencia científica (3.ª ed.). Cambridge University Press . pág. 31. ISBN 978-0521180788.
^ Stigler, Stephen M. (1983). "¿Quién descubrió el teorema de Bayes?". The American Statistician . 37 (4): 290–296. doi :10.1080/00031305.1983.10483122.
^ de Vaux, Ricardo; Velleman, Paul; Bock, David (2016). Estadísticas, datos y modelos (4ª ed.). Pearson. págs. 380–381. ISBN 978-0321986498.
^ Edwards, AWF (1986). "¿Es la referencia en Hartley (1749) a la inferencia bayesiana?". The American Statistician . 40 (2): 109–110. doi :10.1080/00031305.1986.10475370.
^ Hooper, Martyn (2013). "Richard Price, el teorema de Bayes y Dios". Significance . 10 (1): 36–39. doi : 10.1111/j.1740-9713.2013.00638.x . S2CID 153704746.
^ ab McGrayne, SB (2011). La teoría que no quería morir: cómo la regla de Bayes descifró el código Enigma, dio caza a los submarinos rusos y salió triunfante de dos siglos de controversia . Yale University Press . ISBN 978-0300188226.
^ Stuart, A.; Ord, K. (1994), Teoría avanzada de estadística de Kendall: Volumen I – Teoría de la distribución , Edward Arnold , §8.7
^ Kolmogorov, AN (1933) [1956]. Fundamentos de la teoría de la probabilidad . Chelsea Publishing Company.
^ Tjur, Tue (1980). Probabilidad basada en medidas de radón. Nueva York: Wiley. ISBN 978-0-471-27824-5.
^ Taraldsen, Gunnar; Tufto, Jarle; Lindqvist, Bo H. (24 de julio de 2021). "Antes inadecuados y posteriores inadecuados". Revista escandinava de estadística . 49 (3): 969–991. doi : 10.1111/sjos.12550 . hdl : 11250/2984409 . ISSN 0303-6898. S2CID 237736986.
^ Robert, Christian P.; Casella, George (2004). Métodos estadísticos de Monte Carlo. Springer. ISBN 978-1475741452.OCLC 1159112760 .
^ Lee, Peter M. (2012). "Capítulo 1". Estadística bayesiana . Wiley . ISBN 978-1-1183-3257-3.
^ "Teorema de Bayes: Introducción". Universidad Trinity . Archivado desde el original el 21 de agosto de 2004. Consultado el 5 de agosto de 2014 .
^ "Teorema de Bayes: fórmula, enunciado, demostración | Regla de Bayes". Cuemath . Consultado el 20 de octubre de 2023 .
^ Audun Jøsang, 2016, Generalización del teorema de Bayes en lógica subjetiva. Conferencia internacional IEEE sobre fusión e integración de múltiples sensores para sistemas inteligentes (MFI 2016), Baden-Baden, septiembre de 2016
^ Koller, D .; Friedman, N. (2009). Modelos gráficos probabilísticos. Massachusetts: MIT Press. pag. 1208.ISBN 978-0-262-01319-2Archivado desde el original el 27 de abril de 2014.
^ Kraft, Stephanie A; Duenas, Devan; Wilfond, Benjamin S; Goddard, Katrina AB (24 de septiembre de 2018). "El panorama cambiante de la detección ampliada de portadores: desafíos y oportunidades". Genética en Medicina . 21 (4): 790–797. doi :10.1038/s41436-018-0273-4. PMC 6752283 . PMID 30245516.
^ ab Ogino, Shuji; Wilson, Robert B; Gold, Bert; Hawley, Pamela; Grody, Wayne W (octubre de 2004). "Análisis bayesiano de los riesgos de fibrosis quística en la detección prenatal y de portadores". Genética en Medicina . 6 (5): 439–449. doi : 10.1097/01.GIM.0000139511.83336.8F . PMID 15371910.
^ "Tipos de mutaciones del gen CFTR". Fundación para la Fibrosis Quística, www.cff.org/What-is-CF/Genetics/Types-of-CFTR-Mutations/.
^ "Gen CFTR: referencia genética casera". Biblioteca Nacional de Medicina de EE. UU., Institutos Nacionales de Salud, ghr.nlm.nih.gov/gene/CFTR#location.

Bibliografía

Este artículo incorpora texto de una publicación que ahora es de dominio público : Mitchell, John Malcolm (1911). "Price, Richard". En Chisholm, Hugh (ed.). Encyclopædia Britannica . Vol. 22 (11.ª ed.). Cambridge University Press. págs. 314–315.

Lectura adicional

Bolstad, William M.; Curran, James M. (2017). "Lógica, probabilidad e incertidumbre". Introducción a la estadística bayesiana (3.ª ed.). Nueva York: Wiley. págs. 59–82. ISBN 978-1-118-09156-2.
Lee, Peter M. (2012). Estadística bayesiana: una introducción (4.ª ed.). Wiley. ISBN 978-1-118-33257-3.
Schmitt, Samuel A. (1969). "Acumulación de evidencia". Medición de la incertidumbre: una introducción elemental a la estadística bayesiana . Lectura: Addison-Wesley. págs. 61–99. OCLC 5013.
Stigler, Stephen M. (agosto de 1986). "Memorias de Laplace de 1774 sobre probabilidad inversa". Ciencia estadística . 1 (3): 359–363. doi : 10.1214/ss/1177013620 .

Enlaces externos

"La trampa bayesiana". Veritasium . 5 de abril de 2017 – vía YouTube .