En teoría de la probabilidad , la probabilidad condicional es una medida de la probabilidad de que ocurra un evento , dado que ya se sabe que otro evento (por suposición, presunción, afirmación o evidencia) ha ocurrido. [1] Este método particular se basa en que el evento A ocurre con algún tipo de relación con otro evento B. En esta situación, el evento A puede analizarse mediante una probabilidad condicional con respecto a B. Si el evento de interés es A y el evento Se sabe o se supone que B ha ocurrido, "la probabilidad condicional de A dado B ", o "la probabilidad de A bajo la condición B ", generalmente se escribe como P( A | B ) [2] u ocasionalmente P B ( A ) . Esto también puede entenderse como la fracción de probabilidad B que se cruza con A, o la relación entre las probabilidades de que ambos eventos sucedan y el "dado" que suceda (cuántas veces ocurre A en lugar de no asumir que B ha ocurrido): . [3]
Por ejemplo, la probabilidad de que una persona determinada tenga tos en un día determinado puede ser sólo del 5%. Pero si sabemos o asumimos que la persona está enferma, entonces es mucho más probable que esté tosiendo. Por ejemplo, la probabilidad condicional de que alguien que no se encuentra bien (enfermo) esté tosiendo podría ser del 75 %, en cuyo caso tendríamos que P(Tos) = 5% y P(Tos|Enfermo) = 75 %. Aunque en este ejemplo existe una relación entre A y B , dicha relación o dependencia entre A y B no es necesaria ni tienen que ocurrir simultáneamente.
P( A | B ) puede o no ser igual a P( A ) , es decir, la probabilidad incondicional o probabilidad absoluta de A. Si P( A | B ) = P( A ) , entonces se dice que los eventos A y B son independientes : en tal caso, el conocimiento de cualquiera de los eventos no altera la probabilidad del otro. P( A | B ) (la probabilidad condicional de A dado B ) normalmente difiere de P( B | A ) . Por ejemplo, si una persona tiene dengue , podría tener un 90% de posibilidades de dar positivo en la prueba de la enfermedad. En este caso lo que se está midiendo es que si ha ocurrido el evento B ( tener dengue ), la probabilidad de que A ( probado como positivo ) dado que ocurrió B es del 90%, simplemente escribiendo P( A | B ) = 90%. Alternativamente, si una persona da positivo en la prueba de dengue, es posible que solo tenga un 15% de posibilidades de tener esta rara enfermedad debido a las altas tasas de falsos positivos . En este caso, la probabilidad del evento B ( tener dengue ) dado que el evento A ( dar positivo ) ha ocurrido es del 15% o P( B | A ) = 15%. Ahora debería resultar evidente que equiparar falsamente las dos probabilidades puede dar lugar a diversos errores de razonamiento, lo que comúnmente se ve a través de falacias de la tasa base .
Si bien las probabilidades condicionales pueden proporcionar información extremadamente útil, a menudo se proporciona o se dispone de información limitada. Por lo tanto, puede resultar útil revertir o convertir una probabilidad condicional utilizando el teorema de Bayes : . [4] Otra opción es mostrar probabilidades condicionales en una tabla de probabilidad condicional para iluminar la relación entre eventos.
Dados dos eventos A y B del campo sigma de un espacio de probabilidad, con la probabilidad incondicional de B siendo mayor que cero (es decir, P( B ) > 0) , la probabilidad condicional de A dado B ( ) es la probabilidad de A ocurre si B ha sucedido o se supone que ha sucedido. [5] Se supone que A es el conjunto de todos los resultados posibles de un experimento o ensayo aleatorio que tiene un espacio muestral restringido o reducido. La probabilidad condicional se puede encontrar mediante el cociente de la probabilidad de la intersección conjunta de los eventos A y B , es decir, la probabilidad de que A y B ocurran juntos, y la probabilidad de B : [2] [6] [7 ]
Para un espacio muestral que consta de resultados de igual probabilidad, la probabilidad del evento A se entiende como la fracción del número de resultados en A entre el número de todos los resultados en el espacio muestral. Entonces, esta ecuación se entiende como la fracción del conjunto al conjunto B . Tenga en cuenta que la ecuación anterior es una definición, no solo un resultado teórico. Denotamos la cantidad como y la llamamos "probabilidad condicional de A dado B ".
Algunos autores, como de Finetti , prefieren introducir la probabilidad condicional como axioma de probabilidad :
Esta ecuación para una probabilidad condicional, aunque matemáticamente equivalente, puede ser intuitivamente más fácil de entender. Puede interpretarse como "la probabilidad de que ocurra B multiplicada por la probabilidad de que ocurra A , siempre que B haya ocurrido, es igual a la probabilidad de que A y B ocurran juntos, aunque no necesariamente ocurran al mismo tiempo". Además, esto puede preferirse filosóficamente; Según las principales interpretaciones de probabilidad , como la teoría subjetiva , la probabilidad condicional se considera una entidad primitiva. Además, esta "regla de la multiplicación" puede ser prácticamente útil para calcular la probabilidad e introduce una simetría con el axioma de la suma de la fórmula de Poincaré:
La probabilidad condicional se puede definir como la probabilidad de un evento condicional . El evento condicional de Goodman-Nguyen-Van Fraassen se puede definir como:
Se puede demostrar que
que cumple con la definición de probabilidad condicional de Kolmogorov. [9]
Si , entonces, según la definición, no está definido .
El caso de mayor interés es el de una variable aleatoria Y , condicionada a una variable aleatoria continua X que produce un resultado particular x . El evento tiene probabilidad cero y, como tal, no puede condicionarse.
En lugar de condicionar que X sea exactamente x , podríamos condicionar que esté más cerca que la distancia de x . El evento generalmente tendrá una probabilidad distinta de cero y, por lo tanto, se puede condicionar. Entonces podemos tomar el límite.
Por ejemplo, si dos variables aleatorias continuas X e Y tienen una densidad conjunta , entonces por la regla de L'Hôpital y la regla integral de Leibniz , al derivar con respecto a :
El límite resultante es la distribución de probabilidad condicional de Y dado X y existe cuando el denominador, la densidad de probabilidad , es estrictamente positivo.
Es tentador definir la probabilidad indefinida utilizando este límite, pero esto no se puede hacer de manera consistente. En particular, es posible encontrar variables aleatorias X y W y valores x , w tales que los eventos y sean idénticos pero los límites resultantes no lo sean: [10]
La paradoja de Borel-Kolmogorov lo demuestra con un argumento geométrico.
Sea X una variable aleatoria discreta y sus posibles resultados se denotan por V. Por ejemplo, si X representa el valor de un dado lanzado, entonces V es el conjunto . A modo de presentación, supongamos que X es una variable aleatoria discreta, de modo que cada valor de V tiene una probabilidad distinta de cero.
Para un valor x en V y un evento A , la probabilidad condicional viene dada por . Escribiendo
para abreviar, vemos que es función de dos variables , x y A.
Para una A fija , podemos formar la variable aleatoria . Representa un resultado de cada vez que se observa un valor x de X.
Por tanto , la probabilidad condicional de A dado X puede tratarse como una variable aleatoria Y con resultados en el intervalo . Según la ley de probabilidad total , su valor esperado es igual a la probabilidad incondicional de A.
La probabilidad condicional parcial se refiere a la probabilidad de un evento dado que cada uno de los eventos de condición ha ocurrido en un grado (grado de creencia, grado de experiencia) que podría ser diferente del 100%. Frecuentemente, la probabilidad condicional parcial tiene sentido si las condiciones se prueban en repeticiones de experimentos de duración adecuada . [11] Esta probabilidad condicional parcial acotada se puede definir como la ocurrencia promedio esperada condicionalmente de un evento en bancos de pruebas de longitud que cumplen con todas las especificaciones de probabilidad , es decir:
En base a eso, la probabilidad condicional parcial se puede definir como
donde [11]
La condicionalización de Jeffrey [12] [13] es un caso especial de probabilidad condicional parcial, en el que los eventos de condición deben formar una partición :
Supongamos que alguien lanza en secreto dos dados de seis caras y queremos calcular la probabilidad de que el valor boca arriba del primero sea 2, dada la información de que su suma no es mayor que 5.
Probabilidad de que D 1 = 2
La Tabla 1 muestra el espacio muestral de 36 combinaciones de valores lanzados de los dos dados, cada uno de los cuales ocurre con una probabilidad de 1/36, siendo los números mostrados en las celdas roja y gris oscuro D 1 + D 2 .
D 1 = 2 en exactamente 6 de los 36 resultados; entonces P ( D 1 = 2) = 6 ⁄ 36 = 1 ⁄ 6 :
Probabilidad de que D 1 + D 2 ≤ 5
La Tabla 2 muestra que D 1 + D 2 ≤ 5 para exactamente 10 de los 36 resultados, por lo tanto P ( D 1 + D 2 ≤ 5) = 10 ⁄ 36 :
Probabilidad de que D 1 = 2 dado que D 1 + D 2 ≤ 5
La Tabla 3 muestra que para 3 de estos 10 resultados, D 1 = 2.
Por tanto, la probabilidad condicional P( D 1 = 2 | D 1 + D 2 ≤ 5) = 3 ⁄ 10 = 0,3:
Aquí, en la notación anterior para la definición de probabilidad condicional, el evento condicionante B es que D 1 + D 2 ≤ 5, y el evento A es D 1 = 2. Lo tenemos como se ve en la tabla.
En inferencia estadística , la probabilidad condicional es una actualización de la probabilidad de un evento en función de nueva información. [14] La nueva información podrá incorporarse de la siguiente manera: [1]
Este enfoque da como resultado una medida de probabilidad que es consistente con la medida de probabilidad original y satisface todos los axiomas de Kolmogorov . Esta medida de probabilidad condicional también podría haber resultado de asumir que la magnitud relativa de la probabilidad de A con respecto a X se conservará con respecto a B (cf. una Derivación formal más adelante).
La expresión "evidencia" o "información" se utiliza generalmente en la interpretación bayesiana de probabilidad . El evento condicionante se interpreta como evidencia del evento condicionado. Es decir, P ( A ) es la probabilidad de A antes de contabilizar la evidencia E , y P ( A | E ) es la probabilidad de A después de haber contabilizado la evidencia E o después de haber actualizado P ( A ). Esto es consistente con la interpretación frecuentista, que es la primera definición dada anteriormente.
Cuando se transmite el código Morse , existe una cierta probabilidad de que el "punto" o "guión" que se recibió sea erróneo. Esto suele considerarse una interferencia en la transmisión de un mensaje. Por lo tanto, es importante considerar al enviar un "punto", por ejemplo, la probabilidad de que se haya recibido un "punto". Esto se representa por: En código Morse, la proporción de puntos y rayas es 3:4 en el punto de envío, por lo que la probabilidad de un "punto" y un "rayón" es . Si se supone que la probabilidad de que un punto se transmita como un guión es 1/10, y que la probabilidad de que un guión se transmita como un punto también es 1/10, entonces se puede utilizar la regla de Bayes para calcular .
Ahora se puede calcular:
[15]
Los eventos A y B se definen como estadísticamente independientes si la probabilidad de la intersección de A y B es igual al producto de las probabilidades de A y B:
Si P ( B ) no es cero, entonces esto es equivalente a la afirmación de que
De manera similar, si P ( A ) no es cero, entonces
también es equivalente. Aunque las formas derivadas pueden parecer más intuitivas, no son la definición preferida ya que las probabilidades condicionales pueden no estar definidas y la definición preferida es simétrica en A y B. La independencia no se refiere a un evento inconexo. [dieciséis]
También cabe señalar que dado el par de eventos independientes [AB] y un evento C, el par se define como condicionalmente independiente si el producto es verdadero: [17]
Este teorema podría resultar útil en aplicaciones donde se observan múltiples eventos independientes.
Eventos independientes versus eventos mutuamente excluyentes
Los conceptos de eventos mutuamente independientes y eventos mutuamente excluyentes son separados y distintos. La siguiente tabla contrasta los resultados de los dos casos (siempre que la probabilidad del evento condicionante no sea cero).
De hecho, los eventos mutuamente excluyentes no pueden ser estadísticamente independientes (a menos que ambos sean imposibles), ya que saber que uno ocurre proporciona información sobre el otro (en particular, que este último ciertamente no ocurrirá).
En general, no se puede suponer que P ( A | B ) ≈ P ( B | A ). Esto puede ser un error insidioso, incluso para aquellos que están muy versados en estadística. [18] La relación entre P ( A | B ) y P ( B | A ) viene dada por el teorema de Bayes :
Es decir, P( A | B ) ≈ P( B | A ) sólo si P ( B )/ P ( A ) ≈ 1, o equivalentemente, P ( A ) ≈ P ( B ).
En general, no se puede suponer que P ( A ) ≈ P ( A | B ). Estas probabilidades están vinculadas mediante la ley de probabilidad total :
donde los eventos forman una partición contable de .
Esta falacia puede surgir debido a un sesgo de selección . [19] Por ejemplo, en el contexto de una reclamación médica, sea S C el evento de que una secuela (enfermedad crónica) S se produzca como consecuencia de una circunstancia (condición aguda) C . Sea H el evento en el que un individuo busca ayuda médica. Supongamos que en la mayoría de los casos, C no causa S (de modo que P ( S C ) es bajo). Supongamos también que sólo se busca atención médica si S se ha producido debido a C. Por lo tanto, según la experiencia de los pacientes, un médico puede concluir erróneamente que P ( S C ) es alta. La probabilidad real observada por el médico es P ( S C | H ).
No tener en cuenta parcial o completamente la probabilidad previa se denomina negligencia de la tasa base . Lo contrario, un ajuste insuficiente de la probabilidad anterior es conservadurismo .
Formalmente, P ( A | B ) se define como la probabilidad de A según una nueva función de probabilidad en el espacio muestral, de modo que los resultados que no están en B tienen probabilidad 0 y son consistentes con todas las medidas de probabilidad originales . [20] [21]
Sea Ω un espacio muestral discreto con eventos elementales { ω }, y sea P la medida de probabilidad con respecto al σ-álgebra de Ω. Supongamos que se nos dice que ha ocurrido el evento B ⊆ Ω. Se asignará una nueva distribución de probabilidad (indicada por la notación condicional) en { ω } para reflejar esto. Todos los eventos que no estén en B tendrán probabilidad nula en la nueva distribución. Para eventos en B , se deben cumplir dos condiciones: la probabilidad de B es uno y se deben preservar las magnitudes relativas de las probabilidades. Lo primero es requerido por los axiomas de probabilidad , y lo segundo surge del hecho de que la nueva medida de probabilidad tiene que ser análoga a P en la que la probabilidad de B es uno, y cada evento que no está en B , por lo tanto, tiene una probabilidad nula. Por lo tanto, para algún factor de escala α , la nueva distribución debe satisfacer:
Sustituyendo 1 y 2 en 3 para seleccionar α :
Entonces la nueva distribución de probabilidad es
Ahora para un evento general A ,