Distribución de probabilidad condicional

En teoría de probabilidad y estadística , la distribución de probabilidad condicional es una distribución de probabilidad que describe la probabilidad de un resultado dada la ocurrencia de un evento particular. Dadas dos variables aleatorias distribuidas conjuntamente y , la distribución de probabilidad condicional de dado es la distribución de probabilidad de cuando se sabe que es un valor particular; en algunos casos, las probabilidades condicionales pueden expresarse como funciones que contienen el valor no especificado de como parámetro. Cuando tanto y son variables categóricas , se utiliza típicamente una tabla de probabilidad condicional para representar la probabilidad condicional. La distribución condicional contrasta con la distribución marginal de una variable aleatoria, que es su distribución sin referencia al valor de la otra variable. ${\estilo de visualización X}$ ${\estilo de visualización Y}$ ${\estilo de visualización Y}$ ${\estilo de visualización X}$ ${\estilo de visualización Y}$ ${\estilo de visualización X}$ ${\estilo de visualización x}$ ${\estilo de visualización X}$ ${\estilo de visualización X}$ ${\estilo de visualización Y}$

Si la distribución condicional de dado es una distribución continua , entonces su función de densidad de probabilidad se conoce como función de densidad condicional . ^[1] Las propiedades de una distribución condicional, como los momentos , a menudo se denominan con nombres correspondientes, como media condicional y varianza condicional . ${\estilo de visualización Y}$ ${\estilo de visualización X}$

De manera más general, se puede hacer referencia a la distribución condicional de un subconjunto de un conjunto de más de dos variables; esta distribución condicional depende de los valores de todas las variables restantes, y si se incluye más de una variable en el subconjunto, entonces esta distribución condicional es la distribución condicional conjunta de las variables incluidas.

Distribuciones discretas condicionales

Para variables aleatorias discretas , la función de masa de probabilidad condicional dada se puede escribir según su definición como: ${\estilo de visualización Y}$ ${\estilo de visualización X=x}$

p_{Y|X}(y\mid x)\triangleq P(Y=y\mid X=x)={\frac {P(\{X=x\}\cap \{Y=y\ })}{P(X=x)}}\qquad

Debido a la ocurrencia de en el denominador, esto se define solo para valores distintos de cero (por lo tanto, estrictamente positivo). $P(X=x)$ $P(X=x).$

La relación con la distribución de probabilidad dada es: ${\estilo de visualización X}$ ${\estilo de visualización Y}$

P(Y=y\mid X=x)P(X=x)=P(\{X=x\}\cap \{Y=y\})=P(X=x\mid Y=y)P(Y=y).

Ejemplo

Considere el lanzamiento de un dado justo y suponga que el número es par (es decir, 2, 4 o 6) y en los demás casos. Además, suponga que el número es primo (es decir, 2, 3 o 5) y en los demás casos. $X=1$ $X=0$ $Y=1$ $Y=0$

Entonces, la probabilidad incondicional es 3/6 = 1/2 (ya que hay seis tiradas posibles de los dados, de las cuales tres son pares), mientras que la probabilidad condicional es 1/3 (ya que hay tres tiradas posibles de números primos —2, 3 y 5— de las cuales una es par). $X=1$ $X=1$ $Y=1$

Distribuciones continuas condicionales

De manera similar, para las variables aleatorias continuas , la función de densidad de probabilidad condicional de dada la ocurrencia del valor de se puede escribir como ^[2]^{: p. 99} ${\estilo de visualización Y}$ ${\estilo de visualización x}$ ${\estilo de visualización X}$

f_{Y\mid X}(y\mid x)={\frac {f_{X,Y}(x,y)}{f_{X}(x)}}\qquad

donde da la densidad conjunta de y , mientras que da la densidad marginal para . También en este caso es necesario que . $Estilo de visualización f_{X,Y}(x,y)}$ ${\estilo de visualización X}$ ${\estilo de visualización Y}$ $Estilo de visualización f_{X}(x)}$ ${\estilo de visualización X}$ $Estilo de visualización f_{X}(x)>0}$

La relación con la distribución de probabilidad dada viene dada por: ${\estilo de visualización X}$ ${\estilo de visualización Y}$

f_{Y\mid X}(y\mid x)f_{X}(x)=f_{X,Y}(x,y)=f_{X|Y}(x\mid y)f_{Y}(y).

El concepto de distribución condicional de una variable aleatoria continua no es tan intuitivo como podría parecer: la paradoja de Borel muestra que las funciones de densidad de probabilidad condicional no necesitan ser invariantes bajo transformaciones de coordenadas.

Ejemplo

El gráfico muestra una densidad normal conjunta bivariada para variables aleatorias y . Para ver la distribución de condicional en , primero se puede visualizar la línea en el plano y luego visualizar el plano que contiene esa línea y es perpendicular al plano. La intersección de ese plano con la densidad normal conjunta, una vez reescalada para dar el área unitaria bajo la intersección, es la densidad condicional relevante de . ${\estilo de visualización X}$ ${\estilo de visualización Y}$ ${\estilo de visualización Y}$ $X=70$ $X=70$ ${\estilo de visualización X, Y}$ ${\estilo de visualización X, Y}$ ${\estilo de visualización Y}$

$Y\mid X=70\ \sim \ {\mathcal {N}}\left(\mu _{Y}+{\frac {\sigma _{Y}}{\sigma _{X}}}\rho (70-\mu _{X}),\,(1-\rho ^{2})\sigma _{Y}^{2}\right).$

Relación con la independencia

Las variables aleatorias , son independientes si y solo si la distribución condicional de dada es, para todas las posibles realizaciones de , igual a la distribución incondicional de . Para las variables aleatorias discretas esto significa para todas las posibles y con . Para las variables aleatorias continuas y , que tienen una función de densidad conjunta , significa para todas las posibles y con . $X$ $Y$ $Y$ $X$ $X$ $Y$ $P(Y=y|X=x)=P(Y=y)$ $y$ $x$ $P(X=x)>0$ $X$ $Y$ $f_{Y}(y|X=x)=f_{Y}(y)$ $y$ $x$ $f_{X}(x)>0$

Propiedades

Vista como una función de para dado , es una función de masa de probabilidad y, por lo tanto, la suma total (o integral si es una densidad de probabilidad condicional) es 1. Vista como una función de para dado , es una función de verosimilitud , por lo que la suma (o integral) total no necesita ser 1. $y$ $x$ $P(Y=y|X=x)$ $y$ $x$ $y$ $x$

Además, un valor marginal de una distribución conjunta se puede expresar como la esperanza de la distribución condicional correspondiente. Por ejemplo, . $p_{X}(x)=E_{Y}[p_{X|Y}(x\ |\ Y)]$

Formulación teórica de la medida

Sea un espacio de probabilidad, un -cuerpo en . Dado , el teorema de Radon-Nikodym implica que existe ^[3] una variable aleatoria -medible , llamada probabilidad condicional , tal que para cada , y dicha variable aleatoria está definida de forma única hasta conjuntos de probabilidad cero. Una probabilidad condicional se llama regular si es una medida de probabilidad en para todos los ae $(\Omega ,{\mathcal {F}},P)$ ${\mathcal {G}}\subseteq {\mathcal {F}}$ $\sigma$ ${\mathcal {F}}$ $A\in {\mathcal {F}}$ ${\mathcal {G}}$ $P(A\mid {\mathcal {G}}):\Omega \to \mathbb {R}$ $\int _{G}P(A\mid {\mathcal {G}})(\omega )dP(\omega )=P(A\cap G)$ $G\in {\mathcal {G}}$ $\operatorname {P} (\cdot \mid {\mathcal {G}})(\omega )$ $(\Omega ,{\mathcal {F}})$ $\omega \in \Omega$

Casos especiales:

Para el álgebra sigma trivial , la probabilidad condicional es la función constante ${\mathcal {G}}=\{\emptyset ,\Omega \}$ $\operatorname {P} \!\left(A\mid \{\emptyset ,\Omega \}\right)=\operatorname {P} (A).$
Si , entonces , la función indicadora (definida a continuación). $A\in {\mathcal {G}}$ $\operatorname {P} (A\mid {\mathcal {G}})=1_{A}$

Sea una variable aleatoria con valor . Para cada , defina Para cualquier , la función se denomina distribución de probabilidad condicional de dado . Si es una medida de probabilidad de , entonces se denomina regular . $X:\Omega \to E$ $(E,{\mathcal {E}})$ $B\in {\mathcal {E}}$ $\mu _{X\,|\,{\mathcal {G}}}(B\,|\,{\mathcal {G}})=\mathrm {P} (X^{-1}(B)\,|\,{\mathcal {G}}).$ $\omega \in \Omega$ $\mu _{X\,|{\mathcal {G}}}(\cdot \,|{\mathcal {G}})(\omega ):{\mathcal {E}}\to \mathbb {R}$ $X$ ${\mathcal {G}}$ $(E,{\mathcal {E}})$

Para una variable aleatoria de valor real (con respecto al campo de Borel en ), toda distribución de probabilidad condicional es regular. ^[4] En este caso, casi con seguridad. $\sigma$ ${\mathcal {R}}^{1}$ $\mathbb {R}$ $E[X\mid {\mathcal {G}}]=\int _{-\infty }^{\infty }x\,\mu _{X\mid {\mathcal {G}}}(dx,\cdot )$

Relación con la expectativa condicional

Para cualquier evento , defina la función indicadora : $A\in {\mathcal {F}}$

\mathbf {1} _{A}(\omega )={\begin{cases}1\;&{\text{if }}\omega \in A,\\0\;&{\text{if }}\omega \notin A,\end{cases}}

que es una variable aleatoria. Nótese que la expectativa de esta variable aleatoria es igual a la probabilidad de A en sí:

\operatorname {E} (\mathbf {1} _{A})=\operatorname {P} (A).\;

Dado un campo , la probabilidad condicional es una versión de la expectativa condicional de la función indicadora para : $\sigma$ ${\mathcal {G}}\subseteq {\mathcal {F}}$ $\operatorname {P} (A\mid {\mathcal {G}})$ $A$

\operatorname {P} (A\mid {\mathcal {G}})=\operatorname {E} (\mathbf {1} _{A}\mid {\mathcal {G}})\;

La expectativa de una variable aleatoria con respecto a una probabilidad condicional regular es igual a su expectativa condicional.

Interpretación del condicionamiento en un campo sigma

Consideremos el espacio de probabilidad y un campo subsigma . El campo subsigma puede interpretarse libremente como que contiene un subconjunto de la información en . Por ejemplo, podríamos pensar en como la probabilidad del evento dada la información en . $(\Omega ,{\mathcal {F}},\mathbb {P} )$ ${\mathcal {A}}\subset {\mathcal {F}}$ ${\mathcal {A}}$ ${\mathcal {F}}$ $\mathbb {P} (B|{\mathcal {A}})$ $B$ ${\mathcal {A}}$

Recuerde también que un evento es independiente de un campo subsigma si para todo . Es incorrecto concluir en general que la información en no nos dice nada sobre la probabilidad de que ocurra el evento. Esto se puede demostrar con un contraejemplo: $B$ ${\mathcal {A}}$ $\mathbb {P} (B|A)=\mathbb {P} (B)$ $A\in {\mathcal {A}}$ ${\mathcal {A}}$ $B$

Consideremos un espacio de probabilidad en el intervalo unitario, . Sea el cuerpo sigma de todos los conjuntos contables y conjuntos cuyo complemento es contable. Por lo tanto, cada conjunto en tiene medida o y, por lo tanto, es independiente de cada evento en . Sin embargo, observe que también contiene todos los eventos singulares en (aquellos conjuntos que contienen solo un único ). Por lo tanto, ¡saber cuál de los eventos en ocurrió es equivalente a saber exactamente cuál ocurrió! Por lo tanto, en un sentido, no contiene información sobre (es independiente de él), y en otro sentido contiene toda la información en . ^[5] $\Omega =[0,1]$ ${\mathcal {G}}$ ${\mathcal {G}}$ $0$ $1$ ${\mathcal {F}}$ ${\mathcal {G}}$ ${\mathcal {F}}$ $\omega \in \Omega$ ${\mathcal {G}}$ $\omega \in \Omega$ ${\mathcal {G}}$ ${\mathcal {F}}$ ${\mathcal {F}}$

Véase también

Referencias

Citas

^ Ross, Sheldon M. (1993). Introducción a los modelos de probabilidad (quinta edición). San Diego: Academic Press. pp. 88–91. ISBN 0-12-598455-3.
^ Park, Kun Il (2018). Fundamentos de probabilidad y procesos estocásticos con aplicaciones a las comunicaciones . Springer. ISBN 978-3-319-68074-3.
^ Billingsley (1995), pág. 430
^ Billingsley (1995), pág. 439
^ Billingsley, Patrick (28 de febrero de 2012). Probabilidad y medida. Hoboken, Nueva Jersey: Wiley. ISBN 978-1-118-12237-2.

Fuentes

Billingsley, Patrick (1995). Probabilidad y medida (3.ª ed.). Nueva York, NY: John Wiley and Sons.