Independencia condicional

En teoría de la probabilidad , la independencia condicional describe situaciones en las que una observación es irrelevante o redundante al evaluar la certeza de una hipótesis. La independencia condicional suele formularse en términos de probabilidad condicional , como un caso especial en el que la probabilidad de la hipótesis dada la observación no informativa es igual a la probabilidad sin ella. Si es la hipótesis, y y son observaciones, la independencia condicional puede expresarse como una igualdad: $A$ $B$ $C$

P(A\mid B,C)=P(A\mid C)

donde es la probabilidad de que se den y . Dado que la probabilidad de que se den es la misma que la probabilidad de que se den y , esta igualdad expresa que no contribuye en nada a la certeza de . En este caso, se dice que y son condicionalmente independientes dado , escrito simbólicamente como: . En el lenguaje de la notación de igualdad causal, dos funciones y que dependen ambas de una variable común se describen como condicionalmente independientes utilizando la notación , que es equivalente a la notación . $P(A\mid B,C)$ $A$ $B$ $C$ $A$ $C$ $A$ $B$ $C$ $B$ $A$ $A$ $B$ $C$ $(A\perp \!\!\!\perp B\mid C)$ $f(y)$ $g(y)$ $y$ $f\left(y\right)~{\overset {\curvearrowleft \curvearrowright }{=}}~g\left(y\right)$ $P(f\mid g,y)=P(f\mid y)$

El concepto de independencia condicional es esencial para las teorías de inferencia estadística basadas en gráficos, ya que establece una relación matemática entre una colección de declaraciones condicionales y un grafoide .

Independencia condicional de los eventos

Sean , , y los eventos . y se dice que son condicionalmente independientes dado si y solo si y: $A$ $B$ $C$ $A$ $B$ $C$ $P(C)>0$

P(A\mid B,C)=P(A\mid C)

Esta propiedad a menudo se escribe: , que debe leerse como . $(A\perp \!\!\!\perp B\mid C)$ $((A\perp \!\!\!\perp B)\vert C)$

De manera equivalente, la independencia condicional puede enunciarse como:

P(A,B|C)=P(A|C)P(B|C)

donde es la probabilidad conjunta de y dado . Esta formulación alternativa establece que y son eventos independientes , dado . $P(A,B|C)$ $A$ $B$ $C$ $A$ $B$ $C$

Demuestra que es equivalente a . $(A\perp \!\!\!\perp B\mid C)$ $(B\perp \!\!\!\perp A\mid C)$

Prueba de la definición equivalente

P(A,B\mid C)=P(A\mid C)P(B\mid C)

iff (definición de probabilidad condicional )

{\frac {P(A,B,C)}{P(C)}}=\left({\frac {P(A,C)}{P(C)}}\right)\left({\frac {P(B,C)}{P(C)}}\right)

si y solo si (multiplica ambos lados por )

P(A,B,C)={\frac {P(A,C)P(B,C)}{P(C)}}

P(C)

si y solo si (dividir ambos lados por )

{\frac {P(A,B,C)}{P(B,C)}}={\frac {P(A,C)}{P(C)}}

P(B,C)

iff (definición de probabilidad condicional)

P(A\mid B,C)=P(A\mid C)

\therefore

Ejemplos

Cajas de colores

Cada celda representa un posible resultado. Los eventos y están representados por las áreas sombreadas en rojo , azul y amarillo respectivamente. La superposición entre los eventos y está sombreada en violeta . $\color {red}R$ $\color {blue}B$ $\color {gold}Y$ $\color {red}R$ $\color {blue}B$

Las probabilidades de estos eventos son áreas sombreadas con respecto al área total. En ambos ejemplos , y son condicionalmente independientes porque: $\color {red}R$ $\color {blue}B$ $\color {gold}Y$

\Pr({\color {red}R},{\color {blue}B}\mid {\color {gold}Y})=\Pr({\color {red}R}\mid {\color {gold}Y})\Pr({\color {blue}B}\mid {\color {gold}Y})

^[1]

pero no condicionalmente independiente dado porque: $\left[{\text{not }}{\color {gold}Y}\right]$

\Pr({\color {red}R},{\color {blue}B}\mid {\text{not }}{\color {gold}Y})\not =\Pr({\color {red}R}\mid {\text{not }}{\color {gold}Y})\Pr({\color {blue}B}\mid {\text{not }}{\color {gold}Y})

Proximidad y retrasos

Definamos los eventos A y B como la probabilidad de que la persona A y la persona B lleguen a casa a tiempo para la cena, en el caso de que ambas personas hayan sido seleccionadas al azar de todo el mundo. Se puede suponer que los eventos A y B son independientes, es decir, el conocimiento de que A llega tarde tiene un cambio mínimo o nulo en la probabilidad de que B llegue tarde. Sin embargo, si se introduce un tercer evento, la persona A y la persona B viven en el mismo vecindario, los dos eventos ahora se consideran no condicionalmente independientes. Las condiciones del tráfico y los eventos relacionados con el clima que podrían retrasar a la persona A, también podrían retrasar a la persona B. Dado el tercer evento y el conocimiento de que la persona A llegó tarde, la probabilidad de que la persona B llegue tarde cambia significativamente. ^[2]

Tirada de dados

La independencia condicional depende de la naturaleza del tercer evento. Si tiras dos dados, puedes suponer que los dos dados se comportan independientemente uno del otro. Mirar los resultados de un dado no te dirá cuál será el resultado del segundo (es decir, los dos dados son independientes). Sin embargo, si el resultado del primer dado es un 3 y alguien te informa sobre un tercer evento (que la suma de los dos resultados es par), entonces esta unidad adicional de información restringe las opciones para el segundo resultado a un número impar. En otras palabras, dos eventos pueden ser independientes, pero NO condicionalmente independientes. ^[2]

Altura y vocabulario

La altura y el vocabulario dependen de la edad, ya que las personas muy pequeñas suelen ser niños, conocidos por su vocabulario más básico. Pero sabiendo que dos personas tienen 19 años (es decir, dependiendo de la edad), no hay razón para pensar que el vocabulario de una persona sea mayor si nos dicen que es más alta.

Independencia condicional de variables aleatorias

Dos variables aleatorias discretas y son condicionalmente independientes dada una tercera variable aleatoria discreta si y solo si son independientes en su distribución de probabilidad condicional dado . Es decir, y son condicionalmente independientes dado si y solo si, dado cualquier valor de , la distribución de probabilidad de es la misma para todos los valores de y la distribución de probabilidad de es la misma para todos los valores de . Formalmente: $X$ $Y$ $Z$ $Z$ $X$ $Y$ $Z$ $Z$ $X$ $Y$ $Y$ $X$

donde es la función de distribución acumulativa condicional de y dada . $F_{X,Y\,\mid \,Z\,=\,z}(x,y)=\Pr(X\leq x,Y\leq y\mid Z=z)$ $X$ $Y$ $Z$

Dos eventos y son condicionalmente independientes dada una σ-álgebra si $R$ $B$ $\Sigma$

\Pr(R,B\mid \Sigma )=\Pr(R\mid \Sigma )\Pr(B\mid \Sigma ){\text{ a.s.}}

donde denota la esperanza condicional de la función indicadora del evento , , dada el álgebra sigma . Es decir, $\Pr(A\mid \Sigma )$ $A$ $\chi _{A}$ $\Sigma$

\Pr(A\mid \Sigma ):=\operatorname {E} [\chi _{A}\mid \Sigma ].

Dos variables aleatorias y son condicionalmente independientes dada una σ-álgebra si la ecuación anterior se cumple para todos en y en . $X$ $Y$ $\Sigma$ $R$ $\sigma (X)$ $B$ $\sigma (Y)$

Dos variables aleatorias y son condicionalmente independientes dada una variable aleatoria si son independientes dado σ ( W ): la σ-álgebra generada por . Esto se escribe comúnmente: $X$ $Y$ $W$ $W$

X\perp \!\!\!\perp Y\mid W

X\perp Y\mid W

Esto se lee " es independiente de , dado "; el condicionamiento se aplica a todo el enunciado: "( es independiente de ), dado ". $X$ $Y$ $W$ $X$ $Y$ $W$

(X\perp \!\!\!\perp Y)\mid W

Esta notación se extiende para " es independiente de ". $X\perp \!\!\!\perp Y$ $X$ $Y$

Si se supone un conjunto de valores contables, esto es equivalente a la independencia condicional de X e Y para los eventos de la forma . La independencia condicional de más de dos eventos, o de más de dos variables aleatorias, se define de manera análoga. $W$ $[W=w]$

Los dos ejemplos siguientes muestran que ni implica ni está implícito en . $X\perp \!\!\!\perp Y$ $(X\perp \!\!\!\perp Y)\mid W$

En primer lugar, supongamos que es 0 con probabilidad 0,5 y 1 en caso contrario. Cuando W = 0, tomemos y como independientes, cada uno con el valor 0 con probabilidad 0,99 y el valor 1 en caso contrario. Cuando , y son de nuevo independientes, pero esta vez toman el valor 1 con probabilidad 0,99. Entonces . Pero y son dependientes, porque Pr( X = 0) < Pr( X = 0| Y = 0). Esto se debe a que Pr( X = 0) = 0,5, pero si Y = 0, entonces es muy probable que W = 0 y, por tanto, que X = 0 también, por lo que Pr( X = 0| Y = 0) > 0,5. $W$ $X$ $Y$ $W=1$ $X$ $Y$ $(X\perp \!\!\!\perp Y)\mid W$ $X$ $Y$

Para el segundo ejemplo, supongamos que , cada uno toma los valores 0 y 1 con probabilidad 0,5. Sea el producto . Entonces, cuando , Pr( X = 0) = 2/3, pero Pr( X = 0| Y = 0) = 1/2, entonces es falso. Este también es un ejemplo de Explicación. Vea el tutorial de Kevin Murphy ^[3] donde y toman los valores "inteligente" y "deportivo". $X\perp \!\!\!\perp Y$ $W$ $X\cdot Y$ $W=0$ $(X\perp \!\!\!\perp Y)\mid W$ $X$ $Y$

Independencia condicional de vectores aleatorios

Dos vectores aleatorios y son condicionalmente independientes dado un tercer vector aleatorio si y solo si son independientes en su distribución acumulativa condicional dada . Formalmente: $\mathbf {X} =(X_{1},\ldots ,X_{l})^{\mathrm {T} }$ $\mathbf {Y} =(Y_{1},\ldots ,Y_{m})^{\mathrm {T} }$ $\mathbf {Z} =(Z_{1},\ldots ,Z_{n})^{\mathrm {T} }$ $\mathbf {Z}$

donde , y y las distribuciones acumulativas condicionales se definen de la siguiente manera. $\mathbf {x} =(x_{1},\ldots ,x_{l})^{\mathrm {T} }$ $\mathbf {y} =(y_{1},\ldots ,y_{m})^{\mathrm {T} }$ $\mathbf {z} =(z_{1},\ldots ,z_{n})^{\mathrm {T} }$

{\begin{aligned}F_{\mathbf {X} ,\mathbf {Y} \,\mid \,\mathbf {Z} \,=\,\mathbf {z} }(\mathbf {x} ,\mathbf {y} )&=\Pr(X_{1}\leq x_{1},\ldots ,X_{l}\leq x_{l},Y_{1}\leq y_{1},\ldots ,Y_{m}\leq y_{m}\mid Z_{1}=z_{1},\ldots ,Z_{n}=z_{n})\\[6pt]F_{\mathbf {X} \,\mid \,\mathbf {Z} \,=\,\mathbf {z} }(\mathbf {x} )&=\Pr(X_{1}\leq x_{1},\ldots ,X_{l}\leq x_{l}\mid Z_{1}=z_{1},\ldots ,Z_{n}=z_{n})\\[6pt]F_{\mathbf {Y} \,\mid \,\mathbf {Z} \,=\,\mathbf {z} }(\mathbf {y} )&=\Pr(Y_{1}\leq y_{1},\ldots ,Y_{m}\leq y_{m}\mid Z_{1}=z_{1},\ldots ,Z_{n}=z_{n})\end{aligned}}

Usos en la inferencia bayesiana

Sea p la proporción de votantes que votarán "sí" en un próximo referéndum . Al realizar una encuesta de opinión , se eligen n votantes al azar de la población. Para i = 1, ..., n , sea Xi ₌ 1 o 0, que corresponden, respectivamente, a si el i -ésimo votante elegido votará o no "sí".

En un enfoque frecuentista de la inferencia estadística, no se atribuiría ninguna distribución de probabilidad a p (a menos que las probabilidades pudieran interpretarse de alguna manera como frecuencias relativas de ocurrencia de algún evento o como proporciones de alguna población) y se diría que X ₁ , ..., X _n son variables aleatorias independientes .

En cambio, en un enfoque bayesiano de inferencia estadística, se asignaría una distribución de probabilidad a p independientemente de la inexistencia de cualquier interpretación de "frecuencia" de ese tipo, y se interpretarían las probabilidades como grados de creencia de que p está en cualquier intervalo al que se asigna una probabilidad. En ese modelo, las variables aleatorias X ₁ , ..., X _n no son independientes, pero son condicionalmente independientes dado el valor de p . En particular, si se observa que una gran cantidad de las X son iguales a 1, eso implicaría una alta probabilidad condicional , dada esa observación, de que p esté cerca de 1 y, por lo tanto, una alta probabilidad condicional , dada esa observación, de que la próxima X que se observe sea igual a 1.

Reglas de independencia condicional

A partir de la definición básica se ha derivado un conjunto de reglas que rigen las declaraciones de independencia condicional. ^[4]^[5]

Estas reglas fueron denominadas " Axiomas Grafoides " por Pearl y Paz, ^[6] porque se cumplen en grafos, donde se interpreta como: "Todos los caminos desde X a A son interceptados por el conjunto B ". ^[7] $X\perp \!\!\!\perp A\mid B$

Simetría

X\perp \!\!\!\perp Y\quad \Rightarrow \quad Y\perp \!\!\!\perp X

Prueba:

Nótese que se requiere que demostremos si entonces . Nótese que si entonces se puede demostrar . Por lo tanto, como se requiere. $P(X|Y)=P(X)$ $P(Y|X)=P(Y)$ $P(X|Y)=P(X)$ $P(X,Y)=P(X)P(Y)$ $P(Y|X)=P(X,Y)/P(X)=P(X)P(Y)/P(X)=P(Y)$

Descomposición

X\perp \!\!\!\perp A,B\quad \Rightarrow \quad {\text{ and }}{\begin{cases}X\perp \!\!\!\perp A\\X\perp \!\!\!\perp B\end{cases}}

Prueba

$p_{X,A,B}(x,a,b)=p_{X}(x)p_{A,B}(a,b)$ (significado de ) $X\perp \!\!\!\perp A,B$
$\int _{B}p_{X,A,B}(x,a,b)\,db=\int _{B}p_{X}(x)p_{A,B}(a,b)\,db$ (ignorar la variable B integrándola)
$p_{X,A}(x,a)=p_{X}(x)p_{A}(a)$

Una prueba similar muestra la independencia de X y B.

Unión débil

X\perp \!\!\!\perp A,B\quad \Rightarrow \quad {\text{ and }}{\begin{cases}X\perp \!\!\!\perp A\mid B\\X\perp \!\!\!\perp B\mid A\end{cases}}

Prueba

Por suposición, . $\Pr(X)=\Pr(X\mid A,B)$
Debido a la propiedad de descomposición , . $X\perp \!\!\!\perp B$ $\Pr(X)=\Pr(X\mid B)$
Combinando las dos igualdades anteriores se obtiene , que establece . $\Pr(X\mid B)=\Pr(X\mid A,B)$ $X\perp \!\!\!\perp A\mid B$

La segunda condición puede demostrarse de manera similar.

Contracción

\left.{\begin{aligned}X\perp \!\!\!\perp A\mid B\\X\perp \!\!\!\perp B\end{aligned}}\right\}{\text{ and }}\quad \Rightarrow \quad X\perp \!\!\!\perp A,B

Prueba

Esta propiedad se puede demostrar observando , cada igualdad de las cuales se afirma mediante y , respectivamente. $\Pr(X\mid A,B)=\Pr(X\mid B)=\Pr(X)$ $X\perp \!\!\!\perp A\mid B$ $X\perp \!\!\!\perp B$

Intersección

Para distribuciones de probabilidad estrictamente positivas, ^[5] también se cumple lo siguiente:

\left.{\begin{aligned}X\perp \!\!\!\perp Y\mid Z,W\\X\perp \!\!\!\perp W\mid Z,Y\end{aligned}}\right\}{\text{ and }}\quad \Rightarrow \quad X\perp \!\!\!\perp W,Y\mid Z

Prueba

Por suposición:

P(X|Z,W,Y)=P(X|Z,W)\land P(X|Z,W,Y)=P(X|Z,Y)\implies P(X|Z,Y)=P(X|Z,W)

Utilizando esta igualdad, junto con la Ley de probabilidad total aplicada a : $P(X|Z)$

{\begin{aligned}P(X|Z)&=\sum _{w\in W}P(X|Z,W=w)P(W=w|Z)\\[4pt]&=\sum _{w\in W}P(X|Y,Z)P(W=w|Z)\\[4pt]&=P(X|Z,Y)\sum _{w\in W}P(W=w|Z)\\[4pt]&=P(X|Z,Y)\end{aligned}}

Nota técnica: dado que estas implicaciones son válidas para cualquier espacio de probabilidad, seguirán siendo válidas si se considera un subuniverso condicionando todo a otra variable, digamos K. Por ejemplo, también significaría que . $X\perp \!\!\!\perp Y\Rightarrow Y\perp \!\!\!\perp X$ $X\perp \!\!\!\perp Y\mid K\Rightarrow Y\perp \!\!\!\perp X\mid K$

Véase también

Referencias

^ Para ver que este es el caso, uno debe darse cuenta de que Pr( R ∩ B | Y ) es la probabilidad de una superposición de R y B (el área sombreada en violeta) en el área Y. Dado que, en la imagen de la izquierda, hay dos cuadrados donde R y B se superponen dentro del área Y , y el área Y tiene doce cuadrados, Pr( R ∩ B | Y ) = ⁠2/12⁠ = ⁠1/6⁠ . De manera similar, Pr( R | Y ) = ⁠4/12⁠ = ⁠1/3⁠ y Pr( B | Y ) = ⁠6/12⁠ = ⁠1/2⁠ .
^ab ¿ Alguien podría explicar la independencia condicional?
^ "Modelos gráficos".
^ Dawid, AP (1979). "Independencia condicional en la teoría estadística". Revista de la Royal Statistical Society, Serie B. 41 ( 1): 1–31. JSTOR 2984718. MR 0535541.
^ ab J Pearl, Causalidad: modelos, razonamiento e inferencia, 2000, Cambridge University Press
^ Pearl, Judea ; Paz, Azaria (1986). "Graphoids: Graph-Based Logic for Reasoning about Relevance Relations or When would x tell you more about y if you Already Know z?" [Grafoides: lógica basada en grafos para razonar sobre relaciones de relevancia o ¿cuándo x te diría más sobre y si ya conoces z?"]. En du Boulay, Benedict; Hogg, David C.; Steels, Luc (eds.). Advances in Artificial Intelligence II, Séptima Conferencia Europea sobre Inteligencia Artificial, ECAI 1986, Brighton, Reino Unido, 20-25 de julio de 1986, Actas (PDF) . Holanda Septentrional. págs. 357-363.
^ Pearl, Judea (1988). Razonamiento probabilístico en sistemas inteligentes: redes de inferencia plausible . Morgan Kaufmann. ISBN 9780934613736.

Enlaces externos

Medios relacionados con Independencia condicional en Wikimedia Commons