Entropía condicional

Diagrama de Venn que muestra relaciones aditivas y sustractivas, varias medidas de información asociadas con variables correlacionadas y . El área contenida por ambos círculos es la entropía conjunta . El círculo de la izquierda (rojo y violeta) es la entropía individual , siendo el rojo la entropía condicional . El círculo de la derecha (azul y violeta) es , siendo el azul . El violeta es la información mutua . $X$ $Y$ $\mathrm {H} (X,Y)$ $\mathrm {H} (X)$ $\mathrm {H} (X|Y)$ $\mathrm {H} (Y)$ $\mathrm {H} (Y|X)$ $\operatorname {I} (X;Y)$

En teoría de la información , la entropía condicional cuantifica la cantidad de información necesaria para describir el resultado de una variable aleatoria dado que se conoce el valor de otra variable aleatoria . Aquí, la información se mide en shannons , nats o hartleys . La entropía de condicionado se escribe como . $Y$ $X$ $Y$ $X$ $\mathrm {H} (Y|X)$

Definición

La entropía condicional de dado se define como $Y$ $X$

donde y denotan los conjuntos de soporte de y . ${\mathcal {X}}$ ${\mathcal {Y}}$ $X$ $Y$

Nota: Aquí, la convención es que la expresión debe tratarse como si fuera igual a cero. Esto es porque . ^[1] $0\log 0$ $\lim _{\theta \to 0^{+}}\theta \,\log \theta =0$

Intuitivamente, observe que por definición de valor esperado y de probabilidad condicional , puede escribirse como , donde se define como . Se puede pensar en asociar cada par con una cantidad que mide el contenido de información de un objeto dado . Esta cantidad está directamente relacionada con la cantidad de información necesaria para describir el evento dado . Por lo tanto, al calcular el valor esperado de sobre todos los pares de valores , la entropía condicional mide cuánta información, en promedio, codifica la variable aproximadamente . $\displaystyle H(Y|X)$ $H(Y|X)=\mathbb {E} [f(X,Y)]$ $f$ $\displaystyle f(x,y):=-\log \left({\frac {p(x,y)}{p(x)}}\right)=-\log(p(y|x ))$ $\displaystyle f$ $\displaystyle (x,y)$ $\displaystyle (Y=y)$ $\displaystyle (X=x)$ $\displaystyle (Y=y)$ $(X=x)$ $\displaystyle f$ $(x,y)\in {\mathcal {X}}\times {\mathcal {Y}}$ $\displaystyle H(Y|X)$ $X$ $Y$

Motivación

Sea la entropía de la variable aleatoria discreta condicionada a que la variable aleatoria discreta tome un determinado valor . Denota los conjuntos de soporte de y por y . Tengamos la función de masa de probabilidad . La entropía incondicional de se calcula como , es decir $\mathrm {H} (Y|X=x)$ $Y$ $X$ $x$ $X$ $Y$ ${\mathcal {X}}$ ${\mathcal {Y}}$ $Y$ $p_{Y}{(y)}$ $Y$ $\mathrm {H} (Y):=\mathbb {E} [\operatorname {I} (Y)]$

\mathrm {H} (Y)=\sum _{y\in {\mathcal {Y}}}{\mathrm {Pr} (Y=y)\,\mathrm {I} (y)}= -\sum _{y\in {\mathcal {Y}}}{p_{Y}(y)\log _{2}{p_{Y}(y)}},

¿Dónde está el contenido de información del resultado de tomar el valor ? La entropía de la condición de tomar el valor se define de manera análoga mediante la expectativa condicional : $\operatorname {I} (y_ {i})$ $Y$ ${\ Displaystyle y_ {i}}$ $Y$ $X$ $x$

\mathrm {H} (Y|X=x)=-\sum _{y\in {\mathcal {Y}}}{\Pr(Y=y|X=x)\log _{2} {\Pr(Y=y|X=x)}}.

Tenga en cuenta que es el resultado de promediar sobre todos los valores posibles que puedan tomar. Además, si la suma anterior se toma sobre una muestra , el valor esperado se conoce en algunos dominios como $\mathrm {H} (Y|X)$ $\mathrm {H} (Y|X=x)$ $x$ $X$ ${\ Displaystyle y_ {1}, \ puntos, y_ {n}}$ $E_{X}[\mathrm {H} (y_{1},\dots,y_{n}\mid X=x)]$ equívoco .^[2]

Dadas variables aleatorias discretas con imagen y con imagen , la entropía condicional de dada se define como la suma ponderada de para cada valor posible de , usando como pesos: ^[3]^{: 15} $X$ ${\mathcal {X}}$ $Y$ ${\mathcal {Y}}$ $Y$ $X$ $\mathrm {H} (Y|X=x)$ $x$ $p(x)$

{\begin{alineado}\mathrm {H} (Y|X)\ &\equiv \sum _{x\in {\mathcal {X}}}\,p(x)\,\mathrm {H } (Y|X=x)\\&=-\sum _{x\in {\mathcal {X}}}p(x)\sum _{y\in {\mathcal {Y}}}\,p (y|x)\,\log _{2}\,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y} }}\,p(x)p(y|x)\,\log _{2}\,p(y|x)\\&=-\sum _{x\in {\mathcal {X}}, y\in {\mathcal {Y}}}p(x,y)\log _{2}{\frac {p(x,y)}{p(x)}}.\end{aligned}}

Propiedades

La entropía condicional es igual a cero.

$\mathrm {H} (Y|X)=0$ si y sólo si el valor de está completamente determinado por el valor de . $Y$ $X$

Entropía condicional de variables aleatorias independientes.

Por el contrario, si y sólo si y son variables aleatorias independientes . $\mathrm {H} (Y|X)=\mathrm {H} (Y)$ $Y$ $X$

Cadena de reglas

Supongamos que el sistema combinado está determinado por dos variables aleatorias y tiene entropía conjunta , es decir, necesitamos bits de información en promedio para describir su estado exacto. Ahora bien, si aprendemos primero el valor de , habremos obtenido fragmentos de información. Una vez conocido, sólo necesitamos bits para describir el estado de todo el sistema. Esta cantidad es exactamente , lo que da la regla de la cadena de entropía condicional: $X$ $Y$ $\mathrm {H} (X,Y)$ $\mathrm {H} (X,Y)$ $X$ $\mathrm {H} (X)$ $X$ $\mathrm {H} (X,Y)-\mathrm {H} (X)$ $\mathrm {H} (Y|X)$

\mathrm {H} (Y|X)\,=\,\mathrm {H} (X,Y)-\mathrm {H} (X).

^[3]^{: 17}

La regla de la cadena se desprende de la definición anterior de entropía condicional:

{\begin{aligned}\mathrm {H} (Y|X)&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \left({\frac {p(x)}{p(x,y)}}\right)\\[4pt]&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)(\log(p(x))-\log(p(x,y)))\\[4pt]&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log(p(x,y))+\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}{p(x,y)\log(p(x))}\\[4pt]&=\mathrm {H} (X,Y)+\sum _{x\in {\mathcal {X}}}p(x)\log(p(x))\\[4pt]&=\mathrm {H} (X,Y)-\mathrm {H} (X).\end{aligned}}

En general, se cumple una regla de la cadena para múltiples variables aleatorias:

\mathrm {H} (X_{1},X_{2},\ldots ,X_{n})=\sum _{i=1}^{n}\mathrm {H} (X_{i}|X_{1},\ldots ,X_{i-1})

^[3]^{: 22}

Tiene una forma similar a la regla de la cadena en la teoría de la probabilidad, excepto que se utiliza la suma en lugar de la multiplicación.

regla de bayes

Regla de Bayes para estados de entropía condicional

\mathrm {H} (Y|X)\,=\,\mathrm {H} (X|Y)-\mathrm {H} (X)+\mathrm {H} (Y).

Prueba. y . La simetría implica . Restar las dos ecuaciones implica la regla de Bayes. $\mathrm {H} (Y|X)=\mathrm {H} (X,Y)-\mathrm {H} (X)$ $\mathrm {H} (X|Y)=\mathrm {H} (Y,X)-\mathrm {H} (Y)$ $\mathrm {H} (X,Y)=\mathrm {H} (Y,X)$

Si es condicionalmente independiente de dado tenemos: $Y$ $Z$ $X$

\mathrm {H} (Y|X,Z)\,=\,\mathrm {H} (Y|X).

Otras propiedades

Para cualquiera y : $X$ $Y$

{\begin{aligned}\mathrm {H} (Y|X)&\leq \mathrm {H} (Y)\,\\\mathrm {H} (X,Y)&=\mathrm {H} (X|Y)+\mathrm {H} (Y|X)+\operatorname {I} (X;Y),\qquad \\\mathrm {H} (X,Y)&=\mathrm {H} (X)+\mathrm {H} (Y)-\operatorname {I} (X;Y),\,\\\operatorname {I} (X;Y)&\leq \mathrm {H} (X),\,\end{aligned}}

¿Dónde está la información mutua entre y ? $\operatorname {I} (X;Y)$ $X$ $Y$

Para independientes y : $X$ $Y$

\mathrm {H} (Y|X)=\mathrm {H} (Y)

\mathrm {H} (X|Y)=\mathrm {H} (X)\,

Aunque la entropía condicional específica puede ser menor o mayor que para una variable aleatoria dada de , nunca puede exceder . $\mathrm {H} (X|Y=y)$ $\mathrm {H} (X)$ $y$ $Y$ $\mathrm {H} (X|Y)$ $\mathrm {H} (X)$

Entropía diferencial condicional

Definición

La definición anterior es para variables aleatorias discretas. La versión continua de la entropía condicional discreta se llama entropía diferencial condicional (o continua) . Sea y una variable aleatoria continua con una función de densidad de probabilidad conjunta . La entropía condicional diferencial se define como ^[3]^{: 249} $X$ $Y$ $f(x,y)$ $h(X|Y)$

Propiedades

A diferencia de la entropía condicional de variables aleatorias discretas, la entropía diferencial condicional puede ser negativa.

Como en el caso discreto, existe una regla de la cadena para la entropía diferencial:

h(Y|X)\,=\,h(X,Y)-h(X)

^[3]^{: 253}

Sin embargo, observe que esta regla puede no ser cierta si las entropías diferenciales involucradas no existen o son infinitas.

La entropía diferencial conjunta también se utiliza en la definición de información mutua entre variables aleatorias continuas:

\operatorname {I} (X,Y)=h(X)-h(X|Y)=h(Y)-h(Y|X)

$h(X|Y)\leq h(X)$ con igualdad si y sólo si y son independientes. ^[3]^{: 253} $X$ $Y$

Relación con el error del estimador

La entropía diferencial condicional produce un límite inferior en el error cuadrático esperado de un estimador . Para cualquier variable aleatoria , observación y estimador se cumple lo siguiente: ^[3]^{: 255} $X$ $Y$ ${\widehat {X}}$

\mathbb {E} \left[{\bigl (}X-{\widehat {X}}{(Y)}{\bigr )}^{2}\right]\geq {\frac {1}{2\pi e}}e^{2h(X|Y)}

Esto está relacionado con el principio de incertidumbre de la mecánica cuántica .

Generalización a la teoría cuántica.

En la teoría de la información cuántica , la entropía condicional se generaliza a la entropía cuántica condicional . Este último puede tomar valores negativos, a diferencia de su homólogo clásico.

Ver también

Referencias

^ "David MacKay: teoría de la información, reconocimiento de patrones y redes neuronales: el libro". www.inference.org.uk . Consultado el 25 de octubre de 2019 .
^ Hellman, M.; Raviv, J. (1970). "Probabilidad de error, equívoco y el límite de Chernoff". Transacciones IEEE sobre teoría de la información . 16 (4): 368–372. CiteSeerX 10.1.1.131.2865 . doi :10.1109/TIT.1970.1054466.
^ abcdefg T. Portada ; J. Thomas (1991). Elementos de la teoría de la información . Wiley. ISBN 0-471-06259-6.