Teoría de la información y teoría de la medida.

Este artículo analiza cómo la teoría de la información (una rama de las matemáticas que estudia la transmisión, procesamiento y almacenamiento de información ) se relaciona con la teoría de la medida (una rama de las matemáticas relacionada con la integración y la probabilidad ).

Medidas en la teoría de la información.

Muchos de los conceptos de la teoría de la información tienen definiciones y fórmulas independientes para casos continuos y discretos . Por ejemplo, la entropía generalmente se define para variables aleatorias discretas, mientras que para variables aleatorias continuas se utiliza el concepto relacionado de entropía diferencial , escrito , (ver Cover y Thomas, 2006, capítulo 8). Ambos conceptos son expectativas matemáticas , pero la expectativa se define con una integral para el caso continuo y una suma para el caso discreto. $\mathrm {H} (X)$ $h(X)$

Estas definiciones separadas pueden estar más estrechamente relacionadas en términos de teoría de la medida . Para variables aleatorias discretas, las funciones de masa de probabilidad pueden considerarse funciones de densidad con respecto a la medida de conteo. Pensar tanto en la integral como en la suma como integración en un espacio de medida permite un tratamiento unificado.

Considere la fórmula para la entropía diferencial de una variable aleatoria continua con rango y función de densidad de probabilidad : $X$ $\mathbb {R}$ $f(x)$

h(X)=-\int _{\mathbb {R} }f(x)\log f(x)\,dx.

Por lo general, esto se puede interpretar como la siguiente integral de Riemann-Stieltjes :

h(X)=-\int _{\mathbb {R} }f(x)\log f(x)\,d\mu (x),

¿Dónde está la medida de Lebesgue ? $\mu$

Si en cambio, es discreto, con rango un conjunto finito, es una función de masa de probabilidad en y es la medida de conteo en , podemos escribir: $X$ $\Omega$ $f$ $\Omega$ ${\displaystyle\nu}$ $\Omega$

\mathrm {H} (X)=-\sum _{x\in \Omega }f(x)\log f(x)=-\int _{\Omega }f(x)\log f( x)\,d\nu (x).

La expresión integral y el concepto general son idénticos en el caso continuo; la única diferencia es la medida utilizada. En ambos casos, la función de densidad de probabilidad es la derivada de Radón-Nikodym de la medida de probabilidad con respecto a la medida con respecto a la cual se toma la integral. $f$

Si la medida de probabilidad es inducida por , entonces la integral también se puede tomar directamente con respecto a : $P$ $X$ $P$

h(X)=-\int _{\Omega }\log {\frac {\mathrm {d} P}{\mathrm {d} \mu }}\,dP,

Si en lugar de la medida subyacente μ tomamos otra medida de probabilidad , llegamos a la divergencia de Kullback-Leibler : sean y sean medidas de probabilidad en el mismo espacio. Entonces, si es absolutamente continua con respecto a , existe la derivada Radon-Nikodym escrita y la divergencia Kullback-Leibler se puede expresar en su total generalidad: $Q$ $P$ $Q$ $P$ $Q$ $P\ll Q,$ ${\frac {\mathrm {d} P}{\mathrm {d} Q}}$

D_{\operatorname {KL} }(P\|Q)=\int _{\operatorname {supp} P}{\frac {\mathrm {d} P}{\mathrm {d} Q}}\ log {\frac {\mathrm {d} P}{\mathrm {d} Q}}\,dQ=\int _{\operatorname {supp} P}\log {\frac {\mathrm {d} P}{ \mathrm {d} Q}}\,dP,

donde la integral pasa por el soporte de Tenga en cuenta que hemos eliminado el signo negativo: la divergencia Kullback-Leibler siempre es no negativa debido a la desigualdad de Gibbs . $P.$

La entropía como "medida"

Diagrama de Venn para diversas medidas de información asociadas a variables correlacionadas X e Y. El área contenida por ambos círculos es la entropía conjunta H ( X , Y ). El círculo de la izquierda (rojo y cian) es la entropía individual H ( X ), siendo el rojo la entropía condicional H ( X | Y ). El círculo de la derecha (azul y cian) es H ( Y ), siendo el azul H ( Y | X ). El cian es la información mutua I ( X ; Y ).

Diagrama de Venn de medidas teóricas de la información para tres variables x , y y z . Cada círculo representa una entropía individual : H ( x ) es el círculo inferior izquierdo, H ( y ) el inferior derecho y H ( z ) es el círculo superior. Las intersecciones de dos círculos cualesquiera representan la información mutua para las dos variables asociadas (por ejemplo, I ( x ; z ) es amarillo y gris). La unión de dos círculos cualesquiera es la entropía conjunta de las dos variables asociadas (por ejemplo, H ( x , y ) es todo menos verde). La entropía conjunta H ( x , y , z ) de las tres variables es la unión de los tres círculos. Está dividido en 7 partes, siendo rojo, azul y verde las entropías condicionales H ( x | y , z ), H ( y | x , z ), H ( z | x , y ) respectivamente, amarillo, magenta y cian. siendo las informaciones mutuas condicionales I ( x ; z | y ), I ( y ; z | x ) e I ( x ; y | z ) respectivamente, y siendo gris la información mutua multivariada I ( x ; y ; z ). La información mutua multivariante es la única de todas que puede resultar negativa.

Existe una analogía entre las " medidas " básicas de Shannon del contenido de información de variables aleatorias y una medida sobre conjuntos. Es decir, la entropía conjunta , la entropía condicional y la información mutua pueden considerarse como la medida de una unión de conjuntos , una diferencia de conjuntos y una intersección de conjuntos , respectivamente (Reza págs. 106-108).

Si asociamos la existencia de conjuntos abstractos y a variables aleatorias discretas arbitrarias X e Y , representando de alguna manera la información que soportan X e Y , respectivamente, tal que: ${\tilde {X}}$ ${\tilde {Y}}$

$\mu ({\tilde {X}}\cap {\tilde {Y}})=0$ siempre que X e Y sean incondicionalmente independientes , y
${\tilde {X}}={\tilde {Y}}$ siempre que X e Y sean tales que cualquiera de ellos esté completamente determinado por el otro (es decir, por una biyección);

¿Dónde hay una medida firmada sobre estos conjuntos y establecemos: $\mu$

{\begin{aligned}\mathrm {H} (X)&=\mu ({\tilde {X}}),\\\mathrm {H} (Y)&=\mu ({\tilde {Y}}),\\\mathrm {H} (X,Y)&=\mu ({\tilde {X}}\cup {\tilde {Y}}),\\\mathrm {H} (X\mid Y)&=\mu ({\tilde {X}}\setminus {\tilde {Y}}),\\\operatorname {I} (X;Y)&=\mu ({\tilde {X}}\cap {\tilde {Y}});\end{aligned}}

encontramos que la "medida" de contenido de información de Shannon satisface todos los postulados y propiedades básicas de una medida formal con signo sobre conjuntos, como se ilustra comúnmente en un diagrama de información . Esto permite escribir la suma de dos medidas:

\mu (A)+\mu (B)=\mu (A\cup B)+\mu (A\cap B)

y el análogo del teorema de Bayes ( ) permite escribir la diferencia de dos medidas: $\mu (A)+\mu (B\setminus A)=\mu (B)+\mu (A\setminus B)$

\mu (A)-\mu (B)=\mu (A\setminus B)-\mu (B\setminus A)

Esto puede ser un recurso mnemotécnico útil en algunas situaciones, por ejemplo

{\begin{aligned}\mathrm {H} (X,Y)&=\mathrm {H} (X)+\mathrm {H} (Y\mid X)&\mu ({\tilde {X}}\cup {\tilde {Y}})&=\mu ({\tilde {X}})+\mu ({\tilde {Y}}\setminus {\tilde {X}})\\\operatorname {I} (X;Y)&=\mathrm {H} (X)-\mathrm {H} (X\mid Y)&\mu ({\tilde {X}}\cap {\tilde {Y}})&=\mu ({\tilde {X}})-\mu ({\tilde {X}}\setminus {\tilde {Y}})\end{aligned}}

Tenga en cuenta que las medidas (valores esperados del logaritmo) de probabilidades verdaderas se denominan "entropía" y generalmente se representan con la letra H , mientras que otras medidas a menudo se denominan "información" o "correlación" y generalmente se representan con la letra I. Para simplificar la notación, a veces se utiliza la letra I para todas las medidas.

Información mutua multivariante

Son necesarias ciertas extensiones a las definiciones de las medidas básicas de información de Shannon para tratar con el σ-álgebra generada por los conjuntos que estarían asociados a tres o más variables aleatorias arbitrarias. (Ver Reza págs. 106-108 para una discusión informal pero bastante completa). Es decir, debe definirse de la manera obvia como la entropía de una distribución conjunta, y una información mutua multivariada definida de manera adecuada para que podamos establecer: $\mathrm {H} (X,Y,Z,\cdots )$ $\operatorname {I} (X;Y;Z;\cdots )$

{\begin{aligned}\mathrm {H} (X,Y,Z,\cdots )&=\mu ({\tilde {X}}\cup {\tilde {Y}}\cup {\tilde {Z}}\cup \cdots ),\\\operatorname {I} (X;Y;Z;\cdots )&=\mu ({\tilde {X}}\cap {\tilde {Y}}\cap {\tilde {Z}}\cap \cdots );\end{aligned}}

para definir la medida (con signo) sobre toda σ-álgebra. No existe una definición única universalmente aceptada para la información mutua multivariada, pero la que corresponde aquí a la medida de un conjunto de intersección se debe a Fano (1966: p. 57-59). La definición es recursiva. Como caso base, la información mutua de una única variable aleatoria se define como su entropía: . Entonces nos ponemos $\operatorname {I} (X)=\mathrm {H} (X)$ $n\geq 2$

\operatorname {I} (X_{1};\cdots ;X_{n})=\operatorname {I} (X_{1};\cdots ;X_{n-1})-\operatorname {I} (X_{1};\cdots ;X_{n-1}\mid X_{n}),

donde la información mutua condicional se define como

\operatorname {I} (X_{1};\cdots ;X_{n-1}\mid X_{n})=\mathbb {E} _{X_{n}}{\big (}\operatorname {I} (X_{1};\cdots ;X_{n-1})\mid X_{n}{\big )}.

El primer paso de la recursividad produce la definición de Shannon. La información mutua multivariada (igual que la información de interacción pero con un cambio de signo) de tres o más variables aleatorias puede ser tanto negativa como positiva: Sean X e Y dos lanzamientos de moneda independientes y justos, y deja que Z sea su exclusivo o . Luego mordió. $\operatorname {I} (X_{1};X_{2})=\mathrm {H} (X_{1})-\mathrm {H} (X_{1}\mid X_{2}).$ $\operatorname {I} (X;Y;Z)=-1$

Muchas otras variaciones son posibles para tres o más variables aleatorias: por ejemplo, es la información mutua de la distribución conjunta de X e Y relativa a Z , y puede interpretarse como Se pueden construir muchas expresiones más complicadas de esta manera, y aún tener significado. , por ejemplo o $\operatorname {I} (X,Y;Z)$ $\mu (({\tilde {X}}\cup {\tilde {Y}})\cap {\tilde {Z}}).$ $\operatorname {I} (X,Y;Z\mid W),$ $\mathrm {H} (X,Z\mid W,Y).$

Referencias

Thomas M. Cover y Joy A. Thomas. Elementos de teoría de la información , segunda edición, 2006. Nueva Jersey: Wiley and Sons. ISBN 978-0-471-24195-9 .
Fazlollah M. Reza. Una introducción a la teoría de la información . Nueva York: McGraw-Hill 1961. Nueva York: Dover 1994. ISBN 0-486-68210-2
Fano, RM (1966), Transmisión de información: una teoría estadística de las comunicaciones, MIT Press , ISBN 978-0-262-56169-3, OCLC 804123877
RW Yeung, "Sobre la entropía, las desigualdades de información y los grupos". PD

Teoría de la información y teoría de la medida.

Medidas en la teoría de la información.

La entropía como "medida"

Información mutua multivariante

Referencias

Ver también