Muchos de los conceptos de la teoría de la información tienen definiciones y fórmulas independientes para casos continuos y discretos . Por ejemplo, la entropía generalmente se define para variables aleatorias discretas, mientras que para variables aleatorias continuas se utiliza el concepto relacionado de entropía diferencial , escrito , (ver Cover y Thomas, 2006, capítulo 8). Ambos conceptos son expectativas matemáticas , pero la expectativa se define con una integral para el caso continuo y una suma para el caso discreto.
Estas definiciones separadas pueden estar más estrechamente relacionadas en términos de teoría de la medida . Para variables aleatorias discretas, las funciones de masa de probabilidad pueden considerarse funciones de densidad con respecto a la medida de conteo. Pensar tanto en la integral como en la suma como integración en un espacio de medida permite un tratamiento unificado.
Si en cambio, es discreto, con rango un conjunto finito, es una función de masa de probabilidad en y es la medida de conteo en , podemos escribir:
La expresión integral y el concepto general son idénticos en el caso continuo; la única diferencia es la medida utilizada. En ambos casos, la función de densidad de probabilidad es la derivada de Radón-Nikodym de la medida de probabilidad con respecto a la medida con respecto a la cual se toma la integral.
Si la medida de probabilidad es inducida por , entonces la integral también se puede tomar directamente con respecto a :
Si en lugar de la medida subyacente μ tomamos otra medida de probabilidad , llegamos a la divergencia de Kullback-Leibler : sean y sean medidas de probabilidad en el mismo espacio. Entonces, si es absolutamente continua con respecto a , existe la derivada Radon-Nikodym escrita y la divergencia Kullback-Leibler se puede expresar en su total generalidad:
donde la integral pasa por el soporte de Tenga en cuenta que hemos eliminado el signo negativo: la divergencia Kullback-Leibler siempre es no negativa debido a la desigualdad de Gibbs .
La entropía como "medida"
Diagrama de Venn para diversas medidas de información asociadas a variables correlacionadas X e Y. El área contenida por ambos círculos es la entropía conjunta H ( X , Y ). El círculo de la izquierda (rojo y cian) es la entropía individual H ( X ), siendo el rojo la entropía condicional H ( X | Y ). El círculo de la derecha (azul y cian) es H ( Y ), siendo el azul H ( Y | X ). El cian es la información mutua I ( X ; Y ).Diagrama de Venn de medidas teóricas de la información para tres variables x , y y z . Cada círculo representa una entropía individual : H ( x ) es el círculo inferior izquierdo, H ( y ) el inferior derecho y H ( z ) es el círculo superior. Las intersecciones de dos círculos cualesquiera representan la información mutua para las dos variables asociadas (por ejemplo, I ( x ; z ) es amarillo y gris). La unión de dos círculos cualesquiera es la entropía conjunta de las dos variables asociadas (por ejemplo, H ( x , y ) es todo menos verde). La entropía conjunta H ( x , y , z ) de las tres variables es la unión de los tres círculos. Está dividido en 7 partes, siendo rojo, azul y verde las entropías condicionales H ( x | y , z ), H ( y | x , z ), H ( z | x , y ) respectivamente, amarillo, magenta y cian. siendo las informaciones mutuas condicionales I ( x ; z | y ), I ( y ; z | x ) e I ( x ; y | z ) respectivamente, y siendo gris la información mutua multivariada I ( x ; y ; z ). La información mutua multivariante es la única de todas que puede resultar negativa.
Tenga en cuenta que las medidas (valores esperados del logaritmo) de probabilidades verdaderas se denominan "entropía" y generalmente se representan con la letra H , mientras que otras medidas a menudo se denominan "información" o "correlación" y generalmente se representan con la letra I. Para simplificar la notación, a veces se utiliza la letra I para todas las medidas.
Información mutua multivariante
Son necesarias ciertas extensiones a las definiciones de las medidas básicas de información de Shannon para tratar con el σ-álgebra generada por los conjuntos que estarían asociados a tres o más variables aleatorias arbitrarias. (Ver Reza págs. 106-108 para una discusión informal pero bastante completa). Es decir, debe definirse de la manera obvia como la entropía de una distribución conjunta, y una información mutua multivariada definida de manera adecuada para que podamos establecer:
para definir la medida (con signo) sobre toda σ-álgebra. No existe una definición única universalmente aceptada para la información mutua multivariada, pero la que corresponde aquí a la medida de un conjunto de intersección se debe a Fano (1966: p. 57-59). La definición es recursiva. Como caso base, la información mutua de una única variable aleatoria se define como su entropía: . Entonces nos ponemos
El primer paso de la recursividad produce la definición de Shannon. La información mutua multivariada (igual que la información de interacción pero con un cambio de signo) de tres o más variables aleatorias puede ser tanto negativa como positiva: Sean X e Y dos lanzamientos de moneda independientes y justos, y deja que Z sea su exclusivo o . Luego mordió.
Muchas otras variaciones son posibles para tres o más variables aleatorias: por ejemplo, es la información mutua de la distribución conjunta de X e Y relativa a Z , y puede interpretarse como Se pueden construir muchas expresiones más complicadas de esta manera, y aún tener significado. , por ejemplo o
Referencias
Thomas M. Cover y Joy A. Thomas. Elementos de teoría de la información , segunda edición, 2006. Nueva Jersey: Wiley and Sons. ISBN 978-0-471-24195-9 .
Fazlollah M. Reza. Una introducción a la teoría de la información . Nueva York: McGraw-Hill 1961. Nueva York: Dover 1994. ISBN 0-486-68210-2
Fano, RM (1966), Transmisión de información: una teoría estadística de las comunicaciones, MIT Press , ISBN 978-0-262-56169-3, OCLC 804123877
RW Yeung, "Sobre la entropía, las desigualdades de información y los grupos". PD