Medida de información relativa en la teoría de la probabilidad.
Diagrama de Venn que muestra relaciones aditivas y sustractivas, varias medidas de información asociadas con variables correlacionadas y . El área contenida por ambos círculos es la entropía conjunta . El círculo de la izquierda (rojo y violeta) es la entropía individual , siendo el rojo la entropía condicional . El círculo de la derecha (azul y violeta) es , siendo el azul . El violeta es la información mutua .
En teoría de la información , la entropía condicional cuantifica la cantidad de información necesaria para describir el resultado de una variable aleatoria dado que se conoce el valor de otra variable aleatoria . Aquí, la información se mide en shannons , nats o hartleys . La entropía de condicionado se escribe como .
Nota: Aquí, la convención es que la expresión debe tratarse como si fuera igual a cero. Esto es porque . [1]
Intuitivamente, observe que por definición de valor esperado y de probabilidad condicional , puede escribirse como , donde se define como . Se puede pensar en asociar cada par con una cantidad que mide el contenido de información de un objeto dado . Esta cantidad está directamente relacionada con la cantidad de información necesaria para describir el evento dado . Por lo tanto, al calcular el valor esperado de sobre todos los pares de valores , la entropía condicional mide cuánta información, en promedio, codifica la variable aproximadamente .
Motivación
Sea la entropía de la variable aleatoria discreta condicionada a que la variable aleatoria discreta tome un determinado valor . Denota los conjuntos de soporte de y por y . Tengamos la función de masa de probabilidad . La entropía incondicional de se calcula como , es decir
Tenga en cuenta que es el resultado de promediar sobre todos los valores posibles que puedan tomar. Además, si la suma anterior se toma sobre una muestra , el valor esperado se conoce en algunos dominios comoequívoco .[2]
Dadas variables aleatorias discretas con imagen y con imagen , la entropía condicional de dada se define como la suma ponderada de para cada valor posible de , usando como pesos: [3] : 15
Propiedades
La entropía condicional es igual a cero.
si y sólo si el valor de está completamente determinado por el valor de .
Entropía condicional de variables aleatorias independientes.
Supongamos que el sistema combinado está determinado por dos variables aleatorias y tiene entropía conjunta , es decir, necesitamos bits de información en promedio para describir su estado exacto. Ahora bien, si aprendemos primero el valor de , habremos obtenido fragmentos de información. Una vez conocido, sólo necesitamos bits para describir el estado de todo el sistema. Esta cantidad es exactamente , lo que da la regla de la cadena de entropía condicional:
[3] : 17
La regla de la cadena se desprende de la definición anterior de entropía condicional:
En general, se cumple una regla de la cadena para múltiples variables aleatorias:
[3] : 22
Tiene una forma similar a la regla de la cadena en la teoría de la probabilidad, excepto que se utiliza la suma en lugar de la multiplicación.
Aunque la entropía condicional específica puede ser menor o mayor que para una variable aleatoria dada de , nunca puede exceder .
Entropía diferencial condicional
Definición
La definición anterior es para variables aleatorias discretas. La versión continua de la entropía condicional discreta se llama entropía diferencial condicional (o continua) . Sea y una variable aleatoria continua con una función de densidad de probabilidad conjunta . La entropía condicional diferencial se define como [3] : 249
Propiedades
A diferencia de la entropía condicional de variables aleatorias discretas, la entropía diferencial condicional puede ser negativa.
Como en el caso discreto, existe una regla de la cadena para la entropía diferencial:
[3] : 253
Sin embargo, observe que esta regla puede no ser cierta si las entropías diferenciales involucradas no existen o son infinitas.
La entropía diferencial conjunta también se utiliza en la definición de información mutua entre variables aleatorias continuas:
con igualdad si y sólo si y son independientes. [3] : 253
Relación con el error del estimador
La entropía diferencial condicional produce un límite inferior en el error cuadrático esperado de un estimador . Para cualquier variable aleatoria , observación y estimador se cumple lo siguiente: [3] : 255
^ "David MacKay: teoría de la información, reconocimiento de patrones y redes neuronales: el libro". www.inference.org.uk . Consultado el 25 de octubre de 2019 .
^ Hellman, M.; Raviv, J. (1970). "Probabilidad de error, equívoco y el límite de Chernoff". Transacciones IEEE sobre teoría de la información . 16 (4): 368–372. CiteSeerX 10.1.1.131.2865 . doi :10.1109/TIT.1970.1054466.
^ abcdefg T. Portada ; J. Thomas (1991). Elementos de la teoría de la información . Wiley. ISBN0-471-06259-6.