con igualdad si y sólo si
para . [1] : 68 Dicho en palabras, la entropía de información de una distribución es menor o igual a su entropía cruzada con cualquier otra distribución .
La diferencia entre las dos cantidades es la divergencia de Kullback-Leibler o entropía relativa, por lo que la desigualdad también se puede escribir: [2] : 34
Para simplificar, demostramos la afirmación utilizando el logaritmo natural, denotado por ln , ya que
Por lo tanto, el logaritmo base particular b > 1 que elegimos solo escala la relación por el factor 1 / ln b .
Sea el conjunto de todos aquellos para los que p i es distinto de cero. Entonces, como para todo x > 0 , con igualdad si y solo si x=1 , tenemos:
La última desigualdad es consecuencia de que p i y q i formen parte de una distribución de probabilidad. En concreto, la suma de todos los valores distintos de cero es 1. Sin embargo, es posible que se hayan excluido algunos valores q i distintos de cero, ya que la elección de los índices está condicionada a que p i sea distinto de cero. Por tanto, la suma de los valores q i puede ser inferior a 1.
Hasta ahora, sobre el conjunto de índices , tenemos:
,
o equivalentemente
.
Ambas sumas se pueden extender a todos los , es decir, incluyendo , recordando que la expresión tiende a 0 cuando tiende a 0, y tiende a cuando tiende a 0. Llegamos a
donde la primera desigualdad se debe a la desigualdad de Jensen, y al ser una distribución de probabilidad implica la última igualdad.
Además, dado que es estrictamente cóncava, por la condición de igualdad de la desigualdad de Jensen obtenemos igualdad cuando
y
.
Supongamos que esta relación es , entonces tenemos que
donde utilizamos el hecho de que son distribuciones de probabilidad. Por lo tanto, la igualdad ocurre cuando .
Demostración por divergencia de Bregman
Alternativamente, se puede demostrar notando que para todos , con igualdad mantenida si y solo si . Luego, sumando sobre los estados, tenemos con igualdad mantenida si y solo si .
Esto se debe a que la divergencia KL es la divergencia de Bregman generada por la función .
^ de Pierre Bremaud (6 de diciembre de 2012). Introducción al modelado probabilístico . Springer Science & Business Media. ISBN 978-1-4612-1046-7.
^ David JC MacKay (25 de septiembre de 2003). Teoría de la información, inferencia y algoritmos de aprendizaje . Cambridge University Press. ISBN978-0-521-64298-9.