stringtranslate.com

Desigualdad de Gibbs

Josiah Willard Gibbs

En teoría de la información , la desigualdad de Gibbs es una afirmación sobre la entropía de la información de una distribución de probabilidad discreta . Varios otros límites de la entropía de las distribuciones de probabilidad se derivan de la desigualdad de Gibbs, incluida la desigualdad de Fano . Fue presentada por primera vez por J. Willard Gibbs en el siglo XIX.

Desigualdad de Gibbs

Supongamos que y son distribuciones de probabilidad discretas . Entonces

con igualdad si y sólo si para . [1] : 68  Dicho en palabras, la entropía de información de una distribución es menor o igual a su entropía cruzada con cualquier otra distribución .

La diferencia entre las dos cantidades es la divergencia de Kullback-Leibler o entropía relativa, por lo que la desigualdad también se puede escribir: [2] : 34 

Tenga en cuenta que el uso de logaritmos de base 2 es opcional y permite referirse a la cantidad en cada lado de la desigualdad como una " sorpresa promedio " medida en bits .

Prueba

Para simplificar, demostramos la afirmación utilizando el logaritmo natural, denotado por ln , ya que

Por lo tanto, el logaritmo base particular b > 1 que elegimos solo escala la relación por el factor 1 / ln b .

Sea el conjunto de todos aquellos para los que p i es distinto de cero. Entonces, como para todo x > 0 , con igualdad si y solo si x=1 , tenemos:

La última desigualdad es consecuencia de que p i y q i formen parte de una distribución de probabilidad. En concreto, la suma de todos los valores distintos de cero es 1. Sin embargo, es posible que se hayan excluido algunos valores q i distintos de cero, ya que la elección de los índices está condicionada a que p i sea distinto de cero. Por tanto, la suma de los valores q i puede ser inferior a 1.

Hasta ahora, sobre el conjunto de índices , tenemos:

,

o equivalentemente

.

Ambas sumas se pueden extender a todos los , es decir, incluyendo , recordando que la expresión tiende a 0 cuando tiende a 0, y tiende a cuando tiende a 0. Llegamos a

Para que la igualdad se mantenga, es necesario

  1. para todos para que la igualdad se mantenga,
  2. y que significa si , es decir, si .

Esto puede suceder si y sólo si para .

Pruebas alternativas

El resultado se puede demostrar alternativamente utilizando la desigualdad de Jensen , la desigualdad de suma logarítmica o el hecho de que la divergencia de Kullback-Leibler es una forma de divergencia de Bregman .

Demostración mediante la desigualdad de Jensen

Como log es una función cóncava, tenemos que:

donde la primera desigualdad se debe a la desigualdad de Jensen, y al ser una distribución de probabilidad implica la última igualdad.

Además, dado que es estrictamente cóncava, por la condición de igualdad de la desigualdad de Jensen obtenemos igualdad cuando

y

.

Supongamos que esta relación es , entonces tenemos que

donde utilizamos el hecho de que son distribuciones de probabilidad. Por lo tanto, la igualdad ocurre cuando .

Demostración por divergencia de Bregman

Alternativamente, se puede demostrar notando que para todos , con igualdad mantenida si y solo si . Luego, sumando sobre los estados, tenemos con igualdad mantenida si y solo si .

Esto se debe a que la divergencia KL es la divergencia de Bregman generada por la función .

Corolario

La entropía de está limitada por: [1] : 68 

La prueba es trivial: simplemente se establece para todo i .

Véase también

Referencias

  1. ^ de Pierre Bremaud (6 de diciembre de 2012). Introducción al modelado probabilístico . Springer Science & Business Media. ISBN 978-1-4612-1046-7.
  2. ^ David JC MacKay (25 de septiembre de 2003). Teoría de la información, inferencia y algoritmos de aprendizaje . Cambridge University Press. ISBN 978-0-521-64298-9.