La base del logaritmo corresponde a la elección de las unidades de información ; la base e corresponde a nats y es matemáticamente conveniente, mientras que la base 2 ( logaritmo binario ) corresponde a shannons y es convencional (como se muestra en el gráfico); explícitamente:
Téngase en cuenta que los valores 0 y 1 están dados por el límite (por la regla de L'Hôpital ); y que "binario" se refiere a dos valores posibles para la variable, no a las unidades de información.
Cuando , la función de entropía binaria alcanza su valor máximo, 1 shannon (1 unidad binaria de información); este es el caso de un lanzamiento de moneda imparcial . Cuando o , la entropía binaria es 0 (en cualquier unidad), lo que corresponde a que no hay información, ya que no hay incertidumbre en la variable.
Notación
La entropía binaria es un caso especial de , la función de entropía . se distingue de la función de entropía en que la primera toma un único número real como parámetro, mientras que la segunda toma una distribución o variable aleatoria como parámetro. Por lo tanto, la entropía binaria (de p ) es la entropía de la distribución , por lo que .
Escribiendo la probabilidad de que cada uno de los dos valores sea p y q , entonces y , esto corresponde a
A veces, la función de entropía binaria también se escribe como . Sin embargo, es diferente y no debe confundirse con la entropía de Rényi , que se denota como .
Explicación
En términos de teoría de la información, se considera que la entropía es una medida de la incertidumbre en un mensaje. Para decirlo intuitivamente, supongamos que . Con esta probabilidad, es seguro que el evento nunca ocurrirá, por lo que no hay incertidumbre en absoluto, lo que lleva a una entropía de 0. Si , el resultado es nuevamente seguro, por lo que la entropía también es 0 aquí. Cuando , la incertidumbre es máxima; si uno hiciera una apuesta justa sobre el resultado en este caso, no se obtendría ninguna ventaja con el conocimiento previo de las probabilidades. En este caso, la entropía es máxima con un valor de 1 bit. Los valores intermedios caen entre estos casos; por ejemplo, si , todavía hay una medida de incertidumbre sobre el resultado, pero uno todavía puede predecir el resultado correctamente la mayoría de las veces, por lo que la medida de incertidumbre, o entropía, es menor que 1 bit completo.
Propiedades
Derivado
La derivada de la función de entropía binaria puede expresarse como el negativo de la función logit :
.
Conjugado convexo
La conjugada convexa (en concreto, la transformada de Legendre ) de la entropía binaria (con base e ) es la función softplus negativa . Esto se debe a que (siguiendo la definición de la transformada de Legendre: las derivadas son funciones inversas) la derivada de la entropía binaria negativa es el logit, cuya función inversa es la función logística , que es la derivada de softplus.
Softplus puede interpretarse como pérdida logística , por lo que por dualidad , minimizar la pérdida logística corresponde a maximizar la entropía. Esto justifica el principio de máxima entropía como minimización de pérdidas.
Serie de Taylor
La serie de Taylor de la función de entropía binaria en 1/2 es
que converge a la función de entropía binaria para todos los valores .
^ Topsøe, Flemming (2001). "Límites para la entropía y la divergencia para distribuciones sobre un conjunto de dos elementos". JIPAM. Journal of Inequalities in Pure & Applied Mathematics . 2 (2): Artículo n.º 25, 13 págs.-Artículo n.º 25, 13 págs.
Lectura adicional
MacKay, David JC Teoría de la información, inferencia y algoritmos de aprendizaje Cambridge: Cambridge University Press, 2003. ISBN 0-521-64298-1