La teoría matemática de la información se basa en la teoría de la probabilidad y la estadística , y mide la información con varias cantidades de información . La elección de la base logarítmica en las siguientes fórmulas determina la unidad de entropía de la información que se utiliza. La unidad de información más común es el bit , o más correctamente el shannon , [2] basado en el logaritmo binario . Aunque "bit" se utiliza con más frecuencia en lugar de "shannon", su nombre no se distingue del bit que se utiliza en el procesamiento de datos para referirse a un valor binario o flujo independientemente de su entropía (contenido de información). Otras unidades incluyen el nat , basado en el logaritmo natural , y el hartley , basado en la base 10 o logaritmo común .
En lo que sigue, una expresión de la forma se considera por convención igual a cero siempre que sea cero. Esto se justifica porque para cualquier base logarítmica. [3]
Shannon derivó una medida del contenido de información llamada autoinformación o " sorpresa" de un mensaje :
donde es la probabilidad de que se elija un mensaje entre todas las opciones posibles en el espacio de mensajes . La base del logaritmo solo afecta a un factor de escala y, en consecuencia, a las unidades en las que se expresa el contenido de información medido. Si el logaritmo es de base 2, la medida de la información se expresa en unidades de shannons o, más a menudo, simplemente "bits" (un bit en otros contextos se define más bien como un "dígito binario", cuyo contenido de información promedio es como máximo 1 shannon).
El receptor obtiene información de una fuente sólo si no la tenía ya antes. Los mensajes que transmiten información sobre un determinado evento (P=1) (o uno que se conoce con certeza, por ejemplo, a través de un canal secundario) no proporcionan información, como indica la ecuación anterior. Los mensajes que se producen con poca frecuencia contienen más información que los mensajes que se producen con más frecuencia.
También se puede demostrar que un mensaje compuesto de dos (o más) mensajes no relacionados tendría una cantidad de información que es la suma de las medidas de información de cada mensaje individualmente. Esto se puede derivar utilizando esta definición al considerar un mensaje compuesto que proporciona información sobre los valores de dos variables aleatorias M y N utilizando un mensaje que es la concatenación de los mensajes elementales m y n , cada uno de cuyos contenidos de información están dados por y respectivamente. Si los mensajes m y n dependen cada uno solo de M y N, y los procesos M y N son independientes , entonces como (la definición de independencia estadística) es claro a partir de la definición anterior que .
Un ejemplo: el pronóstico del tiempo que se transmite es: "Pronóstico para esta noche: oscuro. Oscuridad continua hasta que se aclare ampliamente por la mañana". Este mensaje casi no contiene información. Sin embargo, un pronóstico de una tormenta de nieve contendrá información, ya que esto no sucede todas las noches. Habría una cantidad aún mayor de información en un pronóstico preciso de nieve para un lugar cálido, como Miami . La cantidad de información en un pronóstico de nieve para un lugar donde nunca nieva (evento imposible) es la más alta (infinita).
La entropía de un espacio de mensajes discretos es una medida de la cantidad de incertidumbre que uno tiene sobre qué mensaje será elegido. Se define como la autoinformación promedio de un mensaje de ese espacio de mensajes:
dónde
Una propiedad importante de la entropía es que se maximiza cuando todos los mensajes en el espacio de mensajes son equiprobables (por ejemplo, ). En este caso .
A veces la función se expresa en términos de las probabilidades de la distribución:
Un caso especial importante de esto es la función de entropía binaria :
La entropía conjunta de dos variables aleatorias discretas y se define como la entropía de la distribución conjunta de y :
Si y son independientes , entonces la entropía conjunta es simplemente la suma de sus entropías individuales.
(Nota: La entropía conjunta no debe confundirse con la entropía cruzada , a pesar de que tienen notaciones similares).
Dado un valor particular de una variable aleatoria , la entropía condicional de dado se define como:
donde es la probabilidad condicional de dado .
La entropía condicional de dado , también llamada equivocación de aproximadamente, viene dada por:
Aquí se utiliza la expectativa condicional de la teoría de probabilidad.
Una propiedad básica de la entropía condicional es que:
La divergencia de Kullback-Leibler (o divergencia de información , ganancia de información o entropía relativa ) es una forma de comparar dos distribuciones, una distribución de probabilidad "real" y una distribución de probabilidad arbitraria . Si comprimimos los datos de una manera que supone que es la distribución subyacente a algunos datos, cuando, en realidad, es la distribución correcta, la divergencia de Kullback-Leibler es el número de bits adicionales promedio por dato necesario para la compresión o, matemáticamente,
Es en cierto sentido la "distancia" de a , aunque no es una métrica verdadera debido a que no es simétrica.
Resulta que una de las medidas de información más útiles e importantes es la información mutua o transinformación . Esta es una medida de cuánta información se puede obtener sobre una variable aleatoria observando otra. La información mutua de relativa a (que representa conceptualmente la cantidad promedio de información sobre que se puede obtener observando ) viene dada por:
Una propiedad básica de la información mutua es que:
Es decir, sabiendo , podemos ahorrar un promedio de bits en la codificación en comparación con no saber . La información mutua es simétrica :
La información mutua se puede expresar como la divergencia promedio de Kullback-Leibler (ganancia de información) de la distribución de probabilidad posterior de dado el valor de con respecto a la distribución previa en :
En otras palabras, se trata de una medida de cuánto, en promedio, cambiará la distribución de probabilidad de si se nos da el valor de . Esto se suele recalcular como la divergencia del producto de las distribuciones marginales con la distribución conjunta real:
La información mutua está estrechamente relacionada con la prueba de razón de verosimilitud logarítmica en el contexto de las tablas de contingencia y la distribución multinomial y con la prueba χ 2 de Pearson : la información mutua puede considerarse una estadística para evaluar la independencia entre un par de variables y tiene una distribución asintótica bien especificada.
Las medidas básicas de la entropía discreta se han extendido por analogía a los espacios continuos , reemplazando las sumas por integrales y las funciones de masa de probabilidad por funciones de densidad de probabilidad . Aunque, en ambos casos, la información mutua expresa el número de bits de información comunes a las dos fuentes en cuestión, la analogía no implica propiedades idénticas; por ejemplo, la entropía diferencial puede ser negativa.
Las analogías diferenciales de la entropía, la entropía conjunta, la entropía condicional y la información mutua se definen de la siguiente manera:
donde es la función de densidad conjunta, y son las distribuciones marginales, y es la distribución condicional.