stringtranslate.com

Cantidades de información

Un diagrama de información engañoso [1] que muestra relaciones aditivas y sustractivas entre las cantidades básicas de información de Shannon para variables correlacionadas y . El área contenida por ambos círculos es la entropía conjunta . El círculo de la izquierda (rojo y violeta) es la entropía individual , siendo el rojo la entropía condicional . El círculo de la derecha (azul y violeta) es , siendo el azul . El violeta es la información mutua .

La teoría matemática de la información se basa en la teoría de la probabilidad y la estadística , y mide la información con varias cantidades de información . La elección de la base logarítmica en las siguientes fórmulas determina la unidad de entropía de información que se utiliza. La unidad de información más común es el bit , o más correctamente el shannon , [2] basado en el logaritmo binario . Aunque "bit" se utiliza con más frecuencia en lugar de "shannon", su nombre no se distingue del bit utilizado en el procesamiento de datos para referirse a un valor o flujo binario independientemente de su entropía (contenido de información). Otras unidades incluyen el nat , basado en el logaritmo natural , y el de Hartley , basado en la base 10 o logaritmo común .

En lo que sigue, se considera por convención que una expresión de la forma es igual a cero siempre que sea cero. Esto se justifica porque para cualquier base logarítmica. [3]

Autoinformación

Shannon derivó una medida del contenido de la información llamada autoinformación o "sorpresa" de un mensaje :

¿Dónde está la probabilidad de que el mensaje se elija entre todas las opciones posibles en el espacio de mensajes ? La base del logaritmo sólo afecta a un factor de escala y, en consecuencia, a las unidades en las que se expresa el contenido de la información medida. Si el logaritmo es de base 2, la medida de información se expresa en unidades de shannon o, más a menudo, simplemente "bits" (un bit en otros contextos se define más bien como un "dígito binario", cuyo contenido de información promedio es como máximo 1 shannon) .

El destinatario obtiene la información de una fuente sólo si éste no tenía ya esa información para empezar. Los mensajes que transmiten información sobre un determinado evento (P=1) (o uno que se conoce con certeza, por ejemplo, a través de un canal secundario) no proporcionan información, como indica la ecuación anterior. Los mensajes que aparecen con poca frecuencia contienen más información que los mensajes que aparecen con más frecuencia.

También se puede demostrar que un mensaje compuesto de dos (o más) mensajes no relacionados tendría una cantidad de información que es la suma de las medidas de información de cada mensaje individualmente. Eso se puede derivar usando esta definición considerando un mensaje compuesto que proporciona información sobre los valores de dos variables aleatorias M y N usando un mensaje que es la concatenación de los mensajes elementales myn , cada uno de cuyo contenido de información está dado por y respectivamente. Si los mensajes myn dependen cada uno solo de M y N, y los procesos M y N son independientes , entonces desde (la definición de independencia estadística) se desprende claramente de la definición anterior que .

Un ejemplo: La transmisión del pronóstico del tiempo es: "El pronóstico de esta noche: Oscuro. Continuará la oscuridad hasta que la luz se disperse ampliamente por la mañana". Este mensaje casi no contiene información. Sin embargo, una previsión de tormenta de nieve sí que contiene información, ya que esto no ocurre todas las noches. Habría una cantidad aún mayor de información en un pronóstico preciso de nieve para un lugar cálido, como Miami . La cantidad de información en una previsión de nieve para un lugar donde nunca nieva (evento imposible) es máxima (infinita).

entropía

La entropía de un espacio de mensajes discretos es una medida de la cantidad de incertidumbre que se tiene sobre qué mensaje se elegirá. Se define como la autoinformación promedio de un mensaje de ese espacio de mensajes:

dónde

denota la operación de valor esperado .

Una propiedad importante de la entropía es que se maximiza cuando todos los mensajes en el espacio de mensajes son equiprobables (p. ej .). En este caso .

A veces la función se expresa en términos de las probabilidades de la distribución:

donde cada uno y

Un caso especial importante de esto es la función de entropía binaria :

Entropía conjunta

La entropía conjunta de dos variables aleatorias discretas y se define como la entropía de la distribución conjunta de y :

Si y son independientes , entonces la entropía conjunta es simplemente la suma de sus entropías individuales.

(Nota: la entropía conjunta no debe confundirse con la entropía cruzada , a pesar de notaciones similares).

Entropía condicional (equivocación)

Dado un valor particular de una variable aleatoria , la entropía condicional dada se define como:

¿Dónde está la probabilidad condicional de que se dé ?

La entropía condicional de dado , también llamada equívoco de aproximadamente, viene dada por:

Esto utiliza la expectativa condicional de la teoría de la probabilidad.

Una propiedad básica de la entropía condicional es que:

Divergencia Kullback-Leibler (ganancia de información)

La divergencia Kullback-Leibler (o divergencia de información , ganancia de información o entropía relativa ) es una forma de comparar dos distribuciones, una distribución de probabilidad "verdadera" y una distribución de probabilidad arbitraria . Si comprimimos datos de una manera que suponemos que es la distribución subyacente a algunos datos, cuando, en realidad, es la distribución correcta, la divergencia de Kullback-Leibler es el número de bits adicionales promedio por dato necesarios para la compresión o, matemáticamente,

En cierto sentido es la "distancia" desde hasta , aunque no es una métrica verdadera debido a que no es simétrica.

Información mutua (transinformación)

Resulta que una de las medidas de información más útiles e importantes es la información mutua o transinformación . Esta es una medida de cuánta información se puede obtener sobre una variable aleatoria observando otra. La información mutua de relativo a (que representa conceptualmente la cantidad promedio de información que se puede obtener observando ) está dada por:

Una propiedad básica de la información mutua es que:

Es decir, sabiendo , podemos ahorrar una media de bits en codificación en comparación con no saberlo . La información mutua es simétrica :


La información mutua se puede expresar como la divergencia promedio de Kullback-Leibler (ganancia de información) de la distribución de probabilidad posterior de dado el valor de la distribución anterior en :

En otras palabras, esta es una medida de cuánto, en promedio, cambiará la distribución de probabilidad de si se nos da el valor de . Esto a menudo se recalcula como la divergencia del producto de las distribuciones marginales por la distribución conjunta real:

La información mutua está estrechamente relacionada con la prueba del índice de verosimilitud logarítmica en el contexto de las tablas de contingencia y la distribución multinomial y con la prueba χ 2 de Pearson : la información mutua puede considerarse una estadística para evaluar la independencia entre un par de variables y tiene una buena relación distribución asintótica especificada.

Entropía diferencial

Las medidas básicas de la entropía discreta se han extendido por analogía a espacios continuos reemplazando sumas con integrales y funciones de masa de probabilidad con funciones de densidad de probabilidad . Aunque, en ambos casos, la información mutua expresa el número de bits de información comunes a las dos fuentes en cuestión, la analogía no implica propiedades idénticas; por ejemplo, la entropía diferencial puede ser negativa.

Las analogías diferenciales de entropía, entropía conjunta, entropía condicional e información mutua se definen de la siguiente manera:

donde es la función de densidad conjunta, son las distribuciones marginales y es la distribución condicional.

Ver también

Referencias

  1. ^ DJC Mackay (2003). Teoría de la información, inferencias y algoritmos de aprendizaje . Código bibliográfico : 2003itil.book.....M.: 141 
  2. ^ Stam, AJ (1959). "Algunas desigualdades satisfechas por las cantidades de información de Fisher y Shannon". Información y Control . 2 (2): 101–112. doi :10.1016/S0019-9958(59)90348-1.
  3. ^ "Tres aproximaciones a la definición del concepto" cantidad de información"" (PDF) .