stringtranslate.com

Entropía (teoría de la información)

En teoría de la información , la entropía de una variable aleatoria es el nivel promedio de "información", "sorpresa" o "incertidumbre" inherente a los posibles resultados de la variable. Dada una variable aleatoria discreta , que toma valores en el alfabeto y se distribuye según , la entropía es

logaritmobitsshannonsenathartleysvalor esperadoautoinformación[1]
Dos bits de entropía: en el caso de dos lanzamientos de moneda justos, la entropía de la información en bits es el logaritmo de base 2 del número de resultados posibles ‍; con dos monedas hay cuatro resultados posibles y dos bits de entropía. Generalmente, la entropía de la información es la cantidad promedio de información transmitida por un evento, considerando todos los resultados posibles.

El concepto de entropía de la información fue introducido por Claude Shannon en su artículo de 1948 " Una teoría matemática de la comunicación ", [2] [3] y también se conoce como entropía de Shannon . La teoría de Shannon define un sistema de comunicación de datos compuesto por tres elementos: una fuente de datos, un canal de comunicación y un receptor. El "problema fundamental de la comunicación" -como lo expresa Shannon- es que el receptor pueda identificar qué datos generó la fuente, en función de la señal que recibe a través del canal. [2] [3] Shannon consideró varias formas de codificar, comprimir y transmitir mensajes desde una fuente de datos, y demostró en su famoso teorema de codificación de fuentes que la entropía representa un límite matemático absoluto sobre qué tan bien se pueden comprimir los datos de la fuente sin pérdidas . en un canal perfectamente silencioso. Shannon reforzó considerablemente este resultado para canales ruidosos en su teorema de codificación de canales ruidosos .

La entropía en la teoría de la información es directamente análoga a la entropía en la termodinámica estadística . La analogía se produce cuando los valores de la variable aleatoria designan energías de microestados, por lo que la fórmula de Gibbs para la entropía es formalmente idéntica a la fórmula de Shannon. La entropía tiene relevancia para otras áreas de las matemáticas, como la combinatoria y el aprendizaje automático . La definición puede derivarse de un conjunto de axiomas que establecen que la entropía debe ser una medida de cuán informativo es el resultado promedio de una variable. Para una variable aleatoria continua, la entropía diferencial es análoga a la entropía. La definición generaliza lo anterior.

Introducción

La idea central de la teoría de la información es que el "valor informativo" de un mensaje comunicado depende del grado en que el contenido del mensaje sea sorprendente. Si ocurre un evento muy probable, el mensaje contiene muy poca información. Por otro lado, si ocurre un evento altamente improbable, el mensaje es mucho más informativo. Por ejemplo, el conocimiento de que un número determinado no será el número ganador de una lotería proporciona muy poca información, porque es casi seguro que cualquier número elegido en particular no ganará. Sin embargo, saber que un número particular ganará la lotería tiene un alto valor informativo porque comunica el resultado de un evento de muy baja probabilidad.

El contenido de información , también llamado sorpresa o autoinformación, de un evento es una función que aumenta a medida que disminuye la probabilidad de que ocurra un evento. Cuando está cerca de 1, la sorpresa del evento es baja, pero si está cerca de 0, la sorpresa del evento es alta. Esta relación se describe mediante la función

logaritmo[4]log§ Caracterización

Por lo tanto, podemos definir la información, o sorpresa, de un evento por

La entropía mide la cantidad esperada (es decir, promedio) de información transmitida al identificar el resultado de una prueba aleatoria. [5] : 67  Esto implica que tirar un dado tiene mayor entropía que lanzar una moneda porque cada resultado de un lanzamiento de dado tiene una probabilidad menor ( ) que cada resultado de un lanzamiento de moneda ( ).

Considere una moneda con probabilidad p de caer en cara y probabilidad 1 − p de caer en cruz. La sorpresa máxima es cuando p = 1/2 , para lo cual no se espera un resultado sobre el otro. En este caso, el lanzamiento de una moneda tiene una entropía de un bit . (De manera similar, un trit con valores equiprobables contiene (aproximadamente 1,58496) bits de información porque puede tener uno de tres valores). La sorpresa mínima es cuando p = 0 o p = 1 , cuando el resultado del evento se conoce de antemano, y la entropía es cero bits. Cuando la entropía es de cero bits, esto a veces se denomina unidad, donde no hay incertidumbre alguna, ni libertad de elección, ni información . Otros valores de p dan entropías entre cero y un bit.

Ejemplo

La teoría de la información es útil para calcular la cantidad más pequeña de información necesaria para transmitir un mensaje, como en la compresión de datos . Por ejemplo, considere la transmisión de secuencias que comprenden los 4 caracteres 'A', 'B', 'C' y 'D' a través de un canal binario. Si las 4 letras tienen la misma probabilidad (25%), no se puede hacer nada mejor que usar dos bits para codificar cada letra. 'A' podría codificarse como '00', 'B' como '01', 'C' como '10' y 'D' como '11'. Sin embargo, si las probabilidades de cada letra son desiguales, digamos que 'A' ocurre con un 70% de probabilidad, 'B' con un 26% y 'C' y 'D' con un 2% cada una, se podrían asignar códigos de longitud variable. En este caso, 'A' se codificaría como '0', 'B' como '10', 'C' como '110' y 'D' como '111'. Con esta representación, el 70% de las veces solo es necesario enviar un bit, el 26% de las veces dos bits y solo el 4% de las veces 3 bits. En promedio, se requieren menos de 2 bits ya que la entropía es menor (debido a la alta prevalencia de 'A' seguida de 'B'; en conjunto, el 96% de los caracteres). El cálculo de la suma de las probabilidades logarítmicas ponderadas por probabilidad mide y captura este efecto. El texto en inglés, tratado como una cadena de caracteres, tiene una entropía bastante baja; es decir, es bastante predecible. Podemos estar bastante seguros de que, por ejemplo, 'e' será mucho más común que 'z', que la combinación 'qu' será mucho más común que cualquier otra combinación que contenga una 'q' y que la combinación 'th' será más común que 'z', 'q' o 'qu'. Después de las primeras letras, a menudo se puede adivinar el resto de la palabra. El texto en inglés tiene entre 0,6 y 1,3 bits de entropía por carácter del mensaje. [6] : 234 

Definición

Shannon , que lleva el nombre del teorema Η de Boltzmann , definió la entropía Η (letra mayúscula griega eta ) de una variable aleatoria discreta , que toma valores en el alfabeto y se distribuye de manera tal que :

Aquí está el operador de valor esperado e I es el contenido de información de X. [7] : 11  [8] : 19–20  es en sí misma una variable aleatoria.

La entropía se puede escribir explícitamente como:

bbaselogaritmobel número de Euler ebitsb = 2natsb = ebansb = 10[9]

En el caso de for some , el valor del sumando correspondiente 0 log b (0) se toma como 0 , lo cual es consistente con el límite : [10] : 13 

También se puede definir la entropía condicional de dos variables y tomar valores de conjuntos y respectivamente, como: [10] : 16 

Teoría de la medida

La entropía se puede definir formalmente en el lenguaje de la teoría de la medida de la siguiente manera: [11] Sea un espacio de probabilidad . Sea un evento . La sorpresa de es

La sorpresa esperada es

Una casi partición es un conjunto de familias tal que y para todos los distintos . (Esta es una relajación de las condiciones habituales para una partición). La entropía de es

Sea un sigma-álgebra en . La entropía de es

todos los

Ejemplo

La entropía Η( X ) (es decir, la sorpresa esperada ) de un lanzamiento de moneda, medida en bits, representada gráficamente frente al sesgo de la moneda Pr( X = 1) , donde X = 1 representa el resultado de cara. [10] : 14–15  Aquí, la entropía es como máximo de 1 bit, y para comunicar el resultado de un lanzamiento de moneda (2 valores posibles) se requerirá un promedio de como máximo 1 bit (exactamente 1 bit para una moneda justa). El resultado de un dado justo (6 valores posibles) tendría una entropía log de 2 6 bits.

Considere lanzar una moneda con probabilidades conocidas, no necesariamente justas, de obtener cara o cruz; esto se puede modelar como un proceso de Bernoulli .

La entropía del resultado desconocido del siguiente lanzamiento de la moneda se maximiza si la moneda es justa (es decir, si cara y cruz tienen la misma probabilidad 1/2). Esta es la situación de máxima incertidumbre ya que es más difícil predecir el resultado del próximo lanzamiento; el resultado de cada lanzamiento de la moneda proporciona un bit completo de información. Esto es porque

Sin embargo, si sabemos que la moneda no es justa, pero sale cara o cruz con probabilidades p y q , donde pq , entonces hay menos incertidumbre. Cada vez que se lanza, es más probable que salga un lado que el otro. La incertidumbre reducida se cuantifica en una entropía más baja: en promedio, cada lanzamiento de la moneda entrega menos de un bit completo de información. Por ejemplo, si p = 0,7, entonces

La probabilidad uniforme produce la máxima incertidumbre y, por tanto, la máxima entropía. La entropía, entonces, sólo puede disminuir a partir del valor asociado con la probabilidad uniforme. El caso extremo es el de una moneda de dos caras que nunca sale cruz, o una moneda de dos caras que nunca sale cara. Entonces no hay incertidumbre. La entropía es cero: cada lanzamiento de la moneda no proporciona información nueva ya que el resultado de cada lanzamiento es siempre seguro. [10] : 14-15 

Caracterización

Para comprender el significado de −Σ p i log( p i ) , primero defina una función de información I en términos de un evento i con probabilidad p i . La cantidad de información adquirida debido a la observación del evento i se deriva de la solución de Shannon de las propiedades fundamentales de la información : [12]

  1. I( p ) disminuye monótonamente en p : un aumento en la probabilidad de un evento disminuye la información de un evento observado, y viceversa.
  2. I(1) = 0 : los eventos que ocurren siempre no comunican información.
  3. I( p 1 · p 2 ) = I( p 1 ) + I( p 2 ) : la información aprendida de eventos independientes es la suma de la información aprendida de cada evento.

Dados dos eventos independientes, si el primer evento puede producir uno de n resultados equiprobables y otro tiene uno de m resultados equiprobables, entonces hay mn resultados equiprobables del evento conjunto. Esto significa que si se necesitan log 2 ( n ) bits para codificar el primer valor y log 2 ( m ) para codificar el segundo, se necesita log 2 ( mn ) = log 2 ( m ) + log 2 ( n ) para codificar ambos. .

Shannon descubrió que una elección adecuada de está dada por: [13]

De hecho, los únicos valores posibles de son para . Además, elegir un valor para k equivale a elegir un valor para , de modo que x corresponda a la base del logaritmo . Por tanto, la entropía se caracteriza por las cuatro propiedades anteriores.

Las diferentes unidades de información ( bits para el logaritmo binario log 2 , nats para el logaritmo natural ln , bans para el logaritmo decimal log 10 , etc.) son múltiplos constantes entre sí. Por ejemplo, en el caso de un lanzamiento de moneda justo, cara proporciona log 2 (2) = 1 bit de información, que es aproximadamente 0,693 nats o 0,301 dígitos decimales. Debido a la aditividad, n lanzamientos proporcionan n bits de información, lo que equivale aproximadamente a 0,693 n nats o 0,301 n dígitos decimales.

El significado de los eventos observados (el significado de los mensajes ) no importa en la definición de entropía. La entropía solo tiene en cuenta la probabilidad de observar un evento específico, por lo que la información que encapsula es información sobre la distribución de probabilidad subyacente , no el significado de los eventos en sí.

Caracterización alternativa

Otra caracterización de la entropía utiliza las siguientes propiedades. Denotamos p i = Pr( X = x i ) y Η n ( p 1 , ..., p n ) = Η( X ) .

  1. Continuidad: H debe ser continuo , de modo que cambiar los valores de las probabilidades en una cantidad muy pequeña solo debería cambiar la entropía en una pequeña cantidad.
  2. Simetría: H no debe cambiar si los resultados x i se reordenan. Es decir, para cualquier permutación de .
  3. Máximo: debe ser máximo si todos los resultados son igualmente probables, es decir .
  4. Número creciente de resultados: para eventos equiprobables, la entropía debería aumentar con el número de resultados, es decir
  5. Aditividad: dado un conjunto de n elementos distribuidos uniformemente que se dividen en k cajas (subsistemas) con b 1 , ..., b k elementos cada uno, la entropía de todo el conjunto debe ser igual a la suma de la entropía de el sistema de cajas y las entropías individuales de las cajas, cada una ponderada con la probabilidad de estar en esa caja en particular.

Discusión

La regla de aditividad tiene las siguientes consecuencias: para números enteros positivos b i donde b 1 + ... + b k = n ,

Elegir k = n , b 1 = ... = b n = 1 implica que la entropía de un determinado resultado es cero: Η 1 (1) = 0 . Esto implica que la eficiencia de un alfabeto fuente con n símbolos puede definirse simplemente como igual a su n -aria entropía. Véase también Redundancia (teoría de la información) .

La caracterización aquí impone una propiedad aditiva con respecto a una partición de un conjunto . Mientras tanto, la probabilidad condicional se define en términos de una propiedad multiplicativa, . Observe que un logaritmo media entre estas dos operaciones. La entropía condicional y las cantidades relacionadas heredan a su vez una relación simple. La definición teórica de medidas en la sección anterior definió la entropía como una suma de las sorpresas esperadas para una partición extrema. Aquí el logaritmo es ad hoc y la entropía no es una medida en sí misma. Al menos en la teoría de la información, la cadena binaria se presta a interpretaciones prácticas.

Motivados por tales relaciones, se ha definido una plétora de cantidades relacionadas y en competencia. Por ejemplo, el análisis de David Ellerman de una "lógica de particiones" define una medida competitiva en estructuras duales a la de subconjuntos de un conjunto universal. [14] La información se cuantifica como "dits" (distinciones), una medida de las particiones. Los "Dits" se pueden convertir en bits de Shannon para obtener las fórmulas de entropía condicional, etc.

Caracterización alternativa mediante aditividad y subaditividad.

Aczél , Forte y Ng [15] dieron otra caracterización axiomática sucinta de la entropía de Shannon a través de las siguientes propiedades:

  1. Subaditividad: para variables aleatorias distribuidas conjuntamente .
  2. Aditividad: cuando las variables aleatorias son independientes.
  3. Expansibilidad: es decir, agregar un resultado con probabilidad cero no cambia la entropía.
  4. Simetría: es invariante bajo permutación de .
  5. Pequeño para pequeñas probabilidades: .

Discusión

Se demostró que cualquier función que satisfaga las propiedades anteriores debe ser un múltiplo constante de la entropía de Shannon, con una constante no negativa. [15] En comparación con las caracterizaciones de entropía mencionadas anteriormente, esta caracterización se centra en las propiedades de la entropía como una función de variables aleatorias (subaditividad y aditividad), en lugar de las propiedades de la entropía como una función del vector de probabilidad .

Vale la pena señalar que si eliminamos la propiedad "pequeña para probabilidades pequeñas", entonces debe ser una combinación lineal no negativa de la entropía de Shannon y la entropía de Hartley . [15]

Otras propiedades

La entropía de Shannon satisface las siguientes propiedades, para algunas de las cuales es útil interpretar la entropía como la cantidad esperada de información aprendida (o incertidumbre eliminada) al revelar el valor de una variable aleatoria X :

.
. [10] : 29 
entonces , la entropía de una variable solo puede disminuir cuando esta última pasa a través de una función.
. [10] : 29 
para todas las funciones de masa de probabilidad y . [10] : 32 

Aspectos

Relación con la entropía termodinámica

La inspiración para adoptar la palabra entropía en la teoría de la información provino del gran parecido entre la fórmula de Shannon y fórmulas conocidas muy similares de la mecánica estadística .

En termodinámica estadística, la fórmula más general para la entropía termodinámica S de un sistema termodinámico es la entropía de Gibbs.

donde k B es la constante de Boltzmann y p i es la probabilidad de un microestado . La entropía de Gibbs fue definida por J. Willard Gibbs en 1878 después de trabajos anteriores de Boltzmann (1872). [dieciséis]

La entropía de Gibbs se traslada casi sin cambios al mundo de la física cuántica para dar la entropía de von Neumann introducida por John von Neumann en 1927:

donde ρ es la matriz de densidad del sistema mecánico cuántico y Tr es la traza . [17]

En un nivel práctico cotidiano, los vínculos entre la entropía de la información y la entropía termodinámica no son evidentes. Los físicos y químicos tienden a estar más interesados ​​en los cambios de entropía a medida que un sistema evoluciona espontáneamente alejándose de sus condiciones iniciales, de acuerdo con la segunda ley de la termodinámica , en lugar de en una distribución de probabilidad inmutable. Como indica la minuciosidad de la constante de Boltzmann k B , los cambios en S / k B incluso para cantidades pequeñas de sustancias en procesos químicos y físicos representan cantidades de entropía que son extremadamente grandes en comparación con cualquier cosa en la compresión de datos o el procesamiento de señales . En termodinámica clásica, la entropía se define en términos de mediciones macroscópicas y no hace referencia a ninguna distribución de probabilidad, lo cual es fundamental para la definición de entropía de la información.

La conexión entre la termodinámica y lo que ahora se conoce como teoría de la información fue establecida por primera vez por Ludwig Boltzmann y expresada mediante su famosa ecuación :

donde es la entropía termodinámica de un macroestado particular (definido por parámetros termodinámicos como temperatura, volumen, energía, etc.), W es el número de microestados (varias combinaciones de partículas en varios estados de energía) que pueden producir el macroestado dado, y k B es la constante de Boltzmann . [18] Se supone que cada microestado es igualmente probable, de modo que la probabilidad de un microestado dado es p i = 1/ W . Cuando estas probabilidades se sustituyen en la expresión anterior por la entropía de Gibbs (o equivalentemente k B por la entropía de Shannon), resulta la ecuación de Boltzmann. En términos de teoría de la información, la entropía de la información de un sistema es la cantidad de información "faltante" necesaria para determinar un microestado, dado el macroestado.

En opinión de Jaynes (1957), [19] la entropía termodinámica, tal como la explica la mecánica estadística , debe verse como una aplicación de la teoría de la información de Shannon: la entropía termodinámica se interpreta como proporcional a la cantidad de información adicional de Shannon necesaria para definir el estado microscópico detallado del sistema, que permanece sin ser descrito únicamente en términos de las variables macroscópicas de la termodinámica clásica, siendo la constante de proporcionalidad simplemente la constante de Boltzmann . Agregar calor a un sistema aumenta su entropía termodinámica porque aumenta el número de posibles estados microscópicos del sistema que son consistentes con los valores mensurables de sus variables macroscópicas, lo que hace que cualquier descripción completa del estado sea más larga. (Ver artículo: termodinámica de máxima entropía ). El demonio de Maxwell puede (hipotéticamente) reducir la entropía termodinámica de un sistema utilizando información sobre los estados de moléculas individuales; pero, como han demostrado Landauer (de 1961) y sus colaboradores [20] , para funcionar el demonio mismo debe aumentar la entropía termodinámica en el proceso, al menos en la cantidad de información de Shannon que se propone adquirir y almacenar primero; y entonces la entropía termodinámica total no disminuye (lo que resuelve la paradoja). El principio de Landauer impone un límite inferior a la cantidad de calor que una computadora debe generar para procesar una cantidad determinada de información, aunque las computadoras modernas son mucho menos eficientes.

Compresión de datos

La definición de entropía de Shannon, cuando se aplica a una fuente de información, puede determinar la capacidad mínima del canal requerida para transmitir de manera confiable la fuente como dígitos binarios codificados. La entropía de Shannon mide la información contenida en un mensaje en contraposición a la parte del mensaje que está determinada (o predecible). Ejemplos de esto último incluyen redundancia en la estructura del lenguaje o propiedades estadísticas relacionadas con las frecuencias de aparición de pares de letras o palabras, trillizos, etc. La capacidad mínima del canal se puede lograr en teoría usando el conjunto típico o en la práctica usando Huffman , Lempel-Ziv o codificación aritmética . (Ver también Complejidad de Kolmogorov .) En la práctica, los algoritmos de compresión incluyen deliberadamente alguna redundancia juiciosa en forma de sumas de verificación para proteger contra errores. La tasa de entropía de una fuente de datos es el número promedio de bits por símbolo necesarios para codificarla. Los experimentos de Shannon con predictores humanos muestran una tasa de información de entre 0,6 y 1,3 bits por carácter en inglés; [21] el algoritmo de compresión PPM puede alcanzar una relación de compresión de 1,5 bits por carácter en texto en inglés.

Si un esquema de compresión no tiene pérdidas (uno en el que siempre se puede recuperar el mensaje original completo mediante la descompresión), entonces un mensaje comprimido tiene la misma cantidad de información que el original pero se comunica en menos caracteres. Tiene más información (mayor entropía) por carácter. Un mensaje comprimido tiene menos redundancia . El teorema de codificación fuente de Shannon establece que un esquema de compresión sin pérdidas no puede comprimir mensajes, en promedio, para tener más de un bit de información por bit de mensaje, pero que cualquier valor inferior a un bit de información por bit de mensaje se puede lograr empleando un adecuado esquema de código. La entropía de un mensaje por bit multiplicada por la longitud de ese mensaje es una medida de cuánta información total contiene el mensaje. El teorema de Shannon también implica que ningún esquema de compresión sin pérdidas puede acortar todos los mensajes. Si algunos mensajes salen más cortos, al menos uno debe salir más largo debido al principio de casillero . En la práctica, esto no suele ser un problema, porque normalmente sólo nos interesa comprimir ciertos tipos de mensajes, como un documento en inglés, en lugar de un texto galimatías, o fotografías digitales en lugar de ruido, y no tiene importancia si un El algoritmo de compresión agranda algunas secuencias improbables o poco interesantes.

Un estudio de 2011 en Science estima la capacidad tecnológica mundial para almacenar y comunicar información comprimida de manera óptima normalizada con los algoritmos de compresión más efectivos disponibles en el año 2007, estimando así la entropía de las fuentes tecnológicamente disponibles. [22] : 60–65 

Los autores estiman la capacidad tecnológica de la humanidad para almacenar información (totalmente comprimida entrópicamente) en 1986 y nuevamente en 2007. Dividen la información en tres categorías: almacenar información en un medio, recibir información a través de redes de transmisión unidireccionales o intercambiar información. a través de redes de telecomunicaciones bidireccionales . [22]

La entropía como medida de diversidad.

La entropía es una de varias formas de medir la biodiversidad y se aplica en forma de índice de Shannon . [23] Un índice de diversidad es una medida estadística cuantitativa de cuántos tipos diferentes existen en un conjunto de datos, como las especies en una comunidad, que representa la riqueza ecológica , la uniformidad y la dominancia . Específicamente, la entropía de Shannon es el logaritmo de 1 D , el verdadero índice de diversidad con parámetro igual a 1. El índice de Shannon está relacionado con las abundancias proporcionales de tipos.

Entropía de una secuencia

Hay una serie de conceptos relacionados con la entropía que cuantifican matemáticamente el contenido de información de una secuencia o mensaje:

(La "tasa de autoinformación" también se puede definir para una secuencia particular de mensajes o símbolos generados por un proceso estocástico dado: esto siempre será igual a la tasa de entropía en el caso de un proceso estacionario ). Otras cantidades de información También se utilizan para comparar o relacionar diferentes fuentes de información.

Es importante no confundir los conceptos anteriores. A menudo sólo queda claro por el contexto a cuál se refiere. Por ejemplo, cuando alguien dice que la "entropía" del idioma inglés es aproximadamente 1 bit por carácter, en realidad está modelando el idioma inglés como un proceso estocástico y hablando de su tasa de entropía . El propio Shannon utilizó el término de esta manera.

Si se utilizan bloques muy grandes, la estimación de la tasa de entropía por carácter puede volverse artificialmente baja porque la distribución de probabilidad de la secuencia no se conoce exactamente; es sólo una estimación. Si se considera el texto de cada libro publicado como una secuencia, siendo cada símbolo el texto de un libro completo, y si hay N libros publicados y cada libro sólo se publica una vez, la estimación de la probabilidad de cada libro es 1/ N , y la entropía (en bits) es −log 2 (1/ N ) = log 2 ( N ) . Como código práctico, esto corresponde a asignar a cada libro un identificador único y usarlo en lugar del texto del libro cuando uno quiera hacer referencia a él. Esto es enormemente útil para hablar de libros, pero no lo es tanto para caracterizar el contenido informativo de un libro individual, o del lenguaje en general: no es posible reconstruir el libro a partir de su identificador sin conocer la distribución de probabilidad, es decir, , el texto completo de todos los libros. La idea clave es que se debe considerar la complejidad del modelo probabilístico. La complejidad de Kolmogorov es una generalización teórica de esta idea que permite considerar el contenido de información de una secuencia independiente de cualquier modelo de probabilidad particular; considera el programa más corto para una computadora universal que genera la secuencia. Un código que alcanza la tasa de entropía de una secuencia para un modelo dado, más el libro de códigos (es decir, el modelo probabilístico), es uno de esos programas, pero puede que no sea el más corto.

La secuencia de Fibonacci es 1, 1, 2, 3, 5, 8, 13, .... tratando la secuencia como un mensaje y cada número como un símbolo, hay casi tantos símbolos como caracteres en el mensaje, dando una entropía de aproximadamente log 2 ( n ) . Los primeros 128 símbolos de la secuencia de Fibonacci tienen una entropía de aproximadamente 7 bits/símbolo, pero la secuencia se puede expresar usando una fórmula [ F( n ) = F( n −1) + F( n −2) para n = 3 , 4, 5, ... , F(1) =1 , F(2) = 1 ] y esta fórmula tiene una entropía mucho menor y se aplica a cualquier longitud de la secuencia de Fibonacci.

Limitaciones de la entropía en criptografía

En criptoanálisis , la entropía se utiliza a menudo de forma aproximada como medida de la imprevisibilidad de una clave criptográfica, aunque su incertidumbre real es inmensurable. Por ejemplo, una clave de 128 bits generada de manera uniforme y aleatoria tiene 128 bits de entropía. También se necesitan (en promedio) conjeturas para romper con fuerza bruta. La entropía no logra capturar el número de conjeturas necesarias si las posibles claves no se eligen de manera uniforme. [24] [25] En cambio, se puede utilizar una medida llamada conjeturas para medir el esfuerzo requerido para un ataque de fuerza bruta. [26]

Pueden surgir otros problemas debido a las distribuciones no uniformes utilizadas en criptografía. Por ejemplo, un bloc de notas binario de un solo uso de 1.000.000 de dígitos que utilice exclusivo o. Si el pad tiene 1.000.000 de bits de entropía, es perfecto. Si el pad tiene 999.999 bits de entropía, distribuidos uniformemente (cada bit individual del pad tiene 0,999999 bits de entropía), puede proporcionar una buena seguridad. Pero si el pad tiene 999.999 bits de entropía, donde el primer bit es fijo y los 999.999 bits restantes son perfectamente aleatorios, el primer bit del texto cifrado no estará cifrado en absoluto.

Los datos como proceso de Markov

Una forma común de definir la entropía del texto se basa en el modelo de texto de Markov . Para una fuente de orden 0 (cada carácter se selecciona independientemente de los últimos caracteres), la entropía binaria es:

donde p i es la probabilidad de i . Para una fuente de Markov de primer orden (una en la que la probabilidad de seleccionar un carácter depende únicamente del carácter inmediatamente anterior), la tasa de entropía es:

[ cita necesaria ]

donde i es un estado (ciertos caracteres precedentes) y es la probabilidad de que j se dé i como carácter anterior.

Para una fuente de Markov de segundo orden, la tasa de entropía es

Eficiencia (entropía normalizada)

Un alfabeto fuente con distribución no uniforme tendrá menos entropía que si esos símbolos tuvieran una distribución uniforme (es decir, el "alfabeto optimizado"). Esta deficiencia de entropía se puede expresar como una relación llamada eficiencia: [27]

Aplicando las propiedades básicas del logaritmo, esta cantidad también se puede expresar como:

La eficiencia tiene utilidad para cuantificar el uso efectivo de un canal de comunicación . Esta formulación también se conoce como entropía normalizada, ya que la entropía se divide por la entropía máxima . Además, la eficiencia es indiferente a la elección de la base b (positiva) , como lo indica la insensibilidad dentro del logaritmo final encima de la misma.

Entropía para variables aleatorias continuas

Entropía diferencial

La entropía de Shannon está restringida a variables aleatorias que toman valores discretos. La fórmula correspondiente para una variable aleatoria continua con función de densidad de probabilidad f ( x ) con soporte finito o infinito en la recta real se define por analogía, utilizando la forma anterior de la entropía como expectativa: [10] : 224 

Esta es la entropía diferencial (o entropía continua). Un precursor de la entropía continua h [ f ] es la expresión del funcional Η en el teorema H de Boltzmann .

Aunque la analogía entre ambas funciones es sugerente, cabe plantearse la siguiente pregunta: ¿es la entropía diferencial una extensión válida de la entropía discreta de Shannon? La entropía diferencial carece de una serie de propiedades que tiene la entropía discreta de Shannon (puede incluso ser negativa) y se han sugerido correcciones, en particular limitando la densidad de puntos discretos .

Para responder a esta pregunta, se debe establecer una conexión entre las dos funciones:

Para obtener una medida generalmente finita cuando el tamaño del contenedor llega a cero. En el caso discreto, el tamaño del contenedor es el ancho (implícito) de cada uno de los n contenedores (finitos o infinitos) cuyas probabilidades se denotan por p n . Como el dominio continuo se generaliza, el ancho debe hacerse explícito.

Para hacer esto, comience con una función continua f discretizada en contenedores de tamaño . Según el teorema del valor medio, existe un valor x i en cada contenedor tal que

f

denotaremos

Como Δ → 0 , tenemos

Nota; log(Δ) → −∞ como Δ → 0 , requiere una definición especial de la entropía diferencial o continua:

que, como se dijo antes, se conoce como entropía diferencial. Esto significa que la entropía diferencial no es un límite de la entropía de Shannon para n → ∞ . Más bien, difiere del límite de la entropía de Shannon en un desplazamiento infinito (ver también el artículo sobre la dimensión de la información ).

Limitar la densidad de puntos discretos.

Como resultado, resulta que, a diferencia de la entropía de Shannon, la entropía diferencial no es en general una buena medida de incertidumbre o información. Por ejemplo, la entropía diferencial puede ser negativa; Además, no es invariante bajo transformaciones de coordenadas continuas. Este problema puede ilustrarse mediante un cambio de unidades cuando x es una variable dimensionada. f ( x ) entonces tendrá las unidades de 1/ x . El argumento del logaritmo debe ser adimensional; de lo contrario, será inadecuado, de modo que la entropía diferencial dada anteriormente será impropia. Si Δ es algún valor "estándar" de x (es decir, "tamaño del contenedor") y, por lo tanto, tiene las mismas unidades, entonces una entropía diferencial modificada se puede escribir en la forma adecuada como:

y el resultado será el mismo para cualquier elección de unidades para x . De hecho, el límite de la entropía discreta as también incluiría un término de , que en general sería infinito. Esto es de esperar: las variables continuas normalmente tendrían una entropía infinita cuando se discretizan. La densidad límite de puntos discretos es en realidad una medida de cuánto más fácil es describir una distribución que una distribución que es uniforme en su esquema de cuantificación.

Entropía relativa

Otra medida útil de entropía que funciona igualmente bien en el caso discreto y continuo es la entropía relativa de una distribución. Se define como la divergencia de Kullback-Leibler de la distribución a una medida de referencia m de la siguiente manera. Supongamos que una distribución de probabilidad p es absolutamente continua con respecto a una medida m , es decir, tiene la forma p ( dx ) = f ( x ) m ( dx ) para alguna función m -integrable no negativa f con m -integral 1, entonces la entropía relativa se puede definir como

De esta forma, la entropía relativa generaliza (hasta el cambio de signo) tanto la entropía discreta, donde la medida m es la medida de conteo , como la entropía diferencial, donde la medida m es la medida de Lebesgue . Si la medida m es en sí misma una distribución de probabilidad, la entropía relativa no es negativa y cero si p = m como medidas. Se define para cualquier espacio de medidas, por lo tanto, coordenadas independientes e invariantes bajo reparametrizaciones de coordenadas si se tiene en cuenta adecuadamente la transformación de la medida m . La entropía relativa, y (implícitamente) la entropía y la entropía diferencial, dependen de la medida de "referencia" m .

Uso en teoría de números

Terence Tao usó la entropía para hacer una conexión útil tratando de resolver el problema de discrepancia de Erdő . [28]

Intuitivamente, la idea detrás de la prueba era si hay poca información en términos de la entropía de Shannon entre variables aleatorias consecutivas (aquí la variable aleatoria se define usando la función de Liouville (que es una función matemática útil para estudiar la distribución de números primos) X H = . Y en un intervalo [n, n+H] la suma en ese intervalo podría llegar a ser arbitrariamente grande. Por ejemplo, una secuencia de +1 (que son valores de X H' podría tomar) tiene una entropía trivialmente baja y su suma se volvería grande. Pero la idea clave fue mostrar una reducción de la entropía en cantidades no despreciables a medida que uno expande H, lo que a su vez conduce a un crecimiento ilimitado de un objeto matemático sobre esta variable aleatoria, lo que equivale a mostrar el crecimiento ilimitado según el problema de discrepancia de Erdős .

La prueba es bastante complicada y reunió avances no solo en el uso novedoso de la entropía de Shannon, sino también en el uso de la función de Liouville junto con promedios de funciones multiplicativas moduladas en intervalos cortos. Demostrando que también se rompió la "barrera de la paridad" para este problema específico.

Si bien el uso de la entropía de Shannon en la prueba es novedoso, es probable que abra nuevas investigaciones en esta dirección.

Uso en combinatoria

La entropía se ha convertido en una cantidad útil en combinatoria .

Desigualdad de Loomis-Whitney

Un ejemplo simple de esto es una prueba alternativa de la desigualdad de Loomis-Whitney : para cada subconjunto AZ d , tenemos

donde P i es la proyección ortogonal en la iésima coordenada:

La prueba se sigue como un simple corolario de la desigualdad de Shearer : si X 1 , ..., X d son variables aleatorias y S 1 , ..., S n son subconjuntos de {1, ..., d } tales que todo número entero entre 1 y d se encuentra exactamente en r de estos subconjuntos, entonces

donde está el producto cartesiano de variables aleatorias X j con índices j en Si (por lo que la dimensión de este vector es igual al tamaño de Si ) .

Esbocemos cómo se deduce Loomis-Whitney de esto: De hecho, sea X una variable aleatoria distribuida uniformemente con valores en A y de modo que cada punto en A ocurra con la misma probabilidad. Entonces (por las propiedades adicionales de la entropía mencionadas anteriormente) Η( X ) = log| Un | , donde | Un | denota la cardinalidad de A . Sea S i = {1, 2, ..., i −1, i +1, ..., d }. El rango de está contenido en P i ( A ) y por tanto . Ahora usa esto para limitar el lado derecho de la desigualdad de Shearer y exponenciar los lados opuestos de la desigualdad resultante que obtengas.

Aproximación al coeficiente binomial

Para números enteros 0 < k < n, sea q = k / n . Entonces

dónde

[29] : 43 

Una buena interpretación de esto es que el número de cadenas binarias de longitud n con exactamente k muchos unos es aproximadamente . [30]

Uso en aprendizaje automático

Las técnicas de aprendizaje automático surgen en gran medida de la estadística y también de la teoría de la información. En general, la entropía es una medida de incertidumbre y el objetivo del aprendizaje automático es minimizar la incertidumbre.

Los algoritmos de aprendizaje de árboles de decisión utilizan entropía relativa para determinar las reglas de decisión que gobiernan los datos en cada nodo. [31] La ganancia de información en los árboles de decisión , que es igual a la diferencia entre la entropía de y la entropía condicional de dado , cuantifica la información esperada, o la reducción de entropía, al conocer adicionalmente el valor de un atributo . La ganancia de información se utiliza para identificar qué atributos del conjunto de datos proporcionan la mayor cantidad de información y deben usarse para dividir los nodos del árbol de manera óptima.

Los modelos de inferencia bayesianos suelen aplicar el principio de máxima entropía para obtener distribuciones de probabilidad previas . [32] La idea es que la distribución que mejor representa el estado actual de conocimiento de un sistema es la que tiene mayor entropía y, por lo tanto, es adecuada para ser la anterior.

La clasificación en el aprendizaje automático realizada mediante regresión logística o redes neuronales artificiales a menudo emplea una función de pérdida estándar, llamada pérdida de entropía cruzada , que minimiza la entropía cruzada promedio entre la verdad fundamental y las distribuciones predichas. [33] En general, la entropía cruzada es una medida de las diferencias entre dos conjuntos de datos similar a la divergencia KL (también conocida como entropía relativa).

Ver también

Referencias

  1. ^ Patria, RK; Beale, Paul (2011). Mecánica estadística (Tercera ed.). Prensa académica. pag. 51.ISBN _ 978-0123821881.
  2. ^ ab Shannon, Claude E. (julio de 1948). "Una teoría matemática de la comunicación" . Revista técnica del sistema Bell . 27 (3): 379–423. doi :10.1002/j.1538-7305.1948.tb01338.x. hdl : 10338.dmlcz/101429 .(PDF, archivado desde aquí)
  3. ^ ab Shannon, Claude E. (octubre de 1948). "Una teoría matemática de la comunicación" . Revista técnica del sistema Bell . 27 (4): 623–656. doi :10.1002/j.1538-7305.1948.tb00917.x. hdl : 11858/00-001M-0000-002C-4317-B .(PDF, archivado desde aquí)
  4. ^ "¡¡¡La entropía (para la ciencia de datos) claramente explicada !!!" – a través de YouTube .
  5. ^ MacKay, David JC (2003). Teoría de la información, inferencia y algoritmos de aprendizaje. Prensa de la Universidad de Cambridge. ISBN 0-521-64298-1.
  6. ^ Schneier, B: Criptografía aplicada , segunda edición, John Wiley and Sons.
  7. ^ Borda, Mónica (2011). Fundamentos en teoría y codificación de la información. Saltador. ISBN 978-3-642-20346-6.
  8. ^ Han, Te Sun; Kobayashi, Kingo (2002). Matemáticas de la Información y Codificación. Sociedad Matemática Estadounidense. ISBN 978-0-8218-4256-0.
  9. ^ Schneider, TD, Manual de teoría de la información con un apéndice sobre logaritmos [ enlace muerto permanente ] , Instituto Nacional del Cáncer, 14 de abril de 2007.
  10. ^ abcdefghijk Thomas M. Portada; Alegría A. Thomas (1991). Elementos de la teoría de la información . Hoboken, Nueva Jersey: Wiley. ISBN 978-0-471-24195-9.
  11. ^ Entropía en el n Lab
  12. ^ Carter, Tom (marzo de 2014). Una introducción a la teoría de la información y la entropía (PDF) . Santa Fe . Consultado el 4 de agosto de 2017 .{{cite book}}: CS1 maint: location missing publisher (link)
  13. ^ Chakrabarti, CG e Indranil Chakrabarty. "Entropía de Shannon: caracterización y aplicación axiomática". Revista Internacional de Matemáticas y Ciencias Matemáticas 2005. 17 (2005): 2847-2854 url
  14. ^ Ellerman, David (octubre de 2017). "Teoría de la información lógica: nuevos fundamentos lógicos para la teoría de la información" (PDF) . Revista Lógica del IGPL . 25 (5): 806–835. doi :10.1093/jigpal/jzx022 . Consultado el 2 de noviembre de 2022 .
  15. ^ abc Aczél, J.; Fuerte, B.; Ng, CT (1974). "Por qué las entropías de Shannon y Hartley son 'naturales'". Avances en probabilidad aplicada . 6 (1): 131–146. doi :10.2307/1426210. JSTOR  1426210. S2CID  204177762.
  16. ^ Comparar: Boltzmann, Ludwig (1896, 1898). Vorlesungen über Gastheorie: 2 volúmenes - Leipzig 1895/98 UB: O 5262-6. Versión en inglés: Conferencias sobre teoría de los gases. Traducido por Stephen G. Brush (1964) Berkeley: University of California Press; (1995) Nueva York: Dover ISBN 0-486-68455-5 
  17. ^ Życzkowski, Karol (2006). Geometría de estados cuánticos: una introducción al entrelazamiento cuántico . Prensa de la Universidad de Cambridge. pag. 301.
  18. ^ Agudo, Kim; Matschinsky, Franz (2015). "Traducción del artículo de Ludwig Boltzmann" sobre la relación entre el segundo teorema fundamental de la teoría mecánica del calor y los cálculos de probabilidad relacionados con las condiciones para el equilibrio térmico"". Entropía . 17 : 1971-2009. doi : 10.3390/e17041971 .
  19. ^ Jaynes, ET (15 de mayo de 1957). "Teoría de la información y mecánica estadística". Revisión física . 106 (4): 620–630. Código bibliográfico : 1957PhRv..106..620J. doi : 10.1103/PhysRev.106.620. S2CID  17870175.
  20. ^ Landauer, R. (julio de 1961). "Irreversibilidad y generación de calor en el proceso informático". Revista IBM de investigación y desarrollo . 5 (3): 183-191. doi :10.1147/rd.53.0183. ISSN  0018-8646.
  21. ^ Mark Nelson (24 de agosto de 2006). "El premio Hutter". Archivado desde el original el 1 de marzo de 2018 . Consultado el 27 de noviembre de 2008 .
  22. ^ ab "La capacidad tecnológica del mundo para almacenar, comunicar y calcular información", Martin Hilbert y Priscila López (2011), Science , 332(6025); acceso gratuito al artículo a través de aquí: martinhilbert.net/WorldInfoCapacity.html
  23. ^ Spellerberg, Ian F.; Fedor, Peter J. (2003). "Un homenaje a Claude Shannon (1916-2001) y un llamado a un uso más riguroso de la riqueza y la diversidad de especies y el índice 'Shannon-Wiener'". Ecología Global y Biogeografía . 12 (3): 177-179. Código Bib : 2003GloEB..12..177S. doi : 10.1046/j.1466-822X.2003.00015.x . ISSN  1466-8238. S2CID  85935463.
  24. ^ Massey, James (1994). "Adivinanzas y entropía" (PDF) . Proc. Simposio internacional IEEE sobre teoría de la información . Consultado el 31 de diciembre de 2013 .
  25. ^ Malone, David; Sullivan, Wayne (2005). "Las conjeturas no sustituyen a la entropía" (PDF) . Actas de la Conferencia sobre Tecnología de la Información y Telecomunicaciones . Consultado el 31 de diciembre de 2013 .
  26. ^ Pliam, John (1999). "Áreas seleccionadas en criptografía". Taller internacional sobre áreas seleccionadas en criptografía . Apuntes de conferencias sobre informática. vol. 1758, págs. 62–77. doi : 10.1007/3-540-46513-8_5 . ISBN 978-3-540-67185-5.
  27. ^ Índices de variación cualitativa. AR Wilcox - 1967 https://www.osti.gov/servlets/purl/4167340
  28. ^ Tao, Terence (28 de febrero de 2016). "El problema de la discrepancia de Erdős". Análisis discreto . arXiv : 1509.05363v6 . doi :10.19086/da.609. S2CID  59361755.
  29. ^ Aoki, Nuevos enfoques para la modelización macroeconómica.
  30. ^ Probabilidad y computación, M. Mitzenmacher y E. Upfal, Cambridge University Press
  31. ^ Batra, Mridula; Agrawal, Rashmi (2018). "Análisis comparativo de algoritmos de árboles de decisión". En Panigrahi, Bijaya Ketan; Hoda, Minnesota; Sharma, Vinod; Goel, Shivendra (eds.). Computación inspirada en la naturaleza . Avances en Sistemas Inteligentes y Computación. vol. 652. Singapur: Springer. págs. 31–36. doi :10.1007/978-981-10-6747-1_4. ISBN 978-981-10-6747-1.
  32. ^ Jaynes, Edwin T. (septiembre de 1968). "Probabilidades previas". Transacciones IEEE sobre ciencia de sistemas y cibernética . 4 (3): 227–241. doi :10.1109/TSSC.1968.300117. ISSN  2168-2887.
  33. ^ Rubinstein, Reuven Y.; Kroese, Dirk P. (9 de marzo de 2013). El método de entropía cruzada: un enfoque unificado para la optimización combinatoria, la simulación Monte-Carlo y el aprendizaje automático. Medios de ciencia y negocios de Springer. ISBN 978-1-4757-4321-0.

Este artículo incorpora material de la entropía de Shannon en PlanetMath , que tiene la licencia Creative Commons Attribution/Share-Alike License .

Otras lecturas

Libros de texto sobre teoría de la información.

enlaces externos