En teoría de la información , la entropía de una variable aleatoria es el nivel promedio de "información", "sorpresa" o "incertidumbre" inherente a los posibles resultados de la variable. Dada una variable aleatoria discreta , que toma valores en el conjunto y se distribuye de acuerdo con , la entropía es donde denota la suma de los valores posibles de la variable. La elección de la base para el logaritmo varía según las diferentes aplicaciones. La base 2 da la unidad de bits (o " shannons "), mientras que la base e da "unidades naturales" nat , y la base 10 da unidades de "dits", "bans" o " hartleys ". Una definición equivalente de entropía es el valor esperado de la autoinformación de una variable. [1]
El concepto de entropía de la información fue introducido por Claude Shannon en su artículo de 1948 " Una teoría matemática de la comunicación ", [2] [3] y también se conoce como entropía de Shannon . La teoría de Shannon define un sistema de comunicación de datos compuesto por tres elementos: una fuente de datos, un canal de comunicación y un receptor. El "problema fundamental de la comunicación" -como lo expresa Shannon- es que el receptor pueda identificar qué datos generó la fuente, en función de la señal que recibe a través del canal. [2] [3] Shannon consideró varias formas de codificar, comprimir y transmitir mensajes desde una fuente de datos, y demostró en su teorema de codificación de fuente que la entropía representa un límite matemático absoluto sobre qué tan bien se pueden comprimir los datos de la fuente sin pérdidas . un canal perfectamente silencioso. Shannon reforzó considerablemente este resultado para canales ruidosos en su teorema de codificación de canales ruidosos .
La entropía en la teoría de la información es directamente análoga a la entropía en la termodinámica estadística . La analogía se produce cuando los valores de la variable aleatoria designan energías de microestados, por lo que la fórmula de Gibbs para la entropía es formalmente idéntica a la fórmula de Shannon. La entropía tiene relevancia para otras áreas de las matemáticas, como la combinatoria y el aprendizaje automático . La definición puede derivarse de un conjunto de axiomas que establecen que la entropía debe ser una medida de cuán informativo es el resultado promedio de una variable. Para una variable aleatoria continua, la entropía diferencial es análoga a la entropía. La definición generaliza lo anterior.
La idea central de la teoría de la información es que el "valor informativo" de un mensaje comunicado depende del grado en que el contenido del mensaje sea sorprendente. Si ocurre un evento muy probable, el mensaje contiene muy poca información. Por otro lado, si ocurre un evento altamente improbable, el mensaje es mucho más informativo. Por ejemplo, el conocimiento de que un número determinado no será el número ganador de una lotería proporciona muy poca información, porque es casi seguro que cualquier número elegido en particular no ganará. Sin embargo, el conocimiento de que un número particular ganará la lotería tiene un alto valor informativo porque comunica la ocurrencia de un evento de muy baja probabilidad.
El contenido de información , también llamado sorpresa o autoinformación, de un evento es una función que aumenta a medida que disminuye la probabilidad de que ocurra un evento. Cuando es cercano a 1, la sorpresa del evento es baja, pero si es cercano a 0, la sorpresa del evento es alta. Esta relación se describe mediante la función donde está el logaritmo , que da 0 sorpresa cuando la probabilidad del evento es 1. [4] De hecho, log es la única función que satisface un conjunto específico de condiciones definidas en la sección § Caracterización .
Por lo tanto, podemos definir la información, o sorpresa, de un evento por o de manera equivalente,
La entropía mide la cantidad esperada (es decir, promedio) de información transmitida al identificar el resultado de una prueba aleatoria. [5] : 67 Esto implica que lanzar un dado tiene mayor entropía que lanzar una moneda porque cada resultado de un lanzamiento de dado tiene una probabilidad menor ( ) que cada resultado de un lanzamiento de moneda ( ).
Considere una moneda con probabilidad p de caer en cara y probabilidad 1 − p de caer en cruz. La sorpresa máxima es cuando p = 1/2 , para lo cual no se espera un resultado sobre el otro. En este caso, el lanzamiento de una moneda tiene una entropía de un bit . (De manera similar, un trit con valores equiprobables contiene (aproximadamente 1,58496) bits de información porque puede tener uno de tres valores). La sorpresa mínima es cuando p = 0 o p = 1 , cuando el resultado del evento se conoce de antemano, y la entropía es cero bits. Cuando la entropía es de cero bits, esto a veces se denomina unidad, donde no hay incertidumbre alguna, ni libertad de elección, ni información . Otros valores de p dan entropías entre cero y un bit.
La teoría de la información es útil para calcular la cantidad más pequeña de información necesaria para transmitir un mensaje, como en la compresión de datos . Por ejemplo, considere la transmisión de secuencias que comprenden los 4 caracteres 'A', 'B', 'C' y 'D' a través de un canal binario. Si las 4 letras tienen la misma probabilidad (25%), no hay nada mejor que usar dos bits para codificar cada letra. 'A' podría codificarse como '00', 'B' como '01', 'C' como '10' y 'D' como '11'. Sin embargo, si las probabilidades de cada letra son desiguales, digamos que 'A' ocurre con un 70% de probabilidad, 'B' con un 26% y 'C' y 'D' con un 2% cada una, se podrían asignar códigos de longitud variable. En este caso, 'A' se codificaría como '0', 'B' como '10', 'C' como '110' y 'D' como '111'. Con esta representación, el 70% de las veces solo es necesario enviar un bit, el 26% de las veces dos bits y solo el 4% de las veces 3 bits. En promedio, se requieren menos de 2 bits ya que la entropía es menor (debido a la alta prevalencia de 'A' seguida de 'B', en conjunto el 96% de los caracteres). El cálculo de la suma de las probabilidades logarítmicas ponderadas por probabilidad mide y captura este efecto.
El texto en inglés, tratado como una cadena de caracteres, tiene una entropía bastante baja; es decir, es bastante predecible. Podemos estar bastante seguros de que, por ejemplo, 'e' será mucho más común que 'z', que la combinación 'qu' será mucho más común que cualquier otra combinación que contenga una 'q' y que la combinación 'th' será más común que 'z', 'q' o 'qu'. Después de las primeras letras, a menudo se puede adivinar el resto de la palabra. El texto en inglés tiene entre 0,6 y 1,3 bits de entropía por carácter del mensaje. [6] : 234
Nombrado en honor al teorema Η de Boltzmann , Shannon definió la entropía Η (letra mayúscula griega eta ) de una variable aleatoria discreta , que toma valores en el conjunto y se distribuye de manera tal que :
Aquí está el operador de valor esperado e I es el contenido de información de X. [7] : 11 [8] : 19–20 es en sí misma una variable aleatoria.
La entropía se puede escribir explícitamente como: donde b es la base del logaritmo utilizado. Los valores comunes de b son 2, el número de Euler e y 10, y las unidades de entropía correspondientes son los bits para b = 2 , nats para b = e y bans para b = 10 . [9]
En el caso de for some , el valor del sumando correspondiente 0 log b (0) se toma como 0 , lo cual es consistente con el límite : [10] : 13
También se puede definir la entropía condicional de dos variables y tomar valores de conjuntos y respectivamente, como: [10] : 16 donde y . Esta cantidad debe entenderse como la aleatoriedad restante en la variable aleatoria dada la variable aleatoria .
La entropía se puede definir formalmente en el lenguaje de la teoría de la medida de la siguiente manera: [11] Sea un espacio de probabilidad . Sea un evento . La sorpresa de es
La sorpresa esperada es
Una casi partición es un conjunto de familias tal que y para todos los distintos . (Esta es una relajación de las condiciones habituales para una partición). La entropía de es
Sea un sigma-álgebra en . La entropía de es Finalmente, la entropía del espacio de probabilidad es , es decir, la entropía con respecto a del álgebra sigma de todos los subconjuntos mensurables de .
Considere lanzar una moneda con probabilidades conocidas, no necesariamente justas, de obtener cara o cruz; esto se puede modelar como un proceso de Bernoulli .
La entropía del resultado desconocido del siguiente lanzamiento de la moneda se maximiza si la moneda es justa (es decir, si cara y cruz tienen la misma probabilidad 1/2). Esta es la situación de máxima incertidumbre ya que es más difícil predecir el resultado del próximo lanzamiento; el resultado de cada lanzamiento de la moneda proporciona un bit completo de información. Esto es porque
Sin embargo, si sabemos que la moneda no es justa, pero sale cara o cruz con probabilidades p y q , donde p ≠ q , entonces hay menos incertidumbre. Cada vez que se lanza, es más probable que salga un lado que el otro. La incertidumbre reducida se cuantifica en una entropía más baja: en promedio, cada lanzamiento de la moneda entrega menos de un bit completo de información. Por ejemplo, si p = 0,7, entonces
La probabilidad uniforme produce la máxima incertidumbre y, por tanto, la máxima entropía. La entropía, entonces, sólo puede disminuir a partir del valor asociado con la probabilidad uniforme. El caso extremo es el de una moneda de dos caras que nunca sale cruz, o una moneda de dos caras que nunca sale cara. Entonces no hay incertidumbre. La entropía es cero: cada lanzamiento de la moneda no proporciona información nueva ya que el resultado de cada lanzamiento es siempre seguro. [10] : 14-15
Para comprender el significado de −Σ p i log( p i ) , primero defina una función de información I en términos de un evento i con probabilidad p i . La cantidad de información adquirida debido a la observación del evento i se desprende de la solución de Shannon de las propiedades fundamentales de la información : [12]
Dados dos eventos independientes, si el primer evento puede producir uno de n resultados equiprobables y otro tiene uno de m resultados equiprobables, entonces hay mn resultados equiprobables del evento conjunto. Esto significa que si se necesitan log 2 ( n ) bits para codificar el primer valor y log 2 ( m ) para codificar el segundo, se necesita log 2 ( mn ) = log 2 ( m ) + log 2 ( n ) para codificar ambos. .
Shannon descubrió que una elección adecuada de está dada por: [13]
De hecho, los únicos valores posibles de son para . Además, elegir un valor para k equivale a elegir un valor para , de modo que x corresponda a la base del logaritmo . Por tanto, la entropía se caracteriza por las cuatro propiedades anteriores.
Las diferentes unidades de información ( bits para el logaritmo binario log 2 , nats para el logaritmo natural ln , bans para el logaritmo decimal log 10 , etc.) son múltiplos constantes entre sí. Por ejemplo, en el caso de un lanzamiento de moneda justo, cara proporciona log 2 (2) = 1 bit de información, que es aproximadamente 0,693 nats o 0,301 dígitos decimales. Debido a la aditividad, n lanzamientos proporcionan n bits de información, lo que equivale aproximadamente a 0,693 n nats o 0,301 n dígitos decimales.
El significado de los eventos observados (el significado de los mensajes ) no importa en la definición de entropía. La entropía solo tiene en cuenta la probabilidad de observar un evento específico, por lo que la información que encapsula es información sobre la distribución de probabilidad subyacente , no el significado de los eventos en sí.
Otra caracterización de la entropía utiliza las siguientes propiedades. Denotamos p i = Pr( X = x i ) y Η n ( p 1 , ..., p n ) = Η( X ) .
La regla de aditividad tiene las siguientes consecuencias: para números enteros positivos b i donde b 1 + ... + b k = n ,
Elegir k = n , b 1 = ... = b n = 1 implica que la entropía de un determinado resultado es cero: Η 1 (1) = 0 . Esto implica que la eficiencia de un conjunto de fuentes con n símbolos se puede definir simplemente como igual a su n -entropía. Véase también Redundancia (teoría de la información) .
La caracterización aquí impone una propiedad aditiva con respecto a una partición de un conjunto . Mientras tanto, la probabilidad condicional se define en términos de una propiedad multiplicativa, . Observe que un logaritmo media entre estas dos operaciones. La entropía condicional y las cantidades relacionadas heredan a su vez una relación simple. La definición teórica de medidas en la sección anterior definió la entropía como una suma de las sorpresas esperadas para una partición extrema. Aquí el logaritmo es ad hoc y la entropía no es una medida en sí misma. Al menos en la teoría de la información, la cadena binaria se presta a interpretaciones prácticas.
Motivados por tales relaciones, se ha definido una plétora de cantidades relacionadas y en competencia. Por ejemplo, el análisis de David Ellerman de una "lógica de particiones" define una medida competitiva en estructuras duales a la de subconjuntos de un conjunto universal. [14] La información se cuantifica como "dits" (distinciones), una medida de las particiones. Los "Dits" se pueden convertir en bits de Shannon para obtener las fórmulas de entropía condicional, etc.
Aczél , Forte y Ng [15] dieron otra caracterización axiomática sucinta de la entropía de Shannon a través de las siguientes propiedades:
Se demostró que cualquier función que satisfaga las propiedades anteriores debe ser un múltiplo constante de la entropía de Shannon, con una constante no negativa. [15] En comparación con las caracterizaciones de la entropía mencionadas anteriormente, esta caracterización se centra en las propiedades de la entropía como una función de variables aleatorias (subaditividad y aditividad), en lugar de las propiedades de la entropía como una función del vector de probabilidad .
Vale la pena señalar que si eliminamos la propiedad "pequeña para probabilidades pequeñas", entonces debe ser una combinación lineal no negativa de la entropía de Shannon y la entropía de Hartley . [15]
La entropía de Shannon satisface las siguientes propiedades, para algunas de las cuales es útil interpretar la entropía como la cantidad esperada de información aprendida (o incertidumbre eliminada) al revelar el valor de una variable aleatoria X :
La inspiración para adoptar la palabra entropía en la teoría de la información provino del gran parecido entre la fórmula de Shannon y fórmulas conocidas muy similares de la mecánica estadística .
En termodinámica estadística, la fórmula más general para la entropía termodinámica S de un sistema termodinámico es la entropía de Gibbs.
donde k B es la constante de Boltzmann y p i es la probabilidad de un microestado . La entropía de Gibbs fue definida por J. Willard Gibbs en 1878 después de trabajos anteriores de Boltzmann (1872). [dieciséis]
La entropía de Gibbs se traslada casi sin cambios al mundo de la física cuántica para dar la entropía de von Neumann introducida por John von Neumann en 1927:
donde ρ es la matriz de densidad del sistema mecánico cuántico y Tr es la traza . [17]
En un nivel práctico cotidiano, los vínculos entre la entropía de la información y la entropía termodinámica no son evidentes. Los físicos y químicos tienden a estar más interesados en los cambios en la entropía a medida que un sistema evoluciona espontáneamente alejándose de sus condiciones iniciales, de acuerdo con la segunda ley de la termodinámica , en lugar de en una distribución de probabilidad inmutable. Como indica la minuciosidad de la constante de Boltzmann k B , los cambios en S / k B incluso para cantidades pequeñas de sustancias en procesos químicos y físicos representan cantidades de entropía que son extremadamente grandes en comparación con cualquier cosa en la compresión de datos o el procesamiento de señales . En termodinámica clásica, la entropía se define en términos de mediciones macroscópicas y no hace referencia a ninguna distribución de probabilidad, lo cual es fundamental para la definición de entropía de la información.
La conexión entre la termodinámica y lo que ahora se conoce como teoría de la información fue establecida por primera vez por Ludwig Boltzmann y expresada mediante su ecuación :
donde es la entropía termodinámica de un macroestado particular (definido por parámetros termodinámicos como temperatura, volumen, energía, etc.), W es el número de microestados (varias combinaciones de partículas en varios estados de energía) que pueden producir el macroestado dado, y k B es la constante de Boltzmann . [18] Se supone que cada microestado es igualmente probable, de modo que la probabilidad de un microestado dado es p i = 1/ W . Cuando estas probabilidades se sustituyen en la expresión anterior por la entropía de Gibbs (o equivalentemente k B por la entropía de Shannon), resulta la ecuación de Boltzmann. En términos de teoría de la información, la entropía de la información de un sistema es la cantidad de información "faltante" necesaria para determinar un microestado, dado el macroestado.
En opinión de Jaynes (1957), [19] la entropía termodinámica, tal como la explica la mecánica estadística , debe verse como una aplicación de la teoría de la información de Shannon: la entropía termodinámica se interpreta como proporcional a la cantidad de información adicional de Shannon necesaria para definir el estado microscópico detallado del sistema, que permanece sin ser descrito únicamente en términos de las variables macroscópicas de la termodinámica clásica, siendo la constante de proporcionalidad simplemente la constante de Boltzmann . Agregar calor a un sistema aumenta su entropía termodinámica porque aumenta el número de posibles estados microscópicos del sistema que son consistentes con los valores medibles de sus variables macroscópicas, haciendo que cualquier descripción completa del estado sea más larga. (Ver artículo: termodinámica de máxima entropía ). El demonio de Maxwell puede (hipotéticamente) reducir la entropía termodinámica de un sistema utilizando información sobre los estados de moléculas individuales; pero, como han demostrado Landauer (de 1961) y sus colaboradores [20] , para funcionar, el demonio mismo debe aumentar la entropía termodinámica en el proceso, al menos en la cantidad de información de Shannon que se propone adquirir y almacenar primero; y entonces la entropía termodinámica total no disminuye (lo que resuelve la paradoja). El principio de Landauer impone un límite inferior a la cantidad de calor que una computadora debe generar para procesar una cantidad determinada de información, aunque las computadoras modernas son mucho menos eficientes.
La definición de entropía de Shannon, cuando se aplica a una fuente de información, puede determinar la capacidad mínima del canal requerida para transmitir de manera confiable la fuente como dígitos binarios codificados. La entropía de Shannon mide la información contenida en un mensaje en contraposición a la parte del mensaje que está determinada (o predecible). Ejemplos de esto último incluyen la redundancia en la estructura del lenguaje o propiedades estadísticas relacionadas con las frecuencias de aparición de pares de letras o palabras, trillizos, etc. La capacidad mínima del canal se puede lograr en teoría usando el conjunto típico o en la práctica usando Huffman , Lempel-Ziv o codificación aritmética . (Ver también Complejidad de Kolmogorov .) En la práctica, los algoritmos de compresión incluyen deliberadamente alguna redundancia juiciosa en forma de sumas de verificación para proteger contra errores. La tasa de entropía de una fuente de datos es el número promedio de bits por símbolo necesarios para codificarla. Los experimentos de Shannon con predictores humanos muestran una tasa de información de entre 0,6 y 1,3 bits por carácter en inglés; [21] el algoritmo de compresión PPM puede alcanzar una relación de compresión de 1,5 bits por carácter en texto en inglés.
Si un esquema de compresión no tiene pérdidas (uno en el que siempre se puede recuperar el mensaje original completo mediante la descompresión), entonces un mensaje comprimido tiene la misma cantidad de información que el original pero se comunica en menos caracteres. Tiene más información (mayor entropía) por carácter. Un mensaje comprimido tiene menos redundancia . El teorema de codificación fuente de Shannon establece que un esquema de compresión sin pérdidas no puede comprimir mensajes, en promedio, para tener más de un bit de información por bit de mensaje, pero que cualquier valor inferior a un bit de información por bit de mensaje se puede lograr empleando un adecuado esquema de código. La entropía de un mensaje por bit multiplicada por la longitud de ese mensaje es una medida de cuánta información total contiene el mensaje. El teorema de Shannon también implica que ningún esquema de compresión sin pérdidas puede acortar todos los mensajes. Si algunos mensajes salen más cortos, al menos uno debe salir más largo debido al principio de casillero . En la práctica, esto no suele ser un problema, porque normalmente sólo nos interesa comprimir ciertos tipos de mensajes, como un documento en inglés, en lugar de un texto galimatías, o fotografías digitales en lugar de ruido, y no tiene importancia si un El algoritmo de compresión agranda algunas secuencias improbables o poco interesantes.
Un estudio de 2011 en Science estima la capacidad tecnológica mundial para almacenar y comunicar información comprimida de manera óptima normalizada con los algoritmos de compresión más efectivos disponibles en el año 2007, estimando así la entropía de las fuentes tecnológicamente disponibles. [22] : 60–65
Los autores estiman la capacidad tecnológica de la humanidad para almacenar información (totalmente comprimida entrópicamente) en 1986 y nuevamente en 2007. Dividen la información en tres categorías: almacenar información en un medio, recibir información a través de redes de transmisión unidireccionales o intercambiar información. a través de redes de telecomunicaciones bidireccionales . [22]
La entropía es una de varias formas de medir la biodiversidad y se aplica en forma de índice de Shannon . [23] Un índice de diversidad es una medida estadística cuantitativa de cuántos tipos diferentes existen en un conjunto de datos, como las especies en una comunidad, que representa la riqueza ecológica , la uniformidad y la dominancia . Específicamente, la entropía de Shannon es el logaritmo de 1 D , el verdadero índice de diversidad con parámetro igual a 1. El índice de Shannon está relacionado con las abundancias proporcionales de tipos.
Hay una serie de conceptos relacionados con la entropía que cuantifican matemáticamente el contenido de información de una secuencia o mensaje:
(La "tasa de autoinformación" también se puede definir para una secuencia particular de mensajes o símbolos generados por un proceso estocástico dado: esto siempre será igual a la tasa de entropía en el caso de un proceso estacionario ). Otras cantidades de información También se utilizan para comparar o relacionar diferentes fuentes de información.
Es importante no confundir los conceptos anteriores. A menudo sólo queda claro por el contexto a cuál se refiere. Por ejemplo, cuando alguien dice que la "entropía" del idioma inglés es aproximadamente 1 bit por carácter, en realidad está modelando el idioma inglés como un proceso estocástico y hablando de su tasa de entropía . El propio Shannon utilizó el término de esta manera.
Si se utilizan bloques muy grandes, la estimación de la tasa de entropía por carácter puede volverse artificialmente baja porque la distribución de probabilidad de la secuencia no se conoce exactamente; es sólo una estimación. Si se considera el texto de cada libro publicado como una secuencia, siendo cada símbolo el texto de un libro completo, y si hay N libros publicados y cada libro sólo se publica una vez, la estimación de la probabilidad de cada libro es 1/ N , y la entropía (en bits) es −log 2 (1/ N ) = log 2 ( N ) . Como código práctico, esto corresponde a asignar a cada libro un identificador único y usarlo en lugar del texto del libro cuando uno quiera hacer referencia a él. Esto es enormemente útil para hablar de libros, pero no lo es tanto para caracterizar el contenido informativo de un libro individual, o del lenguaje en general: no es posible reconstruir el libro a partir de su identificador sin conocer la distribución de probabilidad, es decir, , el texto completo de todos los libros. La idea clave es que se debe considerar la complejidad del modelo probabilístico. La complejidad de Kolmogorov es una generalización teórica de esta idea que permite considerar el contenido de información de una secuencia independiente de cualquier modelo de probabilidad particular; considera el programa más corto para una computadora universal que genera la secuencia. Un código que alcanza la tasa de entropía de una secuencia para un modelo dado, más el libro de códigos (es decir, el modelo probabilístico), es uno de esos programas, pero puede que no sea el más corto.
La secuencia de Fibonacci es 1, 1, 2, 3, 5, 8, 13, .... tratando la secuencia como un mensaje y cada número como un símbolo, hay casi tantos símbolos como caracteres en el mensaje, dando una entropía de aproximadamente log 2 ( n ) . Los primeros 128 símbolos de la secuencia de Fibonacci tienen una entropía de aproximadamente 7 bits/símbolo, pero la secuencia se puede expresar usando una fórmula [ F( n ) = F( n −1) + F( n −2) para n = 3 , 4, 5, ... , F(1) =1 , F(2) = 1 ] y esta fórmula tiene una entropía mucho menor y se aplica a cualquier longitud de la secuencia de Fibonacci.
En criptoanálisis , la entropía se utiliza a menudo de forma aproximada como medida de la imprevisibilidad de una clave criptográfica, aunque su incertidumbre real es inmensurable. Por ejemplo, una clave de 128 bits generada de manera uniforme y aleatoria tiene 128 bits de entropía. También se necesitan (en promedio) conjeturas para romper con fuerza bruta. La entropía no logra capturar el número de conjeturas necesarias si las posibles claves no se eligen de manera uniforme. [24] [25] En cambio, se puede utilizar una medida llamada conjeturas para medir el esfuerzo requerido para un ataque de fuerza bruta. [26]
Pueden surgir otros problemas debido a las distribuciones no uniformes utilizadas en criptografía. Por ejemplo, un bloc de notas binario de un solo uso de 1.000.000 de dígitos que utilice exclusivo o. Si el pad tiene 1.000.000 de bits de entropía, es perfecto. Si el pad tiene 999.999 bits de entropía, distribuidos uniformemente (cada bit individual del pad tiene 0,999999 bits de entropía), puede proporcionar una buena seguridad. Pero si el pad tiene 999.999 bits de entropía, donde el primer bit es fijo y los 999.999 bits restantes son perfectamente aleatorios, el primer bit del texto cifrado no estará cifrado en absoluto.
Una forma común de definir la entropía del texto se basa en el modelo de texto de Markov. Para una fuente de orden 0 (cada carácter se selecciona independientemente de los últimos caracteres), la entropía binaria es:
donde p i es la probabilidad de i . Para una fuente de Markov de primer orden (una en la que la probabilidad de seleccionar un carácter depende únicamente del carácter inmediatamente anterior), la tasa de entropía es:
donde i es un estado (ciertos caracteres precedentes) y es la probabilidad de que j se dé i como carácter anterior.
Para una fuente de Markov de segundo orden, la tasa de entropía es
Un conjunto fuente con una distribución no uniforme tendrá menos entropía que el mismo conjunto con una distribución uniforme (es decir, el "alfabeto optimizado"). Esta deficiencia de entropía se puede expresar como una relación llamada eficiencia: [27]
Aplicando las propiedades básicas del logaritmo, esta cantidad también se puede expresar como:
La eficiencia tiene utilidad para cuantificar el uso efectivo de un canal de comunicación . Esta formulación también se conoce como entropía normalizada, ya que la entropía se divide por la entropía máxima . Además, la eficiencia es indiferente a la elección de la base b (positiva) , como lo indica la insensibilidad dentro del logaritmo final encima de la misma.
La entropía de Shannon está restringida a variables aleatorias que toman valores discretos. La fórmula correspondiente para una variable aleatoria continua con función de densidad de probabilidad f ( x ) con soporte finito o infinito en la recta real se define por analogía, utilizando la forma anterior de la entropía como expectativa: [10] : 224
Esta es la entropía diferencial (o entropía continua). Un precursor de la entropía continua h [ f ] es la expresión del funcional Η en el teorema H de Boltzmann .
Aunque la analogía entre ambas funciones es sugerente, cabe plantearse la siguiente pregunta: ¿es la entropía diferencial una extensión válida de la entropía discreta de Shannon? La entropía diferencial carece de una serie de propiedades que tiene la entropía discreta de Shannon (puede incluso ser negativa) y se han sugerido correcciones, en particular limitando la densidad de puntos discretos .
Para responder a esta pregunta, se debe establecer una conexión entre las dos funciones:
Para obtener una medida generalmente finita cuando el tamaño del contenedor llega a cero. En el caso discreto, el tamaño del contenedor es el ancho (implícito) de cada uno de los n contenedores (finitos o infinitos) cuyas probabilidades se denotan por p n . Como el dominio continuo se generaliza, el ancho debe hacerse explícito.
Para hacer esto, comience con una función continua f discretizada en contenedores de tamaño . Según el teorema del valor medio, existe un valor x i en cada contenedor tal que la integral de la función f puede aproximarse (en el sentido riemanniano) donde este límite y "el tamaño del contenedor llega a cero" son equivalentes.
Denotaremos y ampliando el logaritmo, tenemos
Como Δ → 0 , tenemos
Nota; log(Δ) → −∞ como Δ → 0 , requiere una definición especial de la entropía diferencial o continua:
que, como se dijo antes, se conoce como entropía diferencial. Esto significa que la entropía diferencial no es un límite de la entropía de Shannon para n → ∞ . Más bien, difiere del límite de la entropía de Shannon en un desplazamiento infinito (ver también el artículo sobre la dimensión de información ).
Como resultado, resulta que, a diferencia de la entropía de Shannon, la entropía diferencial no es en general una buena medida de incertidumbre o información. Por ejemplo, la entropía diferencial puede ser negativa; Además, no es invariante bajo transformaciones de coordenadas continuas. Este problema puede ilustrarse mediante un cambio de unidades cuando x es una variable dimensionada. f ( x ) entonces tendrá las unidades de 1/ x . El argumento del logaritmo debe ser adimensional; de lo contrario, será inadecuado, de modo que la entropía diferencial dada anteriormente será impropia. Si Δ es algún valor "estándar" de x (es decir, "tamaño del contenedor") y, por lo tanto, tiene las mismas unidades, entonces una entropía diferencial modificada se puede escribir en la forma adecuada como:
y el resultado será el mismo para cualquier elección de unidades para x . De hecho, el límite de la entropía discreta as también incluiría un término de , que en general sería infinito. Esto es de esperar: las variables continuas normalmente tendrían una entropía infinita cuando se discretizan. La densidad límite de puntos discretos es en realidad una medida de cuánto más fácil es describir una distribución que una distribución que es uniforme en su esquema de cuantificación.
Otra medida útil de entropía que funciona igualmente bien en el caso discreto y continuo es la entropía relativa de una distribución. Se define como la divergencia de Kullback-Leibler de la distribución a una medida de referencia m de la siguiente manera. Supongamos que una distribución de probabilidad p es absolutamente continua con respecto a una medida m , es decir, tiene la forma p ( dx ) = f ( x ) m ( dx ) para alguna función m -integrable no negativa f con m -integral 1, entonces la entropía relativa se puede definir como
De esta forma, la entropía relativa generaliza (hasta el cambio de signo) tanto la entropía discreta, donde la medida m es la medida de conteo , como la entropía diferencial, donde la medida m es la medida de Lebesgue . Si la medida m es en sí misma una distribución de probabilidad, la entropía relativa no es negativa y cero si p = m como medidas. Se define para cualquier espacio de medidas, por lo tanto, coordenadas independientes e invariantes bajo reparametrizaciones de coordenadas si se tiene en cuenta adecuadamente la transformación de la medida m . La entropía relativa, y (implícitamente) la entropía y la entropía diferencial, dependen de la medida de "referencia" m .
Terence Tao usó la entropía para hacer una conexión útil tratando de resolver el problema de discrepancia de Erdő . [28]
Intuitivamente, la idea detrás de la prueba era si hay poca información en términos de la entropía de Shannon entre variables aleatorias consecutivas (aquí la variable aleatoria se define usando la función de Liouville (que es una función matemática útil para estudiar la distribución de números primos) X H = . Y en un intervalo [n, n+H] la suma en ese intervalo podría volverse arbitrariamente grande. Por ejemplo, una secuencia de +1 (que son valores de X H' podría tomar) tiene una entropía trivialmente baja y su suma se volvería grande. Pero la idea clave fue mostrar una reducción de la entropía en cantidades no despreciables a medida que uno expande H, lo que a su vez conduce a un crecimiento ilimitado de un objeto matemático sobre esta variable aleatoria, lo que equivale a mostrar el crecimiento ilimitado según el problema de discrepancia de Erdő .
La prueba es bastante complicada y reunió avances no solo en el uso novedoso de la entropía de Shannon, sino que también utilizó la función de Liouville junto con promedios de funciones multiplicativas moduladas Archivado el 28 de octubre de 2023 en Wayback Machine en intervalos cortos. Demostrando que también rompió la "barrera de la paridad" Archivado el 7 de agosto de 2023 en Wayback Machine para este problema específico.
Si bien el uso de la entropía de Shannon en la prueba es novedoso, es probable que abra nuevas investigaciones en esta dirección.
La entropía se ha convertido en una cantidad útil en combinatoria .
Un ejemplo simple de esto es una prueba alternativa de la desigualdad de Loomis-Whitney : para cada subconjunto A ⊆ Z d , tenemos
donde P i es la proyección ortogonal en la iésima coordenada:
La prueba se sigue como un simple corolario de la desigualdad de Shearer : si X 1 , ..., X d son variables aleatorias y S 1 , ..., S n son subconjuntos de {1, ..., d } tales que todo número entero entre 1 y d se encuentra exactamente en r de estos subconjuntos, entonces
donde está el producto cartesiano de variables aleatorias X j con índices j en Si ( por lo que la dimensión de este vector es igual al tamaño de Si ) .
Bosquejemos cómo se deduce Loomis-Whitney de esto: De hecho, sea X una variable aleatoria distribuida uniformemente con valores en A y de modo que cada punto en A ocurra con la misma probabilidad. Entonces (por las propiedades adicionales de la entropía mencionadas anteriormente) Η( X ) = log| Un | , donde | Un | denota la cardinalidad de A . Sea S i = {1, 2, ..., i −1, i +1, ..., d }. El rango de está contenido en P i ( A ) y por tanto . Ahora usa esto para limitar el lado derecho de la desigualdad de Shearer y exponenciar los lados opuestos de la desigualdad resultante que obtengas.
Para números enteros 0 < k < n, sea q = k / n . Entonces
dónde
Una buena interpretación de esto es que el número de cadenas binarias de longitud n con exactamente k muchos unos es aproximadamente . [30]
Las técnicas de aprendizaje automático surgen en gran medida de la estadística y también de la teoría de la información. En general, la entropía es una medida de incertidumbre y el objetivo del aprendizaje automático es minimizar la incertidumbre.
Los algoritmos de aprendizaje de árboles de decisión utilizan entropía relativa para determinar las reglas de decisión que gobiernan los datos en cada nodo. [31] La ganancia de información en los árboles de decisión , que es igual a la diferencia entre la entropía de y la entropía condicional de dado , cuantifica la información esperada, o la reducción de entropía, al conocer adicionalmente el valor de un atributo . La ganancia de información se utiliza para identificar qué atributos del conjunto de datos proporcionan la mayor cantidad de información y deben usarse para dividir los nodos del árbol de manera óptima.
Los modelos de inferencia bayesianos suelen aplicar el principio de máxima entropía para obtener distribuciones de probabilidad previas . [32] La idea es que la distribución que mejor representa el estado actual de conocimiento de un sistema es la que tiene mayor entropía y, por lo tanto, es adecuada para ser la anterior.
La clasificación en el aprendizaje automático realizada mediante regresión logística o redes neuronales artificiales a menudo emplea una función de pérdida estándar, llamada pérdida de entropía cruzada , que minimiza la entropía cruzada promedio entre la verdad fundamental y las distribuciones predichas. [33] En general, la entropía cruzada es una medida de las diferencias entre dos conjuntos de datos similar a la divergencia KL (también conocida como entropía relativa).
{{cite book}}
: CS1 maint: location missing publisher (link)Este artículo incorpora material de la entropía de Shannon en PlanetMath , que tiene la licencia Creative Commons Attribution/Share-Alike License .