La teoría de la información es el estudio matemático de la cuantificación , el almacenamiento y la comunicación de la información . El campo fue establecido y puesto sobre una base sólida por Claude Shannon en la década de 1940, [1] aunque las primeras contribuciones se hicieron en la década de 1920 a través de los trabajos de Harry Nyquist y Ralph Hartley . Se encuentra en la intersección de la ingeniería electrónica , las matemáticas , la estadística , la informática , la neurobiología , la física y la ingeniería eléctrica . [2] [3]
Una medida clave en la teoría de la información es la entropía . La entropía cuantifica la cantidad de incertidumbre involucrada en el valor de una variable aleatoria o el resultado de un proceso aleatorio . Por ejemplo, identificar el resultado de un lanzamiento de moneda justo (que tiene dos resultados igualmente probables) proporciona menos información (menor entropía, menor incertidumbre) que identificar el resultado de un lanzamiento de dado (que tiene seis resultados igualmente probables). Algunas otras medidas importantes en la teoría de la información son la información mutua , la capacidad del canal , los exponentes de error y la entropía relativa . Los subcampos importantes de la teoría de la información incluyen la codificación de fuentes , la teoría de la complejidad algorítmica , la teoría de la información algorítmica y la seguridad de la teoría de la información .
Las aplicaciones de temas fundamentales de la teoría de la información incluyen la codificación de fuentes/ compresión de datos (por ejemplo, para archivos ZIP ) y la codificación de canales/ detección y corrección de errores (por ejemplo, para DSL ). Su impacto ha sido crucial para el éxito de las misiones Voyager al espacio profundo, [4] la invención del disco compacto , la viabilidad de los teléfonos móviles y el desarrollo de Internet y la inteligencia artificial . [5] [6] [3] La teoría también ha encontrado aplicaciones en otras áreas, incluyendo la inferencia estadística , [7] la criptografía , la neurobiología , [8] la percepción , [9] el procesamiento de señales , [2] la lingüística , la evolución [10] y función [11] de códigos moleculares ( bioinformática ), la física térmica , [12] la dinámica molecular , [13] los agujeros negros , la computación cuántica , la recuperación de información , la recopilación de inteligencia , la detección de plagio , [14] el reconocimiento de patrones , la detección de anomalías , [15] el análisis de la música , [16] [17] la creación de arte , [18] el diseño de sistemas de imágenes , [19] el estudio del espacio exterior , [20] la dimensionalidad del espacio , [21] y la epistemología . [22]
La teoría de la información estudia la transmisión, el procesamiento, la extracción y la utilización de la información . De manera abstracta, la información puede considerarse como la resolución de la incertidumbre. En el caso de la comunicación de información a través de un canal ruidoso, este concepto abstracto fue formalizado en 1948 por Claude Shannon en un artículo titulado A Mathematical Theory of Communication , en el que la información se considera como un conjunto de mensajes posibles, y el objetivo es enviar estos mensajes a través de un canal ruidoso, y hacer que el receptor reconstruya el mensaje con baja probabilidad de error, a pesar del ruido del canal. El principal resultado de Shannon, el teorema de codificación del canal ruidoso , mostró que, en el límite de muchos usos del canal, la tasa de información que se puede alcanzar asintóticamente es igual a la capacidad del canal, una cantidad que depende meramente de las estadísticas del canal a través del cual se envían los mensajes. [8]
La teoría de la codificación se ocupa de encontrar métodos explícitos, llamados códigos , para aumentar la eficiencia y reducir la tasa de error de la comunicación de datos a través de canales ruidosos hasta cerca de la capacidad del canal. Estos códigos se pueden subdividir a grandes rasgos en técnicas de compresión de datos (codificación de fuente) y de corrección de errores (codificación de canal). En este último caso, se necesitaron muchos años para encontrar los métodos que el trabajo de Shannon demostró que eran posibles. [ cita requerida ]
Una tercera clase de códigos de la teoría de la información son los algoritmos criptográficos (tanto códigos como cifras ). Los conceptos, métodos y resultados de la teoría de la codificación y la teoría de la información se utilizan ampliamente en criptografía y criptoanálisis , como la unidad ban . [ cita requerida ]
El acontecimiento histórico que estableció la disciplina de la teoría de la información y le trajo atención mundial inmediata fue la publicación del artículo clásico de Claude E. Shannon "A Mathematical Theory of Communication" en el Bell System Technical Journal en julio y octubre de 1948. El historiador James Gleick calificó el artículo como el desarrollo más importante de 1948, por encima del transistor , y señaló que el artículo era "incluso más profundo y más fundamental" que el transistor. [23] Llegó a ser conocido como el "padre de la teoría de la información". [24] [25] [26] Shannon esbozó algunas de sus ideas iniciales de la teoría de la información ya en 1939 en una carta a Vannevar Bush . [26]
Antes de este artículo, se habían desarrollado ideas limitadas de teoría de la información en Bell Labs , todas asumiendo implícitamente eventos de igual probabilidad. El artículo de Harry Nyquist de 1924, Certain Factors Affecting Telegraph Speed , contiene una sección teórica que cuantifica la "inteligencia" y la "velocidad de línea" a la que puede ser transmitida por un sistema de comunicación, dando la relación W = K log m (recordando la constante de Boltzmann ), donde W es la velocidad de transmisión de la inteligencia, m es el número de diferentes niveles de voltaje para elegir en cada paso de tiempo y K es una constante. El artículo de Ralph Hartley de 1928, Transmission of Information , utiliza la palabra información como una cantidad medible, que refleja la capacidad del receptor para distinguir una secuencia de símbolos de cualquier otra, cuantificando así la información como H = log S n = n log S , donde S era el número de símbolos posibles y n el número de símbolos en una transmisión. La unidad de información era, por tanto, el dígito decimal , que desde entonces se ha denominado a veces Hartley en su honor como unidad, escala o medida de información. Alan Turing utilizó en 1940 ideas similares como parte del análisis estadístico del descifrado de los códigos Enigma alemanes de la Segunda Guerra Mundial . [ cita requerida ]
Gran parte de las matemáticas que sustentan la teoría de la información con eventos de diferentes probabilidades fueron desarrolladas para el campo de la termodinámica por Ludwig Boltzmann y J. Willard Gibbs . Las conexiones entre la entropía teórica de la información y la entropía termodinámica, incluidas las importantes contribuciones de Rolf Landauer en la década de 1960, se exploran en Entropía en termodinámica y teoría de la información . [ cita requerida ]
En el artículo revolucionario e innovador de Shannon, cuyo trabajo se había completado sustancialmente en Bell Labs a fines de 1944, Shannon introdujo por primera vez el modelo cualitativo y cuantitativo de la comunicación como un proceso estadístico subyacente a la teoría de la información, comenzando con la afirmación:
Con ello surgieron las ideas de:
La teoría de la información se basa en la teoría de la probabilidad y la estadística, donde la información cuantificada se describe generalmente en términos de bits. La teoría de la información a menudo se ocupa de las medidas de información de las distribuciones asociadas con variables aleatorias. Una de las medidas más importantes se llama entropía , que forma el bloque de construcción de muchas otras medidas. La entropía permite la cuantificación de la medida de la información en una sola variable aleatoria. [27] Otro concepto útil es la información mutua definida en dos variables aleatorias, que describe la medida de información en común entre esas variables, que puede usarse para describir su correlación. La primera cantidad es una propiedad de la distribución de probabilidad de una variable aleatoria y da un límite a la velocidad a la que los datos generados por muestras independientes con la distribución dada pueden comprimirse de manera confiable. La última es una propiedad de la distribución conjunta de dos variables aleatorias, y es la tasa máxima de comunicación confiable a través de un canal ruidoso en el límite de longitudes de bloque largas, cuando las estadísticas del canal están determinadas por la distribución conjunta.
La elección de la base logarítmica en las siguientes fórmulas determina la unidad de entropía de información que se utiliza. Una unidad de información común es el bit o shannon , basada en el logaritmo binario . Otras unidades incluyen el nat , que se basa en el logaritmo natural , y el dígito decimal , que se basa en el logaritmo común .
En lo que sigue, una expresión de la forma p log p se considera por convención igual a cero siempre que p = 0. Esto se justifica porque para cualquier base logarítmica.
Basándose en la función de masa de probabilidad de cada símbolo fuente que se va a comunicar, la entropía de Shannon H , en unidades de bits (por símbolo), se da por
donde p i es la probabilidad de ocurrencia del i -ésimo valor posible del símbolo fuente. Esta ecuación da la entropía en las unidades de "bits" (por símbolo) porque utiliza un logaritmo de base 2, y esta medida de entropía de base 2 a veces se ha llamado shannon en su honor. La entropía también se calcula comúnmente utilizando el logaritmo natural (base e , donde e es el número de Euler), que produce una medida de entropía en nats por símbolo y a veces simplifica el análisis al evitar la necesidad de incluir constantes adicionales en las fórmulas. También son posibles otras bases, pero se usan con menos frecuencia. Por ejemplo, un logaritmo de base 2 8 = 256 producirá una medida en bytes por símbolo, y un logaritmo de base 10 producirá una medida en dígitos decimales (o hartleys ) por símbolo.
Intuitivamente, la entropía H X de una variable aleatoria discreta X es una medida de la cantidad de incertidumbre asociada con el valor de X cuando solo se conoce su distribución.
La entropía de una fuente que emite una secuencia de N símbolos independientes y distribuidos de forma idéntica (iid) es N ⋅ H bits (por mensaje de N símbolos). Si los símbolos de los datos de la fuente están distribuidos de forma idéntica pero no son independientes, la entropía de un mensaje de longitud N será menor que N ⋅ H .
Si se transmiten 1000 bits (0 y 1) y el valor de cada uno de estos bits es conocido por el receptor (tiene un valor específico con certeza) antes de la transmisión, está claro que no se transmite información. Sin embargo, si cada bit tiene la misma probabilidad de ser 0 o 1, se han transmitido 1000 shannons de información (más a menudo llamados bits). Entre estos dos extremos, la información se puede cuantificar de la siguiente manera. Si es el conjunto de todos los mensajes { x 1 , ..., x n } que X podría ser, y p ( x ) es la probabilidad de algún , entonces la entropía, H , de X se define: [28]
(Aquí, I ( x ) es la autoinformación , que es la contribución de entropía de un mensaje individual, y es el valor esperado ). Una propiedad de la entropía es que se maximiza cuando todos los mensajes en el espacio de mensajes son equiprobables p ( x ) = 1/ n ; es decir, más impredecibles, en cuyo caso H ( X ) = log n .
El caso especial de entropía de información para una variable aleatoria con dos resultados es la función de entropía binaria, usualmente llevada a la base logarítmica 2, teniendo así como unidad a Shannon (Sh):
La entropía conjunta de dos variables aleatorias discretas X e Y es simplemente la entropía de su par: ( X , Y ) . Esto implica que si X e Y son independientes , entonces su entropía conjunta es la suma de sus entropías individuales.
Por ejemplo, si ( X , Y ) representa la posición de una pieza de ajedrez (X la fila e Y la columna), entonces la entropía conjunta de la fila de la pieza y la columna de la pieza será la entropía de la posición de la pieza.
A pesar de la notación similar, la entropía conjunta no debe confundirse con la entropía cruzada .
La entropía condicional o incertidumbre condicional de X dada la variable aleatoria Y (también llamada equivocación de X sobre Y ) es la entropía condicional promedio sobre Y : [29]
Dado que la entropía puede estar condicionada a una variable aleatoria o a que dicha variable aleatoria tenga un valor determinado, se debe tener cuidado de no confundir estas dos definiciones de entropía condicional, siendo la primera la de uso más común. Una propiedad básica de esta forma de entropía condicional es que:
La información mutua mide la cantidad de información que se puede obtener sobre una variable aleatoria observando otra. Es importante en la comunicación, ya que se puede utilizar para maximizar la cantidad de información compartida entre las señales enviadas y recibidas. La información mutua de X con respecto a Y se da por:
donde SI ( Información mutua específica ) es la información mutua puntual .
Una propiedad básica de la información mutua es que
Es decir, conociendo Y , podemos ahorrar un promedio de I ( X ; Y ) bits en la codificación de X en comparación con no conocer Y.
La información mutua es simétrica :
La información mutua se puede expresar como la divergencia promedio de Kullback-Leibler (ganancia de información) entre la distribución de probabilidad posterior de X dado el valor de Y y la distribución previa en X :
En otras palabras, se trata de una medida de cuánto, en promedio, cambiará la distribución de probabilidad de X si se nos da el valor de Y. Esto suele recalcularse como la divergencia entre el producto de las distribuciones marginales y la distribución conjunta real:
La información mutua está estrechamente relacionada con la prueba de razón de verosimilitud logarítmica en el contexto de las tablas de contingencia y la distribución multinomial y con la prueba χ 2 de Pearson : la información mutua puede considerarse una estadística para evaluar la independencia entre un par de variables y tiene una distribución asintótica bien especificada.
La divergencia de Kullback-Leibler (o divergencia de información , ganancia de información o entropía relativa ) es una forma de comparar dos distribuciones: una distribución de probabilidad " real " y una distribución de probabilidad arbitraria . Si comprimimos los datos de una manera que supone que es la distribución subyacente a algunos datos, cuando, en realidad, es la distribución correcta , la divergencia de Kullback-Leibler es el número de bits adicionales promedio por dato necesario para la compresión. Se define así:
Aunque a veces se utiliza como una "métrica de distancia", la divergencia KL no es una métrica verdadera ya que no es simétrica y no satisface la desigualdad triangular (lo que la convierte en una semicuasimétrica).
Otra interpretación de la divergencia KL es la "sorpresa innecesaria" introducida por una previa de la verdad: supongamos que un número X está a punto de ser extraído aleatoriamente de un conjunto discreto con distribución de probabilidad . Si Alice conoce la distribución verdadera , mientras que Bob cree (tiene una previa ) que la distribución es , entonces Bob estará más sorprendido que Alice, en promedio, al ver el valor de X . La divergencia KL es el valor esperado (objetivo) de la sorpresa (subjetiva) de Bob menos la sorpresa de Alice, medido en bits si el logaritmo está en base 2. De esta manera, el grado en que la previa de Bob es "incorrecta" se puede cuantificar en términos de cuán "innecesariamente sorprendido" se espera que lo haga.
La información dirigida ,es una medida de la teoría de la información que cuantifica elflujo de información de un proceso aleatorio a otro. El término información dirigida fue acuñado por James Massey y se define como
¿Dónde está la información mutua condicional ?
A diferencia de la información mutua , la información dirigida no es simétrica. La mide los bits de información que se transmiten causalmente [ aclaración necesaria ] de a . La información dirigida tiene muchas aplicaciones en problemas donde la causalidad juega un papel importante, como la capacidad de canal con retroalimentación, [30] [31] la capacidad de redes discretas sin memoria con retroalimentación, [32] el juego con información secundaria causal, [33] la compresión con información secundaria causal, [34] los ajustes de comunicación de control en tiempo real , [35] [36] y en física estadística. [37]
Otras magnitudes teóricas de la información importantes son la entropía de Rényi y la entropía de Tsallis (generalizaciones del concepto de entropía), la entropía diferencial (una generalización de las magnitudes de información a distribuciones continuas) y la información mutua condicional . Además, se ha propuesto la información pragmática como una medida de cuánta información se ha utilizado para tomar una decisión.
La teoría de la codificación es una de las aplicaciones más importantes y directas de la teoría de la información. Puede subdividirse en teoría de la codificación de fuente y teoría de la codificación de canal. Mediante una descripción estadística de los datos, la teoría de la información cuantifica la cantidad de bits necesarios para describir los datos, que es la entropía de información de la fuente.
Esta división de la teoría de codificación en compresión y transmisión se justifica por los teoremas de transmisión de información, o teoremas de separación fuente-canal que justifican el uso de bits como moneda universal para la información en muchos contextos. Sin embargo, estos teoremas solo se cumplen en la situación en la que un usuario transmisor desea comunicarse con un usuario receptor. En escenarios con más de un transmisor (el canal de acceso múltiple), más de un receptor (el canal de difusión ) o "ayudantes" intermediarios (el canal de retransmisión ), o redes más generales , la compresión seguida de la transmisión puede ya no ser óptima.
Cualquier proceso que genere mensajes sucesivos puede considerarse una fuente de información. Una fuente sin memoria es aquella en la que cada mensaje es una variable aleatoria independiente distribuida de forma idéntica , mientras que las propiedades de ergodicidad y estacionariedad imponen restricciones menos restrictivas. Todas estas fuentes son estocásticas . Estos términos se estudian bien por derecho propio fuera de la teoría de la información.
La tasa de información es la entropía media por símbolo. En el caso de fuentes sin memoria, es simplemente la entropía de cada símbolo, mientras que, en el caso de un proceso estocástico estacionario, es:
es decir, la entropía condicional de un símbolo dados todos los símbolos generados anteriormente. Para el caso más general de un proceso que no es necesariamente estacionario, la tasa promedio es:
es decir, el límite de la entropía conjunta por símbolo. Para fuentes estacionarias, estas dos expresiones dan el mismo resultado. [38]
La tasa de información se define como:
En teoría de la información es habitual hablar de la "velocidad" o "entropía" de un lenguaje. Esto es apropiado, por ejemplo, cuando la fuente de información es prosa en inglés. La velocidad de una fuente de información está relacionada con su redundancia y con lo bien que se puede comprimir, tema de la codificación de fuentes .
Las comunicaciones a través de un canal son la principal motivación de la teoría de la información. Sin embargo, los canales a menudo no logran producir una reconstrucción exacta de una señal; el ruido, los períodos de silencio y otras formas de corrupción de la señal suelen degradar la calidad.
Consideremos el proceso de comunicación a través de un canal discreto. A continuación se muestra un modelo simple del proceso:
Aquí X representa el espacio de mensajes transmitidos, e Y el espacio de mensajes recibidos durante una unidad de tiempo a través de nuestro canal. Sea p ( y | x ) la función de distribución de probabilidad condicional de Y dado X . Consideraremos p ( y | x ) como una propiedad fija inherente de nuestro canal de comunicaciones (que representa la naturaleza del ruido de nuestro canal). Entonces la distribución conjunta de X e Y está completamente determinada por nuestro canal y por nuestra elección de f ( x ) , la distribución marginal de mensajes que elegimos enviar a través del canal. Bajo estas restricciones, nos gustaría maximizar la tasa de información, o la señal , que podemos comunicar a través del canal. La medida apropiada para esto es la información mutua, y esta información mutua máxima se llama capacidad del canal y está dada por:
Esta capacidad tiene la siguiente propiedad relacionada con la comunicación a una tasa de información R (donde R es usualmente bits por símbolo). Para cualquier tasa de información R < C y error de codificación ε > 0, para un N suficientemente grande , existe un código de longitud N y tasa ≥ R y un algoritmo de decodificación, tal que la probabilidad máxima de error de bloque es ≤ ε ; es decir, siempre es posible transmitir con un error de bloque arbitrariamente pequeño. Además, para cualquier tasa R > C , es imposible transmitir con un error de bloque arbitrariamente pequeño.
La codificación de canales se ocupa de encontrar códigos casi óptimos que puedan usarse para transmitir datos a través de un canal ruidoso con un pequeño error de codificación a una velocidad cercana a la capacidad del canal.
En la práctica, muchos canales tienen memoria. Es decir, en el momento en que el canal se da por la probabilidad condicional . A menudo es más cómodo utilizar la notación y el canal se convierte en . En tal caso, la capacidad se da por la tasa de información mutua cuando no hay retroalimentación disponible y la tasa de información dirigida en el caso de que haya retroalimentación o no [30] [39] (si no hay retroalimentación, la información dirigida es igual a la información mutua).
La información fungible es aquella para la cual el medio de codificación no es importante. [40] Los teóricos de la información clásicos y los científicos informáticos se ocupan principalmente de información de este tipo. A veces se la denomina información descriptible. [41]
Los conceptos de la teoría de la información se aplican a la criptografía y al criptoanálisis. La unidad de información de Turing, la ban , se utilizó en el proyecto Ultra , que descifró el código de la máquina alemana Enigma y aceleró el fin de la Segunda Guerra Mundial en Europa . El propio Shannon definió un concepto importante que ahora se denomina distancia de unicidad . Basado en la redundancia del texto simple , intenta proporcionar una cantidad mínima de texto cifrado necesaria para garantizar la descifrabilidad única.
La teoría de la información nos lleva a creer que es mucho más difícil guardar secretos de lo que parece a primera vista. Un ataque de fuerza bruta puede romper sistemas basados en algoritmos de clave asimétrica o en los métodos más comúnmente utilizados de algoritmos de clave simétrica (a veces llamados algoritmos de clave secreta), como los cifrados de bloques . La seguridad de todos estos métodos se basa en el supuesto de que ningún ataque conocido puede romperlos en un tiempo práctico.
La seguridad basada en la teoría de la información se refiere a métodos como el block de un solo uso que no son vulnerables a este tipo de ataques de fuerza bruta. En tales casos, la información mutua condicional positiva entre el texto simple y el texto cifrado (condicionada a la clave ) puede garantizar una transmisión adecuada, mientras que la información mutua incondicional entre el texto simple y el texto cifrado permanece cero, lo que da como resultado comunicaciones absolutamente seguras. En otras palabras, un espía no podría mejorar su suposición del texto simple obteniendo conocimiento del texto cifrado pero no de la clave. Sin embargo, como en cualquier otro sistema criptográfico, se debe tener cuidado para aplicar correctamente incluso los métodos seguros desde el punto de vista de la información; el proyecto Venona pudo descifrar los block de un solo uso de la Unión Soviética debido a su reutilización indebida del material de la clave.
Los generadores de números pseudoaleatorios están ampliamente disponibles en bibliotecas de lenguajes informáticos y programas de aplicación. Son, casi universalmente, inadecuados para uso criptográfico ya que no evaden la naturaleza determinista de los equipos y software informáticos modernos. Una clase de generadores de números aleatorios mejorados se denomina generadores de números pseudoaleatorios criptográficamente seguros , pero incluso ellos requieren semillas aleatorias externas al software para funcionar como se pretende. Estas se pueden obtener a través de extractores , si se hacen con cuidado. La medida de aleatoriedad suficiente en los extractores es la min-entropía , un valor relacionado con la entropía de Shannon a través de la entropía de Rényi ; la entropía de Rényi también se utiliza para evaluar la aleatoriedad en sistemas criptográficos. Aunque relacionadas, las distinciones entre estas medidas significan que una variable aleatoria con alta entropía de Shannon no es necesariamente satisfactoria para su uso en un extractor y, por lo tanto, para usos criptográficos.
Una de las primeras aplicaciones comerciales de la teoría de la información fue en el campo de la exploración sísmica de petróleo. Los trabajos en este campo permitieron eliminar y separar el ruido no deseado de la señal sísmica deseada. La teoría de la información y el procesamiento de señales digitales ofrecen una mejora importante en la resolución y la claridad de la imagen en comparación con los métodos analógicos anteriores. [42]
Los semióticos Doede Nauta y Winfried Nöth consideraron que Charles Sanders Peirce creó una teoría de la información en sus obras sobre semiótica. [43] : 171 [44] : 137 Nauta definió la teoría de la información semiótica como el estudio de " los procesos internos de codificación, filtrado y procesamiento de la información " . [43] : 91
Conceptos de la teoría de la información como redundancia y control de código han sido utilizados por semióticos como Umberto Eco y Ferruccio Rossi-Landi para explicar la ideología como una forma de transmisión de mensajes mediante la cual una clase social dominante emite su mensaje utilizando signos que exhiben un alto grado de redundancia de tal manera que solo un mensaje es decodificado entre una selección de mensajes en competencia. [45]
Los métodos de teoría de la información cuantitativa se han aplicado en la ciencia cognitiva para analizar la organización del proceso integrado de la información neuronal en el contexto del problema de enlace en la neurociencia cognitiva . [46] En este contexto, se define una medida teórica de la información, como los clústeres funcionales ( modelo de agrupamiento funcional y la hipótesis del núcleo dinámico (DCH) de Gerald Edelman y Giulio Tononi [47] ) o la información efectiva ( teoría de la información integrada (IIT) de la conciencia de Tononi [48] [49] [50] ), (sobre la base de una organización de proceso reentrante, es decir, la sincronización de la actividad neurofisiológica entre grupos de poblaciones neuronales), o la medida de la minimización de la energía libre sobre la base de métodos estadísticos ( principio de energía libre (FEP) de Karl J. Friston , una medida teórica de la información que establece que cada cambio adaptativo en un sistema autoorganizado conduce a una minimización de la energía libre, y la hipótesis del cerebro bayesiano [51] [52] [53] [54] [55] ).
La teoría de la información también tiene aplicaciones en la búsqueda de inteligencia extraterrestre , [56] agujeros negros , bioinformática [ cita requerida ] y juegos de azar .