Las desigualdades son muy importantes en el estudio de la teoría de la información . Existen diversos contextos en los que aparecen estas desigualdades.
Consideremos una tupla de variables aleatorias con un número finito (o como máximo contable) de soportes en el mismo espacio de probabilidad . Hay 2 n subconjuntos para los que se pueden calcular entropías ( conjuntas ). Por ejemplo, cuando n = 2, podemos considerar las entropías y . Satisfacen las siguientes desigualdades (que juntas caracterizan el rango de las entropías marginales y conjuntas de dos variables aleatorias):
De hecho, todos ellos pueden expresarse como casos especiales de una única desigualdad que involucra la información mutua condicional , a saber:
donde , , y cada una denota la distribución conjunta de algún subconjunto arbitrario (posiblemente vacío) de nuestra colección de variables aleatorias. Las desigualdades que pueden derivarse como combinaciones lineales de esto se conocen como desigualdades de tipo Shannon .
Para valores mayores hay restricciones adicionales sobre los posibles valores de entropía. Para hacer esto preciso, un vector en indexado por subconjuntos de se dice que es entrópico si hay una distribución discreta conjunta de n variables aleatorias tal que es su entropía conjunta , para cada subconjunto . El conjunto de vectores entrópicos se denota , siguiendo la notación de Yeung. [1] No es cerrado ni convexo para , pero se sabe que su cierre topológico es convexo y, por lo tanto, puede caracterizarse por las (infinitas) desigualdades lineales satisfechas por todos los vectores entrópicos, llamadas desigualdades entrópicas .
El conjunto de todos los vectores que satisfacen desigualdades de tipo Shannon (pero no necesariamente otras desigualdades entrópicas) contiene . Esta contención es estricta para y las desigualdades posteriores se conocen como desigualdades de tipo no Shannon . Zhang y Yeung informaron la primera desigualdad de tipo no Shannon, [2] a menudo denominada desigualdad de Zhang-Yeung. Matus [3] demostró que ningún conjunto finito de desigualdades puede caracterizar (por combinaciones lineales) todas las desigualdades entrópicas. En otras palabras, la región no es un politopo .
En la teoría de la información, muchas desigualdades importantes son, en realidad, límites inferiores para la divergencia de Kullback-Leibler . Incluso las desigualdades de tipo Shannon pueden considerarse parte de esta categoría, ya que la información de interacción puede expresarse como la divergencia de Kullback-Leibler de la distribución conjunta con respecto al producto de las marginales y, por lo tanto, estas desigualdades pueden considerarse un caso especial de la desigualdad de Gibbs .
Por otra parte, parece mucho más difícil derivar límites superiores útiles para la divergencia de Kullback–Leibler. Esto se debe a que la divergencia de Kullback–Leibler D KL ( P || Q ) depende muy sensiblemente de eventos que son muy raros en la distribución de referencia Q . D KL ( P || Q ) aumenta sin límite a medida que un evento de probabilidad finita distinta de cero en la distribución P se vuelve extremadamente raro en la distribución de referencia Q , y de hecho D KL ( P || Q ) ni siquiera está definido si un evento de probabilidad distinta de cero en P tiene probabilidad cero en Q . (De ahí el requisito de que P sea absolutamente continuo con respecto a Q .)
Esta desigualdad fundamental establece que la divergencia de Kullback-Leibler no es negativa.
Otra desigualdad relativa a la divergencia de Kullback-Leibler se conoce como desigualdad de Kullback . [4] Si P y Q son distribuciones de probabilidad en la línea real con P absolutamente continua con respecto a Q, y cuyos primeros momentos existen, entonces
donde es la función de tasa de grandes desviaciones , es decir , el conjugado convexo de la función generadora de cumulantes , de Q , y es el primer momento de P.
El límite de Cramér-Rao es un corolario de este resultado.
La desigualdad de Pinsker relaciona la divergencia de Kullback-Leibler y la distancia de variación total . Establece que si P , Q son dos distribuciones de probabilidad , entonces
dónde
es la divergencia de Kullback-Leibler en nats y
es la distancia de variación total.
En 1957, [5] Hirschman demostró que para una función (razonablemente bien comportada) tal que y su transformada de Fourier la suma de las entropías diferenciales de y no es negativa, es decir
Hirschman conjeturó, y más tarde se demostró, [6] que un límite más preciso de lo que se alcanza en el caso de una distribución gaussiana , podría reemplazar al lado derecho de esta desigualdad. Esto es especialmente significativo ya que implica, y es más fuerte que, la formulación de Weyl del principio de incertidumbre de Heisenberg .
Dadas variables aleatorias discretas , , y , tales que toman valores solo en el intervalo [−1, 1] y están determinadas por (tales que ), tenemos [7] [8]
relacionar la expectativa condicional con la información mutua condicional . Esta es una consecuencia simple de la desigualdad de Pinsker . (Nota: el factor de corrección log 2 dentro del radical surge porque estamos midiendo la información mutua condicional en bits en lugar de en nats ).
Actualmente, se encuentran disponibles varios algoritmos de verificación de pruebas basados en máquinas. Los algoritmos de verificación de pruebas generalmente verifican las desigualdades como verdaderas o falsas. Los algoritmos de verificación de pruebas más avanzados pueden producir pruebas o contraejemplos. [9] ITIP es un verificador de pruebas basado en Matlab para todas las desigualdades de tipo Shannon. Xitip es una versión de código abierto y más rápida del mismo algoritmo implementado en C con una interfaz gráfica. Xitip también tiene una función de análisis de lenguaje incorporada que admite una gama más amplia de descripciones de variables aleatorias como entrada. AITIP y oXitip son implementaciones basadas en la nube para validar las desigualdades de tipo Shannon. oXitip utiliza el optimizador GLPK y tiene un backend C++ basado en Xitip con una interfaz de usuario basada en web. AITIP utiliza el solucionador Gurobi para la optimización y una mezcla de Python y C++ en la implementación del backend. También puede proporcionar el desglose canónico de las desigualdades en términos de medidas de información básica. [9]
{{cite book}}
: CS1 maint: location missing publisher (link)