stringtranslate.com

Entropía diferencial

La entropía diferencial (también conocida como entropía continua ) es un concepto en la teoría de la información que comenzó como un intento de Claude Shannon de extender la idea de entropía (Shannon) , una medida del promedio (sorpresa) de una variable aleatoria , a distribuciones de probabilidad continuas. . Desafortunadamente, Shannon no derivó esta fórmula y simplemente asumió que era el análogo continuo correcto de la entropía discreta, pero no lo es. [1] : 181–218  La versión continua real de la entropía discreta es la densidad límite de puntos discretos (LDDP). La entropía diferencial (descrita aquí) se encuentra comúnmente en la literatura, pero es un caso limitante del LDDP y uno que pierde su asociación fundamental con la entropía discreta .

En términos de teoría de la medida , la entropía diferencial de una medida de probabilidad es la entropía relativa negativa de esa medida a la medida de Lebesgue , donde esta última se trata como si fuera una medida de probabilidad, a pesar de no estar normalizada.

Definición

Sea una variable aleatoria con una función de densidad de probabilidad cuyo soporte es un conjunto . La entropía diferencial o se define como [2] : 243 

Para distribuciones de probabilidad que no tienen una expresión explícita de función de densidad, pero sí una expresión explícita de función cuantil , entonces se puede definir en términos de la derivada de, es decir, la función de densidad cuantil como [3] : 54–59 

.

Al igual que ocurre con su análogo discreto, las unidades de entropía diferencial dependen de la base del logaritmo , que suele ser 2 (es decir, las unidades son bits ). Consulte unidades logarítmicas para logaritmos tomados en diferentes bases. Conceptos relacionados como conjunto , entropía diferencial condicional y entropía relativa se definen de manera similar. A diferencia del análogo discreto, la entropía diferencial tiene un desplazamiento que depende de las unidades utilizadas para medir . [4] : 183–184  Por ejemplo, la entropía diferencial de una cantidad medida en milímetros será log(1000) mayor que la misma cantidad medida en metros; una cantidad adimensional tendrá una entropía diferencial de log(1000) mayor que la misma cantidad dividida por 1000.

Hay que tener cuidado al intentar aplicar propiedades de entropía discreta a la entropía diferencial, ya que las funciones de densidad de probabilidad pueden ser mayores que 1. Por ejemplo, la distribución uniforme tiene entropía diferencial negativa ; es decir, está mejor ordenado que como se muestra ahora

siendo menor que aquel del cual tiene entropía diferencial cero . Por tanto, la entropía diferencial no comparte todas las propiedades de la entropía discreta.

La información mutua continua tiene la distinción de conservar su significado fundamental como medida de información discreta ya que en realidad es el límite de la información mutua discreta de las particiones y a medida que estas particiones se vuelven cada vez más finas. Por lo tanto, es invariante bajo homeomorfismos no lineales (mapas continuos y únicamente invertibles), [5] incluyendo transformaciones lineales [6] de y , y aún representa la cantidad de información discreta que se puede transmitir a través de un canal que admite un espacio continuo de valores.

Para conocer el análogo directo de la entropía discreta extendida al espacio continuo, consulte densidad límite de puntos discretos .

Propiedades de la entropía diferencial

.
En particular, para una constante
Para una variable aleatoria con valor vectorial y una matriz invertible (cuadrada)
[2] : 253 
¿Dónde está el jacobiano de la transformación ? [7] La ​​desigualdad anterior se convierte en igualdad si la transformada es una biyección. Además, cuando se trata de una rotación, traslación o combinación de las mismas rígidas, el determinante jacobiano es siempre 1, y .

Sin embargo, la entropía diferencial no tiene otras propiedades deseables:

Una modificación de la entropía diferencial que aborda estos inconvenientes es la entropía de información relativa , también conocida como divergencia Kullback-Leibler, que incluye un factor de medida invariante (ver densidad límite de puntos discretos ).

Maximización en la distribución normal.

Teorema

Con una distribución normal , la entropía diferencial se maximiza para una varianza determinada. Una variable aleatoria gaussiana tiene la entropía más grande entre todas las variables aleatorias de igual varianza o, alternativamente, la distribución de entropía máxima bajo restricciones de media y varianza es la gaussiana. [2] : 255 

Prueba

Sea una PDF gaussiana con media μ y varianza y una PDF arbitraria con la misma varianza. Dado que la entropía diferencial es invariante en la traducción, podemos suponer que tiene la misma media que .

Considere la divergencia de Kullback-Leibler entre las dos distribuciones.

Ahora tenga en cuenta que

porque el resultado no depende de otra cosa que de la varianza. Combinando los dos resultados se obtiene

con igualdad al seguir las propiedades de la divergencia Kullback-Leibler.

Prueba alternativa

Este resultado también puede demostrarse mediante el cálculo de variaciones . Una función lagrangiana con dos multiplicadores lagrangianos se puede definir como:

donde g(x) es alguna función con media μ. Cuando la entropía de g(x) es máxima y las ecuaciones de restricción, que consisten en la condición de normalización y el requisito de varianza fija , se satisfacen, entonces una pequeña variación δg ( x ) alrededor de g ( x ) producirá una variación δL respecto de L que es igual a cero:

Dado que esto debe ser válido para cualquier δ g ( x ) pequeño, el término entre paréntesis debe ser cero, y al resolver g(x) se obtiene:

Usando las ecuaciones de restricción para resolver λ 0 y λ se obtiene la distribución normal:

Ejemplo: distribución exponencial

Sea una variable aleatoria distribuida exponencialmente con parámetro , es decir, con función de densidad de probabilidad

Su entropía diferencial es entonces

Aquí se utilizó, en lugar de hacer explícito, que el logaritmo se tomó en base e , para simplificar el cálculo.

Relación con el error del estimador

La entropía diferencial produce un límite inferior del error cuadrático esperado de un estimador . Para cualquier variable aleatoria y estimador se cumple lo siguiente: [2]

con igualdad si y sólo si es una variable aleatoria gaussiana y es la media de .

Entropías diferenciales para varias distribuciones.

En la siguiente tabla está la función gamma , la función digamma , la función beta y γ E es la constante de Euler . [8] : 219-230 

Muchas de las entropías diferenciales provienen de. [9] : 120-122 

Variantes

Como se describió anteriormente, la entropía diferencial no comparte todas las propiedades de la entropía discreta. Por ejemplo, la entropía diferencial puede ser negativa; Además, no es invariante bajo transformaciones de coordenadas continuas. Edwin Thompson Jaynes demostró de hecho que la expresión anterior no es el límite correcto de la expresión para un conjunto finito de probabilidades. [10] : 181–218 

Una modificación de la entropía diferencial agrega un factor de medida invariante para corregir esto (ver densidad límite de puntos discretos ). Si se limita además a ser una densidad de probabilidad, la noción resultante se llama entropía relativa en la teoría de la información:

La definición de entropía diferencial anterior se puede obtener dividiendo el rango de en contenedores de longitud con puntos de muestra asociados dentro de los contenedores, para Riemann integrable. Esto proporciona una versión cuantificada de , definida por if . Entonces la entropía de es [2]

El primer término de la derecha se aproxima a la entropía diferencial, mientras que el segundo término es aproximadamente . Tenga en cuenta que este procedimiento sugiere que la entropía en el sentido discreto de una variable aleatoria continua debería ser .

Ver también

Referencias

  1. ^ Jaynes, et (1963). "Teoría de la información y mecánica estadística" (PDF) . Conferencias del Instituto de Verano de la Universidad Brandeis sobre Física Teórica . 3 (artículo 4b).
  2. ^ Portada abcdefgh, Thomas M.; Thomas, alegría A. (1991). Elementos de la teoría de la información . Nueva York: Wiley. ISBN 0-471-06259-6.
  3. ^ Vasicek, Oldrich (1976), "Una prueba de normalidad basada en la entropía de la muestra", Revista de la Royal Statistical Society, Serie B , 38 (1): 54–59, doi :10.1111/j.2517-6161.1976.tb01566. x, JSTOR  2984828.
  4. ^ Gibbs, Josías Willard (1902). Principios elementales en mecánica estadística, desarrollados con especial referencia a los fundamentos racionales de la termodinámica . Nueva York: Hijos de Charles Scribner.
  5. ^ Kraskov, Alejandro; Stögbauer, Grassberger (2004). "Estimación de información mutua". Revisión física E. 60 (6): 066138. arXiv : cond-mat/0305641 . Código bibliográfico : 2004PhRvE..69f6138K. doi : 10.1103/PhysRevE.69.066138. PMID  15244698. S2CID  1269438.
  6. ^ Fazlollah M. Reza (1994) [1961]. Introducción a la teoría de la información. Publicaciones de Dover, Inc., Nueva York. ISBN 0-486-68210-2.
  7. ^ "prueba del límite superior de la entropía diferencial de f (X)". Intercambio de pila . 16 de abril de 2016.
  8. ^ Parque, Sung Y.; Bera, Anil K. (2009). "Modelo de heterocedasticidad condicional autorregresiva de máxima entropía" (PDF) . Revista de Econometría . 150 (2). Elsevier: 219-230. doi :10.1016/j.jeconom.2008.12.014. Archivado desde el original (PDF) el 7 de marzo de 2016 . Consultado el 2 de junio de 2011 .
  9. ^ Lazo, A. y P. Rathie (1978). "Sobre la entropía de distribuciones de probabilidad continuas". Transacciones IEEE sobre teoría de la información . 24 (1): 120-122. doi :10.1109/TIT.1978.1055832.
  10. ^ Jaynes, et (1963). "Teoría de la información y mecánica estadística" (PDF) . Conferencias del Instituto de Verano de la Universidad Brandeis sobre Física Teórica . 3 (artículo 4b).

enlaces externos