stringtranslate.com

Entropía diferencial

La entropía diferencial (también conocida como entropía continua ) es un concepto en la teoría de la información que comenzó como un intento de Claude Shannon de extender la idea de la entropía (de Shannon) (una medida de sorpresa promedio) de una variable aleatoria , a distribuciones de probabilidad continuas. Desafortunadamente, Shannon no derivó esta fórmula, y en su lugar simplemente asumió que era el análogo continuo correcto de la entropía discreta, pero no lo es. [1] : 181–218  La versión continua real de la entropía discreta es la densidad límite de puntos discretos (LDDP). La entropía diferencial (descrita aquí) se encuentra comúnmente en la literatura, pero es un caso límite de la LDDP, y uno que pierde su asociación fundamental con la entropía discreta .

En términos de la teoría de la medida , la entropía diferencial de una medida de probabilidad es la entropía relativa negativa de esa medida a la medida de Lebesgue , donde esta última se trata como si fuera una medida de probabilidad, a pesar de no estar normalizada.

Definición

Sea una variable aleatoria con una función de densidad de probabilidad cuyo soporte es un conjunto . La entropía diferencial o se define como [2] : 243 

Para las distribuciones de probabilidad que no tienen una expresión de función de densidad explícita, pero tienen una expresión de función cuantil explícita, , entonces se puede definir en términos de la derivada de, es decir, la función de densidad cuantil como [3] : 54–59 

.

Al igual que con su análogo discreto, las unidades de entropía diferencial dependen de la base del logaritmo , que suele ser 2 (es decir, las unidades son bits ). Consulte las unidades logarítmicas para los logaritmos tomados en diferentes bases. Los conceptos relacionados, como articulación , entropía diferencial condicional y entropía relativa , se definen de manera similar. A diferencia del análogo discreto, la entropía diferencial tiene un desplazamiento que depende de las unidades utilizadas para medir . [4] : 183–184  Por ejemplo, la entropía diferencial de una cantidad medida en milímetros será log(1000) más que la misma cantidad medida en metros; una cantidad adimensional tendrá una entropía diferencial de log(1000) más que la misma cantidad dividida por 1000.

Hay que tener cuidado al intentar aplicar propiedades de entropía discreta a la entropía diferencial, ya que las funciones de densidad de probabilidad pueden ser mayores que 1. Por ejemplo, la distribución uniforme tiene entropía diferencial negativa ; es decir, está mejor ordenada que como se muestra ahora.

siendo menor que aquella cuya entropía diferencial es cero . Por lo tanto, la entropía diferencial no comparte todas las propiedades de la entropía discreta.

La información mutua continua tiene la particularidad de conservar su importancia fundamental como medida de información discreta, ya que es en realidad el límite de la información mutua discreta de particiones de y a medida que estas particiones se vuelven cada vez más finas. Por lo tanto, es invariante bajo homeomorfismos no lineales (mapas continuos y únicamente invertibles), [5] incluidas las transformaciones lineales [6] de y , y aún representa la cantidad de información discreta que se puede transmitir a través de un canal que admite un espacio continuo de valores.

Para el análogo directo de la entropía discreta extendida al espacio continuo, véase densidad límite de puntos discretos .

Propiedades de la entropía diferencial

.
En particular, para una constante
Para una variable aleatoria con valor vectorial y una matriz invertible (cuadrada)
[2] : 253 
donde es el jacobiano de la transformación . [7] La ​​desigualdad anterior se convierte en una igualdad si la transformación es una biyección. Además, cuando es una rotación rígida, una traslación o una combinación de ambas, el determinante jacobiano siempre es 1 y .

Sin embargo, la entropía diferencial no tiene otras propiedades deseables:

Una modificación de la entropía diferencial que aborda estos inconvenientes es la entropía de información relativa , también conocida como divergencia de Kullback-Leibler, que incluye un factor de medida invariante (véase densidad límite de puntos discretos ).

Maximización en la distribución normal

Teorema

Con una distribución normal , la entropía diferencial se maximiza para una varianza dada. Una variable aleatoria gaussiana tiene la entropía más grande entre todas las variables aleatorias de varianza igual o, alternativamente, la distribución de entropía máxima bajo restricciones de media y varianza es la gaussiana. [2] : 255 

Prueba

Sea una función de densidad de probabilidad gaussiana con media μ y varianza y una función de densidad de probabilidad arbitraria con la misma varianza. Como la entropía diferencial es invariante en la traducción, podemos suponer que tiene la misma media que .

Considere la divergencia de Kullback-Leibler entre las dos distribuciones

Ahora tenga en cuenta que

porque el resultado no depende de nada más que de la varianza. Combinando los dos resultados obtenemos

con igualdad cuando se sigue de las propiedades de la divergencia de Kullback-Leibler.

Prueba alternativa

Este resultado también puede demostrarse mediante el cálculo de variaciones . Una función lagrangiana con dos multiplicadores lagrangianos puede definirse como:

donde g(x) es una función con media μ. Cuando la entropía de g(x) es máxima y se cumplen las ecuaciones de restricción, que consisten en la condición de normalización y el requisito de varianza fija , entonces una pequeña variación δg ( x ) con respecto a g ( x ) producirá una variación δL con respecto a L que es igual a cero:

Dado que esto debe cumplirse para cualquier δ g ( x ) pequeño, el término entre paréntesis debe ser cero, y al resolver g(x) se obtiene:

Usando las ecuaciones de restricción para resolver λ 0 y λ se obtiene la distribución normal:

Ejemplo: distribución exponencial

Sea una variable aleatoria distribuida exponencialmente con parámetro , es decir, con función de densidad de probabilidad

Su entropía diferencial es entonces

Aquí se utilizó en lugar de para hacer explícito que el logaritmo se tomó en base e , para simplificar el cálculo.

Relación con el error del estimador

La entropía diferencial produce un límite inferior para el error cuadrático esperado de un estimador . Para cualquier variable aleatoria y estimador se cumple lo siguiente: [2]

con igualdad si y solo si es una variable aleatoria gaussiana y es la media de .

Entropías diferenciales para varias distribuciones

En la tabla siguiente se muestra la función gamma , la función digamma , la función beta y γ E es la constante de Euler . [8] : 219–230 

Muchas de las entropías diferenciales son de. [9] : 120–122 

Variantes

Como se ha descrito anteriormente, la entropía diferencial no comparte todas las propiedades de la entropía discreta. Por ejemplo, la entropía diferencial puede ser negativa; además, no es invariante bajo transformaciones de coordenadas continuas. Edwin Thompson Jaynes demostró de hecho que la expresión anterior no es el límite correcto de la expresión para un conjunto finito de probabilidades. [10] : 181–218 

Una modificación de la entropía diferencial añade un factor de medida invariante para corregir esto (véase densidad límite de puntos discretos ). Si se restringe aún más a una densidad de probabilidad, el concepto resultante se denomina entropía relativa en la teoría de la información:

La definición de entropía diferencial anterior se puede obtener dividiendo el rango de en compartimentos de longitud con puntos de muestra asociados dentro de los compartimentos, para la integración de Riemann. Esto da una versión cuantificada de , definida por si . Entonces la entropía de es [2]

El primer término de la derecha se aproxima a la entropía diferencial, mientras que el segundo término es aproximadamente . Nótese que este procedimiento sugiere que la entropía en el sentido discreto de una variable aleatoria continua debería ser .

Véase también

Referencias

  1. ^ Jaynes, ET (1963). "Teoría de la información y mecánica estadística" (PDF) . Instituto de verano de la Universidad Brandeis, conferencias sobre física teórica . 3 (sección 4b).
  2. ^ abcdefgh Portada, Thomas M.; Thomas, Joy A. (1991). Elementos de la teoría de la información . Nueva York: Wiley. ISBN 0-471-06259-6.
  3. ^ Vasicek, Oldrich (1976), "Una prueba de normalidad basada en la entropía de la muestra", Journal of the Royal Statistical Society, Serie B , 38 (1): 54–59, doi :10.1111/j.2517-6161.1976.tb01566.x, JSTOR  2984828.
  4. ^ Gibbs, Josiah Willard (1902). Principios elementales de mecánica estadística, desarrollado con especial referencia a la base racional de la termodinámica . Nueva York: Charles Scribner's Sons.
  5. ^ Kraskov, Alexander; Stögbauer, Grassberger (2004). "Estimación de información mutua". Physical Review E . 60 (6): 066138. arXiv : cond-mat/0305641 . Código Bibliográfico :2004PhRvE..69f6138K. doi :10.1103/PhysRevE.69.066138. PMID  15244698. S2CID  1269438.
  6. ^ Fazlollah M. Reza (1994) [1961]. Introducción a la teoría de la información. Dover Publications, Inc., Nueva York. ISBN 0-486-68210-2.
  7. ^ "Prueba del límite superior de la entropía diferencial de f(X)". Stack Exchange . 16 de abril de 2016.
  8. ^ Park, Sung Y.; Bera, Anil K. (2009). "Modelo de heterocedasticidad condicional autorregresiva de máxima entropía" (PDF) . Journal of Econometrics . 150 (2). Elsevier: 219–230. doi :10.1016/j.jeconom.2008.12.014. Archivado desde el original (PDF) el 2016-03-07 . Consultado el 2011-06-02 .
  9. ^ Lazo, A. y P. Rathie (1978). "Sobre la entropía de distribuciones de probabilidad continuas". IEEE Transactions on Information Theory . 24 (1): 120–122. doi :10.1109/TIT.1978.1055832.
  10. ^ Jaynes, ET (1963). "Teoría de la información y mecánica estadística" (PDF) . Instituto de verano de la Universidad Brandeis, conferencias sobre física teórica . 3 (sección 4b).

Enlaces externos