Divergencia de Kullback-Leibler

En estadística matemática , la divergencia de Kullback–Leibler ( KL ) (también llamada entropía relativa y divergencia I ^[1] ), denotada como , es un tipo de distancia estadística : una medida de cómo una distribución de probabilidad de referencia $P$ es diferente de una segunda distribución de probabilidad $Q.$ ^[2]^[3] Matemáticamente, se define como $D_{\text{KL}}(P\paralelo Q)$

D_{\text{KL}}(P\paralelo Q)=\sum _{x\in {\mathcal {X}}}P(x)\ \log \left({\frac {\ P(x)\ }{Q(x)}}\right).

Una interpretación simple de la divergencia KL de $P$ a partir de $Q$ es la sorpresa excesiva esperada al usar $Q$ como modelo en lugar de $P$ cuando la distribución real es $P.$ Si bien es una medida de cuán diferentes son dos distribuciones y, en cierto sentido, es una "distancia", en realidad no es una métrica , que es el tipo de distancia más familiar y formal. En particular, no es simétrica en las dos distribuciones (en contraste con la variación de la información ), y no satisface la desigualdad triangular . En cambio, en términos de geometría de la información , es un tipo de divergencia , ^[4] una generalización de la distancia al cuadrado , y para ciertas clases de distribuciones (en particular una familia exponencial ), satisface un teorema de Pitágoras generalizado (que se aplica a las distancias al cuadrado). ^[5]

La entropía relativa es siempre un número real no negativo, con valor 0 si y solo si las dos distribuciones en cuestión son idénticas. Tiene diversas aplicaciones, tanto teóricas, como la caracterización de la entropía relativa (de Shannon) en sistemas de información, la aleatoriedad en series temporales continuas y la ganancia de información al comparar modelos estadísticos de inferencia ; como prácticas, como la estadística aplicada, la mecánica de fluidos , la neurociencia , la bioinformática y el aprendizaje automático .

Introducción y contexto

Consideremos dos distribuciones de probabilidad $P$ y $Q$ . Por lo general, $P$ representa los datos, las observaciones o una distribución de probabilidad medida. La distribución $Q$ representa en cambio una teoría, un modelo, una descripción o una aproximación de $P$ . La divergencia de Kullback-Leibler se interpreta entonces como la diferencia promedio de la cantidad de bits necesarios para codificar muestras de $P$ utilizando un código optimizado para $Q$ en lugar de uno optimizado para $P$ . Nótese que los roles de $P$ y $Q$ pueden invertirse en algunas situaciones en las que esto es más fácil de calcular, como con el algoritmo de expectativa-maximización (EM) y los cálculos de límite inferior de evidencia (ELBO) . $D_{\text{KL}}(P\paralelo Q)$

Etimología

La entropía relativa fue introducida por Solomon Kullback y Richard Leibler en Kullback & Leibler (1951) como "la información media para la discriminación entre y por observación de ", ^[6] donde uno está comparando dos medidas de probabilidad , y son las hipótesis que uno está seleccionando de la medida (respectivamente). Lo denotaron por , y definieron la "'divergencia' entre y " como la cantidad simetrizada , que ya había sido definida y utilizada por Harold Jeffreys en 1948. ^[7] En Kullback (1959), la forma simetrizada se denomina nuevamente "divergencia", y las entropías relativas en cada dirección se denominan "divergencias dirigidas" entre dos distribuciones; ^[8] Kullback prefirió el término información de discriminación . ^[9] El término "divergencia" está en contraste con una distancia (métrica), ya que la divergencia simetrizada no satisface la desigualdad triangular. ^[10] En Kullback (1959, pp. 6-7, §1.3 Divergencia) se dan numerosas referencias a usos anteriores de la divergencia simetrizada y a otras distancias estadísticas . La "divergencia dirigida" asimétrica ha llegado a conocerse como divergencia de Kullback-Leibler, mientras que la "divergencia" simetrizada se conoce ahora como divergencia de Jeffreys . $Estilo de visualización H_{1}$ $Estilo de visualización H_{2}$ $estilo de visualización {\mu _{1}}$ $\mu _{1},\mu _{2}$ $Estilo de visualización H_{1},H_{2}}$ $\mu _{1},\mu _{2}$ ${\estilo de visualización I(1:2)}$ $estilo de visualización {\mu _{1}}$ $estilo de visualización {\mu _{2}}$ $J(1,2)=I(1:2)+I(2:1)$

Definición

Para distribuciones de probabilidad discretas $P$ y $Q$ definidas en el mismo espacio muestral , la entropía relativa de $Q$ a $P$ se define ^[11] como $\ {\mathcal {X}}\ ,$

D_{\text{KL}}(P\parallel Q)=\sum _{x\in {\mathcal {X}}}P(x)\ \log \left({\frac {\ P(x)\ }{Q(x)}}\right)\ ,

que es equivalente a

D_{\text{KL}}(P\parallel Q)=-\sum _{x\in {\mathcal {X}}}P(x)\ \log \left({\frac {\ Q(x)\ }{P(x)}}\right)~.

En otras palabras, es la expectativa de la diferencia logarítmica entre las probabilidades $P$ y $Q$ , donde la expectativa se toma utilizando las probabilidades $P.$

La entropía relativa sólo se define de esta manera si, para todo $x$ , implica ( continuidad absoluta ). De lo contrario, a menudo se define como , ^[1] pero el valor es posible incluso si en todas partes, ^[12]^[13] siempre que sea infinito en extensión. Se aplican comentarios análogos a los casos de medida continua y general definidos a continuación. $\ Q(x)=0\$ $\ P(x)=0\$ $+\infty$ $\ +\infty \$ $\ Q(x)\neq 0\$ $\ {\mathcal {X}}\$

Siempre que sea cero la contribución del término correspondiente se interpreta como cero porque $\ P(x)\$

\lim _{x\to 0^{+}}x\log(x)=0~.

Para las distribuciones $P$ y $Q$ de una variable aleatoria continua , la entropía relativa se define como la integral ^[14]

D_{\text{KL}}(P\parallel Q)=\int _{-\infty }^{\infty }p(x)\ \log \left({\frac {p(x)}{q(x)}}\right)\ \mathrm {d} \ \!x\ ,

donde $p$ y $q$ denotan las densidades de probabilidad de $P$ y $Q.$

De manera más general, si $P$ y $Q$ son medidas de probabilidad en un espacio medible y $P$ es absolutamente continua con respecto a $Q$ , entonces la entropía relativa de $Q$ a $P$ se define como $\ {\mathcal {X}}\ ,$

D_{\text{KL}}(P\parallel Q)=\int _{x\in {\mathcal {X}}}\ \log \left({\frac {P(\mathrm {d} \ \!x)}{Q(\mathrm {d} \ \!x)}}\right)\ P(\mathrm {d} \ \!x)\ ,

donde es la derivada de Radon-Nikodym de $P$ con respecto a $Q$ , es decir, la única función $Q$ casi en todas partes definida $r$ en tal que existe porque $P$ es absolutamente continua con respecto a $Q$ . También asumimos que existe la expresión del lado derecho. De manera equivalente (por la regla de la cadena ), esto se puede escribir como $\ {\frac {\ P(\mathrm {d} \ \!x)\ }{Q(\mathrm {d} \ \!x)\ }}$ $\ {\mathcal {X}}\$ $\ P(\mathrm {d} \ \!x)=r(x)Q(\mathrm {d} \ \!x)\$

D_{\text{KL}}(P\parallel Q)=\int _{x\in {\mathcal {X}}}{\frac {P(\mathrm {d} \ \!x)}{Q(\mathrm {d} \ \!x)}}\ \log \left({\frac {P(\mathrm {d} \ \!x)}{Q(\mathrm {d} \ \!x)}}\right)\ Q(\mathrm {d} \ \!x)\ ,

que es la entropía de $P$ relativa a $Q.$ Continuando en este caso, si es cualquier medida de para la cual existen densidades $p$ y $q$ con y (lo que significa que $P$ y $Q$ son absolutamente continuas con respecto a ), entonces la entropía relativa de $Q$ a $P$ se da como $\mu$ ${\mathcal {X}}$ $\ P(\mathrm {d} \ \!x)=p(x)\mu (\mathrm {d} \ \!x)\$ $\ Q(\mathrm {d} \ \!x)=q(x)\mu (\mathrm {d} \ \!x)\$ $\ \mu \$

D_{\text{KL}}(P\parallel Q)=\int _{x\in {\mathcal {X}}}p(x)\ \log \left({\frac {\ p(x)\ }{q(x)}}\right)\ \mu (\mathrm {d} \ \!x)~.

Nótese que siempre existe una medida para la cual se pueden definir densidades, ya que se puede tomar aunque en la práctica normalmente será una que en el contexto como la medida de conteo para distribuciones discretas, o la medida de Lebesgue o una variante conveniente de la misma como la medida gaussiana o la medida uniforme en la esfera , la medida de Haar en un grupo de Lie , etc. para distribuciones continuas. Los logaritmos en estas fórmulas normalmente se toman en base 2 si la información se mide en unidades de bits , o en base $e$ si la información se mide en nats . La mayoría de las fórmulas que involucran entropía relativa se mantienen independientemente de la base del logaritmo. $\mu$ $\ \mu ={\frac {1}{2}}\left(P+Q\right)\$

Existen varias convenciones para referirse a en palabras. A menudo se hace referencia a ella como la divergencia entre $P$ y $Q$ , pero esto no logra transmitir la asimetría fundamental en la relación. A veces, como en este artículo, puede describirse como la divergencia de $P$ con respecto $a Q$ o como la divergencia de $Q$ a $P$ . Esto refleja la asimetría en la inferencia bayesiana , que comienza a partir de una $Q$ anterior y se actualiza a la $P$ posterior . Otra forma común de referirse a ella es como la entropía relativa de $P$ con respecto a $Q$ o la ganancia de información de $P$ sobre $Q$ . $\ D_{\text{KL}}(P\parallel Q)\$ $\ D_{\text{KL}}(P\parallel Q)\$

Ejemplo básico

Kullback ^[3] da el siguiente ejemplo (Tabla 2.1, Ejemplo 2.1). Sean $P$ y $Q$ las distribuciones que se muestran en la tabla y la figura. $P$ es la distribución del lado izquierdo de la figura, una distribución binomial con y . $Q$ es la distribución del lado derecho de la figura, una distribución uniforme discreta con los tres resultados posibles. $N=2$ $p=0.4$ $x=$ 0 ,1 ,2 (es decir ), cada uno con probabilidad . ${\mathcal {X}}=\{0,1,2\}$ $p=1/3$

Las entropías relativas se calculan de la siguiente manera. En este ejemplo se utiliza el logaritmo natural con base e , denominado $ln$ para obtener los resultados en unidades de información (véase unidades de información ): $D_{\text{KL}}(P\parallel Q)$ $D_{\text{KL}}(Q\parallel P)$

{\begin{aligned}D_{\text{KL}}(P\parallel Q)&=\sum _{x\in {\mathcal {X}}}P(x)\ln \left({\frac {P(x)}{Q(x)}}\right)\\&={\frac {9}{25}}\ln \left({\frac {9/25}{1/3}}\right)+{\frac {12}{25}}\ln \left({\frac {12/25}{1/3}}\right)+{\frac {4}{25}}\ln \left({\frac {4/25}{1/3}}\right)\\&={\frac {1}{25}}\left(32\ln(2)+55\ln(3)-50\ln(5)\right)\approx 0.0852996,\end{aligned}}

{\begin{aligned}D_{\text{KL}}(Q\parallel P)&=\sum _{x\in {\mathcal {X}}}Q(x)\ln \left({\frac {Q(x)}{P(x)}}\right)\\&={\frac {1}{3}}\ln \left({\frac {1/3}{9/25}}\right)+{\frac {1}{3}}\ln \left({\frac {1/3}{12/25}}\right)+{\frac {1}{3}}\ln \left({\frac {1/3}{4/25}}\right)\\&={\frac {1}{3}}\left(-4\ln(2)-6\ln(3)+6\ln(5)\right)\approx 0.097455.\end{aligned}}

Interpretaciones

Estadística

En el campo de la estadística, el lema de Neyman-Pearson establece que la forma más poderosa de distinguir entre las dos distribuciones $P$ y $Q$ en función de una observación $Y$ (extraída de una de ellas) es a través del logaritmo del cociente de sus verosimilitudes: . La divergencia KL es el valor esperado de esta estadística si $Y$ se extrae realmente de $P$ . Kullback motivó la estadística como un cociente de verosimilitud logarítmica esperado. ^[15] $\log P(Y)-\log Q(Y)$

Codificación

En el contexto de la teoría de codificación , se puede construir midiendo el número esperado de bits adicionales necesarios para codificar muestras de $P$ utilizando un código optimizado para $Q$ en lugar del código optimizado para $P.$ $D_{\text{KL}}(P\parallel Q)$

Inferencia

En el contexto del aprendizaje automático , se suele denominar ganancia de información obtenida si se utilizara $P en lugar de$ $Q$ , que es el que se utiliza actualmente. Por analogía con la teoría de la información, se denomina entropía relativa de $P$ con respecto a $Q.$ $D_{\text{KL}}(P\parallel Q)$

Expresado en el lenguaje de la inferencia bayesiana , es una medida de la información obtenida al revisar las creencias de uno de la distribución de probabilidad previa $Q$ a la distribución de probabilidad posterior $P.$ En otras palabras, es la cantidad de información que se pierde cuando se utiliza $Q para aproximar$ $P.$ ^[16 ] $D_{\text{KL}}(P\parallel Q)$

Geometría de la información

En las aplicaciones, $P$ representa típicamente la distribución "real" de datos, observaciones o una distribución teórica calculada con precisión, mientras que $Q$ representa típicamente una teoría, modelo, descripción o aproximación de $P.$ Para encontrar una distribución $Q$ que sea la más cercana a $P$ , podemos minimizar la divergencia KL y calcular una proyección de información .

Si bien es una distancia estadística , no es una métrica , el tipo de distancia más conocido, sino una divergencia . ^[4] Mientras que las métricas son simétricas y generalizan la distancia lineal , satisfaciendo la desigualdad triangular , las divergencias son asimétricas y generalizan la distancia al cuadrado , satisfaciendo en algunos casos un teorema de Pitágoras generalizado . En general no es igual a , y la asimetría es una parte importante de la geometría. ^[4] La forma infinitesimal de la entropía relativa, específicamente su hessiano , da un tensor métrico que es igual a la métrica de información de Fisher ; consulte § Métrica de información de Fisher. La entropía relativa satisface un teorema de Pitágoras generalizado para familias exponenciales (interpretadas geométricamente como variedades dualmente planas ), y esto permite minimizar la entropía relativa por medios geométricos, por ejemplo, mediante la proyección de información y en la estimación de máxima verosimilitud . ^[5] $D_{\text{KL}}(P\parallel Q)$ $D_{\text{KL}}(Q\parallel P)$

La entropía relativa es la divergencia de Bregman generada por la entropía negativa, pero también tiene la forma de una divergencia f . Para probabilidades sobre un alfabeto finito , es única por ser miembro de ambas clases de divergencias estadísticas .

Finanzas (teoría de juegos)

Consideremos un inversor que optimiza el crecimiento en un juego justo con resultados mutuamente excluyentes (por ejemplo, una “carrera de caballos” en la que las probabilidades oficiales suman uno). La tasa de retorno esperada por ese inversor es igual a la entropía relativa entre las probabilidades que cree el inversor y las probabilidades oficiales. ^[17] Este es un caso especial de una conexión mucho más general entre los retornos financieros y las medidas de divergencia. ^[18]

Los riesgos financieros están conectados a través de la geometría de la información. ^[19] Las opiniones de los inversores, la opinión predominante del mercado y los escenarios de riesgo forman triángulos en la variedad relevante de distribuciones de probabilidad. La forma de los triángulos determina los riesgos financieros clave (tanto cualitativa como cuantitativamente). Por ejemplo, los triángulos obtusos en los que las opiniones de los inversores y los escenarios de riesgo aparecen en “lados opuestos” en relación con el mercado describen riesgos negativos, los triángulos agudos describen exposición positiva y la situación en ángulo recto en el medio corresponde a riesgo cero. $D_{\text{KL}}$

Motivación

Ilustración de la entropía relativa para dos distribuciones normales . La asimetría típica es claramente visible.

En teoría de la información, el teorema de Kraft-McMillan establece que cualquier esquema de codificación directamente decodificable para codificar un mensaje para identificar un valor de un conjunto de posibilidades $X$ puede verse como la representación de una distribución de probabilidad implícita sobre $X$ , donde es la longitud del código para en bits. Por lo tanto, la entropía relativa puede interpretarse como la longitud de mensaje adicional esperada por dato que debe comunicarse si se utiliza un código que es óptimo para una distribución dada (incorrecta) $Q$ , en comparación con el uso de un código basado en la distribución verdadera $P$ : es el exceso de entropía. $x_{i}$ $q(x_{i})=2^{-\ell _{i}}$ $\ell _{i}$ $x_{i}$

{\begin{aligned}D_{\text{KL}}(P\parallel Q)&=\sum _{x\in {\mathcal {X}}}p(x)\log {\frac {1}{q(x)}}-\sum _{x\in {\mathcal {X}}}p(x)\log {\frac {1}{p(x)}}\\[5pt]&=\mathrm {H} (P,Q)-\mathrm {H} (P)\end{aligned}}

donde es la entropía cruzada de $Q$ relativa a $P$ y es la entropía de $P$ (que es la misma que la entropía cruzada de P consigo mismo). $\mathrm {H} (P,Q)$ $\mathrm {H} (P)$

La entropía relativa puede considerarse geométricamente como una distancia estadística , una medida de qué tan lejos está la distribución $Q$ de la distribución $P.$ Geométricamente es una divergencia : una forma asimétrica y generalizada de la distancia al cuadrado. La entropía cruzada es en sí misma una medida de este tipo (formalmente una función de pérdida ), pero no puede considerarse como una distancia, ya que no es cero. Esto se puede arreglar restando para que concuerde más con nuestra noción de distancia, como la pérdida en exceso . La función resultante es asimétrica y, si bien se puede simetrizar (ver § Divergencia simetrizada), la forma asimétrica es más útil. Ver § Interpretaciones para más información sobre la interpretación geométrica. $D_{\text{KL}}(P\parallel Q)$ $H(P,Q)$ $H(P,P)=:H(P)$ $H(P)$ $D_{\text{KL}}(P\parallel Q)$

La entropía relativa se relaciona con la " función de velocidad " en la teoría de grandes desviaciones . ^[20]^[21]

Arthur Hobson demostró que la entropía relativa es la única medida de diferencia entre distribuciones de probabilidad que satisface algunas propiedades deseadas, que son la extensión canónica de las que aparecen en una caracterización comúnmente utilizada de la entropía . ^[22] En consecuencia, la información mutua es la única medida de dependencia mutua que obedece a ciertas condiciones relacionadas, ya que puede definirse en términos de divergencia de Kullback–Leibler .

Propiedades

La entropía relativa siempre es no negativa , un resultado conocido como desigualdad de Gibbs , con igual a cero si y solo si como medidas. $D_{\text{KL}}(P\parallel Q)\geq 0,$ $D_{\text{KL}}(P\parallel Q)$ $P=Q$

En particular, si y , entonces - casi en todas partes . La entropía establece así un valor mínimo para la entropía cruzada , el número esperado de bits necesarios cuando se utiliza un código basado en $Q$ en lugar de $P$ ; y la divergencia de Kullback–Leibler representa, por tanto, el número esperado de bits adicionales que deben transmitirse para identificar un valor $x$ extraído de $X$ , si se utiliza un código correspondiente a la distribución de probabilidad $Q$ , en lugar de la distribución "verdadera" $P$ . $P(dx)=p(x)\mu (dx)$ $Q(dx)=q(x)\mu (dx)$ $p(x)=q(x)$ $\mu$ $\mathrm {H} (P)$ $\mathrm {H} (P,Q)$

No existe un límite superior para el caso general. Sin embargo, se demuestra que si $P$ y $Q$ son dos distribuciones de probabilidad discretas construidas distribuyendo la misma cantidad discreta, entonces se puede calcular el valor máximo de . ^[23] $D_{\text{KL}}(P\parallel Q)$
La entropía relativa permanece bien definida para distribuciones continuas, y además es invariante bajo transformaciones de parámetros . Por ejemplo, si se realiza una transformación de la variable $x$ a la variable , entonces, dado que y donde es el valor absoluto de la derivada o más generalmente del jacobiano , la entropía relativa puede reescribirse: donde y . Aunque se asumió que la transformación era continua, este no tiene por qué ser el caso. Esto también muestra que la entropía relativa produce una cantidad dimensionalmente consistente , ya que si $x$ es una variable dimensionada, y también están dimensionados, ya que eg es adimensional. El argumento del término logarítmico es y permanece adimensional, como debe ser. Por lo tanto, puede verse como en algunos sentidos una cantidad más fundamental que algunas otras propiedades en la teoría de la información ^[24] (como la autoinformación o la entropía de Shannon ), que pueden volverse indefinidas o negativas para probabilidades no discretas. $y(x)$ $P(dx)=p(x)\,dx={\tilde {p}}(y)\,dy={\tilde {p}}(y(x))|{\tfrac {dy}{dx}}(x)|\,dx$ $Q(dx)=q(x)\,dx={\tilde {q}}(y)\,dy={\tilde {q}}(y)|{\tfrac {dy}{dx}}(x)|dx$ $|{\tfrac {dy}{dx}}(x)|$ ${\begin{aligned}D_{\text{KL}}(P\parallel Q)&=\int _{x_{a}}^{x_{b}}p(x)\log \left({\frac {p(x)}{q(x)}}\right)\,dx\\[6pt]&=\int _{x_{a}}^{x_{b}}{\tilde {p}}(y(x))|{\frac {dy}{dx}}(x)|\log \left({\frac {{\tilde {p}}(y(x))\,|{\frac {dy}{dx}}(x)|}{{\tilde {q}}(y(x))\,|{\frac {dy}{dx}}(x)|}}\right)\,dx\\&=\int _{y_{a}}^{y_{b}}{\tilde {p}}(y)\log \left({\frac {{\tilde {p}}(y)}{{\tilde {q}}(y)}}\right)\,dy\end{aligned}}$ $y_{a}=y(x_{a})$ $y_{b}=y(x_{b})$ $p(x)$ $q(x)$ $P(dx)=p(x)\,dx$
La entropía relativa es aditiva para distribuciones independientes de forma muy similar a la entropía de Shannon. Si son distribuciones independientes, y , y lo mismo para distribuciones independientes , entonces $P_{1},P_{2}$ $P(dx,dy)=P_{1}(dx)P_{2}(dy)$ $Q(dx,dy)=Q_{1}(dx)Q_{2}(dy)$ $Q_{1},Q_{2}$ $D_{\text{KL}}(P\parallel Q)=D_{\text{KL}}(P_{1}\parallel Q_{1})+D_{\text{KL}}(P_{2}\parallel Q_{2}).$
La entropía relativa es convexa en el par de medidas de probabilidad , es decir, si y son dos pares de medidas de probabilidad, entonces $D_{\text{KL}}(P\parallel Q)$ $(P,Q)$ $(P_{1},Q_{1})$ $(P_{2},Q_{2})$ $D_{\text{KL}}(\lambda P_{1}+(1-\lambda )P_{2}\parallel \lambda Q_{1}+(1-\lambda )Q_{2})\leq \lambda D_{\text{KL}}(P_{1}\parallel Q_{1})+(1-\lambda )D_{\text{KL}}(P_{2}\parallel Q_{2}){\text{ for }}0\leq \lambda \leq 1.$
$D_{\text{KL}}(P\parallel Q)$ Puede ser que Taylor haya desarrollado sobre su mínimo (es decir, ) como que converge si y solo si es casi seguro con respecto a . $P=Q$ $D_{\text{KL}}(P\parallel Q)=\sum _{n=2}^{\infty }{\frac {1}{n(n-1)}}\sum _{x\in {\mathcal {X}}}{\frac {(Q(x)-P(x))^{n}}{Q(x)^{n-1}}}$ $P\leq 2Q$ $Q$

[Prueba]

Denote y note que . La primera derivada de puede derivarse y evaluarse como sigue Otras derivadas pueden derivarse y evaluarse como sigue Por lo tanto, despejando para mediante la expansión de Taylor de aproximadamente evaluada en produce como es una condición suficiente para la convergencia de la serie por el siguiente argumento de convergencia absoluta como es también una condición necesaria para la convergencia de la serie por la siguiente prueba por contradicción. Suponga que con medida estrictamente mayor que . Entonces se deduce que deben existir algunos valores , , y tales que y con medida . La prueba de suficiencia anterior demostró que el componente de medida de la serie donde está acotado, por lo que solo necesitamos preocuparnos por el comportamiento del componente de medida de la serie donde . El valor absoluto del término ésimo de este componente de la serie está entonces acotado inferiormente por , que es ilimitado como , por lo que la serie diverge. $f(\alpha ):=D_{\text{KL}}((1-\alpha )Q+\alpha P\parallel Q)$ $D_{\text{KL}}(P\parallel Q)=f(1)$ $f$ ${\begin{aligned}f'(\alpha )&=\sum _{x\in {\mathcal {X}}}(P(x)-Q(x))\left(\log \left({\frac {(1-\alpha )Q(x)+\alpha P(x)}{Q(x)}}\right)+1\right)\\&=\sum _{x\in {\mathcal {X}}}(P(x)-Q(x))\log \left({\frac {(1-\alpha )Q(x)+\alpha P(x)}{Q(x)}}\right)\\f'(0)&=0\end{aligned}}$ ${\begin{aligned}f''(\alpha )&=\sum _{x\in {\mathcal {X}}}{\frac {(P(x)-Q(x))^{2}}{(1-\alpha )Q(x)+\alpha P(x)}}\\f''(0)&=\sum _{x\in {\mathcal {X}}}{\frac {(P(x)-Q(x))^{2}}{Q(x)}}\\f^{(n)}(\alpha )&=(-1)^{n}(n-2)!\sum _{x\in {\mathcal {X}}}{\frac {(P(x)-Q(x))^{n}}{\left((1-\alpha )Q(x)+\alpha P(x)\right)^{n-1}}}\\f^{(n)}(0)&=(-1)^{n}(n-2)!\sum _{x\in {\mathcal {X}}}{\frac {(P(x)-Q(x))^{n}}{Q(x)^{n-1}}}\end{aligned}}$ $D_{\text{KL}}(P\parallel Q)$ $f$ $0$ $\alpha =1$ ${\begin{aligned}D_{\text{KL}}(P\parallel Q)&=\sum _{n=0}^{\infty }{\frac {f^{(n)}(0)}{n!}}\\&=\sum _{n=2}^{\infty }{\frac {1}{n(n-1)}}\sum _{x\in {\mathcal {X}}}{\frac {(Q(x)-P(x))^{n}}{Q(x)^{n-1}}}\end{aligned}}$ $P\leq 2Q$ ${\begin{aligned}\sum _{n=2}^{\infty }\left\vert {\frac {1}{n(n-1)}}\sum _{x\in {\mathcal {X}}}{\frac {(Q(x)-P(x))^{n}}{Q(x)^{n-1}}}\right\vert &=\sum _{n=2}^{\infty }{\frac {1}{n(n-1)}}\sum _{x\in {\mathcal {X}}}\left\vert Q(x)-P(x)\right\vert \left\vert 1-{\frac {P(x)}{Q(x)}}\right\vert ^{n-1}\\&\leq \sum _{n=2}^{\infty }{\frac {1}{n(n-1)}}\sum _{x\in {\mathcal {X}}}\left\vert Q(x)-P(x)\right\vert \\&\leq \sum _{n=2}^{\infty }{\frac {1}{n(n-1)}}\\&=1\end{aligned}}$ $P\leq 2Q$ $P>2Q$ $0$ $\epsilon >0$ $\rho >0$ $U<\infty$ $P\geq 2Q+\epsilon$ $Q\leq U$ $\rho$ $1-\rho$ $P\leq 2Q$ $\rho$ $P\geq 2Q+\epsilon$ $n$ ${\frac {1}{n(n-1)}}\rho \left(1+{\frac {\epsilon }{U}}\right)^{n}$ $n\to \infty$

Fórmula de dualidad para la inferencia variacional

El siguiente resultado, debido a Donsker y Varadhan, ^[25] se conoce como fórmula variacional de Donsker y Varadhan .

Teorema [Fórmula de dualidad para inferencia variacional] — Seaun conjunto dotado de uncuerpoy dos medidas de probabilidad $P$ y $Q$ , que formulan dos espacios de probabilidad y, con. (indica que $Q$ es absolutamente continua con respecto a $P$ .) Sea $h una$ variable aleatoria integrable de valor realen. Entonces se cumple la siguiente igualdad $\Theta$ $\sigma$ ${\mathcal {F}}$ $(\Theta ,{\mathcal {F}},P)$ $(\Theta ,{\mathcal {F}},Q)$ $Q\ll P$ $Q\ll P$ $(\Theta ,{\mathcal {F}},P)$

\log E_{P}[\exp h]={\text{sup}}_{Q\ll P}\{E_{Q}[h]-D_{\text{KL}}(Q\parallel P)\}.

Además, el supremo del lado derecho se alcanza si y sólo si se cumple

{\frac {Q(d\theta )}{P(d\theta )}}={\frac {\exp h(\theta )}{E_{P}[\exp h]}},

casi con seguridad con respecto a la medida de probabilidad $P$ , donde denota la derivada de Radon-Nikodym de $Q$ con respecto a $P$ . ${\frac {Q(d\theta )}{P(d\theta )}}$

Prueba

Para una prueba corta que supone la integrabilidad de con respecto a $P$ , sea $P$ -densidad , es decir Entonces $\exp(h)$ $Q^{*}$ ${\frac {\exp h(\theta )}{E_{P}[\exp h]}}$ $Q^{*}(d\theta )={\frac {\exp h(\theta )}{E_{P}[\exp h]}}P(d\theta )$

D_{\text{KL}}(Q\parallel Q^{*})-D_{\text{KL}}(Q\parallel P)=-E_{Q}[h]+\log E_{P}[\exp h].

Por lo tanto,

E_{Q}[h]-D_{\text{KL}}(Q\parallel P)=\log E_{P}[\exp h]-D_{\text{KL}}(Q\parallel Q^{*})\leq \log E_{P}[\exp h],

donde la última desigualdad se sigue de , para la cual la igualdad ocurre si y solo si . La conclusión se deduce. $D_{\text{KL}}(Q\parallel Q^{*})\geq 0$ $Q=Q^{*}$

Para una prueba alternativa utilizando la teoría de la medida , véase ^{[26] .}

Ejemplos

Distribuciones normales multivariadas

Supongamos que tenemos dos distribuciones normales multivariadas , con medias y con matrices de covarianza (no singulares). Si las dos distribuciones tienen la misma dimensión, $k$ , entonces la entropía relativa entre las distribuciones es la siguiente: ^[27] $\mu _{0},\mu _{1}$ $\Sigma _{0},\Sigma _{1}.$

D_{\text{KL}}\left({\mathcal {N}}_{0}\parallel {\mathcal {N}}_{1}\right)={\frac {1}{2}}\left(\operatorname {tr} \left(\Sigma _{1}^{-1}\Sigma _{0}\right)-k+\left(\mu _{1}-\mu _{0}\right)^{\mathsf {T}}\Sigma _{1}^{-1}\left(\mu _{1}-\mu _{0}\right)+\ln \left({\frac {\det \Sigma _{1}}{\det \Sigma _{0}}}\right)\right).

El logaritmo del último término debe tomarse en base e, ya que todos los términos, excepto el último, son logaritmos en base $e$ de expresiones que son factores de la función de densidad o surgen de manera natural. Por lo tanto, la ecuación da un resultado medido en nats . Dividiendo toda la expresión anterior por se obtiene la divergencia en bits . $\ln(2)$

En una implementación numérica, resulta útil expresar el resultado en términos de las descomposiciones de Cholesky tales que y . Entonces, con $M$ e $y$ soluciones para los sistemas lineales triangulares , y , $L_{0},L_{1}$ $\Sigma _{0}=L_{0}L_{0}^{T}$ $\Sigma _{1}=L_{1}L_{1}^{T}$ $L_{1}M=L_{0}$ $L_{1}y=\mu _{1}-\mu _{0}$

D_{\text{KL}}\left({\mathcal {N}}_{0}\parallel {\mathcal {N}}_{1}\right)={\frac {1}{2}}\left(\sum _{i,j=1}^{k}(M_{ij})^{2}-k+|y|^{2}+2\sum _{i=1}^{k}\ln {\frac {(L_{1})_{ii}}{(L_{0})_{ii}}}\right).

Un caso especial y una cantidad común en la inferencia variacional es la entropía relativa entre una distribución normal multivariada diagonal y una distribución normal estándar (con media cero y varianza unitaria):

D_{\text{KL}}\left({\mathcal {N}}\left(\left(\mu _{1},\ldots ,\mu _{k}\right)^{\mathsf {T}},\operatorname {diag} \left(\sigma _{1}^{2},\ldots ,\sigma _{k}^{2}\right)\right)\parallel {\mathcal {N}}\left(\mathbf {0} ,\mathbf {I} \right)\right)={1 \over 2}\sum _{i=1}^{k}\left(\sigma _{i}^{2}+\mu _{i}^{2}-1-\ln \left(\sigma _{i}^{2}\right)\right).

Para dos distribuciones normales univariadas $p$ y $q$ lo anterior se simplifica a ^[28]

D_{\text{KL}}\left({\mathcal {p}}\parallel {\mathcal {q}}\right)=\log {\frac {\sigma _{1}}{\sigma _{0}}}+{\frac {\sigma _{0}^{2}+(\mu _{0}-\mu _{1})^{2}}{2\sigma _{1}^{2}}}-{\frac {1}{2}}

En el caso de distribuciones normales cocentradas con , esto se simplifica ^[29] a: $k=\sigma _{1}/\sigma _{0}$

$D_{\text{KL}}\left({\mathcal {p}}\parallel {\mathcal {q}}\right)=\log _{2}k+(k^{-2}-1)/2/\ln(2)\mathrm {bits}$

Distribuciones uniformes

Consideremos dos distribuciones uniformes, con el apoyo de encerrado dentro de ( ). Entonces la ganancia de información es: $p=[A,B]$ $q=[C,D]$ $C\leq A<B\leq D$

$D_{\text{KL}}\left({\mathcal {p}}\parallel {\mathcal {q}}\right)=\log {\frac {D-C}{B-A}}$

Intuitivamente, ^[29] la ganancia de información en una distribución uniforme $k$ veces más estrecha contiene bits. Esto se relaciona con el uso de bits en computación, donde serían necesarios bits para identificar un elemento de un flujo $k$ de longitud. $\log _{2}k$ $\log _{2}k$

Relación con las métricas

Si bien la entropía relativa es una distancia estadística , no es una métrica en el espacio de distribuciones de probabilidad, sino que es una divergencia . ^[4] Si bien las métricas son simétricas y generalizan la distancia lineal , satisfaciendo la desigualdad triangular , las divergencias son asimétricas en general y generalizan la distancia al cuadrado , en algunos casos satisfaciendo un teorema de Pitágoras generalizado . En general no es igual a , y si bien esto puede simetrizarse (ver § Divergencia simetrizada), la asimetría es una parte importante de la geometría. ^[4] $D_{\text{KL}}(P\parallel Q)$ $D_{\text{KL}}(Q\parallel P)$

Genera una topología en el espacio de distribuciones de probabilidad . Más concretamente, si es una secuencia de distribuciones tal que $\{P_{1},P_{2},\ldots \}$

\lim _{n\to \infty }D_{\text{KL}}(P_{n}\parallel Q)=0

Entonces se dice que

P_{n}{\xrightarrow {D}}Q

La desigualdad de Pinsker implica que

P_{n}\xrightarrow {D} P\Rightarrow P_{n}\xrightarrow {TV} P

donde este último representa la convergencia habitual en la variación total .

Métrica de información de Fisher

La entropía relativa está directamente relacionada con la métrica de información de Fisher . Esto se puede hacer explícito de la siguiente manera. Supongamos que las distribuciones de probabilidad $P$ y $Q$ están parametrizadas por algún parámetro (posiblemente multidimensional) . Consideremos entonces dos valores cercanos de y de modo que el parámetro difiera solo en una pequeña cantidad del valor del parámetro . Específicamente, hasta el primer orden se tiene (usando la convención de suma de Einstein ) $\theta$ $P=P(\theta )$ $Q=P(\theta _{0})$ $\theta$ $\theta _{0}$

P(\theta )=P(\theta _{0})+\Delta \theta _{j}\,P_{j}(\theta _{0})+\cdots

con un pequeño cambio de en la dirección $j$ , y la tasa de cambio correspondiente en la distribución de probabilidad. Dado que la entropía relativa tiene un mínimo absoluto 0 para , es decir , cambia solo a segundo orden en los parámetros pequeños . Más formalmente, como para cualquier mínimo, las primeras derivadas de la divergencia se anulan $\Delta \theta _{j}=(\theta -\theta _{0})_{j}$ $\theta$ $P_{j}\left(\theta _{0}\right)={\frac {\partial P}{\partial \theta _{j}}}(\theta _{0})$ $P=Q$ $\theta =\theta _{0}$ $\Delta \theta _{j}$

\left.{\frac {\partial }{\partial \theta _{j}}}\right|_{\theta =\theta _{0}}D_{\text{KL}}(P(\theta )\parallel P(\theta _{0}))=0,

y por la expansión de Taylor se tiene hasta segundo orden

D_{\text{KL}}(P(\theta )\parallel P(\theta _{0}))={\frac {1}{2}}\,\Delta \theta _{j}\,\Delta \theta _{k}\,g_{jk}(\theta _{0})+\cdots

donde la matriz hessiana de la divergencia

g_{jk}(\theta _{0})=\left.{\frac {\partial ^{2}}{\partial \theta _{j}\,\partial \theta _{k}}}\right|_{\theta =\theta _{0}}D_{\text{KL}}(P(\theta )\parallel P(\theta _{0}))

debe ser semidefinida positiva . Si se permite variar (y se omite el subíndice 0), la hessiana define una métrica de Riemann (posiblemente degenerada) en el espacio de parámetros $θ$ , llamada métrica de información de Fisher. $\theta _{0}$ $g_{jk}(\theta )$

Teorema de la métrica de información de Fisher

Cuando se cumplen las siguientes condiciones de regularidad: $p_{(x,\rho )}$

{\frac {\partial \log(p)}{\partial \rho }},{\frac {\partial ^{2}\log(p)}{\partial \rho ^{2}}},{\frac {\partial ^{3}\log(p)}{\partial \rho ^{3}}}

existir,

{\begin{aligned}\left|{\frac {\partial p}{\partial \rho }}\right|&<F(x):\int _{x=0}^{\infty }F(x)\,dx<\infty ,\\\left|{\frac {\partial ^{2}p}{\partial \rho ^{2}}}\right|&<G(x):\int _{x=0}^{\infty }G(x)\,dx<\infty \\\left|{\frac {\partial ^{3}\log(p)}{\partial \rho ^{3}}}\right|&<H(x):\int _{x=0}^{\infty }p(x,0)H(x)\,dx<\xi <\infty \end{aligned}}

donde $ξ$ es independiente de $ρ$

\left.\int _{x=0}^{\infty }{\frac {\partial p(x,\rho )}{\partial \rho }}\right|_{\rho =0}\,dx=\left.\int _{x=0}^{\infty }{\frac {\partial ^{2}p(x,\rho )}{\partial \rho ^{2}}}\right|_{\rho =0}\,dx=0

entonces:

{\mathcal {D}}(p(x,0)\parallel p(x,\rho ))={\frac {c\rho ^{2}}{2}}+{\mathcal {O}}\left(\rho ^{3}\right){\text{ as }}\rho \to 0.

Variación de la información

Otra métrica de la teoría de la información es la variación de la información , que es aproximadamente una simetrización de la entropía condicional . Es una métrica del conjunto de particiones de un espacio de probabilidad discreto .

Métrica MAUVE

MAUVE es una medida de la brecha estadística entre dos distribuciones de texto, como la diferencia entre el texto generado por un modelo y el texto escrito por humanos. Esta medida se calcula utilizando divergencias de Kullback-Leibler entre las dos distribuciones en un espacio de incrustación cuantificado de un modelo de base.

Relación con otras magnitudes de la teoría de la información

Muchas de las otras cantidades de la teoría de la información pueden interpretarse como aplicaciones de la entropía relativa a casos específicos.

Autoinformación

La autoinformación , también conocida como el contenido de información de una señal, variable aleatoria o evento , se define como el logaritmo negativo de la probabilidad de que ocurra el resultado dado.

Cuando se aplica a una variable aleatoria discreta , la autoinformación se puede representar como ^{[ cita requerida ]}

\operatorname {\operatorname {I} } (m)=D_{\text{KL}}\left(\delta _{\text{im}}\parallel \{p_{i}\}\right),

es la entropía relativa de la distribución de probabilidad de un delta de Kronecker que representa la certeza de que — es decir, la cantidad de bits adicionales que se deben transmitir para identificar $i$ si solo la distribución de probabilidad está disponible para el receptor, no el hecho de que . $P(i)$ $i=m$ $P(i)$ $i=m$

Información mutua

La información mutua ,

{\begin{aligned}\operatorname {I} (X;Y)&=D_{\text{KL}}(P(X,Y)\parallel P(X)P(Y))\\[5pt]&=\operatorname {E} _{X}\{D_{\text{KL}}(P(Y\mid X)\parallel P(Y))\}\\[5pt]&=\operatorname {E} _{Y}\{D_{\text{KL}}(P(X\mid Y)\parallel P(X))\}\end{aligned}}

es la entropía relativa de la distribución de probabilidad conjunta a partir del producto de las dos distribuciones de probabilidad marginal , es decir, el número esperado de bits adicionales que deben transmitirse para identificar $X$ e $Y$ si se codifican utilizando solo sus distribuciones marginales en lugar de la distribución conjunta. De manera equivalente, si se conoce la probabilidad conjunta, es el número esperado de bits adicionales que, en promedio, deben enviarse para identificar $Y$ si el valor de $X$ aún no es conocido por el receptor. $P(X,Y)$ $P(X)P(Y)$ $P(X,Y)$

Entropía de Shannon

La entropía de Shannon ,

{\begin{aligned}\mathrm {H} (X)&=\operatorname {E} \left[\operatorname {I} _{X}(x)\right]\\&=\log(N)-D_{\text{KL}}\left(p_{X}(x)\parallel P_{U}(X)\right)\end{aligned}}

es el número de bits que tendrían que transmitirse para identificar $X$ a partir de $N$ posibilidades igualmente probables, menos la entropía relativa de la distribución uniforme en las variables aleatorias de $X$ , , de la distribución verdadera — es decir , menos el número esperado de bits guardados, que tendrían que haberse enviado si el valor de $X$ se hubiera codificado según la distribución uniforme en lugar de la distribución verdadera . Esta definición de la entropía de Shannon forma la base de la generalización alternativa de ET Jaynes a las distribuciones continuas, la densidad límite de puntos discretos (en oposición a la entropía diferencial habitual ), que define la entropía continua como $P_{U}(X)$ $P(X)$ $P_{U}(X)$ $P(X)$

\lim _{N\rightarrow \infty }H_{N}(X)=\log(N)-\int p(x)\log {\frac {p(x)}{m(x)}}\,dx,

Lo cual es equivalente a:

\log(N)-D_{\text{KL}}(p(x)||m(x))

Entropía condicional

La entropía condicional ^[30] ,

{\begin{aligned}\mathrm {H} (X\mid Y)&=\log(N)-D_{\text{KL}}(P(X,Y)\parallel P_{U}(X)P(Y))\\[5pt]&=\log(N)-D_{\text{KL}}(P(X,Y)\parallel P(X)P(Y))-D_{\text{KL}}(P(X)\parallel P_{U}(X))\\[5pt]&=\mathrm {H} (X)-\operatorname {I} (X;Y)\\[5pt]&=\log(N)-\operatorname {E} _{Y}\left[D_{\text{KL}}\left(P\left(X\mid Y\right)\parallel P_{U}(X)\right)\right]\end{aligned}}

es el número de bits que se tendrían que transmitir para identificar $X$ a partir de $N$ posibilidades igualmente probables, menos la entropía relativa de la distribución del producto a partir de la distribución conjunta verdadera , es decir, menos el número esperado de bits ahorrados que se habrían tenido que enviar si el valor de $X$ se hubiera codificado de acuerdo con la distribución uniforme en lugar de la distribución condicional de $X$ dado $Y.$ $P_{U}(X)P(Y)$ $P(X,Y)$ $P_{U}(X)$ $P(X|Y)$

Entropía cruzada

Cuando tenemos un conjunto de eventos posibles, provenientes de la distribución $p$ , podemos codificarlos (con una compresión de datos sin pérdida ) utilizando codificación de entropía . Esto comprime los datos reemplazando cada símbolo de entrada de longitud fija con un código único, de longitud variable y sin prefijo correspondiente (p. ej.: los eventos (A, B, C) con probabilidades p = (1/2, 1/4, 1/4) se pueden codificar como los bits (0, 10, 11)). Si conocemos la distribución $p$ de antemano, podemos idear una codificación que sea óptima (p. ej.: utilizando la codificación de Huffman ). Lo que significa que los mensajes que codificamos tendrán la longitud más corta en promedio (asumiendo que los eventos codificados se muestrean de $p$ ), que será igual a la entropía de Shannon de $p$ (denotada como ). Sin embargo, si utilizamos una distribución de probabilidad diferente ( $q$ ) al crear el esquema de codificación de entropía, se utilizará un número mayor de bits (en promedio) para identificar un evento de un conjunto de posibilidades. Este nuevo número (mayor) se mide por la entropía cruzada entre $p$ y $q$ . $\mathrm {H} (p)$

La entropía cruzada entre dos distribuciones de probabilidad ( $p$ y $q$ ) mide la cantidad promedio de bits necesarios para identificar un evento de un conjunto de posibilidades, si se utiliza un esquema de codificación basado en una distribución de probabilidad dada $q$ , en lugar de la distribución "real" $p$ . La entropía cruzada para dos distribuciones $p$ y $q$ sobre el mismo espacio de probabilidad se define de la siguiente manera.

\mathrm {H} (p,q)=\operatorname {E} _{p}[-\log(q)]=\mathrm {H} (p)+D_{\text{KL}}(p\parallel q).

Para una derivación explícita de esto, consulte la sección Motivación más arriba.

En este escenario, las entropías relativas (divergencia kl) se pueden interpretar como el número adicional de bits, en promedio, que se necesitan (más allá de ) para codificar los eventos debido al uso de $q$ para construir el esquema de codificación en lugar de $p$ . $\mathrm {H} (p)$

Actualización bayesiana

En las estadísticas bayesianas , la entropía relativa se puede utilizar como una medida de la ganancia de información al pasar de una distribución previa a una distribución posterior : . Si se descubre algún hecho nuevo , se puede utilizar para actualizar la distribución posterior de $X$ a una nueva distribución posterior utilizando el teorema de Bayes : $p(x)\to p(x\mid I)$ $Y=y$ $p(x\mid I)$ $p(x\mid y,I)$

p(x\mid y,I)={\frac {p(y\mid x,I)p(x\mid I)}{p(y\mid I)}}

Esta distribución tiene una nueva entropía :

\mathrm {H} {\big (}p(x\mid y,I){\big )}=-\sum _{x}p(x\mid y,I)\log p(x\mid y,I),

que puede ser menor o mayor que la entropía original . Sin embargo, desde el punto de vista de la nueva distribución de probabilidad se puede estimar que haber utilizado el código original basado en en lugar de un nuevo código basado en habría añadido un número esperado de bits: $\mathrm {H} (p(x\mid I))$ $p(x\mid I)$ $p(x\mid y,I)$

D_{\text{KL}}{\big (}p(x\mid y,I)\parallel p(x\mid I){\big )}=\sum _{x}p(x\mid y,I)\log \left({\frac {p(x\mid y,I)}{p(x\mid I)}}\right)

a la longitud del mensaje. Por lo tanto, esto representa la cantidad de información útil, o ganancia de información, sobre $X$ , que se ha aprendido al descubrir . $Y=y$

Si posteriormente se incorpora otro dato, , se puede actualizar aún más la distribución de probabilidad de $x$ para obtener una nueva estimación aproximada . Si se vuelve a investigar la ganancia de información al utilizar en lugar de , resulta que puede ser mayor o menor que la estimada previamente: $Y_{2}=y_{2}$ $p(x\mid y_{1},y_{2},I)$ $p(x\mid y_{1},I)$ $p(x\mid I)$

\sum _{x}p(x\mid y_{1},y_{2},I)\log \left({\frac {p(x\mid y_{1},y_{2},I)}{p(x\mid I)}}\right)

puede ser ≤ o > que

\displaystyle \sum _{x}p(x\mid y_{1},I)\log \left({\frac {p(x\mid y_{1},I)}{p(x\mid I)}}\right)

y por lo tanto la ganancia de información combinada no obedece a la desigualdad triangular:

D_{\text{KL}}{\big (}p(x\mid y_{1},y_{2},I)\parallel p(x\mid I){\big )}

puede ser <, = o > que

D_{\text{KL}}{\big (}p(x\mid y_{1},y_{2},I)\parallel p(x\mid y_{1},I){\big )}+D_{\text{KL}}{\big (}p(x\mid y_{1},I)\parallel p(x\mid I){\big )}

Todo lo que se puede decir es que, en promedio , al promediar utilizando , los dos lados promediarán. $p(y_{2}\mid y_{1},x,I)$

Diseño experimental bayesiano

Un objetivo común en el diseño experimental bayesiano es maximizar la entropía relativa esperada entre la distribución anterior y la posterior. ^[31] Cuando las posteriores se aproximan a ser distribuciones gaussianas, un diseño que maximiza la entropía relativa esperada se denomina d-óptimo de Bayes .

Información sobre discriminación

La entropía relativa también puede interpretarse como la información de discriminación esperada para más de : la información media por muestra para discriminar a favor de una hipótesis en contra de una hipótesis , cuando la hipótesis es verdadera. ^[32] Otro nombre para esta cantidad, dado por IJ Good , es el peso esperado de la evidencia para más de que se espera de cada muestra. ${\textstyle D_{\text{KL}}{\bigl (}p(x\mid H_{1})\parallel p(x\mid H_{0}){\bigr )}}$ $H_{1}$ $H_{0}$ $H_{1}$ $H_{0}$ $H_{1}$ $H_{1}$ $H_{0}$

El peso esperado de la evidencia para el sobre no es el mismo que la ganancia de información esperada por muestra acerca de la distribución de probabilidad de las hipótesis, $H_{1}$ $H_{0}$ $p(H)$

D_{\text{KL}}(p(x\mid H_{1})\parallel p(x\mid H_{0}))\neq IG=D_{\text{KL}}(p(H\mid x)\parallel p(H\mid I)).

Cualquiera de las dos cantidades puede utilizarse como función de utilidad en el diseño experimental bayesiano, para elegir la siguiente pregunta óptima para investigar, pero en general conducirán a estrategias experimentales bastante diferentes.

En la escala de entropía de la ganancia de información hay muy poca diferencia entre la certeza casi absoluta y la certeza cercana: codificar de acuerdo con una certeza casi absoluta requiere apenas más bits que codificar de acuerdo con una certeza absoluta. Por otra parte, en la escala logit implicada por el peso de la evidencia, la diferencia entre las dos es enorme, infinita quizás; esto podría reflejar la diferencia entre estar casi seguro (a nivel probabilístico) de que, por ejemplo, la hipótesis de Riemann es correcta, en comparación con estar seguro de que es correcta porque uno tiene una prueba matemática. Estas dos escalas diferentes de función de pérdida para la incertidumbre son útiles , según lo bien que cada una refleje las circunstancias particulares del problema en cuestión.

Principio de mínima discriminación de la información

La idea de la entropía relativa como información de discriminación llevó a Kullback a proponer el Principio deInformación de Discriminación Mínima (IDMse debe elegiruna nueva distribución $f$ como sea posible; de modo que los nuevos datos produzcan la menor ganancia de informaciónposible. $f_{0}$ $D_{\text{KL}}(f\parallel f_{0})$

Por ejemplo, si uno tenía una distribución previa sobre $x$ y $a$ , y posteriormente aprendió que la distribución verdadera de $a$ era , entonces la entropía relativa entre la nueva distribución conjunta para $x$ y $a$ , , y la distribución previa anterior sería: $p(x,a)$ $u(a)$ $q(x\mid a)u(a)$

D_{\text{KL}}(q(x\mid a)u(a)\parallel p(x,a))=\operatorname {E} _{u(a)}\left\{D_{\text{KL}}(q(x\mid a)\parallel p(x\mid a))\right\}+D_{\text{KL}}(u(a)\parallel p(a)),

es decir, la suma de la entropía relativa de la distribución anterior para $a$ de la distribución actualizada , más el valor esperado (usando la distribución de probabilidad ) de la entropía relativa de la distribución condicional anterior de la nueva distribución condicional . (Tenga en cuenta que a menudo el valor esperado posterior se denomina entropía relativa condicional (o divergencia condicional de Kullback–Leibler ) y se denota por ^[3]^[30] ) Esto se minimiza si sobre todo el soporte de ; y notamos que este resultado incorpora el teorema de Bayes, si la nueva distribución es de hecho una función δ que representa la certeza de que $a$ tiene un valor particular. $p(a)$ $u(a)$ $u(a)$ $p(x\mid a)$ $q(x\mid a)$ $D_{\text{KL}}(q(x\mid a)\parallel p(x\mid a))$ $q(x\mid a)=p(x\mid a)$ $u(a)$ $u(a)$

La MDI puede considerarse una extensión del principio de razón insuficiente de Laplace y del principio de máxima entropía de E.T. Jaynes . En particular, es la extensión natural del principio de máxima entropía de distribuciones discretas a continuas, para las que la entropía de Shannon deja de ser tan útil (véase entropía diferencial ), pero la entropía relativa sigue siendo igualmente relevante.

En la literatura de ingeniería, el MDI a veces se denomina Principio de entropía cruzada mínima (MCE) o Minxent para abreviar. Minimizar la entropía relativa de $m$ a $p$ con respecto a $m$ es equivalente a minimizar la entropía cruzada de $p$ y $m$ , ya que

\mathrm {H} (p,m)=\mathrm {H} (p)+D_{\text{KL}}(p\parallel m),

lo cual es apropiado si uno está tratando de elegir una aproximación adecuada a $p$ . Sin embargo, con la misma frecuencia esta no es la tarea que uno está tratando de lograr. En cambio, con la misma frecuencia es $m$ la que es una medida de referencia previa fija, y $p$ la que uno está tratando de optimizar al minimizar sujeta a alguna restricción. Esto ha llevado a cierta ambigüedad en la literatura, con algunos autores tratando de resolver la inconsistencia redefiniendo la entropía cruzada como , en lugar de ^[^{cita requerida}^] . $D_{\text{KL}}(p\parallel m)$ $D_{\text{KL}}(p\parallel m)$ $\mathrm {H} (p,m)$

Relación con el trabajo disponible

Gráfico de presión versus volumen del trabajo disponible de un mol de gas argón en relación con el ambiente, calculado como el producto de la divergencia de Kullback-Leibler $T_{o}$

Las sorpresas ^[33] se suman cuando las probabilidades se multiplican. La sorpresa para un evento de probabilidad $p$ se define como . Si $k$ es , entonces la sorpresa está en nats, bits, o de modo que, por ejemplo, hay $N$ bits de sorpresa para que caigan todas "caras" en un lanzamiento de $N$ monedas. $s=k\ln(1/p)$ $\left\{1,1/\ln 2,1.38\times 10^{-23}\right\}$ $\{$ $J/K\}$

Los estados de mejor estimación (por ejemplo, para átomos en un gas) se infieren maximizando la $S$ ( entropía ) sorprendente promedio para un conjunto dado de parámetros de control (como la presión $P$ o el volumen $V$ ). Esta maximización de entropía restringida , tanto clásicamente ^[34] como mecánicamente cuántica ^[35], minimiza la disponibilidad de Gibbs en unidades de entropía ^[36] donde $Z$ es una multiplicidad restringida o función de partición . $A\equiv -k\ln(Z)$

Cuando la temperatura $T$ es fija, la energía libre ( ) también se minimiza. Por lo tanto, si y el número de moléculas $N$ son constantes, la energía libre de Helmholtz (donde $U$ es energía y $S$ es entropía) se minimiza a medida que un sistema se "equilibra". Si $T$ y $P$ se mantienen constantes (por ejemplo, durante los procesos en su cuerpo), la energía libre de Gibbs se minimiza en cambio. El cambio en la energía libre bajo estas condiciones es una medida del trabajo disponible que podría realizarse en el proceso. Por lo tanto, el trabajo disponible para un gas ideal a temperatura y presión constantes es donde y (ver también la desigualdad de Gibbs ). $T\times A$ $T,V$ $F\equiv U-TS$ $G=U+PV-TS$ $T_{o}$ $P_{o}$ $W=\Delta G=NkT_{o}\Theta (V/V_{o})$ $V_{o}=NkT_{o}/P_{o}$ $\Theta (x)=x-1-\ln x\geq 0$

De manera más general ^[37] el trabajo disponible en relación con un ambiente determinado se obtiene multiplicando la temperatura ambiente por la entropía relativa o la sorpresa neta definida como el valor promedio de donde es la probabilidad de un estado dado en condiciones ambientales. Por ejemplo, el trabajo disponible para equilibrar un gas ideal monoatómico a valores ambientales de y es por lo tanto , donde la entropía relativa $T_{o}$ $\Delta I\geq 0,$ $k\ln(p/p_{o})$ $p_{o}$ $V_{o}$ $T_{o}$ $W=T_{o}\Delta I$

\Delta I=Nk\left[\Theta \left({\frac {V}{V_{o}}}\right)+{\frac {3}{2}}\Theta \left({\frac {T}{T_{o}}}\right)\right].

Los contornos resultantes de entropía relativa constante, que se muestran a la derecha para un mol de argón a temperatura y presión estándares, por ejemplo, imponen límites a la conversión de calor a frío como en el aire acondicionado alimentado con llama o en el dispositivo sin energía para convertir agua hirviendo en agua helada analizado aquí. ^[38] Por lo tanto, la entropía relativa mide la disponibilidad termodinámica en bits.

Teoría de la información cuántica

Para las matrices de densidad $P$ y $Q$ en un espacio de Hilbert , la entropía relativa cuántica de $Q$ a $P$ se define como

D_{\text{KL}}(P\parallel Q)=\operatorname {Tr} (P(\log(P)-\log(Q))).

En la ciencia de la información cuántica, el mínimo de todos los estados separables $Q$ también puede usarse como medida del entrelazamiento en el estado $P.$ $D_{\text{KL}}(P\parallel Q)$

Relación entre los modelos y la realidad

Así como la entropía relativa de la "realidad a partir del ambiente" mide la disponibilidad termodinámica, la entropía relativa de la "realidad a partir de un modelo" también es útil incluso si las únicas pistas que tenemos sobre la realidad son algunas mediciones experimentales. En el primer caso, la entropía relativa describe la distancia al equilibrio o (cuando se multiplica por la temperatura ambiente) la cantidad de trabajo disponible , mientras que en el segundo caso nos informa sobre las sorpresas que la realidad tiene bajo la manga o, en otras palabras, cuánto tiene que aprender aún el modelo .

Aunque esta herramienta para evaluar modelos contra sistemas que son accesibles experimentalmente puede aplicarse en cualquier campo, su aplicación para seleccionar un modelo estadístico a través del criterio de información de Akaike está particularmente bien descrita en artículos ^[39] y un libro ^[40] de Burnham y Anderson. En pocas palabras, la entropía relativa de la realidad de un modelo puede estimarse, dentro de un término aditivo constante, mediante una función de las desviaciones observadas entre los datos y las predicciones del modelo (como la desviación cuadrática media ). Las estimaciones de dicha divergencia para modelos que comparten el mismo término aditivo pueden a su vez usarse para seleccionar entre modelos.

Al intentar ajustar modelos parametrizados a los datos, existen varios estimadores que intentan minimizar la entropía relativa, como los estimadores de máxima verosimilitud y de máximo espaciado . ^{[ cita requerida ]}

Divergencia simetrizada

Kullback y Leibler (1951) también consideraron la función simetrizada: ^[6]

D_{\text{KL}}(P\parallel Q)+D_{\text{KL}}(Q\parallel P)

a la que se referían como "divergencia", aunque hoy la "divergencia KL" se refiere a la función asimétrica (véase § Etimología para la evolución del término). Esta función es simétrica y no negativa, y ya había sido definida y utilizada por Harold Jeffreys en 1948; ^[7] por lo que se la llama divergencia de Jeffreys .

Esta cantidad se ha utilizado a veces para la selección de características en problemas de clasificación , donde $P$ y $Q$ son las funciones de densidad de probabilidad condicionales de una característica en dos clases diferentes. En las industrias bancarias y financieras, esta cantidad se conoce como índice de estabilidad de la población ( PSI ) y se utiliza para evaluar los cambios distributivos en las características del modelo a lo largo del tiempo.

Una alternativa se da a través de la -divergencia, $\lambda$

D_{\lambda }(P\parallel Q)=\lambda D_{\text{KL}}(P\parallel \lambda P+(1-\lambda )Q)+(1-\lambda )D_{\text{KL}}(Q\parallel \lambda P+(1-\lambda )Q),

que puede interpretarse como la ganancia de información esperada sobre $X$ al descubrir de qué distribución de probabilidad se extrae $X ,$ $P$ o $Q$ , si actualmente tienen probabilidades y respectivamente. ^[^{aclaración necesaria}^]^[^{cita necesaria}^] $\lambda$ $1-\lambda$

El valor da la divergencia de Jensen-Shannon , definida por $\lambda =0.5$

D_{\text{JS}}={\frac {1}{2}}D_{\text{KL}}(P\parallel M)+{\frac {1}{2}}D_{\text{KL}}(Q\parallel M)

donde $M$ es el promedio de las dos distribuciones,

M={\frac {1}{2}}(P+Q).

También podemos interpretarla como la capacidad de un canal de información ruidoso con dos entradas que dan como resultado las distribuciones de salida $P$ y $Q.$ La divergencia de Jensen-Shannon, como todas las divergencias $f$ , es localmente proporcional a la métrica de información de Fisher . Es similar a la métrica de Hellinger (en el sentido de que induce la misma conexión afín en una variedad estadística ). $D_{\text{JS}}$

Además, la divergencia de Jensen-Shannon se puede generalizar utilizando mezclas estadísticas abstractas M que se basan en una media abstracta M. ^[41]^[42]

Relación con otras medidas de probabilidad-distancia

Existen muchas otras medidas importantes de la distancia de probabilidad . Algunas de ellas están particularmente relacionadas con la entropía relativa. Por ejemplo:

La distancia de variación total , . Esto está conectado a la divergencia a través de la desigualdad de Pinsker : La desigualdad de Pinsker es nula para cualquier distribución donde , ya que la distancia de variación total es como máximo $1$ . Para tales distribuciones, se puede utilizar un límite alternativo, debido a Bretagnolle y Huber ^[43] (ver, también, Tsybakov ^[44] ): $\delta (p,q)$ $\delta (P,Q)\leq {\sqrt {{\frac {1}{2}}D_{\text{KL}}(P\parallel Q)}}.$ $D_{\mathrm {KL} }(P\parallel Q)>2$ $\delta (P,Q)\leq {\sqrt {1-e^{-D_{\mathrm {KL} }(P\parallel Q)}}}.$
La familia de divergencias de Rényi generaliza la entropía relativa. Dependiendo del valor de un determinado parámetro, , se pueden deducir diversas desigualdades. $\alpha$

Otras medidas de distancia notables incluyen la distancia de Hellinger , la intersección del histograma , la estadística de Chi-cuadrado , la distancia de forma cuadrática , la distancia de coincidencia , la distancia de Kolmogorov-Smirnov y la distancia de la excavadora . ^[45]

Diferenciación de datos

Así como la entropía absoluta sirve como base teórica para la compresión de datos , la entropía relativa sirve como base teórica para la diferenciación de datos : la entropía absoluta de un conjunto de datos en este sentido son los datos necesarios para reconstruirlo (tamaño comprimido mínimo), mientras que la entropía relativa de un conjunto de datos de destino, dado un conjunto de datos de origen, son los datos necesarios para reconstruir el destino dada la fuente (tamaño mínimo de un parche ).

Véase también

Distancia de Bhattacharyya

Referencias

^ ab Csiszar, I (febrero de 1975). "Geometría de I-divergencia de distribuciones de probabilidad y problemas de minimización". Ann. Probab . 3 (1): 146–158. doi : 10.1214/aop/1176996454 .
^ Kullback, S. ; Leibler, RA (1951). "Sobre información y suficiencia". Anales de estadística matemática . 22 (1): 79–86. doi : 10.1214/aoms/1177729694 . JSTOR 2236703. MR 0039968.
^ abc Kullback 1959.
^ abcde Amari 2016, pág. 11.
^Ab Amari 2016, pág. 28.
^ desde Kullback y Leibler 1951, pág. 80.
^ desde Jeffreys 1948, pág. 158.
^ Kullback 1959, pág. 7.
^ Kullback, S. (1987). "Carta al editor: La distancia Kullback–Leibler". The American Statistician . 41 (4): 340–341. doi :10.1080/00031305.1987.10475510. JSTOR 2684769.
^ Kullback 1959, pág. 6.
^ MacKay, David JC (2003). Teoría de la información, inferencia y algoritmos de aprendizaje (1.ª ed.). Cambridge University Press. pág. 34. ISBN 9780521642989– a través de Google Books.
^ "¿Cuál es el valor máximo de la divergencia de Kullback-Leibler (KL)?". Aprendizaje automático. Stack Exchange de estadísticas (stats.stackexchange.com) . Validación cruzada.
^ "¿En qué situaciones la integral es igual a infinito?". Integración. Mathematics Stack Exchange (math.stackexchange.com) .
^ Bishop, Christopher M. Reconocimiento de patrones y aprendizaje automático. pág. 55. OCLC 1334664824.
^ Kullback 1959, pág. 5.
^ Burnham, KP; Anderson, DR (2002). Selección de modelos e inferencia multimodelo (2.ª ed.). Springer. pág. 51. ISBN 9780387953649.
^ Kelly, JL Jr. (1956). "Una nueva interpretación de la tasa de información". Bell Syst. Tech. J . 2 (4): 917–926. doi :10.1002/j.1538-7305.1956.tb03809.x.
^ Soklakov, AN (2020). "Economía del desacuerdo: intuición financiera para la divergencia de Rényi". Entropía . 22 (8): 860. arXiv : 1811.08308 . Código Bibliográfico :2020Entrp..22..860S. doi : 10.3390/e22080860 . PMC 7517462 . PMID 33286632.
^ Soklakov, AN (2023). "Geometría de la información de riesgos y retornos". Riesgo . Junio . SSRN 4134885.
^ Sanov, IN (1957). "Sobre la probabilidad de grandes desviaciones de magnitudes aleatorias". Mat. Sbornik . 42 (84): 11–44.
^ Novak SY (2011), Métodos de valor extremo con aplicaciones a las finanzas cap. 14.5 ( Chapman & Hall ). ISBN 978-1-4398-3574-6 .
^ Hobson, Arthur (1971). Conceptos de mecánica estadística . Nueva York: Gordon and Breach. ISBN 978-0677032405.
^ Bonnici, V. (2020). "Divergencia de Kullback-Leibler entre distribuciones cuánticas y su límite superior". arXiv : 2008.05932 [cs.LG].
^ Ver la sección "Entropía diferencial – 4" en la videoconferencia Entropía relativa de Sergio Verdú NIPS 2009
^ Donsker, Monroe D.; Varadhan, SR Srinivasa (1983). "Evaluación asintótica de ciertas expectativas del proceso de Markov para tiempos largos. IV". Communications on Pure and Applied Mathematics . 36 (2): 183–212. doi :10.1002/cpa.3160360204.
^ Lee, Se Yoon (2021). "Inferencia variacional mediante el muestreador de Gibbs y el ascenso de coordenadas: una revisión de la teoría de conjuntos". Communications in Statistics - Theory and Methods . 51 (6): 1549–1568. arXiv : 2008.01006 . doi :10.1080/03610926.2021.1921214. S2CID 220935477.
^ Duchi J. "Derivaciones para álgebra lineal y optimización" (PDF) . pág. 13.
^ Belov, Dmitry I.; Armstrong, Ronald D. (15 de abril de 2011). "Distribuciones de la divergencia de Kullback-Leibler con aplicaciones". British Journal of Mathematical and Statistical Psychology . 64 (2): 291–309. doi :10.1348/000711010x522227. ISSN 0007-1102. PMID 21492134.
^ de Buchner, Johannes (29 de abril de 2022). Una intuición para los físicos: obtención de información a partir de experimentos. OCLC 1363563215.
^ ab Cover, Thomas M.; Thomas, Joy A. (1991), Elementos de la teoría de la información , John Wiley & Sons , pág. 22
^ Chaloner, K.; Verdinelli, I. (1995). "Diseño experimental bayesiano: una revisión". Ciencia estadística . 10 (3): 273–304. doi : 10.1214/ss/1177009939 . hdl : 11299/199630 .
^ Press, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). "Sección 14.7.2. Distancia de Kullback–Leibler". Recetas numéricas: el arte de la computación científica (3.ª ed.). Cambridge University Press. ISBN 978-0-521-88068-8.
^ Tribus, Myron (1959). Termostática y termodinámica: Introducción a la energía, la información y los estados de la materia, con aplicaciones en ingeniería. Van Nostrand.
^ Jaynes, ET (1957). "Teoría de la información y mecánica estadística" (PDF) . Physical Review . 106 (4): 620–630. Bibcode :1957PhRv..106..620J. doi :10.1103/physrev.106.620. S2CID 17870175.
^ Jaynes, ET (1957). "Teoría de la información y mecánica estadística II" (PDF) . Physical Review . 108 (2): 171–190. Bibcode :1957PhRv..108..171J. doi :10.1103/physrev.108.171.
^ Gibbs, Josiah Willard (1871). Un método de representación geométrica de las propiedades termodinámicas de las sustancias por medio de superficies. The Academy.Nota a pie de página página 52.
^ Tribus, M.; McIrvine, EC (1971). "Energía e información". Scientific American . 224 (3): 179–186. Código Bibliográfico :1971SciAm.225c.179T. doi :10.1038/scientificamerican0971-179.
^ Fraundorf, P. (2007). "Raíces térmicas de la complejidad basada en la correlación". Complejidad . 13 (3): 18–26. arXiv : 1103.2481 . Código Bibliográfico :2008Cmplx..13c..18F. doi :10.1002/cplx.20195. S2CID 20794688. Archivado desde el original el 13 de agosto de 2011.
^ Burnham, KP; Anderson, DR (2001). "Información de Kullback-Leibler como base para una inferencia sólida en estudios ecológicos". Wildlife Research . 28 (2): 111–119. doi : 10.1071/WR99107 .
^ Burnham, Kenneth P. (diciembre de 2010). Selección de modelos e inferencia multimodelo: un enfoque práctico basado en la teoría de la información. Springer. ISBN 978-1-4419-2973-0.OCLC 878132909 .
^ Nielsen, Frank (2019). "Sobre la simetrización de distancias de Jensen-Shannon basada en medias abstractas". Entropía . 21 (5): 485. arXiv : 1904.04017 . Bibcode :2019Entrp..21..485N. doi : 10.3390/e21050485 . PMC 7514974 . PMID 33267199.
^ Nielsen, Frank (2020). "Sobre una generalización de la divergencia de Jensen-Shannon y el centroide de Jensen-Shannon". Entropía . 22 (2): 221. arXiv : 1912.00610 . Código Bibliográfico :2020Entrp..22..221N. doi : 10.3390/e22020221 . PMC 7516653 . PMID 33285995.
^ Bretagnolle, J.; Huber, C. (1978), "Estimation des densités : Risque minimax", Séminaire de Probabilités XII, Lecture Notes in Mathematics (en francés), vol. 649, Berlín, Heidelberg: Springer Berlin Heidelberg, págs. 342–363, doi :10.1007/bfb0064610, ISBN 978-3-540-08761-8, S2CID 122597694 , consultado el 14 de febrero de 2023Lema 2.1
^ B.), Tsybakov, AB (Alexandre (2010). Introducción a la estimación no paramétrica. Springer. ISBN 978-1-4419-2709-5.OCLC 757859245 .{{cite book}}: CS1 maint: multiple names: authors list (link)Ecuación 2.25.
^ Rubner, Y.; Tomasi, C.; Guibas, LJ (2000). "La distancia de la excavadora como métrica para la recuperación de imágenes". Revista Internacional de Visión por Computador . 40 (2): 99–121. doi :10.1023/A:1026543900054. S2CID 14106275.

Amari, Shun-ichi (2016). Geometría de la información y sus aplicaciones . Applied Mathematical Sciences. Vol. 194. Springer Japón. pp. XIII, 374. doi :10.1007/978-4-431-55978-8. ISBN 978-4-431-55977-1.
Kullback, Solomon (1959), Teoría de la información y estadística , John Wiley & Sons. Republicado por Dover Publications en 1968; reimpreso en 1978: ISBN 0-8446-5625-9 .
Jeffreys, Harold (1948). Teoría de la probabilidad (segunda edición). Oxford University Press.

Enlaces externos

Caja de herramientas de estimadores teóricos de la información
Gema rubí para calcular la divergencia de Kullback-Leibler
Tutorial de Jon Shlens sobre la divergencia de Kullback-Leibler y la teoría de la verosimilitud
Código Matlab para calcular la divergencia de Kullback-Leibler para distribuciones discretas
Sergio Verdú , Entropía Relativa, NIPS 2009. Conferencia en vídeo de una hora.
Un resumen moderno de las medidas de divergencia infoteórica