f-divergencia

En teoría de la probabilidad , una divergencia es un tipo determinado de función que mide la diferencia entre dos distribuciones de probabilidad y . Muchas divergencias comunes, como la divergencia KL , la distancia de Hellinger y la distancia de variación total , son casos especiales de divergencia. $f$ $D_{f}(P\|Q)$ $P$ $Q$ $f$

Historia

Estas divergencias fueron introducidas por Alfréd Rényi ^[1] en el mismo artículo donde introdujo la conocida entropía de Rényi . Demostró que estas divergencias disminuyen en los procesos de Markov . Las divergencias f fueron estudiadas más a fondo de forma independiente por Csiszár (1963), Morimoto (1963) y Ali & Silvey (1966) y a veces se conocen como divergencias de Csiszár, divergencias de Csiszár–Morimoto o distancias de Ali–Silvey. $f$

Definición

Caso no singular

Sean y dos distribuciones de probabilidad sobre un espacio , tal que , es decir, es absolutamente continua con respecto a . Entonces, para una función convexa tal que es finita para todo , , y (que podría ser infinita), la -divergencia de de se define como $P$ $Q$ $\Omega$ $P\ll Q$ $P$ $Q$ $f:[0,+\infty )\to (-\infty ,+\infty ]$ $f(x)$ $x>0$ $f(1)=0$ $f(0)=\lim _{t\to 0^{+}}f(t)$ $f$ $P$ $Q$

D_{f}(P\parallel Q)\equiv \int _{\Omega }f\left({\frac {dP}{dQ}}\right)\,dQ.

Llamamos al generador de . $f$ $D_{f}$

En aplicaciones concretas, normalmente hay una distribución de referencia en (por ejemplo, cuando , la distribución de referencia es la medida de Lebesgue ), tal que , entonces podemos usar el teorema de Radon-Nikodym para tomar sus densidades de probabilidad y , dando $\mu$ $\Omega$ $\Omega =\mathbb {R} ^{n}$ $P,Q\ll \mu$ $p$ $q$

D_{f}(P\parallel Q)=\int _{\Omega }f\left({\frac {p(x)}{q(x)}}\right)q(x)\,d\mu (x).

Cuando no se dispone de una distribución de referencia de este tipo, podemos simplemente definir y proceder como se indicó anteriormente. Esta es una técnica útil en pruebas más abstractas. $\mu =P+Q$

Extensión amedidas singulares

La definición anterior puede extenderse a los casos en que ya no se cumple (Definición 7.1 de ^[2] ). $P\ll Q$

Como es convexo, y , la función debe ser no decreciente, por lo que existe , que toma valor en . $f$ $f(1)=0$ ${\frac {f(x)}{x-1}}$ $f'(\infty ):=\lim _{x\to \infty }f(x)/x$ $(-\infty ,+\infty ]$

Dado que para cualquier , tenemos , podemos extender la f-divergencia a . $p(x)>0$ $\lim _{q(x)\to 0}q(x)f\left({\frac {p(x)}{q(x)}}\right)=p(x)f'(\infty )$ $P\not \ll Q$

Propiedades

Relaciones básicas entre f-divergencias

Linealidad: dada una secuencia finita de números reales no negativos y generadores . $D_{\sum _{i}a_{i}f_{i}}=\sum _{i}a_{i}D_{f_{i}}$ $a_{i}$ $f_{i}$

$D_{f}=D_{g}$ si para algunos . $f(x)=g(x)+c(x-1)$ $c\in \mathbb {R}$

Prueba

Si , entonces por definición. $f(x)=g(x)+c(x-1)$ $D_{f}=D_{g}$

Por el contrario, si , entonces sea . Para dos medidas de probabilidad cualesquiera en el conjunto , ya que , obtenemos $D_{f}-D_{g}=0$ $h=f-g$ $P,Q$ $\{0,1\}$ $D_{f}(P\|Q)-D_{g}(P\|Q)=0$ $h(P_{1}/Q_{1})=-{\frac {Q_{0}}{Q_{1}}}h(P_{0}/Q_{0})$

Dado que cada medida de probabilidad tiene un grado de libertad, podemos resolver para cada elección de . $P,Q$ ${\frac {P_{0}}{Q_{0}}}=a,{\frac {P_{1}}{Q_{1}}}=x$ $0<a<1<x$

El álgebra lineal da como resultado , que es una medida de probabilidad válida. Entonces obtenemos . $Q_{0}={\frac {x-1}{x-a}},Q_{1}={\frac {1-a}{x-a}}$ $h(x)={\frac {h(a)}{a-1}}(x-1),h(a)={\frac {h(x)}{x-1}}(a-1)$

Por lo tanto, para algunas constantes . Al introducir la fórmula en se obtiene . $h(x)={\begin{cases}c_{1}(x-1)\quad {\text{if }}x>1,\\c_{0}(x-1)\quad {\text{if }}0<x<1,\\\end{cases}}$ $c_{0},c_{1}$ $h(x)={\frac {h(a)}{a-1}}(x-1)$ $c_{0}=c_{1}$

Propiedades básicas de las f-divergencias

No negatividad : la divergencia ƒ es siempre positiva; es cero si las medidas P y Q coinciden. Esto se deduce inmediatamente de la desigualdad de Jensen :
$D_{f}(P\!\parallel \!Q)=\int \!f{\bigg (}{\frac {dP}{dQ}}{\bigg )}dQ\geq f{\bigg (}\int {\frac {dP}{dQ}}dQ{\bigg )}=f(1)=0.$
Desigualdad de procesamiento de datos : si κ es una probabilidad de transición arbitraria que transforma las medidas P y Q en P _κ y Q _κ correspondientemente, entonces
$D_{f}(P\!\parallel \!Q)\geq D_{f}(P_{\kappa }\!\parallel \!Q_{\kappa }).$
La igualdad aquí se cumple si y sólo si la transición se induce a partir de una estadística suficiente con respecto a { P , Q }.
Convexidad articular : para cualquier 0 ≤ λ ≤ 1 ,
$D_{f}{\Big (}\lambda P_{1}+(1-\lambda )P_{2}\parallel \lambda Q_{1}+(1-\lambda )Q_{2}{\Big )}\leq \lambda D_{f}(P_{1}\!\parallel \!Q_{1})+(1-\lambda )D_{f}(P_{2}\!\parallel \!Q_{2}).$
Esto se desprende de la convexidad del mapeo en . $(p,q)\mapsto qf(p/q)$ $\mathbb {R} _{+}^{2}$
Inversión por inversión convexa : para cualquier función , su inversión convexa se define como . Cuando satisface las características definitorias de un generador de f-divergencia ( es finito para todos , , y ), entonces satisface las mismas características y, por lo tanto, define una f-divergencia . Esta es la "inversa" de , en el sentido de que para todos los que son absolutamente continuos entre sí. De esta manera, cada f-divergencia puede volverse simétrica por . Por ejemplo, realizar esta simetrización convierte la KL-divergencia en divergencia de Jeffreys. $f$ $g(t):=tf(1/t)$ $f$ $f(x)$ $x>0$ $f(1)=0$ $f(0)=\lim _{t\to 0^{+}}f(t)$ $g$ $D_{g}$ $D_{f}$ $D_{g}(P\|Q)=D_{f}(Q\|P)$ $P,Q$ $D_{f}$ $D_{{\frac {1}{2}}(f+g)}$

En particular, la monotonía implica que si un proceso de Markov tiene una distribución de probabilidad de equilibrio positiva , entonces es una función monótona (no creciente) del tiempo, donde la distribución de probabilidad es una solución de las ecuaciones directas de Kolmogorov (o ecuación maestra ), utilizada para describir la evolución temporal de la distribución de probabilidad en el proceso de Markov. Esto significa que todas las f -divergencias son las funciones de Lyapunov de las ecuaciones directas de Kolmogorov. La afirmación inversa también es verdadera: Si es una función de Lyapunov para todas las cadenas de Markov con equilibrio positivo y es de la forma traza ( ) entonces , para alguna función convexa f . ^[3]^[4] Por ejemplo, las divergencias de Bregman en general no tienen dicha propiedad y pueden aumentar en los procesos de Markov. ^[5] $P^{*}$ $D_{f}(P(t)\parallel P^{*})$ $P(t)$ $D_{f}(P(t)\parallel P^{*})$ $H(P)$ $P^{*}$ $H(P)=\sum _{i}f(P_{i},P_{i}^{*})$ $H(P)=D_{f}(P(t)\parallel P^{*})$

Propiedades analíticas

Las f-divergencias pueden expresarse utilizando series de Taylor y reescribirse utilizando una suma ponderada de distancias de tipo chi (Nielsen y Nock (2013)).

Representación variacional ingenua

Sea el conjugado convexo de . Sea el dominio efectivo de , es decir, . Entonces tenemos dos representaciones variacionales de , que describimos a continuación. $f^{*}$ $f$ $\mathrm {effdom} (f^{*})$ $f^{*}$ $\mathrm {effdom} (f^{*})=\{y:f^{*}(y)<\infty \}$ $D_{f}$

Representación variacional básica

Con la configuración anterior,

Teorema — . $D_{f}(P;Q)=\sup _{g:\Omega \to \mathrm {effdom} (f^{*})}E_{P}[g]-E_{Q}[f^{*}\circ g]$

Este es el teorema 7,24. ^[2]

Ejemplos de aplicaciones

Usando este teorema sobre la distancia de variación total, con generador su conjugado convexo es , y obtenemos Para la divergencia chi-cuadrado, definida por , obtenemos Dado que el término de variación no es afín-invariante en , aunque el dominio sobre el cual varía es afín-invariante, podemos usar la invariancia afín para obtener una expresión más simple. $f(x)={\frac {1}{2}}|x-1|,$ $f^{*}(x^{*})={\begin{cases}x^{*}{\text{ on }}[-1/2,1/2],\\+\infty {\text{ else.}}\end{cases}}$ $TV(P\|Q)=\sup _{|g|\leq 1/2}E_{P}[g(X)]-E_{Q}[g(X)].$ $f(x)=(x-1)^{2},f^{*}(y)=y^{2}/4+y$ $\chi ^{2}(P;Q)=\sup _{g}E_{P}[g(X)]-E_{Q}[g(X)^{2}/4+g(X)].$ $g$ $g$

Reemplazando por y tomando el máximo sobre , obtenemos que está a sólo unos pasos del límite de Hammersley–Chapman–Robbins y del límite de Cramér–Rao (Teorema 29.1 y su corolario en ^[2] ). $g$ $ag+b$ $a,b\in \mathbb {R}$ $\chi ^{2}(P;Q)=\sup _{g}{\frac {(E_{P}[g(X)]-E_{Q}[g(X)])^{2}}{Var_{Q}[g(X)]}},$

Para -divergencia con , tenemos , con rango . Su conjugado convexo es con rango , donde . $\alpha$ $\alpha \in (-\infty ,0)\cup (0,1)$ $f_{\alpha }(x)={\frac {x^{\alpha }-\alpha x-(1-\alpha )}{\alpha (\alpha -1)}}$ $x\in [0,\infty )$ $f_{\alpha }^{*}(y)={\frac {1}{\alpha }}(x(y)^{\alpha }-1)$ $y\in (-\infty ,(1-\alpha )^{-1})$ $x(y)=((\alpha -1)y+1)^{\frac {1}{\alpha -1}}$

La aplicación de este teorema produce, después de sustituir con , o, liberando la restricción en , El establecimiento produce la representación variacional de la -divergencia obtenida anteriormente. $h=((\alpha -1)g+1)^{\frac {1}{\alpha -1}}$ $D_{\alpha }(P\|Q)={\frac {1}{\alpha (1-\alpha )}}-\inf _{h:\Omega \to (0,\infty )}\left(E_{Q}\left[{\frac {h^{\alpha }}{\alpha }}\right]+E_{P}\left[{\frac {h^{\alpha -1}}{1-\alpha }}\right]\right),$ $h$ $D_{\alpha }(P\|Q)={\frac {1}{\alpha (1-\alpha )}}-\inf _{h:\Omega \to \mathbb {R} }\left(E_{Q}\left[{\frac {|h|^{\alpha }}{\alpha }}\right]+E_{P}\left[{\frac {|h|^{\alpha -1}}{1-\alpha }}\right]\right).$ $\alpha =-1$ $\chi ^{2}$

El dominio sobre el cual varía no es invariante afín en general, a diferencia del caso de la divergencia. La divergencia es especial, ya que en ese caso podemos eliminar el de . $h$ $\chi ^{2}$ $\chi ^{2}$ $|\cdot |$ $|h|$

Para general , el dominio sobre el cual varía es simplemente invariante de escala. De manera similar a lo anterior, podemos reemplazar por , y tomar el mínimo para obtener Si establecemos , y realizamos otra sustitución por , obtenemos dos representaciones variacionales de la distancia Hellinger al cuadrado: Si aplicamos este teorema a la divergencia KL, definida por , obtenemos Esto es estrictamente menos eficiente que la representación de Donsker-Varadhan Este defecto se corrige con el siguiente teorema. $\alpha \in (-\infty ,0)\cup (0,1)$ $h$ $h$ $ah$ $a>0$ $D_{\alpha }(P\|Q)=\sup _{h>0}\left[{\frac {1}{\alpha (1-\alpha )}}\left(1-{\frac {E_{P}[h^{\alpha -1}]^{\alpha }}{E_{Q}[h^{\alpha }]^{\alpha -1}}}\right)\right].$ $\alpha ={\frac {1}{2}}$ $g={\sqrt {h}}$ $H^{2}(P\|Q)={\frac {1}{2}}D_{1/2}(P\|Q)=2-\inf _{h>0}\left(E_{Q}\left[h(X)\right]+E_{P}\left[h(X)^{-1}\right]\right),$ $H^{2}(P\|Q)=2\sup _{h>0}\left(1-{\sqrt {E_{P}[h^{-1}]E_{Q}[h]}}\right).$ $f(x)=x\ln x,f^{*}(y)=e^{y-1}$ $D_{KL}(P;Q)=\sup _{g}E_{P}[g(X)]-e^{-1}E_{Q}[e^{g(X)}].$ $D_{KL}(P;Q)=\sup _{g}E_{P}[g(X)]-\ln E_{Q}[e^{g(X)}].$

Representación variacional mejorada

Supongamos la configuración presentada al comienzo de esta sección ("Representaciones variacionales").

Teorema — Si está activado (redefinir si es necesario), entonces $f(x)=+\infty$ $x<0$ $f$

$D_{f}(P\|Q)=f^{\prime }(\infty )P\left[S^{c}\right]+\sup _{g}\mathbb {E} _{P}\left[g1_{S}\right]-\Psi _{Q,P}^{*}(g)$ ,

donde y , donde es la función de densidad de probabilidad de con respecto a alguna medida subyacente. $\Psi _{Q,P}^{*}(g):=\inf _{a\in \mathbb {R} }\mathbb {E} _{Q}\left[f^{*}(g(X)-a)\right]+aP[S]$ $S:=\{q>0\}$ $q$ $Q$

En el caso especial de , tenemos $f^{\prime }(\infty )=+\infty$

$D_{f}(P\|Q)=\sup _{g}\mathbb {E} _{P}[g]-\Psi _{Q}^{*}(g),\quad \Psi _{Q}^{*}(g):=\inf _{a\in \mathbb {R} }\mathbb {E} _{Q}\left[f^{*}(g(X)-a)\right]+a$ .

Este es el teorema 7,25. ^[2]

Ejemplos de aplicaciones

La aplicación de este teorema a la divergencia KL produce la representación de Donsker-Varadhan.

Intentar aplicar este teorema a la divergencia general con no produce una solución de forma cerrada. $\alpha$ $\alpha \in (-\infty ,0)\cup (0,1)$

Ejemplos comunes deF-divergencias

En la siguiente tabla se enumeran muchas de las divergencias comunes entre distribuciones de probabilidad y las posibles funciones generadoras a las que corresponden. Cabe destacar que, a excepción de la distancia de variación total, todas las demás son casos especiales de divergencia o sumas lineales de divergencias. $\alpha$ $\alpha$

Para cada f-divergencia , su función generadora no está definida de forma única, sino solo hasta , donde es una constante real cualquiera. Es decir, para cualquier que genere una f-divergencia, tenemos . Esta libertad no solo es conveniente, sino realmente necesaria. $D_{f}$ $c\cdot (t-1)$ $c$ $f$ $D_{f(t)}=D_{f(t)+c\cdot (t-1)}$

Comparación entre los generadores de divergencias alfa, ya que alfa varía de -1 a 2.

Sea el generador de la divergencia , entonces y son inversiones convexas entre sí, por lo que . En particular, esto demuestra que la distancia al cuadrado de Hellinger y la divergencia de Jensen-Shannon son simétricas. $f_{\alpha }$ $\alpha$ $f_{\alpha }$ $f_{1-\alpha }$ $D_{\alpha }(P\|Q)=D_{1-\alpha }(Q\|P)$

En la literatura, las divergencias a veces se parametrizan como $\alpha$

${\begin{cases}{\frac {4}{1-\alpha ^{2}}}{\big (}1-t^{(1+\alpha )/2}{\big )},&{\text{if}}\ \alpha \neq \pm 1,\\t\ln t,&{\text{if}}\ \alpha =1,\\-\ln t,&{\text{if}}\ \alpha =-1\end{cases}}$

lo que equivale a la parametrización en esta página sustituyendo . $\alpha \leftarrow {\frac {\alpha +1}{2}}$

Relaciones con otras divergencias estadísticas

Aquí, comparamos las divergencias f con otras divergencias estadísticas .

Divergencia de Rényi

Las divergencias de Rényi son una familia de divergencias definidas por

$R_{\alpha }(P\|Q)={\frac {1}{\alpha -1}}\log {\Bigg (}E_{Q}\left[\left({\frac {dP}{dQ}}\right)^{\alpha }\right]{\Bigg )}\,$

cuando . Se extiende a los casos de tomando el límite. $\alpha \in (0,1)\cup (1,+\infty )$ $\alpha =0,1,+\infty$

El álgebra simple muestra que , donde es la -divergencia definida anteriormente. $R_{\alpha }(P\|Q)={\frac {1}{\alpha -1}}\ln(1+\alpha (\alpha -1)D_{\alpha }(P\|Q))$ $D_{\alpha }$ $\alpha$

Divergencia de Bregman

La única divergencia f que también es una divergencia de Bregman es la divergencia KL. ^[6]

Métricas de probabilidad integral

La única f-divergencia que también es una métrica de probabilidad integral es la variación total. ^[7]

Interpretación financiera

Un par de distribuciones de probabilidad puede considerarse como un juego de azar en el que una de las distribuciones define las probabilidades oficiales y la otra contiene las probabilidades reales. El conocimiento de las probabilidades reales permite a un jugador obtener beneficios del juego. Para una clase grande de jugadores racionales, la tasa de beneficio esperada tiene la misma forma general que la divergencia ƒ . ^[8]

Véase también

Referencias

^ Rényi, Alfréd (1961). Sobre medidas de entropía e información (PDF) . El 4º Simposio de Berkeley sobre Matemáticas, Estadística y Probabilidad, 1960. Berkeley, CA: University of California Press. pp. 547–561.Ecuación (4.20)
^ abcd Polyanskiy, Yury; Yihong, Wu (2022). Teoría de la información: de la codificación al aprendizaje (borrador del 20 de octubre de 2022) (PDF) . Cambridge University Press. Archivado desde el original (PDF) el 1 de febrero de 2023.
^ Gorban, Pavel A. (15 de octubre de 2003). "Entropías monótonamente equivalentes y solución de la ecuación de aditividad". Physica A . 328 (3–4): 380–390. arXiv : cond-mat/0304131 . Código Bibliográfico :2003PhyA..328..380G. doi :10.1016/S0378-4371(03)00578-8. S2CID 14975501.
^ Amari, Shun'ichi (2009). Leung, CS; Lee, M.; Chan, JH (eds.). Divergencia, optimización, geometría . La 16.ª Conferencia internacional sobre procesamiento de información neuronal (ICONIP 20009), Bangkok, Tailandia, del 1 al 5 de diciembre de 2009. Lecture Notes in Computer Science, vol. 5863. Berlín, Heidelberg: Springer. págs. 185–193. doi :10.1007/978-3-642-10677-4_21.
^ Gorban, Alexander N. (29 de abril de 2014). "Teorema H general y entropías que violan la segunda ley". Entropía . 16 (5): 2408–2432. arXiv : 1212.6767 . Código Bibliográfico :2014Entrp..16.2408G. doi : 10.3390/e16052408 .
^ Jiao, Jiantao; Courtade, Thomas; No, Albert; Venkat, Kartik; Weissman, Tsachy (diciembre de 2014). "Medidas de información: el curioso caso del alfabeto binario". IEEE Transactions on Information Theory . 60 (12): 7616–7626. arXiv : 1404.6810 . doi :10.1109/TIT.2014.2360184. ISSN 0018-9448. S2CID 13108908.
^ Sriperumbudur, Bharath K.; Fukumizu, Kenji; Gretton, Arthur; Schölkopf, Bernhard ; Lanckriet, Gert RG (2009). "Sobre métricas de probabilidad integral, divergencias φ y clasificación binaria". arXiv : 0901.2698 [cs.IT].
^ Soklakov, Andrei N. (2020). "Economía del desacuerdo: intuición financiera para la divergencia de Rényi". Entropía . 22 (8): 860. arXiv : 1811.08308 . Código Bibliográfico :2020Entrp..22..860S. doi : 10.3390/e22080860 . PMC 7517462 . PMID 33286632.

Csiszár, I. (1963). "Eine informationstheoretische Ungleichung und ihre Anwendung auf den Beweis der Ergodizitat von Markoffschen Ketten". Magiar. Tud. Akád. Estera. Aeropuerto Internacional de Kutato. Kozl . 8 : 85-108.
Morimoto, T. (1963). "Procesos de Markov y el teorema H". J. Phys. Soc. Jpn . 18 (3): 328–331. Código Bibliográfico :1963JPSJ...18..328M. doi :10.1143/JPSJ.18.328.
Ali, SM; Silvey, SD (1966). "Una clase general de coeficientes de divergencia de una distribución respecto de otra". Revista de la Royal Statistical Society, Serie B . 28 (1): 131–142. JSTOR 2984279. MR 0196777.
Csiszár, I. (1967). "Medidas de tipo informativo de la diferencia de distribuciones de probabilidad y observación indirecta". Studia Scientiarum Mathematicarum Hungarica . 2 : 229–318.
Csiszár, I. ; Shields, P. (2004). "Teoría de la información y estadística: un tutorial" (PDF) . Fundamentos y tendencias en teoría de la información y las comunicaciones . 1 (4): 417–528. doi :10.1561/0100000004 . Consultado el 8 de abril de 2009 .
Liese, F.; Vajda, I. (2006). "Sobre divergencias e informaciones en estadística y teoría de la información". IEEE Transactions on Information Theory . 52 (10): 4394–4412. doi :10.1109/TIT.2006.881731. S2CID 2720215.
Nielsen, F.; Nock, R. (2013). "Sobre el Chi cuadrado y las distancias Chi de orden superior para aproximar divergencias f". IEEE Signal Processing Letters . 21 (1): 10–13. arXiv : 1309.3029 . Bibcode :2014ISPL...21...10N. doi :10.1109/LSP.2013.2288355. S2CID 4152365.
Coeurjolly, JF.; Drouilhet, R. (2006). "Divergencias normalizadas basadas en información". arXiv : math/0604246 .