f-divergencia

En teoría de la probabilidad , una divergencia es un cierto tipo de función que mide la diferencia entre dos distribuciones de probabilidad y . Muchas divergencias comunes, como la divergencia KL , la distancia de Hellinger y la distancia de variación total , son casos especiales de divergencia. $f$ $D_{f}(P\|Q)$ $P$ $Q$ $f$

Historia

Estas divergencias fueron introducidas por Alfréd Rényi ^[1] en el mismo artículo donde introdujo la conocida entropía de Rényi . Demostró que estas divergencias disminuyen en los procesos de Markov . Las f -divergencias fueron estudiadas más a fondo de forma independiente por Csiszár (1963), Morimoto (1963) y Ali & Silvey (1966) y a veces se las conoce como Csiszár -divergencias, divergencias Csiszár-Morimoto o distancias Ali-Silvey. $f$

Definición

Caso no singular

Sean y dos distribuciones de probabilidad sobre un espacio , tal que , es decir, es absolutamente continua con respecto a . Entonces, para una función convexa tal que sea finita para todos , y (que podría ser infinita), la divergencia de desde se define como $P$ $Q$ $\Omega$ $P\ll Q$ $P$ $Q$ $f:[0,+\infty )\to (-\infty ,+\infty ]$ $f(x)$ $x>0$ $f(1)=0$ $f(0)=\lim _{t\to 0^{+}}f(t)$ $f$ $P$ $Q$

D_{f}(P\parallel Q)\equiv \int _{\Omega }f\left({\frac {dP}{dQ}}\right)\,dQ.

Llamamos al generador de . $f$ $D_{f}$

En aplicaciones concretas, suele haber una distribución de referencia en (por ejemplo, cuando , la distribución de referencia es la medida de Lebesgue ), de modo que , entonces podemos usar el teorema de Radon-Nikodym para tomar sus densidades de probabilidad y , dando $\mu$ $\Omega$ $\Omega =\mathbb {R} ^{n}$ $P,Q\ll \mu$ $p$ $q$

D_{f}(P\parallel Q)=\int _{\Omega }f\left({\frac {p(x)}{q(x)}}\right)q(x)\,d\mu (x).

Cuando no exista dicha distribución de referencia disponible, simplemente podemos definir y proceder como se indicó anteriormente. Esta es una técnica útil en pruebas más abstractas. $\mu =P+Q$

Ampliación a medidas singulares

La definición anterior se puede ampliar a los casos en los que ya no se cumple (Definición 7.1 de ^[2] ). $P\ll Q$

Dado que es convexo y , la función no debe disminuir, por lo que existe , que toma valor en . $f$ $f(1)=0$ ${\frac {f(x)}{x-1}}$ $f'(\infty ):=\lim _{x\to \infty }f(x)/x$ $(-\infty ,+\infty ]$

Dado que para cualquiera tenemos , podemos extender la divergencia f a . $p(x)>0$ $\lim _{q(x)\to 0}q(x)f\left({\frac {p(x)}{q(x)}}\right)=p(x)f'(\infty )$ $P\not \ll Q$

Propiedades

Relaciones básicas entre f-divergencias

Linealidad: dada una secuencia finita de números reales no negativos y generadores . $D_{\sum _{i}a_{i}f_{i}}=\sum _{i}a_{i}D_{f_{i}}$ $a_{i}$ $f_{i}$

$D_{f}=D_{g}$ si para algunos . $f(x)=g(x)+c(x-1)$ $c\in \mathbb {R}$

Prueba

Si , entonces por definición. $f(x)=g(x)+c(x-1)$ $D_{f}=D_{g}$

Por el contrario, si , entonces dejemos . Para dos medidas de probabilidad cualesquiera en el conjunto , ya que , obtenemos $D_{f}-D_{g}=0$ $h=f-g$ $P,Q$ $\{0,1\}$ $D_{f}(P\|Q)-D_{g}(P\|Q)=0$ $h(P_{1}/Q_{1})=-{\frac {Q_{0}}{Q_{1}}}h(P_{0}/Q_{0})$

Dado que cada medida de probabilidad tiene un grado de libertad, podemos resolver cada elección de . $P,Q$ ${\frac {P_{0}}{Q_{0}}}=a,{\frac {P_{1}}{Q_{1}}}=x$ $0<a<1<x$

El álgebra lineal produce , que es una medida de probabilidad válida. Entonces obtenemos . $Q_{0}={\frac {x-1}{x-a}},Q_{1}={\frac {1-a}{x-a}}$ $h(x)={\frac {h(a)}{a-1}}(x-1),h(a)={\frac {h(x)}{x-1}}(a-1)$

Así, para algunas constantes . Introducir la fórmula en rendimientos . $h(x)={\begin{cases}c_{1}(x-1)\quad {\text{if }}x>1,\\c_{0}(x-1)\quad {\text{if }}0<x<1,\\\end{cases}}$ $c_{0},c_{1}$ $h(x)={\frac {h(a)}{a-1}}(x-1)$ $c_{0}=c_{1}$

Propiedades básicas de las f-divergencias.

No negatividad : la ƒ -divergencia es siempre positiva; es cero si las medidas P y Q coinciden. Esto se sigue inmediatamente de la desigualdad de Jensen :
$D_{f}(P\!\parallel \!Q)=\int \!f{\bigg (}{\frac {dP}{dQ}}{\bigg )}dQ\geq f{\bigg (}\int {\frac {dP}{dQ}}dQ{\bigg )}=f(1)=0.$
Desigualdad en el procesamiento de datos : si κ es una probabilidad de transición arbitraria que transforma las medidas P y Q en P _κ y Q _κ correspondientemente, entonces
$D_{f}(P\!\parallel \!Q)\geq D_{f}(P_{\kappa }\!\parallel \!Q_{\kappa }).$
La igualdad aquí se cumple si y sólo si la transición se induce a partir de un estadístico suficiente con respecto a { P , Q }.
Convexidad conjunta : para cualquier 0 ≤ λ ≤ 1 ,
$D_{f}{\Big (}\lambda P_{1}+(1-\lambda )P_{2}\parallel \lambda Q_{1}+(1-\lambda )Q_{2}{\Big )}\leq \lambda D_{f}(P_{1}\!\parallel \!Q_{1})+(1-\lambda )D_{f}(P_{2}\!\parallel \!Q_{2}).$
Esto se desprende de la convexidad del mapeo en . $(p,q)\mapsto qf(p/q)$ $\mathbb {R} _{+}^{2}$
Inversión por inversión convexa : para cualquier función , su inversión convexa se define como . Cuando satisface las características definitorias de un generador de f-divergencia ( es finito para todos , y ), entonces satisface las mismas características y, por lo tanto, define una f-divergencia . Este es el "inverso" de , en el sentido de que todos son absolutamente continuos entre sí. De esta manera, cada f-divergencia puede volverse simétrica mediante . Por ejemplo, realizar esta simetrización convierte la divergencia KL en divergencia Jensen-Shannon. $f$ $g(t):=tf(1/t)$ $f$ $f(x)$ $x>0$ $f(1)=0$ $f(0)=\lim _{t\to 0^{+}}f(t)$ $g$ $D_{g}$ $D_{f}$ $D_{g}(P\|Q)=D_{f}(Q\|P)$ $P,Q$ $D_{f}$ $D_{{\frac {1}{2}}(f+g)}$

En particular, la monotonicidad implica que si un proceso de Markov tiene una distribución de probabilidad de equilibrio positiva , entonces es una función monótona (no creciente) del tiempo, donde la distribución de probabilidad es una solución de las ecuaciones directas de Kolmogorov (o ecuación maestra ), utilizada para describir la evolución temporal de la distribución de probabilidad en el proceso de Markov. Esto significa que todas las f -divergencias son funciones de Lyapunov de las ecuaciones directas de Kolmogorov. La afirmación inversa también es cierta: si es una función de Lyapunov para todas las cadenas de Markov con equilibrio positivo y tiene la forma de traza ( ), entonces , para alguna función convexa f . ^[3]^[4] Por ejemplo, las divergencias de Bregman en general no tienen tal propiedad y pueden aumentar en los procesos de Markov. ^[5] $P^{*}$ $D_{f}(P(t)\parallel P^{*})$ $P(t)$ $D_{f}(P(t)\parallel P^{*})$ $H(P)$ $P^{*}$ $H(P)=\sum _{i}f(P_{i},P_{i}^{*})$ $H(P)=D_{f}(P(t)\parallel P^{*})$

Propiedades analíticas

Las f-divergencias pueden expresarse utilizando series de Taylor y reescribirse utilizando una suma ponderada de distancias tipo chi (Nielsen y Nock (2013)).

Representación variacional ingenua

Sea el conjugado convexo de . Sea el dominio efectivo de , es decir, . Luego tenemos dos representaciones variacionales de , que describimos a continuación. $f^{*}$ $f$ $\mathrm {effdom} (f^{*})$ $f^{*}$ $\mathrm {effdom} (f^{*})=\{y:f^{*}(y)<\infty \}$ $D_{f}$

Representación variacional básica

Bajo la configuración anterior,

Teorema— . $D_{f}(P;Q)=\sup _{g:\Omega \to \mathrm {effdom} (f^{*})}E_{P}[g]-E_{Q}[f^{*}\circ g]$

Este es el teorema 7,24 pulg. ^[2]

Aplicaciones de ejemplo

Usando este teorema sobre la distancia de variación total, con generador su conjugado convexo es y obtenemos $f(x)={\frac {1}{2}}|x-1|,$ $f^{*}(x^{*})={\begin{cases}x^{*}{\text{ on }}[-1/2,1/2],\\+\infty {\text{ else.}}\end{cases}}$

TV(P\|Q)=\sup _{|g|\leq 1/2}E_{P}[g(X)]-E_{Q}[g(X)].

f(x)=(x-1)^{2},f^{*}(y)=y^{2}/4+y

\chi ^{2}(P;Q)=\sup _{g}E_{P}[g(X)]-E_{Q}[g(X)^{2}/4+g(X)].

g

g

Reemplazando por y tomando el máximo , obtenemos $g$ $ag+b$ $a,b\in \mathbb {R}$

\chi ^{2}(P;Q)=\sup _{g}{\frac {(E_{P}[g(X)]-E_{Q}[g(X)])^{2}}{Var_{Q}[g(X)]}},

límite de Hammersley-Chapman-Robbins límite de Cramér-Rao^[2]

Para -divergencia con , tenemos , con rango . Su conjugado convexo es con rango , donde . $\alpha$ $\alpha \in (-\infty ,0)\cup (0,1)$ $f_{\alpha }(x)={\frac {x^{\alpha }-\alpha x-(1-\alpha )}{\alpha (\alpha -1)}}$ $x\in [0,\infty )$ $f_{\alpha }^{*}(y)={\frac {1}{\alpha }}(x(y)^{\alpha }-1)$ $y\in (-\infty ,(1-\alpha )^{-1})$ $x(y)=((\alpha -1)y+1)^{\frac {1}{\alpha -1}}$

Aplicando este teorema se obtiene, después de sustituir con , $h=((\alpha -1)g+1)^{\frac {1}{\alpha -1}}$

D_{\alpha }(P\|Q)={\frac {1}{\alpha (1-\alpha )}}-\inf _{h:\Omega \to (0,\infty )}\left(E_{Q}\left[{\frac {h^{\alpha }}{\alpha }}\right]+E_{P}\left[{\frac {h^{\alpha -1}}{1-\alpha }}\right]\right),

h

D_{\alpha }(P\|Q)={\frac {1}{\alpha (1-\alpha )}}-\inf _{h:\Omega \to \mathbb {R} }\left(E_{Q}\left[{\frac {|h|^{\alpha }}{\alpha }}\right]+E_{P}\left[{\frac {|h|^{\alpha -1}}{1-\alpha }}\right]\right).

\alpha =-1

\chi ^{2}

El dominio sobre el cual varía no es invariante afín en general, a diferencia del caso de divergencia. La divergencia es especial, ya que en ese caso podemos eliminar from . $h$ $\chi ^{2}$ $\chi ^{2}$ $|\cdot |$ $|h|$

En general , el dominio sobre el que varía es simplemente invariante de escala. De manera similar a lo anterior, podemos reemplazar por y tomar el mínimo para obtener $\alpha \in (-\infty ,0)\cup (0,1)$ $h$ $h$ $ah$ $a>0$

D_{\alpha }(P\|Q)=\sup _{h>0}\left[{\frac {1}{\alpha (1-\alpha )}}\left(1-{\frac {E_{P}[h^{\alpha -1}]^{\alpha }}{E_{Q}[h^{\alpha }]^{\alpha -1}}}\right)\right].

\alpha ={\frac {1}{2}}

g={\sqrt {h}}

H^{2}(P\|Q)={\frac {1}{2}}D_{1/2}(P\|Q)=2-\inf _{h>0}\left(E_{Q}\left[h(X)\right]+E_{P}\left[h(X)^{-1}\right]\right),

H^{2}(P\|Q)=2\sup _{h>0}\left(1-{\sqrt {E_{P}[h^{-1}]E_{Q}[h]}}\right).

f(x)=x\ln x,f^{*}(y)=e^{y-1}

D_{KL}(P;Q)=\sup _{g}E_{P}[g(X)]-e^{-1}E_{Q}[e^{g(X)}].

representación Donsker-Varadhan.

D_{KL}(P;Q)=\sup _{g}E_{P}[g(X)]-\ln E_{Q}[e^{g(X)}].

Representación variacional mejorada

Asuma la configuración al principio de esta sección ("Representaciones variacionales").

Teorema : si está activado (redefina si es necesario), entonces $f(x)=+\infty$ $x<0$ $f$

$D_{f}(P\|Q)=f^{\prime }(\infty )P\left[S^{c}\right]+\sup _{g}\mathbb {E} _{P}\left[g1_{S}\right]-\Psi _{Q,P}^{*}(g)$ ,

donde y , donde es la función de densidad de probabilidad de con respecto a alguna medida subyacente. $\Psi _{Q,P}^{*}(g):=\inf _{a\in \mathbb {R} }\mathbb {E} _{Q}\left[f^{*}(g(X)-a)\right]+aP[S]$ $S:=\{q>0\}$ $q$ $Q$

En el caso especial de , tenemos $f^{\prime }(\infty )=+\infty$

$D_{f}(P\|Q)=\sup _{g}\mathbb {E} _{P}[g]-\Psi _{Q}^{*}(g),\quad \Psi _{Q}^{*}(g):=\inf _{a\in \mathbb {R} }\mathbb {E} _{Q}\left[f^{*}(g(X)-a)\right]+a$ .

Este es el teorema 7,25 pulg. ^[2]

Aplicaciones de ejemplo

La aplicación de este teorema a la divergencia KL produce la representación de Donsker-Varadhan.

Intentar aplicar este teorema a la divergencia general con no produce una solución de forma cerrada. $\alpha$ $\alpha \in (-\infty ,0)\cup (0,1)$

Ejemplos comunes de f -divergencias

La siguiente tabla enumera muchas de las divergencias comunes entre las distribuciones de probabilidad y las posibles funciones generadoras a las que corresponden. En particular, excepto la distancia de variación total, todos los demás son casos especiales de -divergencia, o sumas lineales de -divergencias. $\alpha$ $\alpha$

Para cada f-divergencia , su función generadora no está definida de forma única, sino sólo hasta , donde es cualquier constante real. Es decir, para cualquiera que genere una divergencia f, tenemos . Esta libertad no sólo es conveniente, sino realmente necesaria. $D_{f}$ $c\cdot (t-1)$ $c$ $f$ $D_{f(t)}=D_{f(t)+c\cdot (t-1)}$

Comparación entre los generadores de alfa-divergencias, ya que alfa varía de -1 a 2.

Sea el generador de -divergencia, entonces y son inversiones convexas entre sí, por lo que . En particular, esto muestra que la distancia de Hellinger al cuadrado y la divergencia de Jensen-Shannon son simétricas. $f_{\alpha }$ $\alpha$ $f_{\alpha }$ $f_{1-\alpha }$ $D_{\alpha }(P\|Q)=D_{1-\alpha }(Q\|P)$

En la literatura, las divergencias a veces se parametrizan como $\alpha$

${\begin{cases}{\frac {4}{1-\alpha ^{2}}}{\big (}1-t^{(1+\alpha )/2}{\big )},&{\text{if}}\ \alpha \neq \pm 1,\\t\ln t,&{\text{if}}\ \alpha =1,\\-\ln t,&{\text{if}}\ \alpha =-1\end{cases}}$

lo cual equivale a la parametrización en esta página sustituyendo . $\alpha \leftarrow {\frac {\alpha +1}{2}}$

Relaciones con otras divergencias estadísticas

Aquí comparamos las divergencias f con otras divergencias estadísticas .

Divergencia de Rényi

Las divergencias de Rényi son una familia de divergencias definidas por

$R_{\alpha }(P\|Q)={\frac {1}{\alpha -1}}\log {\Bigg (}E_{Q}\left[\left({\frac {dP}{dQ}}\right)^{\alpha }\right]{\Bigg )}\,$

cuando . Se extiende a los casos de tomando el límite. $\alpha \in (0,1)\cup (1,+\infty )$ $\alpha =0,1,+\infty$

El álgebra simple muestra que , ¿dónde está la divergencia definida anteriormente? $R_{\alpha }(P\|Q)={\frac {1}{\alpha -1}}\ln(1+\alpha (\alpha -1)D_{\alpha }(P\|Q))$ $D_{\alpha }$ $\alpha$

Divergencia de Bregman

La única divergencia f que también es una divergencia de Bregman es la divergencia KL. ^[6]

Métricas de probabilidad integral

La única divergencia f que también es una métrica de probabilidad integral es la variación total. ^[7]

Interpretación financiera

Un par de distribuciones de probabilidad pueden verse como un juego de azar en el que una de las distribuciones define las probabilidades oficiales y la otra contiene las probabilidades reales. El conocimiento de las probabilidades reales permite al jugador sacar provecho del juego. Para una gran clase de jugadores racionales, la tasa de ganancia esperada tiene la misma forma general que la divergencia ƒ . ^[8]

Ver también

Referencias

^ Rényi, Alfred (1961). Sobre medidas de entropía e información (PDF) . Cuarto Simposio de Berkeley sobre Matemáticas, Estadística y Probabilidad, 1960. Berkeley, CA: University of California Press. págs. 547–561.Ec. (4.20)
^ abcd Polyanskiy, Yuri; Yihong, Wu (2022). Teoría de la información: de la codificación al aprendizaje (borrador del 20 de octubre de 2022) (PDF) . Prensa de la Universidad de Cambridge. Archivado desde el original (PDF) el 1 de febrero de 2023.
^ Gorban, Pavel A. (15 de octubre de 2003). "Entropías monótonamente equivalentes y solución de la ecuación de aditividad". Física A. 328 (3–4): 380–390. arXiv : cond-mat/0304131 . Código Bib : 2003PhyA..328..380G. doi :10.1016/S0378-4371(03)00578-8. S2CID 14975501.
^ Amari, Shun'ichi (2009). Leung, CS; Lee, M.; Chan, JH (eds.). Divergencia, Optimización, Geometría . XVI Conferencia Internacional sobre Procesamiento de Información Neural (ICONIP 20009), Bangkok, Tailandia, 1 a 5 de diciembre de 2009. Lecture Notes in Computer Science, vol 5863. Berlín, Heidelberg: Springer. págs. 185-193. doi :10.1007/978-3-642-10677-4_21.
^ Gorban, Alexander N. (29 de abril de 2014). "Teorema general H y entropías que violan la segunda ley". Entropía . 16 (5): 2408–2432. arXiv : 1212.6767 . Código Bib : 2014Entrp..16.2408G. doi : 10.3390/e16052408 .
^ Jiao, Jiantao; Corteda, Thomas; No, Alberto; Venkat, Kartik; Weissman, Tsachy (diciembre de 2014). "Medidas de información: el curioso caso del alfabeto binario". Transacciones IEEE sobre teoría de la información . 60 (12): 7616–7626. arXiv : 1404.6810 . doi :10.1109/TIT.2014.2360184. ISSN 0018-9448. S2CID 13108908.
^ Sriperumbudur, Bharath K.; Fukumizu, Kenji; Gretton, Arturo; Schölkopf, Bernhard ; Lanckriet, Gert RG (2009). "Sobre métricas de probabilidad integral, φ-divergencias y clasificación binaria". arXiv : 0901.2698 [cs.IT].
^ Soklakov, Andrei N. (2020). "Economía del desacuerdo: intuición financiera para la divergencia de Rényi". Entropía . 22 (8): 860. arXiv : 1811.08308 . Código Bib : 2020Entrp..22..860S. doi : 10.3390/e22080860 . PMC 7517462 . PMID 33286632.

Csiszár, I. (1963). "Eine informationstheoretische Ungleichung und ihre Anwendung auf den Beweis der Ergodizitat von Markoffschen Ketten". Magiar. Tud. Akád. Estera. Aeropuerto Internacional de Kutato. Kozl . 8 : 85-108.
Morimoto, T. (1963). "Procesos de Markov y el teorema H". J. Física. Soc. Japón . 18 (3): 328–331. Código bibliográfico : 1963JPSJ...18..328M. doi :10.1143/JPSJ.18.328.
Ali, SM; Silvey, SD (1966). "Una clase general de coeficientes de divergencia de una distribución de otra". Revista de la Royal Statistical Society, Serie B. 28 (1): 131-142. JSTOR 2984279. SEÑOR 0196777.
Csiszár, I. (1967). "Medidas de tipo información de diferencia de distribuciones de probabilidad y observación indirecta". Studia Scientiarum Mathematicarum Hungarica . 2 : 229–318.
Csiszár, I .; Escudos, P. (2004). "Teoría de la información y estadística: un tutorial" (PDF) . Fundamentos y Tendencias en Teoría de la Información y las Comunicaciones . 1 (4): 417–528. doi : 10.1561/0100000004 . Consultado el 8 de abril de 2009 .
Liese, F.; Vajda, I. (2006). "Sobre divergencias e informaciones en estadística y teoría de la información". Transacciones IEEE sobre teoría de la información . 52 (10): 4394–4412. doi :10.1109/TIT.2006.881731. S2CID 2720215.
Nielsen, F.; Nock, R. (2013). "Sobre el Chi cuadrado y distancias Chi de orden superior para aproximar divergencias f". Cartas de procesamiento de señales IEEE . 21 (1): 10-13. arXiv : 1309.3029 . Código Bib : 2014ISPL...21...10N. doi :10.1109/LSP.2013.2288355. S2CID 4152365.
Coeurjolly, JF.; Drouilhet, R. (2006). "Divergencias normalizadas basadas en información". arXiv : matemáticas/0604246 .