Estas divergencias fueron introducidas por Alfréd Rényi [1] en el mismo artículo donde introdujo la conocida entropía de Rényi . Demostró que estas divergencias disminuyen en los procesos de Markov . Las f -divergencias fueron estudiadas más a fondo de forma independiente por Csiszár (1963), Morimoto (1963) y Ali & Silvey (1966) y a veces se las conoce como Csiszár -divergencias, divergencias Csiszár-Morimoto o distancias Ali-Silvey.
Definición
Caso no singular
Sean y dos distribuciones de probabilidad sobre un espacio , tal que , es decir, es absolutamente continua con respecto a . Entonces, para una función convexa tal que sea finita para todos , y (que podría ser infinita), la divergencia de desde se define como
Cuando no exista dicha distribución de referencia disponible, simplemente podemos definir y proceder como se indicó anteriormente. Esta es una técnica útil en pruebas más abstractas.
Ampliación a medidas singulares
La definición anterior se puede ampliar a los casos en los que ya no se cumple (Definición 7.1 de [2] ).
Dado que es convexo y , la función no debe disminuir, por lo que existe , que toma valor en .
Dado que para cualquiera tenemos , podemos extender la divergencia f a .
Propiedades
Relaciones básicas entre f-divergencias
Linealidad: dada una secuencia finita de números reales no negativos y generadores .
si para algunos .
Prueba
Si , entonces por definición.
Por el contrario, si , entonces dejemos . Para dos medidas de probabilidad cualesquiera en el conjunto , ya que , obtenemos
Dado que cada medida de probabilidad tiene un grado de libertad, podemos resolver cada elección de .
El álgebra lineal produce , que es una medida de probabilidad válida. Entonces obtenemos .
Así,
para algunas constantes . Introducir la fórmula en rendimientos .
Propiedades básicas de las f-divergencias.
No negatividad : la ƒ -divergencia es siempre positiva; es cero si las medidas P y Q coinciden. Esto se sigue inmediatamente de la desigualdad de Jensen :
La igualdad aquí se cumple si y sólo si la transición se induce a partir de un estadístico suficiente con respecto a { P , Q }.
Convexidad conjunta : para cualquier 0 ≤ λ ≤ 1 ,
Esto se desprende de la convexidad del mapeo en .
Inversión por inversión convexa : para cualquier función , su inversión convexa se define como . Cuando satisface las características definitorias de un generador de f-divergencia ( es finito para todos , y ), entonces satisface las mismas características y, por lo tanto, define una f-divergencia . Este es el "inverso" de , en el sentido de que todos son absolutamente continuos entre sí. De esta manera, cada f-divergencia puede volverse simétrica mediante . Por ejemplo, realizar esta simetrización convierte la divergencia KL en divergencia Jensen-Shannon.
En particular, la monotonicidad implica que si un proceso de Markov tiene una distribución de probabilidad de equilibrio positiva , entonces es una función monótona (no creciente) del tiempo, donde la distribución de probabilidad es una solución de las ecuaciones directas de Kolmogorov (o ecuación maestra ), utilizada para describir la evolución temporal de la distribución de probabilidad en el proceso de Markov. Esto significa que todas las f -divergencias son funciones de Lyapunov de las ecuaciones directas de Kolmogorov. La afirmación inversa también es cierta: si es una función de Lyapunov para todas las cadenas de Markov con equilibrio positivo y tiene la forma de traza ( ), entonces , para alguna función convexa f . [3] [4] Por ejemplo, las divergencias de Bregman en general no tienen tal propiedad y pueden aumentar en los procesos de Markov. [5]
Propiedades analíticas
Las f-divergencias pueden expresarse utilizando series de Taylor y reescribirse utilizando una suma ponderada de distancias tipo chi (Nielsen y Nock (2013)).
Representación variacional ingenua
Sea el conjugado convexo de . Sea el dominio efectivo de , es decir, . Luego tenemos dos representaciones variacionales de , que describimos a continuación.
Representación variacional básica
Bajo la configuración anterior,
Teorema— .
Este es el teorema 7,24 pulg. [2]
Aplicaciones de ejemplo
Usando este teorema sobre la distancia de variación total, con generador su conjugado convexo es y obtenemos
Para -divergencia con , tenemos , con rango . Su conjugado convexo es con rango , donde .
Aplicando este teorema se obtiene, después de sustituir con ,
El dominio sobre el cual varía no es invariante afín en general, a diferencia del caso de divergencia. La divergencia es especial, ya que en ese caso podemos eliminar from .
En general , el dominio sobre el que varía es simplemente invariante de escala. De manera similar a lo anterior, podemos reemplazar por y tomar el mínimo para obtener
Asuma la configuración al principio de esta sección ("Representaciones variacionales").
Teorema : si está activado (redefina si es necesario), entonces
,
donde
y , donde es la función de densidad de probabilidad de con respecto a alguna medida subyacente.
En el caso especial de , tenemos
.
Este es el teorema 7,25 pulg. [2]
Aplicaciones de ejemplo
La aplicación de este teorema a la divergencia KL produce la representación de Donsker-Varadhan.
Intentar aplicar este teorema a la divergencia general con no produce una solución de forma cerrada.
Ejemplos comunes de f -divergencias
La siguiente tabla enumera muchas de las divergencias comunes entre las distribuciones de probabilidad y las posibles funciones generadoras a las que corresponden. En particular, excepto la distancia de variación total, todos los demás son casos especiales de -divergencia, o sumas lineales de -divergencias.
Para cada f-divergencia , su función generadora no está definida de forma única, sino sólo hasta , donde es cualquier constante real. Es decir, para cualquiera que genere una divergencia f, tenemos . Esta libertad no sólo es conveniente, sino realmente necesaria.
Sea el generador de -divergencia, entonces y son inversiones convexas entre sí, por lo que . En particular, esto muestra que la distancia de Hellinger al cuadrado y la divergencia de Jensen-Shannon son simétricas.
En la literatura, las divergencias a veces se parametrizan como
lo cual equivale a la parametrización en esta página sustituyendo .
Un par de distribuciones de probabilidad pueden verse como un juego de azar en el que una de las distribuciones define las probabilidades oficiales y la otra contiene las probabilidades reales. El conocimiento de las probabilidades reales permite al jugador sacar provecho del juego. Para una gran clase de jugadores racionales, la tasa de ganancia esperada tiene la misma forma general que la divergencia ƒ . [8]
^ Rényi, Alfred (1961). Sobre medidas de entropía e información (PDF) . Cuarto Simposio de Berkeley sobre Matemáticas, Estadística y Probabilidad, 1960. Berkeley, CA: University of California Press. págs. 547–561.Ec. (4.20)
^ abcd Polyanskiy, Yuri; Yihong, Wu (2022). Teoría de la información: de la codificación al aprendizaje (borrador del 20 de octubre de 2022) (PDF) . Prensa de la Universidad de Cambridge. Archivado desde el original (PDF) el 1 de febrero de 2023.
^ Gorban, Pavel A. (15 de octubre de 2003). "Entropías monótonamente equivalentes y solución de la ecuación de aditividad". Física A. 328 (3–4): 380–390. arXiv : cond-mat/0304131 . Código Bib : 2003PhyA..328..380G. doi :10.1016/S0378-4371(03)00578-8. S2CID 14975501.
^ Amari, Shun'ichi (2009). Leung, CS; Lee, M.; Chan, JH (eds.). Divergencia, Optimización, Geometría . XVI Conferencia Internacional sobre Procesamiento de Información Neural (ICONIP 20009), Bangkok, Tailandia, 1 a 5 de diciembre de 2009. Lecture Notes in Computer Science, vol 5863. Berlín, Heidelberg: Springer. págs. 185-193. doi :10.1007/978-3-642-10677-4_21.
^ Gorban, Alexander N. (29 de abril de 2014). "Teorema general H y entropías que violan la segunda ley". Entropía . 16 (5): 2408–2432. arXiv : 1212.6767 . Código Bib : 2014Entrp..16.2408G. doi : 10.3390/e16052408 .
^ Jiao, Jiantao; Corteda, Thomas; No, Alberto; Venkat, Kartik; Weissman, Tsachy (diciembre de 2014). "Medidas de información: el curioso caso del alfabeto binario". Transacciones IEEE sobre teoría de la información . 60 (12): 7616–7626. arXiv : 1404.6810 . doi :10.1109/TIT.2014.2360184. ISSN 0018-9448. S2CID 13108908.
^ Sriperumbudur, Bharath K.; Fukumizu, Kenji; Gretton, Arturo; Schölkopf, Bernhard ; Lanckriet, Gert RG (2009). "Sobre métricas de probabilidad integral, φ-divergencias y clasificación binaria". arXiv : 0901.2698 [cs.IT].
^ Soklakov, Andrei N. (2020). "Economía del desacuerdo: intuición financiera para la divergencia de Rényi". Entropía . 22 (8): 860. arXiv : 1811.08308 . Código Bib : 2020Entrp..22..860S. doi : 10.3390/e22080860 . PMC 7517462 . PMID 33286632.
Csiszár, I. (1963). "Eine informationstheoretische Ungleichung und ihre Anwendung auf den Beweis der Ergodizitat von Markoffschen Ketten". Magiar. Tud. Akád. Estera. Aeropuerto Internacional de Kutato. Kozl . 8 : 85-108.
Morimoto, T. (1963). "Procesos de Markov y el teorema H". J. Física. Soc. Japón . 18 (3): 328–331. Código bibliográfico : 1963JPSJ...18..328M. doi :10.1143/JPSJ.18.328.
Ali, SM; Silvey, SD (1966). "Una clase general de coeficientes de divergencia de una distribución de otra". Revista de la Royal Statistical Society, Serie B. 28 (1): 131-142. JSTOR 2984279. SEÑOR 0196777.
Csiszár, I. (1967). "Medidas de tipo información de diferencia de distribuciones de probabilidad y observación indirecta". Studia Scientiarum Mathematicarum Hungarica . 2 : 229–318.
Csiszár, I .; Escudos, P. (2004). "Teoría de la información y estadística: un tutorial" (PDF) . Fundamentos y Tendencias en Teoría de la Información y las Comunicaciones . 1 (4): 417–528. doi : 10.1561/0100000004 . Consultado el 8 de abril de 2009 .
Liese, F.; Vajda, I. (2006). "Sobre divergencias e informaciones en estadística y teoría de la información". Transacciones IEEE sobre teoría de la información . 52 (10): 4394–4412. doi :10.1109/TIT.2006.881731. S2CID 2720215.
Nielsen, F.; Nock, R. (2013). "Sobre el Chi cuadrado y distancias Chi de orden superior para aproximar divergencias f". Cartas de procesamiento de señales IEEE . 21 (1): 10-13. arXiv : 1309.3029 . Código Bib : 2014ISPL...21...10N. doi :10.1109/LSP.2013.2288355. S2CID 4152365.
Coeurjolly, JF.; Drouilhet, R. (2006). "Divergencias normalizadas basadas en información". arXiv : matemáticas/0604246 .