stringtranslate.com

f-divergencia


En teoría de la probabilidad , una divergencia es un cierto tipo de función que mide la diferencia entre dos distribuciones de probabilidad y . Muchas divergencias comunes, como la divergencia KL , la distancia de Hellinger y la distancia de variación total , son casos especiales de divergencia.

Historia

Estas divergencias fueron introducidas por Alfréd Rényi [1] en el mismo artículo donde introdujo la conocida entropía de Rényi . Demostró que estas divergencias disminuyen en los procesos de Markov . Las f -divergencias fueron estudiadas más a fondo de forma independiente por Csiszár (1963), Morimoto (1963) y Ali & Silvey (1966) y a veces se las conoce como Csiszár -divergencias, divergencias Csiszár-Morimoto o distancias Ali-Silvey.

Definición

Caso no singular

Sean y dos distribuciones de probabilidad sobre un espacio , tal que , es decir, es absolutamente continua con respecto a . Entonces, para una función convexa tal que sea finita para todos , y (que podría ser infinita), la divergencia de desde se define como

Llamamos al generador de .

En aplicaciones concretas, suele haber una distribución de referencia en (por ejemplo, cuando , la distribución de referencia es la medida de Lebesgue ), de modo que , entonces podemos usar el teorema de Radon-Nikodym para tomar sus densidades de probabilidad y , dando

Cuando no exista dicha distribución de referencia disponible, simplemente podemos definir y proceder como se indicó anteriormente. Esta es una técnica útil en pruebas más abstractas.

Ampliación a medidas singulares

La definición anterior se puede ampliar a los casos en los que ya no se cumple (Definición 7.1 de [2] ).

Dado que es convexo y , la función no debe disminuir, por lo que existe , que toma valor en .

Dado que para cualquiera tenemos , podemos extender la divergencia f a .

Propiedades

Relaciones básicas entre f-divergencias

Prueba

Si , entonces por definición.

Por el contrario, si , entonces dejemos . Para dos medidas de probabilidad cualesquiera en el conjunto , ya que , obtenemos

Dado que cada medida de probabilidad tiene un grado de libertad, podemos resolver cada elección de .

El álgebra lineal produce , que es una medida de probabilidad válida. Entonces obtenemos .

Así, para algunas constantes . Introducir la fórmula en rendimientos .

Propiedades básicas de las f-divergencias.

En particular, la monotonicidad implica que si un proceso de Markov tiene una distribución de probabilidad de equilibrio positiva , entonces es una función monótona (no creciente) del tiempo, donde la distribución de probabilidad es una solución de las ecuaciones directas de Kolmogorov (o ecuación maestra ), utilizada para describir la evolución temporal de la distribución de probabilidad en el proceso de Markov. Esto significa que todas las f -divergencias son funciones de Lyapunov de las ecuaciones directas de Kolmogorov. La afirmación inversa también es cierta: si es una función de Lyapunov para todas las cadenas de Markov con equilibrio positivo y tiene la forma de traza ( ), entonces , para alguna función convexa f . [3] [4] Por ejemplo, las divergencias de Bregman en general no tienen tal propiedad y pueden aumentar en los procesos de Markov. [5]

Propiedades analíticas

Las f-divergencias pueden expresarse utilizando series de Taylor y reescribirse utilizando una suma ponderada de distancias tipo chi (Nielsen y Nock (2013)).

Representación variacional ingenua

Sea el conjugado convexo de . Sea el dominio efectivo de , es decir, . Luego tenemos dos representaciones variacionales de , que describimos a continuación.

Representación variacional básica

Bajo la configuración anterior,

Teorema—  . 

Este es el teorema 7,24 pulg. [2]

Aplicaciones de ejemplo

Usando este teorema sobre la distancia de variación total, con generador su conjugado convexo es y obtenemos

es

Reemplazando por y tomando el máximo , obtenemos

límite de Hammersley-Chapman-Robbinslímite de Cramér-Rao[2]

Para -divergencia con , tenemos , con rango . Su conjugado convexo es con rango , donde .

Aplicando este teorema se obtiene, después de sustituir con ,

El dominio sobre el cual varía no es invariante afín en general, a diferencia del caso de divergencia. La divergencia es especial, ya que en ese caso podemos eliminar from .

En general , el dominio sobre el que varía es simplemente invariante de escala. De manera similar a lo anterior, podemos reemplazar por y tomar el mínimo para obtener

representación Donsker-Varadhan.

Representación variacional mejorada

Asuma la configuración al principio de esta sección ("Representaciones variacionales").

Teorema  :  si está activado (redefina si es necesario), entonces

,

donde y , donde es la función de densidad de probabilidad de con respecto a alguna medida subyacente.

En el caso especial de , tenemos

.

Este es el teorema 7,25 pulg. [2]

Aplicaciones de ejemplo

La aplicación de este teorema a la divergencia KL produce la representación de Donsker-Varadhan.

Intentar aplicar este teorema a la divergencia general con no produce una solución de forma cerrada.

Ejemplos comunes de f -divergencias

La siguiente tabla enumera muchas de las divergencias comunes entre las distribuciones de probabilidad y las posibles funciones generadoras a las que corresponden. En particular, excepto la distancia de variación total, todos los demás son casos especiales de -divergencia, o sumas lineales de -divergencias.

Para cada f-divergencia , su función generadora no está definida de forma única, sino sólo hasta , donde es cualquier constante real. Es decir, para cualquiera que genere una divergencia f, tenemos . Esta libertad no sólo es conveniente, sino realmente necesaria.

Comparación entre los generadores de alfa-divergencias, ya que alfa varía de -1 a 2.

Sea el generador de -divergencia, entonces y son inversiones convexas entre sí, por lo que . En particular, esto muestra que la distancia de Hellinger al cuadrado y la divergencia de Jensen-Shannon son simétricas.

En la literatura, las divergencias a veces se parametrizan como

lo cual equivale a la parametrización en esta página sustituyendo .

Relaciones con otras divergencias estadísticas

Aquí comparamos las divergencias f con otras divergencias estadísticas .

Divergencia de Rényi

Las divergencias de Rényi son una familia de divergencias definidas por

cuando . Se extiende a los casos de tomando el límite.

El álgebra simple muestra que , ¿dónde está la divergencia definida anteriormente?

Divergencia de Bregman

La única divergencia f que también es una divergencia de Bregman es la divergencia KL. [6]

Métricas de probabilidad integral

La única divergencia f que también es una métrica de probabilidad integral es la variación total. [7]

Interpretación financiera

Un par de distribuciones de probabilidad pueden verse como un juego de azar en el que una de las distribuciones define las probabilidades oficiales y la otra contiene las probabilidades reales. El conocimiento de las probabilidades reales permite al jugador sacar provecho del juego. Para una gran clase de jugadores racionales, la tasa de ganancia esperada tiene la misma forma general que la divergencia ƒ . [8]

Ver también

Referencias

  1. ^ Rényi, Alfred (1961). Sobre medidas de entropía e información (PDF) . Cuarto Simposio de Berkeley sobre Matemáticas, Estadística y Probabilidad, 1960. Berkeley, CA: University of California Press. págs. 547–561.Ec. (4.20)
  2. ^ abcd Polyanskiy, Yuri; Yihong, Wu (2022). Teoría de la información: de la codificación al aprendizaje (borrador del 20 de octubre de 2022) (PDF) . Prensa de la Universidad de Cambridge. Archivado desde el original (PDF) el 1 de febrero de 2023.
  3. ^ Gorban, Pavel A. (15 de octubre de 2003). "Entropías monótonamente equivalentes y solución de la ecuación de aditividad". Física A. 328 (3–4): 380–390. arXiv : cond-mat/0304131 . Código Bib : 2003PhyA..328..380G. doi :10.1016/S0378-4371(03)00578-8. S2CID  14975501.
  4. ^ Amari, Shun'ichi (2009). Leung, CS; Lee, M.; Chan, JH (eds.). Divergencia, Optimización, Geometría . XVI Conferencia Internacional sobre Procesamiento de Información Neural (ICONIP 20009), Bangkok, Tailandia, 1 a 5 de diciembre de 2009. Lecture Notes in Computer Science, vol 5863. Berlín, Heidelberg: Springer. págs. 185-193. doi :10.1007/978-3-642-10677-4_21.
  5. ^ Gorban, Alexander N. (29 de abril de 2014). "Teorema general H y entropías que violan la segunda ley". Entropía . 16 (5): 2408–2432. arXiv : 1212.6767 . Código Bib : 2014Entrp..16.2408G. doi : 10.3390/e16052408 .
  6. ^ Jiao, Jiantao; Corteda, Thomas; No, Alberto; Venkat, Kartik; Weissman, Tsachy (diciembre de 2014). "Medidas de información: el curioso caso del alfabeto binario". Transacciones IEEE sobre teoría de la información . 60 (12): 7616–7626. arXiv : 1404.6810 . doi :10.1109/TIT.2014.2360184. ISSN  0018-9448. S2CID  13108908.
  7. ^ Sriperumbudur, Bharath K.; Fukumizu, Kenji; Gretton, Arturo; Schölkopf, Bernhard ; Lanckriet, Gert RG (2009). "Sobre métricas de probabilidad integral, φ-divergencias y clasificación binaria". arXiv : 0901.2698 [cs.IT].
  8. ^ Soklakov, Andrei N. (2020). "Economía del desacuerdo: intuición financiera para la divergencia de Rényi". Entropía . 22 (8): 860. arXiv : 1811.08308 . Código Bib : 2020Entrp..22..860S. doi : 10.3390/e22080860 . PMC 7517462 . PMID  33286632.