stringtranslate.com

Divergencia de Bregman

En matemáticas , específicamente en estadística y geometría de la información , una divergencia de Bregman o distancia de Bregman es una medida de diferencia entre dos puntos, definida en términos de una función estrictamente convexa ; Forman una clase importante de divergencias . Cuando los puntos se interpretan como distribuciones de probabilidad (en particular, como valores del parámetro de un modelo paramétrico o como un conjunto de datos de valores observados), la distancia resultante es una distancia estadística . La divergencia de Bregman más básica es la distancia euclidiana al cuadrado .

Las divergencias de Bregman son similares a las métricas , pero no satisfacen ni la desigualdad del triángulo (nunca) ni la simetría (en general). Sin embargo, satisfacen una generalización del teorema de Pitágoras y, en geometría de la información, la variedad estadística correspondiente se interpreta como una variedad (dual) plana . Esto permite generalizar muchas técnicas de la teoría de la optimización a divergencias de Bregman, geométricamente como generalizaciones de mínimos cuadrados .

Las divergencias de Bregman llevan el nombre del matemático ruso Lev M. Bregman , quien introdujo el concepto en 1967.

Definición

Sea una función estrictamente convexa, continuamente diferenciable, definida en un conjunto convexo .

La distancia de Bregman asociada con F para puntos es la diferencia entre el valor de F en el punto p y el valor de la expansión de Taylor de primer orden de F alrededor del punto q evaluado en el punto p :

Propiedades

Aquí, y están los puntos duales correspondientes a p y q.
Además, usando las mismas notaciones:

Para cualquier

Teorema de Pitágoras generalizado para la divergencia de Bregman. [2]

. Entonces

Para cualquier ,

Esta es una igualdad si está en el interior relativo de .

En particular, esto siempre sucede cuando es un conjunto afín.

Pruebas

Arreglar . Realice una transformación afín para que .

Toma algunos , tales que . Luego considere la derivada "radial-direccional" de en la esfera euclidiana .

para todos .

Como es compacto, alcanza un valor mínimo en algunos .

Dado que es estrictamente convexo, . Entonces .

Como está en , es continua en , por lo tanto está cerrado si es.

Arreglar . Toma un poco y luego déjalo . Luego dibuja la bola de Bregman . Es cerrado y acotado, por tanto compacto. Dado que es continuo y estrictamente convexo y está limitado por debajo por , logra un mínimo único en él.

Por la ley del coseno, , que debe ser , ya que minimiza en , y es convexo.

Si , entonces como está en el interior relativo, podemos movernos en la dirección opuesta a , para disminuir su contradicción.

De este modo .

Teoremas de clasificación

Prueba
Divergencia de Bregman interpretada como áreas.

Para cualquiera , defina para . Dejar .

Entonces for , y puesto que es continuo, también for .

Luego, en el diagrama, vemos que para todos debemos tener un on lineal .

Así encontramos que varía linealmente a lo largo de cualquier dirección. Según el siguiente lema, es cuadrático. Como también es estrictamente convexo, tiene la forma , donde .

Lema : Si es un subconjunto abierto de , tiene derivada continua y dado cualquier segmento de recta , la función es lineal en , entonces es una función cuadrática.

Idea de prueba: para cualquier función cuadrática , todavía tenemos tal derivada-linealidad, por lo que restaremos algunas funciones cuadráticas y demostraremos que se vuelve cero.

La idea de prueba se puede ilustrar completamente para el caso de , por lo que la demostramos en este caso.

Por la linealidad derivada, es una función cuadrática en cualquier segmento de línea en . Restamos cuatro funciones cuadráticas, de modo que se vuelven idénticamente cero en el eje x, el eje y y la recta.

Vamos , por bien elegidos . Ahora use para eliminar el término lineal y use respectivamente para eliminar los términos cuadráticos a lo largo de las tres líneas.

no en el origen, existe una línea que cruza el eje x, el eje y y la línea en tres puntos diferentes. Dado que es cuadrático en , y es cero en tres puntos diferentes, es idénticamente cero en , por lo tanto . Por tanto es cuadrático.

Las dos caracterizaciones siguientes son para divergencias en , el conjunto de todas las medidas de probabilidad en , con .

Defina una divergencia en como cualquier función de tipo , tal que para todos , entonces:

Dada una divergencia de Bregman , su "opuesto", definido por , generalmente no es una divergencia de Bregman. Por ejemplo, la divergencia Kullback-Leiber es a la vez una divergencia de Bregman y una divergencia f. Su inversa también es una divergencia f, pero según la caracterización anterior, la divergencia KL inversa no puede ser una divergencia de Bregman.

Ejemplos

es generado por la función de entropía negativa
Cuando se restringe al simplex , los dos últimos términos se cancelan, dando la divergencia habitual de Kullback-Leibler para las distribuciones.
es generado por la función convexa

Generalizando la dualidad proyectiva

Una herramienta clave en geometría computacional es la idea de dualidad proyectiva , que asigna puntos a hiperplanos y viceversa, preservando al mismo tiempo la incidencia y las relaciones arriba-abajo. Existen numerosas formas analíticas del dual proyectivo: una forma común asigna el punto al hiperplano . Este mapeo se puede interpretar (identificando el hiperplano con su normal) como el mapeo conjugado convexo que lleva el punto p a su punto dual , donde F define el paraboloide d -dimensional .

Si ahora reemplazamos el paraboloide por una función convexa arbitraria, obtenemos un mapeo dual diferente que conserva la incidencia y las propiedades arriba-abajo del dual proyectivo estándar. Esto implica que los conceptos duales naturales en geometría computacional como los diagramas de Voronoi y las triangulaciones de Delaunay conservan su significado en espacios de distancia definidos por una divergencia arbitraria de Bregman. Así, los algoritmos de la geometría "normal" se extienden directamente a estos espacios (Boissonnat, Nielsen y Nock, 2010)

Generalización de las divergencias de Bregman.

Las divergencias de Bregman pueden interpretarse como casos límite de divergencias sesgadas de Jensen (véase Nielsen y Boltz, 2011). Las divergencias de Jensen se pueden generalizar utilizando la convexidad comparativa, y los casos límite de estas generalizaciones sesgadas de las divergencias de Jensen producen una divergencia de Bregman generalizada (ver Nielsen y Nock, 2017). La divergencia de cuerdas de Bregman [6] se obtiene tomando una cuerda en lugar de una recta tangente.

Divergencia de Bregman en otros objetos.

Las divergencias de Bregman también se pueden definir entre matrices, entre funciones y entre medidas (distribuciones). Las divergencias de Bregman entre matrices incluyen la pérdida de Stein y la entropía de von Neumann . Las divergencias de Bregman entre funciones incluyen error cuadrático total, entropía relativa y sesgo al cuadrado; véanse las referencias de Frigyik et al. a continuación para definiciones y propiedades. De manera similar, las divergencias de Bregman también se han definido sobre conjuntos, a través de una función de conjunto submodular que se conoce como el análogo discreto de una función convexa . Las divergencias submodulares de Bregman incluyen una serie de medidas de distancia discretas, como la distancia de Hamming , la precisión y la recuperación , la información mutua y algunas otras medidas de distancia basadas en conjuntos (consulte Iyer & Bilmes, 2012 para obtener más detalles y propiedades del Bregman submodular).

Para obtener una lista de divergencias de Bregman matriciales comunes, consulte la Tabla 15.1 en [7]

Aplicaciones

En el aprendizaje automático, las divergencias de Bregman se utilizan para calcular la pérdida logística bitemperada, y funcionan mejor que la función softmax con conjuntos de datos ruidosos. [8]

La divergencia de Bregman se utiliza en la formulación del descenso de espejos , que incluye algoritmos de optimización utilizados en el aprendizaje automático, como el descenso de gradiente y el algoritmo de cobertura .

Referencias

  1. ^ ab "Aprender con las divergencias de Bregman" (PDF) . utexas.edu . Consultado el 19 de agosto de 2023 .
  2. ^ Adamčík, Martín (2014). "La geometría de la información de las divergencias de Bregman y algunas aplicaciones en el razonamiento de múltiples expertos". Entropía . 16 (12): 6338–6381. Código Bib : 2014Entrp..16.6338A. doi : 10.3390/e16126338 .
  3. ^ Nielsen, Frank (28 de octubre de 2021). "Aproximaciones rápidas de la divergencia de Jeffreys entre mezclas gaussianas univariadas mediante conversiones de mezclas a distribuciones polinómicas exponenciales". Entropía . 23 (11): 1417. arXiv : 2107.05901 . Código Bib : 2021Entrp..23.1417N. doi : 10.3390/e23111417 . ISSN  1099-4300. PMC 8619509 . PMID  34828115. 
  4. ^ Nielsen, Frank; Boissonnat, Jean-Daniel ; Nock, Richard (septiembre de 2010). "Diagramas de Bregman Voronoi: propiedades, algoritmos y aplicaciones". Geometría discreta y computacional . 44 (2): 281–307. arXiv : 0709.2196 . doi :10.1007/s00454-010-9256-1. ISSN  0179-5376. S2CID  1327029.
  5. ^ ab Jiao, Jiantao; Corteda, Thomas; No, Alberto; Venkat, Kartik; Weissman, Tsachy (diciembre de 2014). "Medidas de información: el curioso caso del alfabeto binario". Transacciones IEEE sobre teoría de la información . 60 (12): 7616–7626. arXiv : 1404.6810 . doi :10.1109/TIT.2014.2360184. ISSN  0018-9448. S2CID  13108908.
  6. ^ Nielsen, Frank; Nock, Richard (2019). "La divergencia de acordes de Bregman". Ciencia Geométrica de la Información . Apuntes de conferencias sobre informática. vol. 11712, págs. 299–308. arXiv : 1810.09113 . doi :10.1007/978-3-030-26980-7_31. ISBN 978-3-030-26979-1. S2CID  53046425.
  7. ^ "Geometría de información matricial", R. Nock, B. Magdalou, E. Briys y F. Nielsen, pdf, de este libro
  8. ^ Ehsan Amid, Manfred K. Warmuth, Rohan Anil, Tomer Koren (2019). "Pérdida logística robusta de doble temperamento basada en divergencias de Bregman". Jornada sobre Sistemas de Procesamiento de Información Neural. págs. 14987-14996. pdf