Las divergencias de Bregman reciben su nombre del matemático ruso Lev M. Bregman , quien introdujo el concepto en 1967.
Definición
Sea una función estrictamente convexa, continuamente diferenciable, definida en un conjunto convexo .
La distancia de Bregman asociada con F para los puntos es la diferencia entre el valor de F en el punto p y el valor de la expansión de Taylor de primer orden de F alrededor del punto q evaluada en el punto p :
Propiedades
No negatividad : para todos los , . Esto es una consecuencia de la convexidad de .
Positividad : Cuando es estrictamente convexo, si y solo si .
Unicidad hasta diferencia afín : iff es una función afín.
Convexidad : es convexa en su primer argumento, pero no necesariamente en el segundo. Si F es estrictamente convexa, entonces es estrictamente convexa en su primer argumento.
Por ejemplo, tome f(x) = |x|, suavícelo en 0, luego tome , luego .
Linealidad : Si consideramos la distancia de Bregman como un operador sobre la función F , entonces es lineal con respecto a los coeficientes no negativos. En otras palabras, para estrictamente convexos y diferenciables, y ,
Dualidad : Si F es estrictamente convexa, entonces la función F tiene un conjugado convexo que también es estrictamente convexo y continuamente diferenciable en algún conjunto convexo . La distancia de Bregman definida con respecto a es dual a como
Aquí, y son los puntos duales correspondientes a p y q.
Además, utilizando las mismas notaciones:
Forma integral: por la forma de resto integral del Teorema de Taylor, una divergencia de Bregman puede escribirse como la integral de la hessiana de a lo largo del segmento de línea entre los argumentos de la divergencia de Bregman.
Media como minimizador : Un resultado clave sobre las divergencias de Bregman es que, dado un vector aleatorio, el vector de media minimiza la divergencia de Bregman esperada a partir del vector aleatorio. Este resultado generaliza el resultado del libro de texto de que la media de un conjunto minimiza el error cuadrático total de los elementos del conjunto. Este resultado fue demostrado para el caso del vector por (Banerjee et al. 2005), y extendido al caso de funciones/distribuciones por (Frigyik et al. 2008). Este resultado es importante porque justifica aún más el uso de una media como representante de un conjunto aleatorio, particularmente en la estimación bayesiana.
Las bolas de Bregman están acotadas y son compactas si X está cerrado : Defina la bola de Bregman centrada en x con radio r por . Cuando es de dimensión finita, , si está en el interior relativo de , o si está localmente cerrada en (es decir, existe una bola cerrada centrada en , tal que está cerrada), entonces es acotada para todo . Si es cerrada, entonces es compacta para todo .
En particular, esto siempre sucede cuando es un conjunto afín.
Ausencia de desigualdad triangular: dado que la divergencia de Bregman es esencialmente una generalización de la distancia euclidiana al cuadrado, no existe desigualdad triangular. De hecho, , que puede ser positiva o negativa.
Unicidad hasta diferencia afín: Fijamos algunos , luego para cualquier otro , tenemos por definición .
Convexidad en el primer argumento: por definición, y utiliza la convexidad de F. Lo mismo para la convexidad estricta.
Linealidad en F, ley de los cosenos, ley del paralelogramo: por definición.
Dualidad: Véase la figura 1 de [4] .
Las bolas de Bregman están acotadas y son compactas si X está cerrado:
Arreglar . Realizar la transformación afín en , de modo que .
Tome algunos , tales que . Luego considere la derivada "direccional radial" de en la esfera euclidiana .
Para todos .
Como es compacto, alcanza un valor mínimo en algún momento .
Dado que es estrictamente convexo, . Entonces .
Como es en , es continua en , por lo tanto es cerrada si es.
La proyección está bien definida cuando es cerrada y convexa.
Arreglar . Tomar algunos , luego dejar . Luego dibujar la bola de Bregman . Es cerrada y acotada, por lo tanto compacta. Como es continua y estrictamente convexa en ella, y acotada por debajo por , alcanza un mínimo único en ella.
Desigualdad pitagórica.
Por la ley del coseno, , que debe ser , ya que se minimiza en , y es convexo.
Igualdad pitagórica cuando está en el interior relativo de .
Si , entonces como está en el interior relativo, podemos movernos desde en la dirección opuesta de , para disminuir , contradicción.
Entonces , para , y como es continua, también para .
Luego, del diagrama, vemos que para todo , debemos tener lineal en .
Así, encontramos que varía linealmente a lo largo de cualquier dirección. Por el siguiente lema, es cuadrático. Como también es estrictamente convexo, tiene la forma , donde .
Lema : Si es un subconjunto abierto de , tiene derivada continua y dado cualquier segmento de línea , la función es lineal en , entonces es una función cuadrática.
Idea de prueba: Para cualquier función cuadrática , todavía tenemos dicha linealidad derivada, por lo que restaremos algunas funciones cuadráticas y demostraremos que se convierte en cero.
La idea de prueba se puede ilustrar completamente para el caso de , por lo que la demostramos en este caso.
Por la linealidad derivada, es una función cuadrática en cualquier segmento de línea en . Restamos cuatro funciones cuadráticas, de modo que se vuelve idénticamente cero en el eje x, el eje y y la línea.
Sea , para una elección correcta . Ahora use para eliminar el término lineal y use respectivamente para eliminar los términos cuadráticos a lo largo de las tres líneas.
no en el origen, existe una línea que cruza el eje x, el eje y y la línea en tres puntos diferentes. Como es cuadrática en , y es cero en tres puntos diferentes, es idénticamente cero en , por lo tanto . Por lo tanto es cuadrática.
Las siguientes dos caracterizaciones son para divergencias en , el conjunto de todas las medidas de probabilidad en , con .
Defina una divergencia en como cualquier función de tipo , tal que para todo , entonces:
Si , entonces cualquier divergencia de Bregman en que satisfaga la desigualdad de procesamiento de datos debe ser la divergencia de Kullback-Leibler. (De hecho, una suposición más débil de "suficiencia" es suficiente). Existen contraejemplos cuando . [6]
Dada una divergencia de Bregman , su "opuesto", definido por , generalmente no es una divergencia de Bregman. Por ejemplo, la divergencia de Kullback-Leiber es tanto una divergencia de Bregman como una divergencia f. Su inversa también es una divergencia f, pero según la caracterización anterior, la divergencia KL inversa no puede ser una divergencia de Bregman.
El ejemplo canónico de una distancia de Bregman es la distancia euclidiana al cuadrado . Resulta como el caso especial de lo anterior, cuando es la identidad, es decir, para . Como se señaló, las diferencias afines, es decir, los órdenes inferiores agregados en , son irrelevantes para .
Una herramienta clave en la geometría computacional es la idea de dualidad proyectiva , que asigna puntos a hiperplanos y viceversa, al tiempo que preserva la incidencia y las relaciones arriba-abajo. Existen numerosas formas analíticas del dual proyectivo: una forma común asigna el punto al hiperplano . Esta asignación se puede interpretar (identificando el hiperplano con su normal) como la asignación conjugada convexa que lleva el punto p a su punto dual , donde F define el paraboloide de dimensión d .
Si ahora reemplazamos el paraboloide por una función convexa arbitraria, obtenemos una función dual diferente que conserva las propiedades de incidencia y arriba-abajo del dual proyectivo estándar. Esto implica que los conceptos duales naturales en geometría computacional, como los diagramas de Voronoi y las triangulaciones de Delaunay, conservan su significado en espacios de distancia definidos por una divergencia de Bregman arbitraria. Por lo tanto, los algoritmos de la geometría "normal" se extienden directamente a estos espacios (Boissonnat, Nielsen y Nock, 2010).
Generalización de las divergencias de Bregman
Las divergencias de Bregman pueden interpretarse como casos límite de divergencias de Jensen sesgadas (véase Nielsen y Boltz, 2011). Las divergencias de Jensen pueden generalizarse utilizando la convexidad comparativa, y los casos límite de estas generalizaciones de divergencias de Jensen sesgadas producen divergencias de Bregman generalizadas (véase Nielsen y Nock, 2017). La divergencia de cuerda de Bregman [7] se obtiene tomando una cuerda en lugar de una línea tangente.
Divergencia de Bregman en otros objetos
Las divergencias de Bregman también se pueden definir entre matrices, entre funciones y entre medidas (distribuciones). Las divergencias de Bregman entre matrices incluyen la pérdida de Stein y la entropía de von Neumann . Las divergencias de Bregman entre funciones incluyen el error cuadrático total, la entropía relativa y el sesgo cuadrático; consulte las referencias de Frigyik et al. a continuación para obtener definiciones y propiedades. De manera similar, las divergencias de Bregman también se han definido sobre conjuntos, a través de una función de conjunto submodular que se conoce como el análogo discreto de una función convexa . Las divergencias de Bregman submodulares subsumen una serie de medidas de distancia discretas, como la distancia de Hamming , la precisión y la recuperación , la información mutua y algunas otras medidas de distancia basadas en conjuntos (consulte Iyer y Bilmes, 2012 para obtener más detalles y propiedades del Bregman submodular).
Para obtener una lista de divergencias de Bregman de matriz comunes, consulte la Tabla 15.1 en [8] .
Aplicaciones
En el aprendizaje automático, las divergencias de Bregman se utilizan para calcular la pérdida logística biterminada y tienen un mejor rendimiento que la función softmax con conjuntos de datos ruidosos. [9]
^ ab "Aprendizaje con divergencias de Bregman" (PDF) . utexas.edu . Consultado el 19 de agosto de 2023 .
^ Adamčík, Martin (2014). "La geometría de la información de las divergencias de Bregman y algunas aplicaciones en el razonamiento multiexperto". Entropy . 16 (12): 6338–6381. Bibcode :2014Entrp..16.6338A. doi : 10.3390/e16126338 .
^ Dhillon, Inderjit ; Tropp, Joel (2008). "Matrix Nearness Problems with Bregman Divergence" (PDF) . SIAM Journal on Matrix Analysis and Applications . 29 (4). Supongamos que D_\varphi es una divergencia de Bregman, supongamos que {C_k} es una colección finita de conjuntos cerrados y convexos cuya intersección no está vacía. Dada una matriz de entrada Y, nuestro objetivo es producir una matriz \mathbf{X} en la intersección que diverja menos de \textbf{Y}, es decir, resolver \min_{\mathbf{X} } D_\varphi(\mathbf{X};\mathbf{Y}) sujeta a \mathbf{X} \in \big\cap_k C_k. En condiciones suaves, la solución es única y tiene una caracterización variacional análoga a la caracterización de una proyección ortogonal sobre un conjunto convexo" (ver s2.4, página 1125 para más información)
^ Nielsen, Frank (28 de octubre de 2021). "Aproximaciones rápidas de la divergencia de Jeffreys entre mezclas gaussianas univariadas mediante conversiones de mezclas a distribuciones polinomiales exponenciales". Entropía . 23 (11): 1417. arXiv : 2107.05901 . Bibcode :2021Entrp..23.1417N. doi : 10.3390/e23111417 . ISSN 1099-4300. PMC 8619509 . PMID 34828115.
^ Nielsen, Frank; Boissonnat, Jean-Daniel ; Nock, Richard (septiembre de 2010). "Diagramas de Bregman Voronoi: propiedades, algoritmos y aplicaciones". Geometría discreta y computacional . 44 (2): 281–307. arXiv : 0709.2196 . doi :10.1007/s00454-010-9256-1. ISSN 0179-5376. S2CID 1327029.
^ ab Jiao, Jiantao; Courtade, Thomas; No, Albert; Venkat, Kartik; Weissman, Tsachy (diciembre de 2014). "Medidas de información: el curioso caso del alfabeto binario". IEEE Transactions on Information Theory . 60 (12): 7616–7626. arXiv : 1404.6810 . doi :10.1109/TIT.2014.2360184. ISSN 0018-9448. S2CID 13108908.
^ Nielsen, Frank; Nock, Richard (2019). "La divergencia de las cuerdas de Bregman". Ciencia geométrica de la información . Apuntes de clase en informática. Vol. 11712. págs. 299–308. arXiv : 1810.09113 . doi :10.1007/978-3-030-26980-7_31. ISBN978-3-030-26979-1. Número de identificación del sujeto 53046425.
^ "Geometría de la información matricial", R. Nock, B. Magdalou, E. Briys y F. Nielsen, pdf, de este libro
^ Ehsan Amid, Manfred K. Warmuth, Rohan Anil, Tomer Koren (2019). "Pérdida logística robusta bitemperada basada en divergencias de Bregman". Conferencia sobre sistemas de procesamiento de información neuronal. pp. 14987-14996. pdf
Bregman, LM (1967). "El método de relajación para hallar los puntos comunes de conjuntos convexos y su aplicación a la solución de problemas de programación convexa". Matemáticas computacionales y física matemática de la URSS . 7 (3): 200–217. doi :10.1016/0041-5553(67)90040-7.
Frigyik, Bela A.; Srivastava, Santosh; Gupta, Maya R. (2008). "Divergencias funcionales de Bregman y estimación bayesiana de distribuciones" (PDF) . IEEE Transactions on Information Theory . 54 (11): 5130–5139. arXiv : cs/0611123 . doi :10.1109/TIT.2008.929943. S2CID 1254. Archivado desde el original (PDF) el 12 de agosto de 2010.
Frigyik, Bela A.; Srivastava, Santosh; Gupta, Maya R. (2008). Introducción a las derivadas funcionales (PDF) . Informe técnico UWEE 2008-0001. Universidad de Washington, Departamento de Ingeniería Eléctrica. Archivado desde el original (PDF) el 17 de febrero de 2017. Consultado el 20 de marzo de 2014 .
Harremoës, Peter (2017). "Divergencia y suficiencia para optimización convexa". Entropy . 19 (5): 206. arXiv : 1701.01010 . Bibcode :2017Entrp..19..206H. doi : 10.3390/e19050206 .
Nielsen, Frank; Nock, Richard (2009). "Los diagramas duales de Voronoi con respecto a las divergencias representacionales de Bregman" (PDF) . Actas del 6º Simposio Internacional sobre Diagramas de Voronoi . IEEE. doi :10.1109/ISVD.2009.15.
Nielsen, Frank; Nock, Richard (2007). "Sobre los centroides de las divergencias de Bregman simetrizadas". arXiv : 0711.3242 [cs.CG].
Nielsen, Frank; Boissonnat, Jean-Daniel; Nock, Richard (2007). "Visualización de diagramas de Bregman Voronoi" (PDF) . Proc. 23.° Simposio ACM sobre geometría computacional (pista de video) . doi :10.1145/1247069.1247089.
Nielsen, Frank; Nock, Richard (2006). "Sobre la aproximación de las esferas de Bregman más pequeñas". Proc. 22.º Simposio ACM sobre geometría computacional . págs. 485–486. doi :10.1145/1137856.1137931.
Nielsen, Frank; Boltz, Sylvain (2011). "Los centroides de Burbea-Rao y Bhattacharyya". IEEE Transactions on Information Theory . 57 (8): 5455–5466. arXiv : 1004.5049 . doi :10.1109/TIT.2011.2159046. S2CID 14238708.
Nielsen, Frank; Nock, Richard (2017). "Generalización de divergencias de Jensen sesgadas y divergencias de Bregman con convexidad comparativa". IEEE Signal Processing Letters . 24 (8): 1123–1127. arXiv : 1702.04877 . Bibcode :2017ISPL...24.1123N. doi :10.1109/LSP.2017.2712195. S2CID 31899023.