Un modelo basado en energía ( EBM ) (también llamado aprendizaje de conjunto canónico (CEL) o aprendizaje a través de conjunto canónico (LCE) ) es una aplicación de la formulación de conjunto canónico de física estadística para aprender a partir de problemas de datos. El enfoque aparece de forma destacada en los modelos generativos (GM).
Los EBM proporcionan un marco unificado para muchos enfoques probabilísticos y no probabilísticos de dicho aprendizaje, en particular para el entrenamiento de modelos gráficos y otros modelos estructurados. [ cita requerida ]
Un EBM aprende las características de un conjunto de datos de destino y genera un conjunto de datos similar pero más grande. Los EBM detectan las variables latentes de un conjunto de datos y generan nuevos conjuntos de datos con una distribución similar.
Las redes neuronales generativas basadas en energía [1] [2] son una clase de modelos generativos , que tienen como objetivo aprender distribuciones de probabilidad explícitas de datos en forma de modelos basados en energía cuyas funciones de energía están parametrizadas por redes neuronales profundas modernas .
Las máquinas de Boltzmann son una forma especial de modelos basados en energía con una parametrización específica de la energía. [3]
Descripción
Para una entrada dada , el modelo describe una energía tal que la distribución de Boltzmann es una probabilidad (densidad) y típicamente .
Dado que la constante de normalización , también conocida como función de partición , depende de todos los factores de Boltzmann de todas las entradas posibles, no se puede calcular fácilmente ni estimar de manera confiable durante el entrenamiento simplemente utilizando la estimación de máxima verosimilitud estándar .
Sin embargo, para maximizar la probabilidad durante el entrenamiento, el gradiente de la probabilidad logarítmica de un solo ejemplo de entrenamiento se da utilizando la regla de la cadena.
La expectativa en la fórmula anterior para el gradiente se puede estimar aproximadamente extrayendo muestras de la distribución utilizando el método Monte Carlo de cadena de Markov (MCMC) [4].
Los primeros modelos basados en energía, como la máquina de Boltzmann de 2003 de Hinton, estimaron esta expectativa utilizando un muestreador de Gibbs en bloques . Los enfoques más nuevos utilizan dinámicas de Langevin de gradiente estocástico (LD) más eficientes, extrayendo muestras utilizando: [5]
y se utiliza un búfer de reproducción de valores pasados con LD para inicializar el módulo de optimización.
Los parámetros de la red neuronal se entrenan, por lo tanto, de manera generativa mediante la estimación de máxima verosimilitud basada en MCMC: [6]
El proceso de aprendizaje sigue un esquema de "análisis por síntesis", donde dentro de cada iteración de aprendizaje, el algoritmo muestrea los ejemplos sintetizados del modelo actual mediante un método MCMC basado en gradientes, por ejemplo, dinámica de Langevin o Monte Carlo híbrido , y luego actualiza los parámetros del modelo en función de la diferencia entre los ejemplos de entrenamiento y los sintetizados, consulte la ecuación . Este proceso puede interpretarse como un proceso de búsqueda de modo alternado y cambio de modo, y también tiene una interpretación adversarial. [7] [8]
Al final, el modelo aprende una función que asocia energías bajas a valores correctos y energías más altas a valores incorrectos.
El término "modelos basados en energía" se acuñó por primera vez en un artículo de JMLR de 2003 [9], en el que los autores definieron una generalización del análisis de componentes independientes al entorno sobrecompleto utilizando modelos basados en energía. Otros trabajos anteriores sobre modelos basados en energía propusieron modelos que representaban la energía como una composición de variables latentes y observables.
Características
Los EBM demuestran propiedades útiles:
Simplicidad y estabilidad: el EBM es el único objeto que necesita ser diseñado y entrenado. No es necesario entrenar redes separadas para garantizar el equilibrio.
Tiempo de cálculo adaptativo: un EBM puede generar muestras definidas y diversas o (más rápidamente) muestras burdas y menos diversas. Dado un tiempo infinito, este procedimiento produce muestras verdaderas. [7]
Flexibilidad: en los autocodificadores variacionales (VAE) y los modelos basados en flujo , el generador aprende un mapa desde un espacio continuo a un espacio (posiblemente) discontinuo que contiene diferentes modos de datos. Los EBM pueden aprender a asignar energías bajas a regiones disjuntas (modos múltiples).
Generación adaptativa: los generadores EBM están definidos implícitamente por la distribución de probabilidad y se adaptan automáticamente a medida que la distribución cambia (sin entrenamiento), lo que permite que los EBM aborden dominios donde el entrenamiento del generador no es práctico, además de minimizar el colapso de modos y evitar modos espurios de muestras fuera de la distribución. [4]
Composicionalidad: Los modelos individuales son distribuciones de probabilidad no normalizadas, lo que permite combinar modelos mediante el producto de expertos u otras técnicas jerárquicas.
Resultados experimentales
En conjuntos de datos de imágenes como CIFAR-10 e ImageNet 32x32, un modelo EBM generó imágenes de alta calidad con relativa rapidez. Permitió combinar características aprendidas de un tipo de imagen para generar otros tipos de imágenes. Pudo generalizarse utilizando conjuntos de datos fuera de distribución, superando a los modelos autorregresivos y basados en flujo . El EBM fue relativamente resistente a perturbaciones adversas y se comportó mejor que los modelos entrenados explícitamente contra ellas con entrenamiento para clasificación. [ cita requerida ]
La primera red neuronal generativa basada en energía es la ConvNet generativa propuesta en 2016 para patrones de imágenes, donde la red neuronal es una red neuronal convolucional . [10] [11] El modelo se ha generalizado a varios dominios para aprender distribuciones de videos, [7] [2] y vóxeles 3D. [12] Se hacen más efectivos en sus variantes. [13] [14] [15] [16] [17] [18] Han demostrado ser útiles para la generación de datos (por ejemplo, síntesis de imágenes, síntesis de video, [7] síntesis de formas 3D, [4] etc.), recuperación de datos (por ejemplo, recuperación de videos con píxeles o cuadros de imagen faltantes, [7] súper resolución 3D, [4] etc.), reconstrucción de datos (por ejemplo, reconstrucción de imágenes e interpolación lineal [14] ).
Los modelos conjuntos basados en energía (JEM), propuestos en 2020 por Grathwohl et al., permiten que cualquier clasificador con salida softmax se interprete como un modelo basado en energía. La observación clave es que un clasificador de este tipo está entrenado para predecir la probabilidad condicional
donde es el índice y-ésimo de los logits correspondientes a la clase y. Sin ningún cambio en los logits, se propuso reinterpretarlos para describir una densidad de probabilidad conjunta:
con función de partición y energía desconocidas . Por marginalización, obtenemos la densidad no normalizada
por lo tanto,
De modo que cualquier clasificador puede utilizarse para definir una función de energía .
Generación implícita y generalización en modelos basados en energía Yilun Du, Igor Mordatch https://arxiv.org/abs/1903.08689
Su clasificador es en secreto un modelo basado en la energía y debería tratarlo como tal, Will Grathwohl, Kuan-Chieh Wang, Jörn-Henrik Jacobsen, David Duvenaud, Mohammad Norouzi, Kevin Swersky https://arxiv.org/abs/1912.03263
^ abcd Du, Yilun; Mordatch, Igor (20 de marzo de 2019). "Generación implícita y generalización en modelos basados en energía". arXiv : 1903.08689 [cs.LG].
^ Grathwohl, Will, et al. "Su clasificador es en secreto un modelo basado en la energía y debería tratarlo como tal". Preimpresión de arXiv arXiv:1912.03263 (2019).
^ Barbu, Adrian; Zhu, Song-Chun (2020). Métodos de Monte Carlo . Springer.
^ abcde Xie, Jianwen; Zhu, Song-Chun; Wu, Ying Nian (julio de 2017). "Sintetización de patrones dinámicos mediante redes convolucionales generativas espacio-temporales". Conferencia IEEE de 2017 sobre visión artificial y reconocimiento de patrones (CVPR) . IEEE. págs. 1061–1069. arXiv : 1606.00972 . doi :10.1109/cvpr.2017.119. ISBN.978-1-5386-0457-1.S2CID 763074 .
^ Wu, Ying Nian; Xie, Jianwen; Lu, Yang; Zhu, Song-Chun (2018). "Generalizaciones dispersas y profundas del modelo FRAME". Anales de Ciencias Matemáticas y Aplicaciones . 3 (1): 211–254. doi :10.4310/amsa.2018.v3.n1.a7. ISSN 2380-288X.
^ Teh, Yee Whye; Welling, Max; Osindero, Simon; Hinton, Geoffrey E. (diciembre de 2003). "Modelos basados en energía para representaciones dispersas sobrecompletas". JMLR . 4 (diciembre): 1235–1260.
^ Lecun, Y.; Bottou, L.; Bengio, Y.; Haffner, P. (1998). "Aprendizaje basado en gradientes aplicado al reconocimiento de documentos". Actas del IEEE . 86 (11): 2278–2324. doi :10.1109/5.726791. ISSN 0018-9219. S2CID 14542261.
^ Xie, Jianwen; Zheng, Zilong; Gao, Ruiqi; Wang, Wenguan; Zhu, Song-Chun; Wu, Ying Nian (junio de 2018). "Redes de descriptores de aprendizaje para la síntesis y el análisis de formas 3D". Conferencia IEEE/CVF de 2018 sobre visión artificial y reconocimiento de patrones . IEEE. págs. arXiv : 1804.00586 . Código Bibliográfico :2018arXiv180400586X. doi :10.1109/cvpr.2018.00900. ISBN .978-1-5386-6420-9.S2CID 4564025 .
^ Gao, Ruiqi; Lu, Yang; Zhou, Junpei; Zhu, Song-Chun; Wu, Ying Nian (junio de 2018). "Aprendizaje de redes convolucionales generativas mediante modelado y muestreo de múltiples cuadrículas". Conferencia IEEE/CVF de 2018 sobre visión artificial y reconocimiento de patrones . IEEE. págs. 9155–9164. arXiv : 1709.08868 . doi :10.1109/cvpr.2018.00954. ISBN.978-1-5386-6420-9.S2CID 4566195 .
^ ab Nijkamp, Zhu, Song-Chun Wu, Ying Nian, Erik; Hill, Mitch; Zhu, Song-Chun; Wu, Ying Nian (2019). Sobre el aprendizaje de MCMC no convergente y no persistente de corto plazo hacia un modelo basado en energía . NeurIPS. OCLC 1106340764.{{cite book}}: CS1 maint: location missing publisher (link) CS1 maint: multiple names: authors list (link)
^ Cai, Xu; Wu, Yang; Li, Guanbin; Chen, Ziliang; Lin, Liang (17 de julio de 2019). "FRAME Revisited: An Interpretation View Based on Particle Evolution". Actas de la Conferencia AAAI sobre Inteligencia Artificial . 33 : 3256–3263. arXiv : 1812.01186 . doi : 10.1609/aaai.v33i01.33013256 . ISSN 2374-3468.
^ Xie, Jianwen; Lu, Yang; Gao, Ruiqi; Zhu, Song-Chun; Wu, Ying Nian (1 de enero de 2020). "Entrenamiento cooperativo de redes de descriptores y generadores". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 42 (1): 27–45. arXiv : 1609.09408 . doi :10.1109/tpami.2018.2879081. ISSN 0162-8828. PMID 30387724. S2CID 7759006.
^ Xie, Jianwen; Lu, Yang; Gao, Ruiqi; Gao, Song-Chun (2018). "Aprendizaje cooperativo del modelo basado en energía y el modelo de variable latente mediante la enseñanza MCMC". Trigésima segunda conferencia de la AAAI sobre inteligencia artificial . 32 . doi : 10.1609/aaai.v32i1.11834 . S2CID 9212174.
^ Han, Tian; Nijkamp, Erik; Fang, Xiaolin; Hill, Mitch; Zhu, Song-Chun; Wu, Ying Nian (junio de 2019). "Triángulo de divergencia para el entrenamiento conjunto del modelo generador, el modelo basado en energía y el modelo inferencial". Conferencia IEEE/CVF de 2019 sobre visión artificial y reconocimiento de patrones (CVPR) . IEEE. págs. 8662–8671. doi :10.1109/cvpr.2019.00887. ISBN .978-1-7281-3293-8. Número de identificación del sujeto 57189202.
Enlaces externos
"CIAR NCAP Summer School" (Escuela de verano de CIAR NCAP). www.cs.toronto.edu . Consultado el 27 de diciembre de 2019 .
Dayan, Peter; Hinton, Geoffrey; Neal, Radford; Zemel, Richard S. (1999), "Máquina de Helmholtz", Aprendizaje no supervisado , The MIT Press, doi :10.7551/mitpress/7011.003.0017, ISBN 978-0-262-28803-3
Hinton, Geoffrey E. (agosto de 2002). "Productos de entrenamiento de expertos mediante la minimización de la divergencia contrastiva". Computación neuronal . 14 (8): 1771–1800. doi :10.1162/089976602760128018. ISSN 0899-7667. PMID 12180402. S2CID 207596505.
Salakhutdinov, Ruslan; Hinton, Geoffrey (15 de abril de 2009). "Máquinas profundas de Boltzmann". Inteligencia artificial y estadística : 448–455.