stringtranslate.com

Modelo basado en la energía

Un modelo basado en energía ( EBM ) (también llamado aprendizaje de conjunto canónico (CEL) o aprendizaje a través de conjunto canónico (LCE) ) es una aplicación de la formulación de conjunto canónico de física estadística para aprender a partir de problemas de datos. El enfoque aparece de forma destacada en los modelos generativos (GM).

Los EBM proporcionan un marco unificado para muchos enfoques probabilísticos y no probabilísticos de dicho aprendizaje, en particular para el entrenamiento de modelos gráficos y otros modelos estructurados. [ cita requerida ]

Un EBM aprende las características de un conjunto de datos de destino y genera un conjunto de datos similar pero más grande. Los EBM detectan las variables latentes de un conjunto de datos y generan nuevos conjuntos de datos con una distribución similar.

Las redes neuronales generativas basadas en energía [1] [2] son ​​una clase de modelos generativos , que tienen como objetivo aprender distribuciones de probabilidad explícitas de datos en forma de modelos basados ​​en energía cuyas funciones de energía están parametrizadas por redes neuronales profundas modernas .

Las máquinas de Boltzmann son una forma especial de modelos basados ​​en energía con una parametrización específica de la energía. [3]

Descripción

Para una entrada dada , el modelo describe una energía tal que la distribución de Boltzmann es una probabilidad (densidad) y típicamente .

Dado que la constante de normalización , también conocida como función de partición , depende de todos los factores de Boltzmann de todas las entradas posibles, no se puede calcular fácilmente ni estimar de manera confiable durante el entrenamiento simplemente utilizando la estimación de máxima verosimilitud estándar .

Sin embargo, para maximizar la probabilidad durante el entrenamiento, el gradiente de la probabilidad logarítmica de un solo ejemplo de entrenamiento se da utilizando la regla de la cadena.

La expectativa en la fórmula anterior para el gradiente se puede estimar aproximadamente extrayendo muestras de la distribución utilizando el método Monte Carlo de cadena de Markov (MCMC) [4].

Los primeros modelos basados ​​en energía, como la máquina de Boltzmann de 2003 de Hinton, estimaron esta expectativa utilizando un muestreador de Gibbs en bloques . Los enfoques más nuevos utilizan dinámicas de Langevin de gradiente estocástico (LD) más eficientes, extrayendo muestras utilizando: [5]

y se utiliza un búfer de reproducción de valores pasados ​​con LD para inicializar el módulo de optimización.

Los parámetros de la red neuronal se entrenan, por lo tanto, de manera generativa mediante la estimación de máxima verosimilitud basada en MCMC: [6] El proceso de aprendizaje sigue un esquema de "análisis por síntesis", donde dentro de cada iteración de aprendizaje, el algoritmo muestrea los ejemplos sintetizados del modelo actual mediante un método MCMC basado en gradientes, por ejemplo, dinámica de Langevin o Monte Carlo híbrido , y luego actualiza los parámetros del modelo en función de la diferencia entre los ejemplos de entrenamiento y los sintetizados, consulte la ecuación . Este proceso puede interpretarse como un proceso de búsqueda de modo alternado y cambio de modo, y también tiene una interpretación adversarial. [7] [8]

Al final, el modelo aprende una función que asocia energías bajas a valores correctos y energías más altas a valores incorrectos.

Después del entrenamiento, dado un modelo de energía convergente , se puede utilizar el algoritmo Metropolis-Hastings para extraer nuevas muestras. La probabilidad de aceptación viene dada por:

Historia

El término "modelos basados ​​en energía" se acuñó por primera vez en un artículo de JMLR de 2003 [9], en el que los autores definieron una generalización del análisis de componentes independientes al entorno sobrecompleto utilizando modelos basados ​​en energía. Otros trabajos anteriores sobre modelos basados ​​en energía propusieron modelos que representaban la energía como una composición de variables latentes y observables.

Características

Los EBM demuestran propiedades útiles:

Resultados experimentales

En conjuntos de datos de imágenes como CIFAR-10 e ImageNet 32x32, un modelo EBM generó imágenes de alta calidad con relativa rapidez. Permitió combinar características aprendidas de un tipo de imagen para generar otros tipos de imágenes. Pudo generalizarse utilizando conjuntos de datos fuera de distribución, superando a los modelos autorregresivos y basados ​​en flujo . El EBM fue relativamente resistente a perturbaciones adversas y se comportó mejor que los modelos entrenados explícitamente contra ellas con entrenamiento para clasificación. [ cita requerida ]

Aplicaciones

Las aplicaciones objetivo incluyen el procesamiento del lenguaje natural , la robótica y la visión por computadora .

La primera red neuronal generativa basada en energía es la ConvNet generativa propuesta en 2016 para patrones de imágenes, donde la red neuronal es una red neuronal convolucional . [10] [11] El modelo se ha generalizado a varios dominios para aprender distribuciones de videos, [7] [2] y vóxeles 3D. [12] Se hacen más efectivos en sus variantes. [13] [14] [15] [16] [17] [18] Han demostrado ser útiles para la generación de datos (por ejemplo, síntesis de imágenes, síntesis de video, [7] síntesis de formas 3D, [4] etc.), recuperación de datos (por ejemplo, recuperación de videos con píxeles o cuadros de imagen faltantes, [7] súper resolución 3D, [4] etc.), reconstrucción de datos (por ejemplo, reconstrucción de imágenes e interpolación lineal [14] ).

Alternativas

Los EBM compiten con técnicas como los autocodificadores variacionales (VAE), las redes generativas antagónicas (GAN) o los flujos normalizadores .

Extensiones

Modelos conjuntos basados ​​en la energía

Un clasificador puede reinterpretarse como un modelo conjunto basado en energía.

Los modelos conjuntos basados ​​en energía (JEM), propuestos en 2020 por Grathwohl et al., permiten que cualquier clasificador con salida softmax se interprete como un modelo basado en energía. La observación clave es que un clasificador de este tipo está entrenado para predecir la probabilidad condicional donde es el índice y-ésimo de los logits correspondientes a la clase y. Sin ningún cambio en los logits, se propuso reinterpretarlos para describir una densidad de probabilidad conjunta:

con función de partición y energía desconocidas . Por marginalización, obtenemos la densidad no normalizada

por lo tanto,

De modo que cualquier clasificador puede utilizarse para definir una función de energía .

Véase también

Literatura

Referencias

  1. ^ Xie, Jianwen; Lu, Yang; Zhu, Song-Chun; Wu, Ying Nian (2016). "Una teoría de ConvNet generativa". ICML . arXiv : 1602.03264 . Código Bib : 2016arXiv160203264X.
  2. ^ ab Xie, Jianwen; Zhu, Song-Chun; Wu, Ying Nian (2019). "Aprendizaje de convoluciones generativas espacio-temporales basadas en energía para patrones dinámicos". IEEE Transactions on Pattern Analysis and Machine Intelligence . 43 (2): 516–531. arXiv : 1909.11975 . Bibcode :2019arXiv190911975X. doi :10.1109/tpami.2019.2934852. ISSN  0162-8828. PMID  31425020. S2CID  201098397.
  3. ^ Aprendiendo arquitecturas profundas para IA, Yoshua Bengio, página 54, https://books.google.com/books?id=cq5ewg7FniMC&pg=PA54
  4. ^ abcd Du, Yilun; Mordatch, Igor (20 de marzo de 2019). "Generación implícita y generalización en modelos basados ​​en energía". arXiv : 1903.08689 [cs.LG].
  5. ^ Grathwohl, Will, et al. "Su clasificador es en secreto un modelo basado en la energía y debería tratarlo como tal". Preimpresión de arXiv arXiv:1912.03263 (2019).
  6. ^ Barbu, Adrian; Zhu, Song-Chun (2020). Métodos de Monte Carlo . Springer.
  7. ^ abcde Xie, Jianwen; Zhu, Song-Chun; Wu, Ying Nian (julio de 2017). "Sintetización de patrones dinámicos mediante redes convolucionales generativas espacio-temporales". Conferencia IEEE de 2017 sobre visión artificial y reconocimiento de patrones (CVPR) . IEEE. págs. 1061–1069. arXiv : 1606.00972 . doi :10.1109/cvpr.2017.119. ISBN. 978-1-5386-0457-1.S2CID 763074  .
  8. ^ Wu, Ying Nian; Xie, Jianwen; Lu, Yang; Zhu, Song-Chun (2018). "Generalizaciones dispersas y profundas del modelo FRAME". Anales de Ciencias Matemáticas y Aplicaciones . 3 (1): 211–254. doi :10.4310/amsa.2018.v3.n1.a7. ISSN  2380-288X.
  9. ^ Teh, Yee Whye; Welling, Max; Osindero, Simon; Hinton, Geoffrey E. (diciembre de 2003). "Modelos basados ​​en energía para representaciones dispersas sobrecompletas". JMLR . 4 (diciembre): 1235–1260.
  10. ^ Lecun, Y.; Bottou, L.; Bengio, Y.; Haffner, P. (1998). "Aprendizaje basado en gradientes aplicado al reconocimiento de documentos". Actas del IEEE . 86 (11): 2278–2324. doi :10.1109/5.726791. ISSN  0018-9219. S2CID  14542261.
  11. ^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey (2012). "Clasificación ImageNet con redes neuronales convolucionales profundas" (PDF) . NIPS .
  12. ^ Xie, Jianwen; Zheng, Zilong; Gao, Ruiqi; Wang, Wenguan; Zhu, Song-Chun; Wu, Ying Nian (junio de 2018). "Redes de descriptores de aprendizaje para la síntesis y el análisis de formas 3D". Conferencia IEEE/CVF de 2018 sobre visión artificial y reconocimiento de patrones . IEEE. págs. arXiv : 1804.00586 . Código Bibliográfico :2018arXiv180400586X. doi :10.1109/cvpr.2018.00900. ISBN . 978-1-5386-6420-9.S2CID 4564025  .
  13. ^ Gao, Ruiqi; Lu, Yang; Zhou, Junpei; Zhu, Song-Chun; Wu, Ying Nian (junio de 2018). "Aprendizaje de redes convolucionales generativas mediante modelado y muestreo de múltiples cuadrículas". Conferencia IEEE/CVF de 2018 sobre visión artificial y reconocimiento de patrones . IEEE. págs. 9155–9164. arXiv : 1709.08868 . doi :10.1109/cvpr.2018.00954. ISBN. 978-1-5386-6420-9.S2CID 4566195  .
  14. ^ ab Nijkamp, ​​Zhu, Song-Chun Wu, Ying Nian, Erik; Hill, Mitch; Zhu, Song-Chun; Wu, Ying Nian (2019). Sobre el aprendizaje de MCMC no convergente y no persistente de corto plazo hacia un modelo basado en energía . NeurIPS. OCLC  1106340764.{{cite book}}: CS1 maint: location missing publisher (link) CS1 maint: multiple names: authors list (link)
  15. ^ Cai, Xu; Wu, Yang; Li, Guanbin; Chen, Ziliang; Lin, Liang (17 de julio de 2019). "FRAME Revisited: An Interpretation View Based on Particle Evolution". Actas de la Conferencia AAAI sobre Inteligencia Artificial . 33 : 3256–3263. arXiv : 1812.01186 . doi : 10.1609/aaai.v33i01.33013256 . ISSN  2374-3468.
  16. ^ Xie, Jianwen; Lu, Yang; Gao, Ruiqi; Zhu, Song-Chun; Wu, Ying Nian (1 de enero de 2020). "Entrenamiento cooperativo de redes de descriptores y generadores". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 42 (1): 27–45. arXiv : 1609.09408 . doi :10.1109/tpami.2018.2879081. ISSN  0162-8828. PMID  30387724. S2CID  7759006.
  17. ^ Xie, Jianwen; Lu, Yang; Gao, Ruiqi; Gao, Song-Chun (2018). "Aprendizaje cooperativo del modelo basado en energía y el modelo de variable latente mediante la enseñanza MCMC". Trigésima segunda conferencia de la AAAI sobre inteligencia artificial . 32 . doi : 10.1609/aaai.v32i1.11834 . S2CID  9212174.
  18. ^ Han, Tian; Nijkamp, ​​Erik; Fang, Xiaolin; Hill, Mitch; Zhu, Song-Chun; Wu, Ying Nian (junio de 2019). "Triángulo de divergencia para el entrenamiento conjunto del modelo generador, el modelo basado en energía y el modelo inferencial". Conferencia IEEE/CVF de 2019 sobre visión artificial y reconocimiento de patrones (CVPR) . IEEE. págs. 8662–8671. doi :10.1109/cvpr.2019.00887. ISBN . 978-1-7281-3293-8. Número de identificación del sujeto  57189202.

Enlaces externos