Una máquina de Boltzmann restringida ( RBM ) (también llamada modelo restringido de Sherrington-Kirkpatrick con campo externo o modelo estocástico restringido de Ising-Lenz-Little ) es una red neuronal artificial estocástica generativa que puede aprender una distribución de probabilidad sobre su conjunto de entradas. [1]
un par de nodos de cada uno de los dos grupos de unidades (comúnmente denominados unidades "visibles" y "ocultas", respectivamente) pueden tener una conexión simétrica entre ellos; y
No hay conexiones entre nodos dentro de un grupo.
Por el contrario, las máquinas de Boltzmann "sin restricciones" pueden tener conexiones entre unidades ocultas . Esta restricción permite algoritmos de entrenamiento más eficientes que los disponibles para la clase general de máquinas de Boltzmann, en particular el algoritmo de divergencia contrastiva basado en gradientes . [12]
El tipo estándar de RBM tiene unidades visibles y ocultas con valores binarios ( booleanos ) y consta de una matriz de pesos de tamaño . Cada elemento de peso de la matriz está asociado con la conexión entre la unidad visible (de entrada) y la unidad oculta . Además, hay pesos de sesgo (desplazamientos) para y para . Dados los pesos y sesgos, la energía de una configuración (par de vectores booleanos) ( v , h ) se define como
o, en notación matricial,
Esta función de energía es análoga a la de una red de Hopfield . Al igual que con las máquinas de Boltzmann generales, la distribución de probabilidad conjunta para los vectores visibles y ocultos se define en términos de la función de energía de la siguiente manera: [14]
donde es una función de partición definida como la suma de todas las configuraciones posibles, que puede interpretarse como una constante normalizadora para garantizar que las probabilidades sumen 1. La probabilidad marginal de un vector visible es la suma de todas las configuraciones posibles de la capa oculta, [14]
,
y viceversa. Dado que la estructura gráfica subyacente del RBM es bipartita (lo que significa que no hay conexiones intracapa), las activaciones de las unidades ocultas son mutuamente independientes dadas las activaciones de las unidades visibles. A la inversa, las activaciones de las unidades visibles son mutuamente independientes dadas las activaciones de las unidades ocultas. [12] Es decir, para m unidades visibles y n unidades ocultas, la probabilidad condicional de una configuración de las unidades visibles v , dada una configuración de las unidades ocultas h , es
.
Por el contrario, la probabilidad condicional de h dado v es
.
Las probabilidades de activación individuales están dadas por
Las unidades visibles de la máquina de Boltzmann restringida pueden ser multinomiales , aunque las unidades ocultas son Bernoulli . [ aclaración necesaria ] En este caso, la función logística para unidades visibles se reemplaza por la función softmax
donde K es el número de valores discretos que tienen los valores visibles. Se aplican en modelado de temas, [7] y sistemas de recomendación . [5]
Las máquinas de Boltzmann restringidas se entrenan para maximizar el producto de las probabilidades asignadas a un conjunto de entrenamiento (una matriz, cada fila de la cual se trata como un vector visible ),
o equivalentemente, maximizar la probabilidad logarítmica esperada de una muestra de entrenamiento seleccionada aleatoriamente de : [15] [16]
El algoritmo más utilizado para entrenar RBM, es decir, para optimizar la matriz de peso , es el algoritmo de divergencia contrastiva (CD) debido a Hinton , desarrollado originalmente para entrenar modelos PoE ( producto de expertos ). [18] [19]
El algoritmo realiza un muestreo de Gibbs y se utiliza dentro de un procedimiento de descenso de gradiente (similar a la forma en que se utiliza la retropropagación dentro de dicho procedimiento cuando se entrenan redes neuronales de propagación hacia adelante) para calcular la actualización de peso.
El procedimiento básico de divergencia contrastiva de un solo paso (CD-1) para una sola muestra se puede resumir de la siguiente manera:
Tome una muestra de entrenamiento v , calcule las probabilidades de las unidades ocultas y muestree un vector de activación oculto h de esta distribución de probabilidad.
Calcule el producto externo de v y h y llámelo gradiente positivo .
A partir de h , muestre una reconstrucción v' de las unidades visibles y luego vuelva a muestrear las activaciones ocultas h' a partir de esto. (Paso de muestreo de Gibbs)
Calcule el producto externo de v' y h' y llámelo gradiente negativo .
Sea la actualización de la matriz de peso el gradiente positivo menos el gradiente negativo, multiplicado por una tasa de aprendizaje: .
Actualice los sesgos a y b de forma análoga: , .
En la página de inicio de Hinton se puede encontrar una guía práctica para la formación de RBM escrita por Hinton. [14]
Máquina de Boltzmann restringida apilada
La diferencia entre las máquinas de Boltzmann restringidas apiladas y las RBM es que las RBM tienen conexiones laterales dentro de una capa que están prohibidas para que el análisis sea manejable. Por otro lado, la Boltzmann apilada consiste en una combinación de una red de tres capas no supervisada con pesos simétricos y una capa superior supervisada y ajustada para reconocer tres clases.
El uso de Boltzmann apilado es para comprender lenguajes naturales , recuperar documentos , generar imágenes y clasificar. Estas funciones se entrenan con un preentrenamiento no supervisado y/o un ajuste fino supervisado. A diferencia de la capa superior simétrica no dirigida, con una capa asimétrica bidireccional para la conexión para RBM, la conexión de Boltzmann restringida tiene tres capas con pesos asimétricos y se combinan dos redes en una.
Stacked Boltzmann comparte similitudes con RBM, la neurona de Stacked Boltzmann es una neurona de Hopfield binaria estocástica, que es la misma que la de la máquina de Boltzmann restringida. La energía tanto de Restricted Boltzmann como de RBM está dada por la medida de probabilidad de Gibbs: . El proceso de entrenamiento de Restricted Boltzmann es similar a RBM. Restricted Boltzmann entrena una capa a la vez y se aproxima al estado de equilibrio con un pase de 3 segmentos, sin realizar retropropagación. Restricted Boltzmann utiliza tanto supervisión como no supervisión en diferentes RBM para el preentrenamiento para la clasificación y el reconocimiento. El entrenamiento utiliza divergencia contrastiva con muestreo de Gibbs: Δw ij = e*(p ij - p' ij )
La fortaleza del modelo de Boltzmann restringido es que realiza una transformación no lineal, por lo que es fácil de expandir y puede dar una capa jerárquica de características. La debilidad es que tiene cálculos complicados de neuronas de valores reales y enteros. No sigue el gradiente de ninguna función, por lo que la aproximación de la divergencia contrastiva a la máxima verosimilitud es improvisada. [14]
Literatura
Fischer, Asja; Igel, Christian (2012), "Introducción a las máquinas de Boltzmann restringidas", Avances en reconocimiento de patrones, análisis de imágenes, visión artificial y aplicaciones , Lecture Notes in Computer Science, vol. 7441, Berlín, Heidelberg: Springer Berlin Heidelberg, págs. 14–36, doi : 10.1007/978-3-642-33275-3_2 , ISBN 978-3-642-33274-6
^ Sherrington, David; Kirkpatrick, Scott (1975), "Modelo resoluble de un vidrio de espín", Physical Review Letters , 35 (35): 1792–1796, Bibcode :1975PhRvL..35.1792S, doi :10.1103/PhysRevLett.35.1792
^ Hinton, GE; Salakhutdinov, RR (2006). "Reducción de la dimensionalidad de los datos con redes neuronales" (PDF) . Science . 313 (5786): 504–507. Bibcode :2006Sci...313..504H. doi :10.1126/science.1127647. PMID 16873662. S2CID 1658773. Archivado desde el original (PDF) el 23 de diciembre de 2015 . Consultado el 2 de diciembre de 2015 .
^ Larochelle, H.; Bengio, Y. (2008). Clasificación mediante máquinas de Boltzmann restringidas discriminativas (PDF) . Actas de la 25.ª conferencia internacional sobre aprendizaje automático - ICML '08. pág. 536. doi :10.1145/1390156.1390224. ISBN978-1-60558-205-4.
^ ab Salakhutdinov, R.; Mnih, A.; Hinton, G. (2007). Máquinas de Boltzmann restringidas para filtrado colaborativo . Actas de la 24.ª conferencia internacional sobre aprendizaje automático - ICML '07. pág. 791. doi :10.1145/1273496.1273596. ISBN978-1-59593-793-3.
^ Coates, Adam; Lee, Honglak; Ng, Andrew Y. (2011). Un análisis de redes de una sola capa en el aprendizaje de características no supervisado (PDF) . Conferencia Internacional sobre Inteligencia Artificial y Estadística (AISTATS). Archivado desde el original (PDF) el 2014-12-20 . Consultado el 19 de diciembre de 2014 .
^ Bravi, Barbara; Di Gioacchino, Andrea; Fernandez-de-Cossio-Diaz, Jorge; Walczak, Aleksandra M; Mora, Thierry; Cocco, Simona; Monasson, Rémi (8 de septiembre de 2023). Bitbol, Anne-Florence; Eisen, Michael B (eds.). "Un enfoque de aprendizaje por transferencia para predecir la inmunogenicidad de antígenos y la especificidad del receptor de células T". eLife . 12 : e85126. doi : 10.7554/eLife.85126 . ISSN 2050-084X. PMC 10522340 . PMID 37681658.
^ Carleo, Giuseppe; Troyer, Matthias (10 de febrero de 2017). "Resolución del problema cuántico de muchos cuerpos con redes neuronales artificiales". Science . 355 (6325): 602–606. arXiv : 1606.02318 . Bibcode :2017Sci...355..602C. doi :10.1126/science.aag2302. ISSN 0036-8075. PMID 28183973. S2CID 206651104.
^ Melko, Roger G.; Carleo, Giuseppe; Carrasquilla, Juan; Cirac, J. Ignacio (septiembre de 2019). «Máquinas de Boltzmann restringidas en física cuántica». Nature Physics . 15 (9): 887–892. Bibcode :2019NatPh..15..887M. doi :10.1038/s41567-019-0545-1. ISSN 1745-2481. S2CID 256704838.
^ Pan, Ruizhi; Clark, Charles W. (2024). "Eficiencia de las representaciones de estados de redes neuronales de sistemas de espín cuántico unidimensionales". Physical Review Research . 6 : 023193. arXiv : 2302.00173 . doi :10.1103/PhysRevResearch.6.023193.
^ ab Miguel Á. Carreira-Perpiñán y Geoffrey Hinton (2005). Sobre el aprendizaje de divergencia contrastiva. Inteligencia Artificial y Estadística .
^ Hinton, G. (2009). "Redes de creencias profundas". Scholarpedia . 4 (5): 5947. Bibcode :2009SchpJ...4.5947H. doi : 10.4249/scholarpedia.5947 .
^ abcd Geoffrey Hinton (2010). Una guía práctica para el entrenamiento de máquinas de Boltzmann restringidas . UTML TR 2010–003, Universidad de Toronto.
^ ab Sutskever, Ilya; Tieleman, Tijmen (2010). "Sobre las propiedades de convergencia de la divergencia contrastiva" (PDF) . Actas de la 13.ª Conferencia Internacional sobre IA y Estadística (AISTATS) . Archivado desde el original (PDF) el 10 de junio de 2015.
^ de Asja Fischer y Christian Igel. Entrenamiento de máquinas de Boltzmann restringidas: una introducción Archivado el 10 de junio de 2015 en Wayback Machine . Reconocimiento de patrones 47, págs. 25-39, 2014
^ María Angélica Cueto; Jason Morton; Bernd Sturmfels (2010). "Geometría de la máquina de Boltzmann restringida". Métodos algebraicos en estadística y probabilidad . 516 . American Mathematical Society. arXiv : 0908.4425 . Código Bibliográfico :2009arXiv0908.4425A.
^ Geoffrey Hinton (1999). Productos de expertos. ICANN 1999 .
^ Hinton, GE (2002). "Productos de entrenamiento de expertos minimizando la divergencia contrastiva" (PDF) . Neural Computation . 14 (8): 1771–1800. doi :10.1162/089976602760128018. PMID 12180402. S2CID 207596505.
Bibliografía
Chen, Edwin (18 de julio de 2011). "Introducción a las máquinas de Boltzmann restringidas". Blog de Edwin Chen .
Nicholson, Chris; Gibson, Adam. "Un tutorial para principiantes sobre máquinas de Boltzmann restringidas". Documentación de Deeplearning4j . Archivado desde el original el 2017-02-11 . Consultado el 2018-11-15 .{{cite web}}: CS1 maint: bot: original URL status unknown (link)
Nicholson, Chris; Gibson, Adam. "Understanding RBMs" (Comprensión de los RBM). Documentación de Deeplearning4j . Archivado desde el original el 20 de septiembre de 2016. Consultado el 29 de diciembre de 2014 .