Máquina Boltzmann restringida

Una máquina de Boltzmann restringida ( RBM ) (también llamada modelo restringido de Sherrington-Kirkpatrick con campo externo o modelo estocástico restringido de Ising-Lenz-Little ) es una red neuronal artificial estocástica generativa que puede aprender una distribución de probabilidad sobre su conjunto de entradas. ^[1]

Los RBM fueron propuestos inicialmente bajo el nombre de Harmonium por Paul Smolensky en 1986, ^[2] y adquirieron prominencia después de que Geoffrey Hinton y sus colaboradores utilizaron algoritmos de aprendizaje rápido para ellos a mediados de la década de 2000. Los RBM han encontrado aplicaciones en reducción de dimensionalidad , ^[3] clasificación , ^[4] filtrado colaborativo , ^[5] aprendizaje de características , ^[6] modelado de temas , ^[7] inmunología , ^[8] e incluso mecánica cuántica de muchos cuerpos . ^[9]^[10] Se pueden entrenar de forma supervisada o no supervisada , según la tarea. ^{[ cita necesaria ]}

Como su nombre lo indica, las RBM son una variante de las máquinas de Boltzmann , con la restricción de que sus neuronas deben formar un grafo bipartito :

un par de nodos de cada uno de los dos grupos de unidades (comúnmente denominados unidades "visibles" y "ocultas" respectivamente) pueden tener una conexión simétrica entre ellos; y
no hay conexiones entre nodos dentro de un grupo.

Por el contrario, las máquinas Boltzmann "libres" pueden tener conexiones entre unidades ocultas . Esta restricción permite algoritmos de entrenamiento más eficientes que los disponibles para la clase general de máquinas de Boltzmann, en particular el algoritmo de divergencia contrastiva basado en gradientes . ^[11]

Las máquinas Boltzmann restringidas también se pueden utilizar en redes de aprendizaje profundo . En particular, las redes de creencias profundas se pueden formar "apilando" RBM y, opcionalmente, ajustando la red profunda resultante con descenso de gradiente y retropropagación . ^[12]

Estructura

El tipo estándar de RBM tiene unidades visibles y ocultas de valores binarios ( booleanos ) y consta de una matriz de pesos de tamaño . Cada elemento de peso de la matriz está asociado con la conexión entre la unidad visible (de entrada) y la unidad oculta . Además, existen ponderaciones de sesgo (compensaciones) para y para . Dados los pesos y sesgos, la energía de una configuración (par de vectores booleanos) $($ $v$ $,$ $h$ $)$ se define como $W$ $m\times n$ $(w_{i,j})$ $v_{i}$ $h_{j}$ $a_{i}$ $v_{i}$ $b_{j}$ $h_{j}$

E(v,h)=-\sum _{i}a_{i}v_{i}-\sum _{j}b_{j}h_{j}-\sum _{i}\sum _{j}v_{i}w_{i,j}h_{j}

o, en notación matricial,

E(v,h)=-a^{\mathrm {T} }v-b^{\mathrm {T} }h-v^{\mathrm {T} }Wh.

Esta función de energía es análoga a la de una red de Hopfield . Al igual que con las máquinas de Boltzmann generales, la distribución de probabilidad conjunta para los vectores visible y oculto se define en términos de la función de energía de la siguiente manera, ^[13]

P(v,h)={\frac {1}{Z}}e^{-E(v,h)}

donde hay una función de partición definida como la suma de todas las configuraciones posibles, que puede interpretarse como una constante de normalización para garantizar que las probabilidades sumen 1. La probabilidad marginal de un vector visible es la suma de todas las posibles configuraciones de capas ocultas, ^[13] $Z$ $e^{-E(v,h)}$ $P(v,h)$

P(v)={\frac {1}{Z}}\sum _{\{h\}}e^{-E(v,h)}

y viceversa. Dado que la estructura gráfica subyacente del RBM es bipartita (lo que significa que no hay conexiones dentro de la capa), las activaciones de unidades ocultas son mutuamente independientes dadas las activaciones de unidades visibles. Por el contrario, las activaciones de unidades visibles son mutuamente independientes dadas las activaciones de unidades ocultas. ^[11] Es decir, para m unidades visibles yn unidades ocultas, la probabilidad condicional de una configuración de las unidades visibles $v$ , dada una configuración de las unidades ocultas $h$ , es

P(v|h)=\prod _{i=1}^{m}P(v_{i}|h)

Por el contrario, la probabilidad condicional de $h$ dado $v$ es

P(h|v)=\prod _{j=1}^{n}P(h_{j}|v)

Las probabilidades de activación individuales están dadas por

P(h_{j}=1|v)=\sigma \left(b_{j}+\sum _{i=1}^{m}w_{i,j}v_{i}\right)

\,P(v_{i}=1|h)=\sigma \left(a_{i}+\sum _{j=1}^{n}w_{i,j}h_{j}\right)

donde denota el sigmoide logístico . $\sigma$

Las unidades visibles de la Máquina de Boltzmann Restringida pueden ser multinomiales , aunque las unidades ocultas son Bernoulli . ^{[ se necesita aclaración ]} En este caso, la función logística para unidades visibles se reemplaza por la función softmax

P(v_{i}^{k}=1|h)={\frac {\exp(a_{i}^{k}+\Sigma _{j}W_{ij}^{k}h_{j})}{\Sigma _{k'=1}^{K}\exp(a_{i}^{k'}+\Sigma _{j}W_{ij}^{k'}h_{j})}}

donde K es el número de valores discretos que tienen los valores visibles. Se aplican en modelado de temas, ^[7] y sistemas de recomendación . ^[5]

Relación con otros modelos

Las máquinas de Boltzmann restringidas son un caso especial de las máquinas de Boltzmann y los campos aleatorios de Markov . ^[14]^[15]

El modelo gráfico de las GBR corresponde al del análisis factorial . ^[dieciséis]

Algoritmo de entrenamiento

Las máquinas de Boltzmann restringidas están entrenadas para maximizar el producto de probabilidades asignadas a algún conjunto de entrenamiento (una matriz, cada fila de la cual se trata como un vector visible ), $V$ $v$

\arg \max _{W}\prod _{v\in V}P(v)

o de manera equivalente, maximizar la probabilidad logarítmica esperada de una muestra de entrenamiento seleccionada aleatoriamente de : ^[14]^[15] $v$ $V$

\arg \max _{W}\mathbb {E} \left[\log P(v)\right]

El algoritmo más utilizado para entrenar RBM, es decir, para optimizar la matriz de pesos , es el algoritmo de divergencia contrastiva (CD) de Hinton , desarrollado originalmente para entrenar modelos PoE ( producto de expertos ). ^[17]^[18] El algoritmo realiza muestreo de Gibbs y se usa dentro de un procedimiento de descenso de gradiente (similar a la forma en que se usa la retropropagación dentro de dicho procedimiento cuando se entrenan redes neuronales de alimentación directa) para calcular la actualización de peso. $W$

El procedimiento básico de divergencia contrastiva de un solo paso (CD-1) para una sola muestra se puede resumir de la siguiente manera:

Tome una muestra de entrenamiento $v$ , calcule las probabilidades de las unidades ocultas y muestree un vector de activación oculto $h$ a partir de esta distribución de probabilidad.
Calcule el producto exterior de $v$ y $h$ y llámelo gradiente positivo .
A partir de $h$ , muestree una reconstrucción $v'$ de las unidades visibles, luego vuelva a muestrear las activaciones ocultas $h'$ a partir de esto. (Paso de muestreo de Gibbs)
Calcule el producto exterior de $v'$ y $h'$ y llámelo gradiente negativo .
Sea la actualización de la matriz de peso el gradiente positivo menos el gradiente negativo, multiplicado por una tasa de aprendizaje: . $W$ $\Delta W=\epsilon (vh^{\mathsf {T}}-v'h'^{\mathsf {T}})$
Actualice los sesgos $a$ y $b$ de manera análoga: , . $\Delta a=\epsilon (v-v')$ $\Delta b=\epsilon (h-h')$

En su página de inicio se puede encontrar una guía práctica para la formación de GBR escrita por Hinton. ^[13]

Máquina Boltzmann restringida apilada

La diferencia entre las máquinas Boltzmann restringidas apiladas y la RBM es que la RBM tiene conexiones laterales dentro de una capa que están prohibidas para que el análisis sea manejable. Por otro lado, Stacked Boltzmann consiste en una combinación de una red de tres capas no supervisada con pesos simétricos y una capa superior supervisada y ajustada para reconocer tres clases.
El uso de Stacked Boltzmann es comprender lenguajes naturales , recuperar documentos , generar y clasificar imágenes. Estas funciones se entrenan con preentrenamiento no supervisado y/o ajuste fino supervisado. A diferencia de la capa superior simétrica no dirigida, con una capa asimétrica bidireccional para conexión para RBM. La conexión restringida de Boltzmann consta de tres capas con pesos asimétricos y dos redes se combinan en una.
Stacked Boltzmann comparte similitudes con RBM, la neurona de Stacked Boltzmann es una neurona binaria estocástica de Hopfield, que es la misma que la máquina de Boltzmann restringida. La energía tanto de Boltzmann restringido como de RBM viene dada por la medida de probabilidad de Gibb: . El proceso de formación de Restricted Boltzmann es similar al de RBM. Boltzmann restringido entrena una capa a la vez y aproxima el estado de equilibrio con un pase de 3 segmentos, sin realizar retropropagación. Boltzmann restringido utiliza tanto supervisado como no supervisado en diferentes RBM para el entrenamiento previo para la clasificación y el reconocimiento. El entrenamiento utiliza divergencia contrastiva con muestreo de Gibbs: Δw _ij = e*(p _ij - p' _ij ) $E=-{\frac {1}{2}}\sum _{i,j}{w_{ij}{s_{i}}{s_{j}}}+\sum _{i}{\theta _{i}}{s_{i}}$
La ventaja restringida de Boltzmann es que realiza una transformación no lineal, por lo que es fácil de expandir y puede proporcionar una capa jerárquica de características. La Debilidad es que tiene complicados cálculos de números enteros y de valor real de las neuronas. No sigue el gradiente de ninguna función, por lo que se improvisa la aproximación de la divergencia contrastiva a la máxima verosimilitud. ^[13]

Literatura

Fischer, Asja; Igel, Christian (2012), "Introducción a las máquinas de Boltzmann restringidas", Progresos en el reconocimiento de patrones, análisis de imágenes, visión por computadora y aplicaciones , Lecture Notes in Computer Science, vol. 7441, Berlín, Heidelberg: Springer Berlin Heidelberg, págs. 14–36, doi : 10.1007/978-3-642-33275-3_2 , ISBN 978-3-642-33274-6

Ver también

Referencias

^ Sherrington, David; Kirkpatrick, Scott (1975), "Modelo solucionable de un Spin-Glass", Physical Review Letters , 35 (35): 1792–1796, Bibcode :1975PhRvL..35.1792S, doi :10.1103/PhysRevLett.35.1792
^ Smolensky, Paul (1986). "Capítulo 6: Procesamiento de información en sistemas dinámicos: fundamentos de la teoría de la armonía" (PDF) . En Rumelhart, David E.; McLelland, James L. (eds.). Procesamiento distribuido paralelo: exploraciones en la microestructura de la cognición, volumen 1: fundamentos . Prensa del MIT. págs. 194–281. ISBN 0-262-68053-X.
^ Hinton, GE; Salakhutdinov, RR (2006). "Reducir la dimensionalidad de los datos con redes neuronales" (PDF) . Ciencia . 313 (5786): 504–507. Código Bib : 2006 Ciencia... 313.. 504H. doi : 10.1126/ciencia.1127647. PMID 16873662. S2CID 1658773. Archivado desde el original (PDF) el 23 de diciembre de 2015 . Consultado el 2 de diciembre de 2015 .
^ Larochelle, H.; Bengio, Y. (2008). Clasificación mediante máquinas Boltzmann restringidas discriminativas (PDF) . Actas de la 25ª conferencia internacional sobre aprendizaje automático - ICML '08. pag. 536. doi :10.1145/1390156.1390224. ISBN 978-1-60558-205-4.
^ ab Salakhutdinov, R.; Mnih, A.; Hinton, G. (2007). Máquinas Boltzmann restringidas para filtrado colaborativo . Actas de la 24ª conferencia internacional sobre aprendizaje automático - ICML '07. pag. 791. doi : 10.1145/1273496.1273596. ISBN 978-1-59593-793-3.
^ Coates, Adán; Lee, Honglak; Ng, Andrew Y. (2011). Un análisis de redes de una sola capa en el aprendizaje de funciones no supervisadas (PDF) . Congreso Internacional sobre Inteligencia Artificial y Estadística (AISTATS). Archivado desde el original (PDF) el 20 de diciembre de 2014 . Consultado el 19 de diciembre de 2014 .
^ ab Ruslan Salakhutdinov y Geoffrey Hinton (2010). Softmax replicado: un modelo de tema no dirigido Archivado el 25 de mayo de 2012 en Wayback Machine . Sistemas de procesamiento de información neuronal 23 .
^ Bravi, Bárbara; Di Gioacchino, Andrea; Fernández-de-Cossio-Díaz, Jorge; Walczak, Aleksandra M; Mora, Thierry; Cocco, Simona; Monasson, Rémi (8 de septiembre de 2023). Bitbol, Anne-Florencia; Eisen, Michael B (eds.). "Un enfoque de aprendizaje por transferencia para predecir la inmunogenicidad del antígeno y la especificidad del receptor de células T". eVida . 12 : e85126. doi : 10.7554/eLife.85126 . ISSN 2050-084X. PMC 10522340 . PMID 37681658.
^ Carleo, Giuseppe; Troyer, Matías (10 de febrero de 2017). "Resolver el problema cuántico de muchos cuerpos con redes neuronales artificiales". Ciencia . 355 (6325): 602–606. arXiv : 1606.02318 . Código Bib : 2017 Ciencia... 355..602C. doi : 10.1126/ciencia.aag2302. ISSN 0036-8075. PMID 28183973. S2CID 206651104.
^ Melko, Roger G.; Carleo, Giuseppe; Carrasquilla, Juan; Cirac, J. Ignacio (septiembre 2019). "Máquinas de Boltzmann restringidas en física cuántica". Física de la Naturaleza . 15 (9): 887–892. Código Bib : 2019NatPh..15..887M. doi :10.1038/s41567-019-0545-1. ISSN 1745-2481. S2CID 256704838.
^ ab Miguel Á. Carreira-Perpiñán y Geoffrey Hinton (2005). Sobre el aprendizaje de divergencia contrastiva. Inteligencia Artificial y Estadística .
^ Hinton, G. (2009). "Redes de creencias profundas". Scholarpedia . 4 (5): 5947. Código bibliográfico : 2009SchpJ...4.5947H. doi : 10.4249/scholarpedia.5947 .
^ abcd Geoffrey Hinton (2010). Una guía práctica para el entrenamiento de máquinas Boltzmann restringidas . UTML TR 2010–003, Universidad de Toronto.
^ ab Sutskever, Ilya; Tieleman, Tijmen (2010). "Sobre las propiedades de convergencia de la divergencia contrastiva" (PDF) . Proc. 13ª Conferencia Internacional. Sobre IA y Estadística (AISTATS) . Archivado desde el original (PDF) el 10 de junio de 2015.
^ ab Asja Fischer y Christian Igel. Entrenamiento de máquinas Boltzmann restringidas: introducción Archivado el 10 de junio de 2015 en Wayback Machine . Reconocimiento de patrones 47, págs. 25-39, 2014
^ María Angélica Cueto; Jason Morton; Bernd Sturmfels (2010). "Geometría de la máquina Boltzmann restringida". Métodos algebraicos en estadística y probabilidad . 516 . Sociedad Matemática Estadounidense. arXiv : 0908.4425 . Código Bib : 2009arXiv0908.4425A.
^ Geoffrey Hinton (1999). Productos de Expertos. ICANN 1999 .
^ Hinton, GE (2002). "Formación de productos de expertos minimizando la divergencia contrastiva" (PDF) . Computación neuronal . 14 (8): 1771–1800. doi :10.1162/089976602760128018. PMID 12180402. S2CID 207596505.

Bibliografía

Chen, Edwin (18 de julio de 2011). "Introducción a las máquinas Boltzmann restringidas". Blog de Edwin Chen .
Nicholson, Chris; Gibson, Adán. "Un tutorial para principiantes sobre máquinas Boltzmann restringidas". Documentación de Deeplearning4j . Archivado desde el original el 11 de febrero de 2017 . Consultado el 15 de noviembre de 2018 .{{cite web}}: CS1 maint: bot: original URL status unknown (link)
Nicholson, Chris; Gibson, Adán. "Comprensión de las GBR". Documentación de Deeplearning4j . Archivado desde el original el 20 de septiembre de 2016 . Consultado el 29 de diciembre de 2014 .

enlaces externos

Implementación en Python de Bernoulli RBM y tutorial
SimpleRBM es un código RBM muy pequeño (24 kB) útil para aprender cómo aprenden y funcionan los RBM.
Implementación de Julia de máquinas Boltzmann restringidas: https://github.com/cossio/RestrictedBoltzmannMachines.jl