stringtranslate.com

Máquina Boltzmann restringida

Diagrama de una máquina Boltzmann restringida con tres unidades visibles y cuatro unidades ocultas (sin unidades diagonales).

Una máquina de Boltzmann restringida ( RBM ) (también llamada modelo restringido de Sherrington-Kirkpatrick con campo externo o modelo estocástico restringido de Ising-Lenz-Little ) es una red neuronal artificial estocástica generativa que puede aprender una distribución de probabilidad sobre su conjunto de entradas. [1]

Los RBM fueron propuestos inicialmente bajo el nombre de Harmonium por Paul Smolensky en 1986, [2] y adquirieron prominencia después de que Geoffrey Hinton y sus colaboradores utilizaron algoritmos de aprendizaje rápido para ellos a mediados de la década de 2000. Los RBM han encontrado aplicaciones en reducción de dimensionalidad , [3] clasificación , [4] filtrado colaborativo , [5] aprendizaje de características , [6] modelado de temas [7] e incluso en muchas mecánicas cuánticas corporales . [8] [9] Se pueden entrenar de forma supervisada o no supervisada , según la tarea.

Como su nombre lo indica, los RBM son una variante de las máquinas de Boltzmann , con la restricción de que sus neuronas deben formar un grafo bipartito : un par de nodos de cada uno de los dos grupos de unidades (comúnmente denominados "visibles" y "ocultos"). unidades respectivamente) pueden tener una conexión simétrica entre ellos; y no hay conexiones entre nodos dentro de un grupo. Por el contrario, las máquinas Boltzmann "libres" pueden tener conexiones entre unidades ocultas . Esta restricción permite algoritmos de entrenamiento más eficientes que los disponibles para la clase general de máquinas de Boltzmann, en particular el algoritmo de divergencia contrastiva basado en gradientes . [10]

Las máquinas Boltzmann restringidas también se pueden utilizar en redes de aprendizaje profundo . En particular, las redes de creencias profundas se pueden formar "apilando" RBM y, opcionalmente, ajustando la red profunda resultante con descenso de gradiente y retropropagación . [11]

Estructura

El tipo estándar de RBM tiene unidades visibles y ocultas de valores binarios ( booleanos ) y consta de una matriz de pesos de tamaño . Cada elemento de peso de la matriz está asociado con la conexión entre la unidad visible (de entrada) y la unidad oculta . Además, existen ponderaciones de sesgo (compensaciones) para y para . Dados los pesos y sesgos, la energía de una configuración (par de vectores booleanos) ( v , h ) se define como

o, en notación matricial,

Esta función de energía es análoga a la de una red de Hopfield . Al igual que con las máquinas de Boltzmann generales, la distribución de probabilidad conjunta para los vectores visible y oculto se define en términos de la función de energía de la siguiente manera, [12]

donde hay una función de partición definida como la suma de todas las configuraciones posibles, que puede interpretarse como una constante de normalización para garantizar que las probabilidades sumen 1. La probabilidad marginal de un vector visible es la suma de todas las posibles configuraciones de capas ocultas, [12]

,

y viceversa. Dado que la estructura gráfica subyacente del RBM es bipartita (lo que significa que no hay conexiones intracapa), las activaciones de unidades ocultas son mutuamente independientes dadas las activaciones de unidades visibles. Por el contrario, las activaciones de unidades visibles son mutuamente independientes dadas las activaciones de unidades ocultas. [10] Es decir, para m unidades visibles yn unidades ocultas, la probabilidad condicional de una configuración de las unidades visibles v , dada una configuración de las unidades ocultas h , es

.

Por el contrario, la probabilidad condicional de h dado v es

.

Las probabilidades de activación individuales están dadas por

y

donde denota el sigmoide logístico .

Las unidades visibles de la Máquina Restringida de Boltzmann pueden ser multinomiales , aunque las unidades ocultas son Bernoulli . [ se necesita aclaración ] En este caso, la función logística para unidades visibles se reemplaza por la función softmax

donde K es el número de valores discretos que tienen los valores visibles. Se aplican en modelado de temas, [7] y sistemas de recomendación . [5]

Relación con otros modelos

Las máquinas de Boltzmann restringidas son un caso especial de las máquinas de Boltzmann y los campos aleatorios de Markov . [13] [14] Su modelo gráfico corresponde al del análisis factorial . [15]

Algoritmo de entrenamiento

Las máquinas de Boltzmann restringidas están entrenadas para maximizar el producto de probabilidades asignadas a algún conjunto de entrenamiento (una matriz, cada fila de la cual se trata como un vector visible ),

o de manera equivalente, para maximizar la probabilidad logarítmica esperada de una muestra de entrenamiento seleccionada aleatoriamente de : [13] [14]

El algoritmo más utilizado para entrenar RBM, es decir, para optimizar la matriz de pesos , es el algoritmo de divergencia contrastiva (CD) de Hinton , desarrollado originalmente para entrenar modelos PoE ( producto de expertos ). [16] [17] El algoritmo realiza muestreo de Gibbs y se usa dentro de un procedimiento de descenso de gradiente (similar a la forma en que se usa la retropropagación dentro de dicho procedimiento cuando se entrenan redes neuronales de alimentación directa) para calcular la actualización de peso.

El procedimiento básico de divergencia contrastiva de un solo paso (CD-1) para una sola muestra se puede resumir de la siguiente manera:

  1. Tome una muestra de entrenamiento v , calcule las probabilidades de las unidades ocultas y muestree un vector de activación oculto h a partir de esta distribución de probabilidad.
  2. Calcule el producto exterior de v y h y llámelo gradiente positivo .
  3. A partir de h , muestree una reconstrucción v' de las unidades visibles, luego vuelva a muestrear las activaciones ocultas h' a partir de esto. (Paso de muestreo de Gibbs)
  4. Calcule el producto exterior de v' y h' y llámelo gradiente negativo .
  5. Sea la actualización de la matriz de peso el gradiente positivo menos el gradiente negativo, multiplicado por una tasa de aprendizaje: .
  6. Actualice los sesgos a y b de manera análoga: , .

En su página de inicio se puede encontrar una guía práctica para la formación de GBR escrita por Hinton. [12]

Máquina Boltzmann restringida apilada

Literatura

Ver también

Referencias

  1. ^ Sherrington, David; Kirkpatrick, Scott (1975), "Modelo solucionable de un Spin-Glass", Physical Review Letters , 35 (35): 1792–1796, Bibcode :1975PhRvL..35.1792S, doi :10.1103/PhysRevLett.35.1792
  2. ^ Smolensky, Paul (1986). "Capítulo 6: Procesamiento de información en sistemas dinámicos: fundamentos de la teoría de la armonía" (PDF) . En Rumelhart, David E.; McLelland, James L. (eds.). Procesamiento distribuido paralelo: exploraciones en la microestructura de la cognición, volumen 1: fundamentos . Prensa del MIT. págs. 194–281. ISBN 0-262-68053-X.
  3. ^ Hinton, GE; Salakhutdinov, RR (2006). "Reducir la dimensionalidad de los datos con redes neuronales" (PDF) . Ciencia . 313 (5786): 504–507. Código Bib : 2006 Ciencia... 313.. 504H. doi : 10.1126/ciencia.1127647. PMID  16873662. S2CID  1658773. Archivado desde el original (PDF) el 23 de diciembre de 2015 . Consultado el 2 de diciembre de 2015 .
  4. ^ Larochelle, H.; Bengio, Y. (2008). Clasificación mediante máquinas Boltzmann restringidas discriminativas (PDF) . Actas de la 25ª conferencia internacional sobre aprendizaje automático - ICML '08. pag. 536. doi :10.1145/1390156.1390224. ISBN 9781605582054.
  5. ^ ab Salakhutdinov, R.; Mnih, A.; Hinton, G. (2007). Máquinas Boltzmann restringidas para filtrado colaborativo . Actas de la 24ª conferencia internacional sobre aprendizaje automático - ICML '07. pag. 791. doi : 10.1145/1273496.1273596. ISBN 9781595937933.
  6. ^ Coates, Adán; Lee, Honglak; Ng, Andrew Y. (2011). Un análisis de redes de una sola capa en el aprendizaje de funciones no supervisadas (PDF) . Congreso Internacional sobre Inteligencia Artificial y Estadística (AISTATS). Archivado desde el original (PDF) el 20 de diciembre de 2014 . Consultado el 19 de diciembre de 2014 .
  7. ^ ab Ruslan Salakhutdinov y Geoffrey Hinton (2010). Softmax replicado: un modelo de tema no dirigido Archivado el 25 de mayo de 2012 en Wayback Machine . Sistemas de procesamiento de información neuronal 23 .
  8. ^ Carleo, Giuseppe; Troyer, Matías (10 de febrero de 2017). "Resolver el problema cuántico de muchos cuerpos con redes neuronales artificiales". Ciencia . 355 (6325): 602–606. arXiv : 1606.02318 . Código Bib : 2017 Ciencia... 355..602C. doi : 10.1126/ciencia.aag2302. ISSN  0036-8075. PMID  28183973. S2CID  206651104.
  9. ^ Melko, Roger G.; Carleo, Giuseppe; Carrasquilla, Juan; Cirac, J. Ignacio (septiembre 2019). "Máquinas de Boltzmann restringidas en física cuántica". Física de la Naturaleza . 15 (9): 887–892. Código Bib : 2019NatPh..15..887M. doi :10.1038/s41567-019-0545-1. ISSN  1745-2481. S2CID  256704838.
  10. ^ ab Miguel Á. Carreira-Perpiñán y Geoffrey Hinton (2005). Sobre el aprendizaje de divergencia contrastiva. Inteligencia Artificial y Estadística .
  11. ^ Hinton, G. (2009). "Redes de creencias profundas". Scholarpedia . 4 (5): 5947. Código bibliográfico : 2009SchpJ...4.5947H. doi : 10.4249/scholarpedia.5947 .
  12. ^ abcd Geoffrey Hinton (2010). Una guía práctica para el entrenamiento de máquinas Boltzmann restringidas . UTML TR 2010–003, Universidad de Toronto.
  13. ^ ab Sutskever, Ilya; Tieleman, Tijmen (2010). "Sobre las propiedades de convergencia de la divergencia contrastiva" (PDF) . Proc. 13ª Conferencia Internacional. Sobre IA y Estadística (AISTATS) . Archivado desde el original (PDF) el 10 de junio de 2015.
  14. ^ ab Asja Fischer y Christian Igel. Entrenamiento de máquinas Boltzmann restringidas: introducción Archivado el 10 de junio de 2015 en Wayback Machine . Reconocimiento de patrones 47, págs. 25-39, 2014
  15. ^ María Angélica Cueto; Jason Morton; Bernd Sturmfels (2010). "Geometría de la máquina Boltzmann restringida". Métodos algebraicos en estadística y probabilidad . Sociedad Matemática Estadounidense. 516 . arXiv : 0908.4425 . Código Bib : 2009arXiv0908.4425A.
  16. ^ Geoffrey Hinton (1999). Productos de Expertos. ICANN 1999 .
  17. ^ Hinton, GE (2002). "Formación de productos de expertos minimizando la divergencia contrastiva" (PDF) . Computación neuronal . 14 (8): 1771–1800. doi :10.1162/089976602760128018. PMID  12180402. S2CID  207596505.

enlaces externos