Las máquinas de Boltzmann son intrigantes en teoría debido a la localidad y la naturaleza hebbiana de su algoritmo de entrenamiento (al ser entrenadas por la regla de Hebb), y debido a su paralelismo y la semejanza de su dinámica con procesos físicos simples . Las máquinas de Boltzmann con conectividad sin restricciones no han demostrado ser útiles para problemas prácticos en aprendizaje automático o inferencia , pero si la conectividad está restringida adecuadamente, el aprendizaje puede hacerse lo suficientemente eficiente como para ser útil para problemas prácticos. [4]
es el sesgo de la unidad en la función de energía global. ( es el umbral de activación de la unidad).
A menudo, los pesos se representan como una matriz simétrica con ceros a lo largo de la diagonal.
Probabilidad del estado de la unidad
La diferencia en la energía global que resulta de una sola unidad igual a 0 (apagado) versus 1 (encendido), escrita , asumiendo una matriz simétrica de pesos, viene dada por:
Esto se puede expresar como la diferencia de energías de dos estados:
Sustituyendo la energía de cada estado por su probabilidad relativa según el factor de Boltzmann (la propiedad de una distribución de Boltzmann de que la energía de un estado es proporcional a la probabilidad logarítmica negativa de ese estado) se obtiene:
donde es la constante de Boltzmann y se absorbe en la noción artificial de temperatura . Luego reorganizamos los términos y consideramos que las probabilidades de que la unidad esté encendida y apagada deben sumar uno:
Resolviendo para , la probabilidad de que la unidad -ésima esté activada da:
donde el escalar se denomina temperatura del sistema. Esta relación es la fuente de la función logística que se encuentra en las expresiones de probabilidad de las variantes de la máquina de Boltzmann.
Estado de equilibrio
La red funciona eligiendo repetidamente una unidad y restableciendo su estado. Después de funcionar durante un tiempo suficiente a una determinada temperatura, la probabilidad de un estado global de la red depende únicamente de la energía de ese estado global, según una distribución de Boltzmann , y no del estado inicial desde el que se inició el proceso. Esto significa que las probabilidades logarítmicas de los estados globales se vuelven lineales en sus energías. Esta relación es cierta cuando la máquina está "en equilibrio térmico ", lo que significa que la distribución de probabilidad de los estados globales ha convergido. Al ejecutar la red a partir de una temperatura alta, su temperatura disminuye gradualmente hasta alcanzar un equilibrio térmico a una temperatura más baja. Luego puede converger a una distribución donde el nivel de energía fluctúa alrededor del mínimo global. Este proceso se llama recocido simulado .
Para entrenar la red de modo que la probabilidad de convergencia a un estado global de acuerdo con una distribución externa sobre estos estados sea la adecuada, los pesos deben establecerse de modo que los estados globales con las mayores probabilidades obtengan las energías más bajas. Esto se hace mediante el entrenamiento.
Capacitación
Las unidades en la máquina de Boltzmann se dividen en unidades 'visibles', V, y unidades 'ocultas', H. Las unidades visibles son aquellas que reciben información del 'entorno', es decir, el conjunto de entrenamiento es un conjunto de vectores binarios sobre el conjunto V. La distribución sobre el conjunto de entrenamiento se denota .
La distribución sobre los estados globales converge a medida que la máquina de Boltzmann alcanza el equilibrio térmico . Denotamos esta distribución, después de marginalizarla sobre las unidades ocultas, como .
Nuestro objetivo es aproximarnos a la distribución "real" utilizando los valores generados por la máquina . La similitud de las dos distribuciones se mide mediante la divergencia de Kullback-Leibler :
donde la suma es sobre todos los estados posibles de . es una función de los pesos, ya que determinan la energía de un estado, y la energía determina , como lo promete la distribución de Boltzmann. Un algoritmo de descenso de gradiente sobre cambia un peso dado, , restando la derivada parcial de con respecto al peso.
El entrenamiento de la máquina de Boltzmann implica dos fases alternas. Una es la fase "positiva", en la que los estados de las unidades visibles se limitan a un vector de estado binario particular muestreado del conjunto de entrenamiento (según ). La otra es la fase "negativa", en la que se permite que la red funcione libremente, es decir, solo los nodos de entrada tienen su estado determinado por datos externos, pero se permite que los nodos de salida floten. El gradiente con respecto a un peso dado, , se da mediante la ecuación: [2]
dónde:
es la probabilidad de que las unidades i y j estén ambas encendidas cuando la máquina está en equilibrio en la fase positiva.
es la probabilidad de que las unidades i y j estén ambas encendidas cuando la máquina está en equilibrio en la fase negativa.
Este resultado se deriva del hecho de que en el equilibrio térmico la probabilidad de cualquier estado global cuando la red funciona libremente viene dada por la distribución de Boltzmann.
Esta regla de aprendizaje es biológicamente plausible porque la única información necesaria para cambiar los pesos la proporciona la información "local". Es decir, la conexión ( sinapsis , biológicamente) no necesita información sobre nada más que las dos neuronas que conecta. Esto es más realista biológicamente que la información que necesita una conexión en muchos otros algoritmos de entrenamiento de redes neuronales, como la retropropagación .
El entrenamiento de una máquina de Boltzmann no utiliza el algoritmo EM , que se utiliza mucho en el aprendizaje automático . Al minimizar la divergencia KL , es equivalente a maximizar la verosimilitud logarítmica de los datos. Por lo tanto, el procedimiento de entrenamiento realiza un ascenso de gradiente sobre la verosimilitud logarítmica de los datos observados. Esto contrasta con el algoritmo EM, donde la distribución posterior de los nodos ocultos debe calcularse antes de la maximización del valor esperado de la verosimilitud de los datos completos durante el paso M.
El entrenamiento de los sesgos es similar, pero utiliza solo la actividad de un solo nodo:
Problemas
En teoría, la máquina de Boltzmann es un medio computacional bastante general. Por ejemplo, si se la entrena con fotografías, la máquina modelaría teóricamente la distribución de fotografías y podría usar ese modelo para, por ejemplo, completar una fotografía parcial.
Desafortunadamente, las máquinas de Boltzmann experimentan un serio problema práctico, a saber, que parece dejar de aprender correctamente cuando la máquina se amplía a un tamaño mayor que un tamaño trivial. [ cita requerida ] Esto se debe a efectos importantes, específicamente:
El orden de tiempo requerido para recopilar estadísticas de equilibrio crece exponencialmente con el tamaño de la máquina y con la magnitud de las intensidades de conexión [ cita requerida ]
Las fuerzas de conexión son más plásticas cuando las unidades conectadas tienen probabilidades de activación intermedias entre cero y uno, lo que conduce a una llamada trampa de varianza. El efecto neto es que el ruido hace que las fuerzas de conexión sigan un camino aleatorio hasta que las actividades se saturan.
Tipos
Máquina de Boltzmann restringida
Aunque el aprendizaje no es práctico en las máquinas de Boltzmann en general, se puede hacer bastante eficiente en una máquina de Boltzmann restringida (RBM) que no permite conexiones intracapa entre unidades ocultas y unidades visibles, es decir, no hay conexión entre unidades visibles y visibles y entre unidades ocultas y ocultas. Después de entrenar una RBM, las actividades de sus unidades ocultas se pueden tratar como datos para entrenar una RBM de nivel superior. Este método de apilamiento de RBM permite entrenar muchas capas de unidades ocultas de manera eficiente y es una de las estrategias de aprendizaje profundo más comunes . A medida que se agrega cada nueva capa, el modelo generativo mejora.
Una extensión de la máquina de Boltzmann restringida permite utilizar datos con valores reales en lugar de datos binarios. [6]
Un ejemplo de una aplicación práctica del RBM es el reconocimiento de voz. [7]
Máquina de Boltzmann profunda
Una máquina de Boltzmann profunda (DBM) es un tipo de campo aleatorio binario de Markov por pares ( modelo gráfico probabilístico no dirigido ) con múltiples capas de variables aleatorias ocultas . Es una red de unidades binarias estocásticas acopladas simétricamente . Comprende un conjunto de unidades visibles y capas de unidades ocultas . Ninguna conexión vincula unidades de la misma capa (como RBM ). Para la DBM , la probabilidad asignada al vector ν es
Al igual que las DBN , las DBM pueden aprender representaciones internas complejas y abstractas de la entrada en tareas como el reconocimiento de objetos o de voz , utilizando datos limitados y etiquetados para ajustar las representaciones construidas utilizando un gran conjunto de datos de entrada sensorial no etiquetados. Sin embargo, a diferencia de las DBN y las redes neuronales convolucionales profundas , persiguen el procedimiento de inferencia y entrenamiento en ambas direcciones, de abajo hacia arriba y de arriba hacia abajo, lo que permite que la DBM revele mejor las representaciones de las estructuras de entrada. [9] [10] [11]
Sin embargo, la baja velocidad de los DBM limita su rendimiento y funcionalidad. Debido a que el aprendizaje de máxima verosimilitud exacta es intratable para los DBM, solo es posible el aprendizaje de máxima verosimilitud aproximada. Otra opción es utilizar la inferencia de campo medio para estimar las expectativas dependientes de los datos y aproximar las estadísticas suficientes esperadas mediante el uso de Monte Carlo de cadena de Markov (MCMC). [8] Esta inferencia aproximada, que debe realizarse para cada entrada de prueba, es aproximadamente de 25 a 50 veces más lenta que una sola pasada ascendente en los DBM. Esto hace que la optimización conjunta sea poco práctica para grandes conjuntos de datos y restringe el uso de los DBM para tareas como la representación de características.
Máquina de Boltzmann multimodal profunda
El aprendizaje automático multimodal tiene numerosas aplicaciones en varios dominios:
Recuperación multimodal: la recuperación multimodal permite a los usuarios buscar datos en diferentes modalidades (por ejemplo, recuperar imágenes en función de descripciones de texto), lo que mejora los motores de búsqueda multimedia y los sistemas de recomendación de contenido. Los modelos como CLIP facilitan una recuperación eficiente y precisa al incorporar datos en un espacio compartido, lo que demuestra un rendimiento sólido incluso en entornos de cero disparos. [12]
Clasificación y recuperación de datos faltantes: las máquinas de Boltzmann profundas multimodales superan a los modelos tradicionales como las máquinas de vectores de soporte y la asignación de Dirichlet latente en tareas de clasificación y pueden predecir datos faltantes en conjuntos de datos multimodales, como imágenes y texto.
Diagnóstico sanitario: los modelos multimodales integran imágenes médicas, datos genómicos y registros de pacientes para mejorar la precisión del diagnóstico y la detección temprana de enfermedades, especialmente en la detección del cáncer. [13] [14] [15]
Generación de contenido: modelos como DALL·E generan imágenes a partir de descripciones textuales, lo que beneficia a las industrias creativas, mientras que la recuperación intermodal permite búsquedas multimedia dinámicas. [16]
Robótica e HCI: el aprendizaje multimodal mejora la interacción en robótica e IA al integrar entradas sensoriales como el habla, la visión y el tacto, lo que ayuda a los sistemas autónomos y a la interacción humano-computadora.
Reconocimiento de emociones: al combinar datos visuales, de audio y de texto, los sistemas multimodales mejoran el análisis de sentimientos y el reconocimiento de emociones, aplicados en el servicio al cliente, las redes sociales y el marketing.
RBM de punta y losa
La necesidad de un aprendizaje profundo con entradas de valor real , como en los RBM gaussianos , condujo al RBM de picos y losas ( ss RBM ), que modela entradas de valor continuo con variables latentes binarias . [17] De manera similar a los RBM básicos y sus variantes, un RBM de picos y losas es un gráfico bipartito , mientras que, como los RBM G , las unidades visibles (entrada) tienen valores reales. La diferencia está en la capa oculta, donde cada unidad oculta tiene una variable de pico binaria y una variable de losa de valor real. Un pico es una masa de probabilidad discreta en cero, mientras que una losa es una densidad sobre un dominio continuo; [18] su mezcla forma un anterior . [19]
Una extensión de ss RBM llamada μ-ss RBM proporciona una capacidad de modelado adicional mediante el uso de términos adicionales en la función de energía . Uno de estos términos permite que el modelo forme una distribución condicional de las variables de pico al marginar las variables de losa dada una observación.
La contribución original en la aplicación de tales modelos basados en la energía en la ciencia cognitiva apareció en los artículos de Geoffrey Hinton y Terry Sejnowski . [22] [23] [24] En una entrevista de 1995, Hinton declaró que en febrero o marzo de 1983, iba a dar una charla sobre recocido simulado en redes de Hopfield, por lo que tuvo que diseñar un algoritmo de aprendizaje para la charla, lo que resultó en el algoritmo de aprendizaje automático de Boltzmann. [25]
La analogía explícita que se estableció con la mecánica estadística en la formulación de la máquina de Boltzmann condujo al uso de una terminología prestada de la física (por ejemplo, "energía"), que se convirtió en la norma en el campo. La adopción generalizada de esta terminología puede haber sido alentada por el hecho de que su uso condujo a la adopción de una variedad de conceptos y métodos de la mecánica estadística. Las diversas propuestas para utilizar el recocido simulado para la inferencia fueron aparentemente independientes.
La regla de aprendizaje [30] que utiliza información "local" condicional se puede derivar de la forma inversa de ,
.
Referencias
^ Sherrington, David; Kirkpatrick, Scott (1975), "Modelo resoluble de un vidrio de espín", Physical Review Letters , 35 (35): 1792–1796, Bibcode :1975PhRvL..35.1792S, doi :10.1103/PhysRevLett.35.1792
^ abc Ackley, David H.; Hinton, Geoffrey E.; Sejnowski, Terrence J. (1985). "Un algoritmo de aprendizaje para máquinas de Boltzmann" (PDF) . Cognitive Science . 9 (1): 147–169. doi : 10.1207/s15516709cog0901_7 . Archivado desde el original (PDF) el 18 de julio de 2011.
^ Hinton, Geoffrey E. (24 de mayo de 2007). "Máquina de Boltzmann". Scholarpedia . 2 (5): 1668. Código Bibliográfico :2007SchpJ...2.1668H. doi : 10.4249/scholarpedia.1668 . ISSN 1941-6016.
^ Osborn, Thomas R. (1 de enero de 1990). "Enseñanza rápida de máquinas de Boltzmann con inhibición local". Conferencia Internacional de Redes Neuronales . Springer Netherlands. pp. 785. doi :10.1007/978-94-009-0643-3_76. ISBN978-0-7923-0831-7.
^ Nijkamp, E.; Hill, M. E; Han, T. (2020), "Sobre la anatomía del aprendizaje de máxima verosimilitud basado en MCMC de modelos basados en energía", Actas de la Conferencia AAAI sobre Inteligencia Artificial , 4 (34): 5272–5280, arXiv : 1903.12370 , doi : 10.1609/aaai.v34i04.5973
^ Recent Developments in Deep Learning, 22 de marzo de 2010, archivado desde el original el 22 de diciembre de 2021 , consultado el 17 de febrero de 2020
^ Yu, Dong; Dahl, George; Acero, Alex; Deng, Li (2011). "Redes neuronales profundas preentrenadas dependientes del contexto para el reconocimiento de voz de vocabulario extenso" (PDF) . Microsoft Research . 20 .
^ ab Hinton, Geoffrey; Salakhutdinov, Ruslan (2012). "Una mejor manera de preentrenar máquinas profundas de Boltzmann" (PDF) . Advances in Neural . 3 : 1–9. Archivado desde el original (PDF) el 2017-08-13 . Consultado el 2017-08-18 .
^ Hinton, Geoffrey; Salakhutdinov, Ruslan (2009). "Aprendizaje eficiente de las máquinas profundas de Boltzmann" (PDF) . Actas de la Duodécima Conferencia Internacional sobre Inteligencia Artificial y Estadística . Vol. 3. págs. 448–455. Archivado desde el original (PDF) el 2015-11-06 . Consultado el 2017-08-18 .
^ Bengio, Yoshua; LeCun, Yann (2007). "Ampliación de los algoritmos de aprendizaje hacia la IA" (PDF) . Universidad de Montreal (preimpresión).
^ Larochelle, Hugo; Salakhutdinov, Ruslan (2010). "Aprendizaje eficiente de las máquinas profundas de Boltzmann" (PDF) . Actas de la decimotercera conferencia internacional sobre inteligencia artificial y estadística . pp. 693–700. Archivado desde el original (PDF) el 2017-08-14 . Consultado el 2017-08-18 .
^ Hendriksen, Mariya; Vakulenko, Svitlana; Kuiper, Ernst; de Rijke, Maarten (2023). "Recuperación intermodal de imagen y texto centrada en la escena versus centrada en el objeto: un estudio de reproducibilidad". arXiv : 2301.05174 [cs.CV].
^ Quach, Katyanna. "Los científicos de Harvard construyen un sistema de inteligencia artificial multimodal para predecir el cáncer". The Register . Archivado desde el original el 20 de septiembre de 2022. Consultado el 16 de septiembre de 2022 .
^ Chen, Richard J.; Lu, Ming Y.; Williamson, Drew FK; Chen, Tiffany Y.; Lipkova, Jana; Noor, Zahra; Shaban, Muhammad; Shady, Maha; Williams, Mane; Joo, Bumjin; Mahmood, Faisal (8 de agosto de 2022). "Análisis histológico-genómico integrativo de pancáncer mediante aprendizaje profundo multimodal". Cancer Cell . 40 (8): 865–878.e6. doi : 10.1016/j.ccell.2022.07.004 . ISSN 1535-6108. PMC 10397370 . PMID 35944502. S2CID 251456162.
Nota de prensa del hospital universitario: "La nueva tecnología de IA integra múltiples tipos de datos para predecir los resultados del cáncer". Brigham and Women's Hospital a través de medicalxpress.com . Archivado desde el original el 20 de septiembre de 2022. Consultado el 18 de septiembre de 2022 .
^ Shi, Yuge; Siddharth, N.; Paige, Brooks; Torr, Philip HS (2019). "Autocodificadores variacionales de mezcla de expertos para modelos generativos profundos multimodales". arXiv : 1911.03393 [cs.LG].
^ Shi, Yuge; Siddharth, N.; Paige, Brooks; Torr, Philip HS (2019). "Autocodificadores variacionales de mezcla de expertos para modelos generativos profundos multimodales". arXiv : 1911.03393 [cs.LG].
^ Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). "Una máquina de Boltzmann restringida por picos y losas" (PDF) . JMLR: Workshop and Conference Proceeding . 15 : 233–241. Archivado desde el original (PDF) el 2016-03-04 . Consultado el 2019-08-25 .
^ Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). "Modelos no supervisados de imágenes mediante RBM de tipo Spike-and-Slab" (PDF) . Actas de la 28.ª Conferencia Internacional sobre Aprendizaje Automático . Vol. 10. págs. 1–8. Archivado desde el original (PDF) el 2016-03-04 . Consultado el 2019-08-25 .
^ Mitchell, T; Beauchamp, J (1988). "Selección de variable bayesiana en regresión lineal". Revista de la Asociación Estadounidense de Estadística . 83 (404): 1023–1032. doi :10.1080/01621459.1988.10478694.
^ Sherrington, David; Kirkpatrick, Scott (29 de diciembre de 1975). "Modelo resoluble de un vidrio de espín". Physical Review Letters . 35 (26): 1792–1796. Código Bibliográfico :1975PhRvL..35.1792S. doi :10.1103/physrevlett.35.1792. ISSN 0031-9007.
^ Hopfield, JJ (1982). "Redes neuronales y sistemas físicos con capacidades computacionales colectivas emergentes". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 79 (8). [sn]: 2554–8. Bibcode :1982PNAS...79.2554H. doi : 10.1073/pnas.79.8.2554 . OCLC 848771572. PMC 346238 . PMID 6953413.
^ Hinton, Geoffery; Sejnowski, Terrence J. (mayo de 1983). Análisis de la computación cooperativa. 5.º Congreso anual de la Cognitive Science Society. Rochester, Nueva York . Consultado el 17 de febrero de 2020 .[ enlace muerto permanente ]
^ Hinton, Geoffrey E.; Sejnowski, Terrence J. (junio de 1983). Inferencia perceptual óptima . Conferencia IEEE sobre visión por computadora y reconocimiento de patrones (CVPR). Washington, DC: IEEE Computer Society. págs. 448–453.
^ Fahlman SE, Hinton GE, Sejnowski TJ. Arquitecturas masivamente paralelas para IA: máquinas NETL, Thistle y Boltzmann. En: Genesereth MR, editor. AAAI-83. Washington, DC: AAAI; 1983. págs. 109-113
^ Capítulo 16. Rosenfeld, Edward y James A. Anderson, eds. 2000. Talking Nets: An Oral History of Neural Networks . Edición reimpresa. The MIT Press.
^ Hofstadter, DR (enero de 1984). El proyecto Copycat: un experimento sobre no determinismo y analogías creativas . Centro de Información Técnica de Defensa. OCLC 227617764.
^ Hofstadter, Douglas R. (1988). "Un enfoque no determinista de la analogía, que involucra el modelo de Ising del ferromagnetismo". En Caianiello, Eduardo R. (ed.). Física de los procesos cognitivos . Teaneck, Nueva Jersey: World Scientific. ISBN9971-5-0255-0.OCLC 750950619 .
^ Smolensky, Paul. "Procesamiento de información en sistemas dinámicos: Fundamentos de la teoría de la armonía". (1986): 194-281.
^ Johnston, Hamish (8 de octubre de 2024). «John Hopfield y Geoffrey Hinton comparten el Premio Nobel de Física 2024». Physics World . Consultado el 18 de octubre de 2024 .
^ Liou, C.-Y.; Lin, S.-L. (1989). "La otra variante de la máquina de Boltzmann". Conferencia conjunta internacional sobre redes neuronales . Washington, DC, EE. UU.: IEEE. págs. 449–454. doi :10.1109/IJCNN.1989.118618.
Lectura adicional
Hinton, GE ; Sejnowski, TJ (1986). DE Rumelhart; JL McClelland (eds.). "Aprendizaje y reaprendizaje en máquinas de Boltzmann" (PDF) . Procesamiento distribuido paralelo: exploraciones en la microestructura de la cognición. Volumen 1: Fundamentos : 282–317. Archivado desde el original (PDF) el 2010-07-05.
Hinton, GE (2002). "Productos de entrenamiento de expertos minimizando la divergencia contrastiva" (PDF) . Neural Computation . 14 (8): 1771–1800. CiteSeerX 10.1.1.35.8613 . doi :10.1162/089976602760128018. PMID 12180402. S2CID 207596505.
Hinton, GE ; Osindero, S.; Teh, Y. (2006). "Un algoritmo de aprendizaje rápido para redes de creencias profundas" (PDF) . Neural Computation . 18 (7): 1527–1554. CiteSeerX 10.1.1.76.1541 . doi :10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950.
Kothari P (2020): https://www.forbes.com/sites/tomtaulli/2020/02/02/coronavirus-can-ai-artificial-intelligence-make-a-difference/?sh=1eca51e55817
Montufar, Guido (2018). «Máquinas de Boltzmann restringidas: Introducción y revisión» (PDF) . MPI MiS (Preimpresión) . Consultado el 1 de agosto de 2023 .
Enlaces externos
Artículo de Hinton en Scholarpedia sobre las máquinas de Boltzmann