Red de creencias profundas

En el aprendizaje automático , una red de creencias profundas ( DBN ) es un modelo gráfico generativo , o alternativamente una clase de red neuronal profunda , compuesta por múltiples capas de variables latentes ("unidades ocultas"), con conexiones entre las capas pero no entre unidades dentro. cada capa. ^[1]

Cuando se entrena con un conjunto de ejemplos sin supervisión , un DBN puede aprender a reconstruir probabilísticamente sus entradas. Luego, las capas actúan como detectores de características . ^[1] Después de este paso de aprendizaje, un DBN puede recibir capacitación adicional con supervisión para realizar la clasificación . ^[2]

Las DBN pueden verse como una composición de redes simples y no supervisadas, como máquinas Boltzmann restringidas (RBM) ^[1] o codificadores automáticos , ^[3] donde la capa oculta de cada subred sirve como capa visible para la siguiente. Un RBM es un modelo generativo no dirigido basado en energía con una capa de entrada "visible" y una capa oculta y conexiones entre capas, pero no dentro de ellas. Esta composición conduce a un procedimiento de entrenamiento rápido, capa por capa, no supervisado, donde se aplica divergencia contrastiva a cada subred por turno, comenzando desde el par de capas "más bajo" (la capa visible más baja es un conjunto de entrenamiento ).

La observación ^[2] de que los DBN se pueden entrenar con avidez , una capa a la vez, condujo a uno de los primeros algoritmos de aprendizaje profundo efectivos . ^[4]^{: 6} En general, existen muchas implementaciones y usos atractivos de DBN en aplicaciones y escenarios de la vida real (por ejemplo, electroencefalografía , ^[5] descubrimiento de fármacos ^[6]^[7]^[8] ).

Capacitación

El método de entrenamiento para RBM propuesto por Geoffrey Hinton para su uso con el entrenamiento de modelos " Producto de expertos " se llama divergencia contrastiva (CD). ^[9] CD proporciona una aproximación al método de máxima verosimilitud que idealmente se aplicaría para aprender los pesos. ^[10]^[11] Al entrenar un solo RBM, las actualizaciones de peso se realizan con descenso de gradiente mediante la siguiente ecuación: $w_{ij}(t+1)=w_{ij}(t)+\eta {\frac {\partial \log(p(v))}{\partial w_{ij}}}$

donde, es la probabilidad de que exista un vector visible, que viene dada por . es la función de partición (utilizada para normalizar) y es la función de energía asignada al estado de la red. Una energía más baja indica que la red está en una configuración más "deseable". El gradiente tiene la forma simple donde representan promedios con respecto a la distribución . El problema surge en el muestreo porque requiere un muestreo de Gibbs alternativo prolongado . CD reemplaza este paso ejecutando muestreo de Gibbs alternativo para los pasos (valores de buen rendimiento). Después de los pasos, se muestrean los datos y esa muestra se utiliza en lugar de . El procedimiento de CD funciona de la siguiente manera: ^[10] $p(v)$ $p(v)={\frac {1}{Z}}\sum _{h}e^{-E(v,h)}$ $Z$ $E(v,h)$ ${\frac {\partial \log(p(v))}{\partial w_{ij}}}$ $\langle v_{i}h_{j}\rangle _{\text{data}}-\langle v_{i}h_{j}\rangle _{\text{model}}$ $\langle \cdots \rangle _{p}$ $p$ $\langle v_{i}h_{j}\rangle _{\text{model}}$ $n$ $n=1$ $n$ $\langle v_{i}h_{j}\rangle _{\text{model}}$

Inicialice las unidades visibles en un vector de entrenamiento.
Actualice las unidades ocultas en paralelo dadas las unidades visibles: . es la función sigmoidea y es el sesgo de . $p(h_{j}=1\mid {\textbf {V}})=\sigma (b_{j}+\sum _{i}v_{i}w_{ij})$ $\sigma$ $b_{j}$ $h_{j}$
Actualiza las unidades visibles en paralelo dadas las unidades ocultas: . es el sesgo de . Esto se llama el paso de "reconstrucción". $p(v_{i}=1\mid {\textbf {H}})=\sigma (a_{i}+\sum _{j}h_{j}w_{ij})$ $a_{i}$ $v_{i}$
Vuelva a actualizar las unidades ocultas en paralelo dadas las unidades visibles reconstruidas usando la misma ecuación que en el paso 2.
Realice la actualización del peso: . $\Delta w_{ij}\propto \langle v_{i}h_{j}\rangle _{\text{data}}-\langle v_{i}h_{j}\rangle _{\text{reconstruction}}$

Una vez que se entrena un RBM, se "apila" otro RBM encima de él, tomando sus datos de la capa entrenada final. La nueva capa visible se inicializa en un vector de entrenamiento y los valores para las unidades en las capas ya entrenadas se asignan utilizando los pesos y sesgos actuales. Luego, el nuevo RBM se entrena con el procedimiento anterior. Todo este proceso se repite hasta que se cumpla el criterio de parada deseado. ^[12]

Aunque la aproximación de CD a la máxima verosimilitud es burda (no sigue el gradiente de ninguna función), es empíricamente efectiva. ^[10]

Ver también

Referencias

^ abc Hinton G (2009). "Redes de creencias profundas". Scholarpedia . 4 (5): 5947. Código bibliográfico : 2009SchpJ...4.5947H. doi : 10.4249/scholarpedia.5947 .
^ ab Hinton GE , Osindero S, Teh YW (julio de 2006). "Un algoritmo de aprendizaje rápido para redes de creencias profundas" (PDF) . Computación neuronal . 18 (7): 1527–54. CiteSeerX 10.1.1.76.1541 . doi :10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950.
^ Bengio Y, Lamblin P, Popovici D, Larochelle H (2007). Entrenamiento codicioso en capas de redes profundas (PDF) . NIPS .
^ Bengio, Y. (2009). "Aprendizaje de arquitecturas profundas para IA" (PDF) . Fundamentos y tendencias en aprendizaje automático . 2 : 1–127. CiteSeerX 10.1.1.701.9550 . doi :10.1561/2200000006.
^ Movahedi F, Coyle JL, Sejdic E (mayo de 2018). "Redes de creencias profundas para la electroencefalografía: una revisión de contribuciones recientes y perspectivas futuras". Revista IEEE de Informática Biomédica y de Salud . 22 (3): 642–652. doi : 10.1109/jbhi.2017.2727218. PMC 5967386 . PMID 28715343.
^ Ghasemi, Pérez-Sánchez; Mehri, Pérez-Garrido (2018). "Redes neuronales y algoritmos de aprendizaje profundo utilizados en estudios QSAR: ventajas e inconvenientes". Descubrimiento de fármacos hoy . 23 (10): 1784-1790. doi :10.1016/j.drudis.2018.06.016. PMID 29936244. S2CID 49418479.
^ Ghasemi, Pérez-Sánchez; Mehri, fassihi (2016). "El papel de diferentes métodos de muestreo en la mejora de la predicción de la actividad biológica utilizando Deep Belief Network". Revista de Química Computacional . 38 (10): 1–8. doi :10.1002/jcc.24671. PMID 27862046. S2CID 12077015.
^ Gawehn E, Hiss JA, Schneider G (enero de 2016). "Aprendizaje profundo en el descubrimiento de fármacos". Informática Molecular . 35 (1): 3–14. doi : 10.1002/minf.201501008 . PMID 27491648. S2CID 10574953.
^ Hinton GE (2002). "Producto de formación de expertos minimizando la divergencia contrastiva" (PDF) . Computación neuronal . 14 (8): 1771–1800. CiteSeerX 10.1.1.35.8613 . doi :10.1162/089976602760128018. PMID 12180402. S2CID 207596505.
^ abc Hinton GE (2010). "Una guía práctica para el entrenamiento de máquinas Boltzmann restringidas". Tecnología. Representante UTML TR 2010-003 .
^ Fischer A, Igel C (2014). "Entrenamiento de máquinas Boltzmann restringidas: introducción" (PDF) . Reconocimiento de patrones . 47 (1): 25–39. Código Bib : 2014PatRe..47...25F. CiteSeerX 10.1.1.716.8647 . doi :10.1016/j.patcog.2013.05.025. Archivado desde el original (PDF) el 10 de junio de 2015 . Consultado el 2 de julio de 2017 .
↑ Bengio Y (2009). "Aprendizaje de arquitecturas profundas para IA" (PDF) . Fundamentos y tendencias en aprendizaje automático . 2 (1): 1–127. CiteSeerX 10.1.1.701.9550 . doi :10.1561/2200000006. Archivado desde el original (PDF) el 4 de marzo de 2016 . Consultado el 2 de julio de 2017 .

Enlaces externos

Hinton, Geoffrey E. (31 de mayo de 2009). "Redes de creencias profundas". Scholarpedia . 4 (5): 5947. doi : 10.4249/scholarpedia.5947. ISSN 1941-6016.{{cite journal}}: CS1 maint: unflagged free DOI (link)
"Redes de creencias profundas". Tutoriales de aprendizaje profundo.
"Ejemplo de red de creencias profundas". Tutoriales de aprendizaje profundo 4j. Archivado desde el original el 3 de octubre de 2016 . Consultado el 22 de febrero de 2015 .