stringtranslate.com

Red neuronal recursiva

Una red neuronal recursiva es un tipo de red neuronal profunda creada mediante la aplicación recursiva del mismo conjunto de pesos sobre una entrada estructurada, para producir una predicción estructurada sobre estructuras de entrada de tamaño variable, o una predicción escalar sobre ella, al recorrer una estructura dada en orden topológico . Estas redes se introdujeron por primera vez para aprender representaciones distribuidas de la estructura (como términos lógicos ), [1] pero han tenido éxito en múltiples aplicaciones, por ejemplo, en el aprendizaje de estructuras de secuencia y árbol en el procesamiento del lenguaje natural (principalmente representaciones continuas de frases y oraciones basadas en incrustaciones de palabras ).

Arquitecturas

Básico

Una arquitectura de red neuronal recursiva simple

En la arquitectura más simple, los nodos se combinan en padres utilizando una matriz de peso (que se comparte en toda la red) y una no linealidad como la función hiperbólica . Si y son representaciones vectoriales de nodos en dimensiones, su padre también será un vector en dimensiones, definido como:

donde es una matriz de peso aprendida.

Esta arquitectura, con algunas mejoras, se ha utilizado con éxito para analizar escenas naturales, analizar sintácticamente oraciones en lenguaje natural, [2] y realizar autocodificación recursiva y modelado generativo de estructuras de formas 3D en forma de abstracciones cuboides. [3]

Correlación en cascada recursiva (RecCC)

RecCC es un enfoque de red neuronal constructiva para abordar dominios de árboles [4] con aplicaciones pioneras en química [5] y extensión a gráficos acíclicos dirigidos . [6]

Enfermera registrada no supervisada

En 2004 se introdujo un marco para RNN no supervisada. [7] [8]

Tensor

Las redes tensoriales neuronales recursivas utilizan una única función de composición basada en tensor para todos los nodos del árbol. [9]

Capacitación

Descenso de gradiente estocástico

Por lo general, se utiliza el descenso de gradiente estocástico (SGD) para entrenar la red. El gradiente se calcula utilizando retropropagación a través de la estructura (BPTS), una variante de retropropagación a través del tiempo que se utiliza para redes neuronales recurrentes .

Propiedades

La capacidad de aproximación universal de las RNN sobre árboles ha sido demostrada en la literatura. [10] [11]

Modelos relacionados

Redes neuronales recurrentes

Las redes neuronales recurrentes son redes neuronales artificiales recursivas con una estructura determinada: la de una cadena lineal. Mientras que las redes neuronales recursivas operan en cualquier estructura jerárquica, combinando representaciones secundarias en representaciones principales, las redes neuronales recurrentes operan en la progresión lineal del tiempo, combinando el paso de tiempo anterior y una representación oculta en la representación del paso de tiempo actual.

Redes estatales de eco de árbol

Un enfoque eficiente para implementar redes neuronales recursivas lo proporciona la red de estados de eco de árbol [12] dentro del paradigma de computación de reservorio .

Extensión a gráficos

Las extensiones de gráficos incluyen redes neuronales de gráficos (GNN), [13] redes neuronales para gráficos (NN4G), [14] y, más recientemente, redes neuronales convolucionales para gráficos.

Referencias

  1. ^ Goller, C.; Küchler, A. (1996). "Aprendizaje de representaciones distribuidas dependientes de la tarea mediante retropropagación a través de la estructura". Actas de la Conferencia Internacional sobre Redes Neuronales (ICNN'96) . Vol. 1. págs. 347–352. CiteSeerX  10.1.1.52.4759 . doi :10.1109/ICNN.1996.548916. ISBN . 978-0-7803-3210-2.S2CID6536466  .​
  2. ^ Socher, Richard; Lin, Cliff; Ng, Andrew Y.; Manning, Christopher D. "Análisis de escenas naturales y lenguaje natural con redes neuronales recursivas" (PDF) . La 28.ª Conferencia internacional sobre aprendizaje automático (ICML 2011) .
  3. ^ Li, junio; Xu, Kai; Chaudhuri, Siddhartha; Yumer, Ersin; Zhang, Hao; Guibas, Leonadis (2017). "GRASS: codificadores automáticos recursivos generativos para estructuras de formas" (PDF) . Transacciones ACM sobre gráficos . 36 (4): 52. arXiv : 1705.02090 . doi :10.1145/3072959.3073613. S2CID  20432407.
  4. ^ Sperduti, A.; Starita, A. (1997-05-01). "Redes neuronales supervisadas para la clasificación de estructuras". IEEE Transactions on Neural Networks . 8 (3): 714–735. doi :10.1109/72.572108. ISSN  1045-9227. PMID  18255672.
  5. ^ Bianucci, Anna Maria; Micheli, Alessio; Sperduti, Alessandro; Starita, Antonina (2000). "Aplicación de redes de correlación en cascada para estructuras a la química". Applied Intelligence . 12 (1–2): 117–147. doi :10.1023/A:1008368105614. ISSN  0924-669X. S2CID  10031212.
  6. ^ Micheli, A.; Sona, D.; Sperduti, A. (1 de noviembre de 2004). "Procesamiento contextual de datos estructurados mediante correlación recursiva en cascada". IEEE Transactions on Neural Networks . 15 (6): 1396–1410. CiteSeerX 10.1.1.135.8772 . doi :10.1109/TNN.2004.837783. ISSN  1045-9227. PMID  15565768. S2CID  12370239. 
  7. ^ Hammer, Barbara; Micheli, Alessio; Sperduti, Alessandro; Strickert, Marc (2004). "Modelos de redes autoorganizadas recursivas". Redes neuronales . 17 (8–9): 1061–1085. CiteSeerX 10.1.1.129.6155 . doi :10.1016/j.neunet.2004.06.009. PMID  15555852. 
  8. ^ Hammer, Barbara; Micheli, Alessio; Sperduti, Alessandro; Strickert, Marc (1 de marzo de 2004). "Un marco general para el procesamiento no supervisado de datos estructurados". Neurocomputing . 57 : 3–35. CiteSeerX 10.1.1.3.984 . doi :10.1016/j.neucom.2004.01.008. 
  9. ^ Socher, Richard; Perelygin, Alex; Y. Wu, Jean; Chuang, Jason; D. Manning, Christopher; Y. Ng, Andrew; Potts, Christopher. "Modelos profundos recursivos para la composicionalidad semántica sobre un banco de árboles de sentimientos" (PDF) . EMNLP 2013 .
  10. ^ Hammer, Barbara (3 de octubre de 2007). Aprendizaje con redes neuronales recurrentes. Springer. ISBN 9781846285677.
  11. ^ Hammer, Barbara; Micheli, Alessio; Sperduti, Alessandro (1 de mayo de 2005). "Capacidad de aproximación universal de la correlación en cascada para estructuras". Neural Computation . 17 (5): 1109–1159. CiteSeerX 10.1.1.138.2224 . doi :10.1162/0899766053491878. S2CID  10845957. 
  12. ^ Gallicchio, Claudio; Micheli, Alessio (4 de febrero de 2013). "Redes estatales de eco de árboles". Neurocomputación . 101 : 319–337. doi :10.1016/j.neucom.2012.08.017. hdl : 11568/158480 .
  13. ^ Scarselli, F.; Gori, M.; Tsoi, AC; Hagenbuchner, M.; Monfardini, G. (1 de enero de 2009). "El modelo de red neuronal gráfica". IEEE Transactions on Neural Networks . 20 (1): 61–80. doi :10.1109/TNN.2008.2005605. ISSN  1045-9227. PMID  19068426. S2CID  206756462.
  14. ^ Micheli, A. (1 de marzo de 2009). "Redes neuronales para grafos: un enfoque constructivo contextual". IEEE Transactions on Neural Networks . 20 (3): 498–511. doi :10.1109/TNN.2008.2010350. ISSN  1045-9227. PMID  19193509. S2CID  17486263.