stringtranslate.com

Red neuronal recursiva

Una red neuronal recursiva es un tipo de red neuronal profunda creada aplicando el mismo conjunto de pesos de forma recursiva sobre una entrada estructurada, para producir una predicción estructurada sobre estructuras de entrada de tamaño variable, o una predicción escalar sobre ella, atravesando una estructura determinada en orden topológico . Las redes neuronales recursivas, a veces abreviadas como RvNN, han tenido éxito, por ejemplo, en el aprendizaje de secuencias y estructuras de árboles en el procesamiento del lenguaje natural , principalmente frases y representaciones continuas de oraciones basadas en la incrustación de palabras . Los RvNN se introdujeron por primera vez para aprender representaciones distribuidas de estructuras, como términos lógicos . [1] Se han desarrollado modelos y marcos generales en trabajos posteriores desde la década de 1990. [2] [3]

Arquitecturas

Básico

Una arquitectura de red neuronal recursiva simple

En la arquitectura más simple, los nodos se combinan en padres utilizando una matriz de peso que se comparte en toda la red y una no linealidad como tanh . Si c 1 y c 2 son n -representaciones vectoriales dimensionales de nodos, su padre también será un vector n -dimensional, calculado como

Donde W es una matriz de peso aprendida.

Esta arquitectura, con algunas mejoras, se ha utilizado con éxito para analizar escenas naturales, análisis sintáctico de oraciones en lenguaje natural, [4] y autocodificación recursiva y modelado generativo de estructuras de formas 3D en forma de abstracciones cuboides. [5]

Correlación en cascada recursiva (RecCC)

RecCC es un enfoque de red neuronal constructiva para tratar dominios de árbol [2] con aplicaciones pioneras en química [6] y extensión a gráficos acíclicos dirigidos . [7]

RNN no supervisado

En 2004 se introdujo un marco para RNN no supervisado. [8] [9]

Tensor

Las redes tensoriales neuronales recursivas utilizan una función de composición basada en tensores para todos los nodos del árbol. [10]

Capacitación

Descenso de gradiente estocástico

Normalmente, se utiliza el descenso de gradiente estocástico (SGD) para entrenar la red. El gradiente se calcula mediante retropropagación a través de la estructura (BPTS), una variante de la retropropagación a través del tiempo utilizada para redes neuronales recurrentes .

Propiedades

La capacidad de aproximación universal de RNN sobre árboles ha sido demostrada en la literatura. [11] [12]

Modelos relacionados

Redes neuronales recurrentes

Las redes neuronales recurrentes son redes neuronales artificiales recursivas con una estructura determinada: la de una cadena lineal. Mientras que las redes neuronales recursivas operan en cualquier estructura jerárquica, combinando representaciones secundarias en representaciones principales, las redes neuronales recurrentes operan en la progresión lineal del tiempo, combinando el paso de tiempo anterior y una representación oculta en la representación del paso de tiempo actual.

Redes estatales de eco de árbol

Un enfoque eficiente para implementar redes neuronales recursivas lo proporciona Tree Echo State Network [13] dentro del paradigma de computación de reservorios .

Extensión a gráficos

Las extensiones de gráficos incluyen la red neuronal de gráficos (GNN), [14] la red neuronal para gráficos (NN4G), [15] y, más recientemente, las redes neuronales convolucionales para gráficos.

Referencias

  1. ^ Goller, C.; Küchler, A. (1996). "Aprendizaje de representaciones distribuidas dependientes de tareas mediante propagación hacia atrás a través de la estructura". Actas de la Conferencia Internacional sobre Redes Neuronales (ICNN'96) . vol. 1. págs. 347–352. CiteSeerX  10.1.1.52.4759 . doi :10.1109/ICNN.1996.548916. ISBN 978-0-7803-3210-2. S2CID  6536466.
  2. ^ ab Sperduti, A.; Starita, A. (1 de mayo de 1997). "Redes neuronales supervisadas para la clasificación de estructuras". Transacciones IEEE en redes neuronales . 8 (3): 714–735. doi : 10.1109/72.572108. ISSN  1045-9227. PMID  18255672.
  3. ^ Frasconi, P.; Gori, M.; Sperduti, A. (1 de septiembre de 1998). "Un marco general para el procesamiento adaptativo de estructuras de datos". Transacciones IEEE en redes neuronales . 9 (5): 768–786. CiteSeerX 10.1.1.64.2580 . doi : 10.1109/72.712151. ISSN  1045-9227. PMID  18255765. 
  4. ^ Socher, Richard; Lin, acantilado; Ng, Andrés Y.; Manning, Christopher D. "Análisis de escenas naturales y lenguaje natural con redes neuronales recursivas" (PDF) . La 28ª Conferencia Internacional sobre Aprendizaje Automático (ICML 2011) .
  5. ^ Li, junio; Xu, Kai; Chaudhuri, Siddhartha; Yumer, Ersin; Zhang, Hao; Guibas, Leonadis (2017). "GRASS: codificadores automáticos recursivos generativos para estructuras de formas" (PDF) . Transacciones ACM sobre gráficos . 36 (4): 52. arXiv : 1705.02090 . doi :10.1145/3072959.3073613. S2CID  20432407.
  6. ^ Bianucci, Anna María; Micheli, Alessio; Sperduti, Alessandro; Starita, Antonina (2000). "Aplicación de redes de correlación en cascada para estructuras a la química". Inteligencia Aplicada . 12 (1–2): 117–147. doi :10.1023/A:1008368105614. ISSN  0924-669X. S2CID  10031212.
  7. ^ Micheli, A.; Soná, D.; Sperduti, A. (1 de noviembre de 2004). "Procesamiento contextual de datos estructurados mediante correlación en cascada recursiva". Transacciones IEEE en redes neuronales . 15 (6): 1396-1410. CiteSeerX 10.1.1.135.8772 . doi :10.1109/TNN.2004.837783. ISSN  1045-9227. PMID  15565768. S2CID  12370239. 
  8. ^ Martillo, Bárbara; Micheli, Alessio; Sperduti, Alessandro; Strickert, Marc (2004). "Modelos de redes recursivas autoorganizadas". Redes neuronales . 17 (8–9): 1061–1085. CiteSeerX 10.1.1.129.6155 . doi :10.1016/j.neunet.2004.06.009. PMID  15555852. 
  9. ^ Martillo, Bárbara; Micheli, Alessio; Sperduti, Alessandro; Strickert, Marc (1 de marzo de 2004). "Un marco general para el procesamiento no supervisado de datos estructurados". Neurocomputación . 57 : 3–35. CiteSeerX 10.1.1.3.984 . doi : 10.1016/j.neucom.2004.01.008. 
  10. ^ Socher, Richard; Perelygin, Alex; Y. Wu, Jean; Chuang, Jason; D. Manning, Christopher; Y. Ng, Andrés; Potts, Cristóbal. "Modelos profundos recursivos para la composicionalidad semántica sobre un banco de árboles de sentimientos" (PDF) . EMNLP 2013 .
  11. ^ Martillo, Barbara (3 de octubre de 2007). Aprendizaje con redes neuronales recurrentes. Saltador. ISBN 9781846285677.
  12. ^ Martillo, Bárbara; Micheli, Alessio; Sperduti, Alessandro (1 de mayo de 2005). "Capacidad de aproximación universal de correlación en cascada para estructuras". Computación neuronal . 17 (5): 1109-1159. CiteSeerX 10.1.1.138.2224 . doi :10.1162/0899766053491878. S2CID  10845957. 
  13. ^ Gallicchio, Claudio; Micheli, Alessio (4 de febrero de 2013). "Redes estatales de eco de árboles". Neurocomputación . 101 : 319–337. doi :10.1016/j.neucom.2012.08.017. hdl : 11568/158480 .
  14. ^ Scarselli, F.; Gori, M.; Tsoi, AC; Hagenbuchner, M.; Monfardini, G. (1 de enero de 2009). "El modelo de red neuronal Graph". Transacciones IEEE en redes neuronales . 20 (1): 61–80. doi :10.1109/TNN.2008.2005605. ISSN  1045-9227. PMID  19068426. S2CID  206756462.
  15. ^ Micheli, A. (1 de marzo de 2009). "Red neuronal para gráficos: un enfoque constructivo contextual". Transacciones IEEE en redes neuronales . 20 (3): 498–511. doi :10.1109/TNN.2008.2010350. ISSN  1045-9227. PMID  19193509. S2CID  17486263.