stringtranslate.com

Unidad recurrente cerrada

Las unidades recurrentes cerradas ( GRU ) son un mecanismo de compuerta en redes neuronales recurrentes , introducido en 2014 por Kyunghyun Cho et al. [1] La GRU es como una memoria a corto plazo larga (LSTM) con un mecanismo de compuerta para ingresar u olvidar ciertas características, [2] pero carece de un vector de contexto o compuerta de salida, lo que resulta en menos parámetros que la LSTM. [3] Se encontró que el desempeño de GRU en ciertas tareas de modelado de música polifónica, modelado de señales de voz y procesamiento del lenguaje natural era similar al de la LSTM. [4] [5] Las GRU demostraron que la compuerta es realmente útil en general, y el equipo de Bengio no llegó a una conclusión concreta sobre cuál de las dos unidades de compuerta era mejor. [6] [7]

Arquitectura

Existen varias variaciones de la unidad completamente cerrada, en la que la activación se realiza utilizando el estado oculto anterior y el sesgo en varias combinaciones, y una forma simplificada llamada unidad cerrada mínima. [8]

El operador designa a continuación el producto Hadamard .

Unidad completamente cerrada

Unidad recurrente cerrada, versión totalmente cerrada

Inicialmente, para , el vector de salida es .

Variables ( indica el número de características de entrada y el número de características de salida):

Funciones de activación

Son posibles funciones de activación alternativas, siempre que .

Tipo 1
Tipo 2
Tipo 3

Se pueden crear formas alternativas cambiando y [9]

Unidad cerrada mínima

La unidad mínima con compuerta (MGU) es similar a la unidad con compuerta completa, excepto que el vector de compuerta de actualización y reinicio se fusiona en una compuerta de olvido. Esto también implica que se debe cambiar la ecuación para el vector de salida: [10]

Variables

Unidad recurrente con compuerta de luz

La unidad recurrente controlada por luz (LiGRU) [4] elimina por completo la puerta de reinicio, reemplaza tanh con la activación ReLU y aplica la normalización por lotes (BN):

LiGRU se ha estudiado desde una perspectiva bayesiana. [11] Este análisis produjo una variante llamada unidad recurrente bayesiana ligera (LiBRU), que mostró ligeras mejoras con respecto a LiGRU en las tareas de reconocimiento de voz .

Referencias

  1. ^ Cho, Kyunghyun; van Merrienboer, Bart; Bahdanau, DZmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). "Aprendizaje de representaciones de frases mediante el codificador-decodificador RNN para traducción automática estadística". arXiv : 1406.1078 [cs.CL].
  2. ^ Felix Gers ; Jürgen Schmidhuber ; Fred Cummins (1999). "Aprendiendo a olvidar: predicción continua con LSTM". Novena Conferencia Internacional sobre Redes Neuronales Artificiales: ICANN '99. Vol. 1999. págs. 850–855. doi :10.1049/cp:19991218. ISBN 0-85296-721-7.
  3. ^ "Tutorial de redes neuronales recurrentes, parte 4: implementación de una red neuronal recurrente GRU/LSTM con Python y Theano – WildML". Wildml.com . 2015-10-27. Archivado desde el original el 2021-11-10 . Consultado el 18 de mayo de 2016 .
  4. ^ ab Ravanelli, Mirco; Brakel, Philemon; Omologo, Maurizio; Bengio, Yoshua (2018). "Unidades recurrentes controladas por luz para el reconocimiento de voz". Transacciones IEEE sobre temas emergentes en inteligencia computacional . 2 (2): 92–102. arXiv : 1803.10225 . doi :10.1109/TETCI.2017.2762739. S2CID  4402991.
  5. ^ Su, Yuahang; Kuo, Jay (2019). "Sobre la memoria a corto plazo extendida y la red neuronal recurrente bidireccional dependiente". Neurocomputing . 356 : 151–161. arXiv : 1803.01686 . doi :10.1016/j.neucom.2019.04.044. S2CID  3675055.
  6. ^ Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun; Bengio, Yoshua (2014). "Evaluación empírica de redes neuronales recurrentes controladas en el modelado de secuencias". arXiv : 1412.3555 [cs.NE].
  7. ^ Gruber, N.; Jockisch, A. (2020), "¿Son las células GRU más específicas y las células LSTM más sensibles en la clasificación de motivos del texto?", Frontiers in Artificial Intelligence , 3 : 40, doi : 10.3389/frai.2020.00040 , PMC 7861254 , PMID  33733157, S2CID  220252321  
  8. ^ Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun; Bengio, Yoshua (2014). "Evaluación empírica de redes neuronales recurrentes controladas en el modelado de secuencias". arXiv : 1412.3555 [cs.NE].
  9. ^ Dey, Rahul; Salem, Fathi M. (20 de enero de 2017). "Variantes de compuertas de redes neuronales de unidades recurrentes cerradas (GRU)". arXiv : 1701.05923 [cs.NE].
  10. ^ Heck, Joel; Salem, Fathi M. (12 de enero de 2017). "Variaciones unitarias mínimas simplificadas con compuertas para redes neuronales recurrentes". arXiv : 1701.03452 [cs.NE].
  11. ^ Bittar, Alexandre; Garner, Philip N. (mayo de 2021). "Una interpretación bayesiana de la unidad recurrente controlada por luz". ICASSP 2021. Conferencia internacional IEEE de 2021 sobre acústica, habla y procesamiento de señales (ICASSP). Toronto, ON, Canadá: IEEE. págs. 2965–2969. 10.1109/ICASSP39728.2021.9414259.