Las unidades recurrentes cerradas ( GRU ) son un mecanismo de compuerta en redes neuronales recurrentes , introducido en 2014 por Kyunghyun Cho et al. [1] La GRU es como una memoria a corto plazo larga (LSTM) con un mecanismo de compuerta para ingresar u olvidar ciertas características, [2] pero carece de un vector de contexto o compuerta de salida, lo que resulta en menos parámetros que la LSTM. [3]
Se encontró que el desempeño de GRU en ciertas tareas de modelado de música polifónica, modelado de señales de voz y procesamiento del lenguaje natural era similar al de la LSTM. [4] [5] Las GRU demostraron que la compuerta es realmente útil en general, y el equipo de Bengio no llegó a una conclusión concreta sobre cuál de las dos unidades de compuerta era mejor. [6] [7]
Arquitectura
Existen varias variaciones de la unidad completamente cerrada, en la que la activación se realiza utilizando el estado oculto anterior y el sesgo en varias combinaciones, y una forma simplificada llamada unidad cerrada mínima. [8]
Son posibles funciones de activación alternativas, siempre que .
Se pueden crear formas alternativas cambiando y [9]
Tipo 1, cada puerta depende únicamente del estado oculto anterior y del sesgo.
Tipo 2, cada puerta depende únicamente del estado oculto anterior.
Tipo 3, cada puerta se calcula utilizando solo el sesgo.
Unidad cerrada mínima
La unidad mínima con compuerta (MGU) es similar a la unidad con compuerta completa, excepto que el vector de compuerta de actualización y reinicio se fusiona en una compuerta de olvido. Esto también implica que se debe cambiar la ecuación para el vector de salida: [10]
Variables
: vector de entrada
: vector de salida
: vector de activación candidato
:olvídate del vector
, y : matrices de parámetros y vectores
Unidad recurrente con compuerta de luz
La unidad recurrente controlada por luz (LiGRU) [4] elimina por completo la puerta de reinicio, reemplaza tanh con la activación ReLU y aplica la normalización por lotes (BN):
LiGRU se ha estudiado desde una perspectiva bayesiana. [11] Este análisis produjo una variante llamada unidad recurrente bayesiana ligera (LiBRU), que mostró ligeras mejoras con respecto a LiGRU en las tareas de reconocimiento de voz .
Referencias
^ Cho, Kyunghyun; van Merrienboer, Bart; Bahdanau, DZmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). "Aprendizaje de representaciones de frases mediante el codificador-decodificador RNN para traducción automática estadística". arXiv : 1406.1078 [cs.CL].
^ Felix Gers ; Jürgen Schmidhuber ; Fred Cummins (1999). "Aprendiendo a olvidar: predicción continua con LSTM". Novena Conferencia Internacional sobre Redes Neuronales Artificiales: ICANN '99. Vol. 1999. págs. 850–855. doi :10.1049/cp:19991218. ISBN0-85296-721-7.
^ "Tutorial de redes neuronales recurrentes, parte 4: implementación de una red neuronal recurrente GRU/LSTM con Python y Theano – WildML". Wildml.com . 2015-10-27. Archivado desde el original el 2021-11-10 . Consultado el 18 de mayo de 2016 .
^ ab Ravanelli, Mirco; Brakel, Philemon; Omologo, Maurizio; Bengio, Yoshua (2018). "Unidades recurrentes controladas por luz para el reconocimiento de voz". Transacciones IEEE sobre temas emergentes en inteligencia computacional . 2 (2): 92–102. arXiv : 1803.10225 . doi :10.1109/TETCI.2017.2762739. S2CID 4402991.
^ Su, Yuahang; Kuo, Jay (2019). "Sobre la memoria a corto plazo extendida y la red neuronal recurrente bidireccional dependiente". Neurocomputing . 356 : 151–161. arXiv : 1803.01686 . doi :10.1016/j.neucom.2019.04.044. S2CID 3675055.
^ Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun; Bengio, Yoshua (2014). "Evaluación empírica de redes neuronales recurrentes controladas en el modelado de secuencias". arXiv : 1412.3555 [cs.NE].
^ Gruber, N.; Jockisch, A. (2020), "¿Son las células GRU más específicas y las células LSTM más sensibles en la clasificación de motivos del texto?", Frontiers in Artificial Intelligence , 3 : 40, doi : 10.3389/frai.2020.00040 , PMC 7861254 , PMID 33733157, S2CID 220252321
^ Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun; Bengio, Yoshua (2014). "Evaluación empírica de redes neuronales recurrentes controladas en el modelado de secuencias". arXiv : 1412.3555 [cs.NE].
^ Dey, Rahul; Salem, Fathi M. (20 de enero de 2017). "Variantes de compuertas de redes neuronales de unidades recurrentes cerradas (GRU)". arXiv : 1701.05923 [cs.NE].
^ Heck, Joel; Salem, Fathi M. (12 de enero de 2017). "Variaciones unitarias mínimas simplificadas con compuertas para redes neuronales recurrentes". arXiv : 1701.03452 [cs.NE].
^ Bittar, Alexandre; Garner, Philip N. (mayo de 2021). "Una interpretación bayesiana de la unidad recurrente controlada por luz". ICASSP 2021. Conferencia internacional IEEE de 2021 sobre acústica, habla y procesamiento de señales (ICASSP). Toronto, ON, Canadá: IEEE. págs. 2965–2969. 10.1109/ICASSP39728.2021.9414259.