Memoria a corto plazo y larga duración

La memoria a corto plazo larga ( LSTM ) ^[1] es un tipo de red neuronal recurrente (RNN) destinada a abordar el problema del gradiente de desaparición ^[2] presente en las RNN tradicionales. Su relativa insensibilidad a la longitud de la brecha es su ventaja sobre otras RNN, modelos ocultos de Markov y otros métodos de aprendizaje de secuencias. Su objetivo es proporcionar una memoria a corto plazo para RNN que pueda durar miles de pasos de tiempo, por lo tanto, " memoria a corto plazo larga ". ^[1] El nombre se hace en analogía con la memoria a largo plazo y la memoria a corto plazo y su relación, estudiada por psicólogos cognitivos desde principios del siglo XX.

Es aplicable a la clasificación , procesamiento y predicción de datos basados en series temporales , como en escritura a mano , ^[3] reconocimiento de voz , ^[4]^[5] traducción automática , ^[6]^[7] detección de actividad del habla, ^[8] control de robots, ^[9]^[10] videojuegos, ^[11]^[12] y atención médica. ^[13]

Una unidad LSTM común se compone de una celda , una compuerta de entrada , una compuerta de salida ^[14] y una compuerta de olvido ^[15] . La celda recuerda valores en intervalos de tiempo arbitrarios y las tres compuertas regulan el flujo de información dentro y fuera de la celda. Las compuertas de olvido deciden qué información descartar del estado anterior asignando el estado anterior y la entrada actual a un valor entre 0 y 1. Un valor (redondeado) de 1 significa mantener la información y un valor de 0 significa descartarla. Las compuertas de entrada deciden qué piezas de información nueva almacenar en el estado actual de la celda, utilizando el mismo sistema que las compuertas de olvido. Las compuertas de salida controlan qué piezas de información en el estado actual de la celda se emitirán asignando un valor de 0 a 1 a la información, considerando los estados anterior y actual. La emisión selectiva de información relevante del estado actual permite a la red LSTM mantener dependencias útiles a largo plazo para hacer predicciones, tanto en pasos de tiempo actuales como futuros.

Motivación

En teoría, las RNN clásicas pueden realizar un seguimiento de dependencias arbitrarias a largo plazo en las secuencias de entrada. El problema con las RNN clásicas es de naturaleza computacional (o práctica): cuando se entrena una RNN clásica utilizando retropropagación , los gradientes a largo plazo que se retropropagan pueden "desaparecer" , lo que significa que pueden tender a cero debido a que números muy pequeños se introducen en los cálculos, lo que hace que el modelo deje de aprender efectivamente. Las RNN que utilizan unidades LSTM resuelven parcialmente el problema del gradiente evanescente , porque las unidades LSTM permiten que los gradientes también fluyan con poca o ninguna atenuación. Sin embargo, las redes LSTM aún pueden sufrir el problema del gradiente explosivo. ^[16]

La intuición detrás de la arquitectura LSTM es crear un módulo adicional en una red neuronal que aprende cuándo recordar y cuándo olvidar información pertinente. ^[15] En otras palabras, la red aprende efectivamente qué información podría ser necesaria más adelante en una secuencia y cuándo esa información ya no es necesaria. Por ejemplo, en el contexto del procesamiento del lenguaje natural , la red puede aprender dependencias gramaticales. ^[17] Un LSTM podría procesar la oración " Dave , como resultado de sus controvertidas afirmaciones, ahora es un paria" recordando el género y número gramaticales (estadísticamente probables) del sujeto Dave , note que esta información es pertinente para el pronombre his y note que esta información ya no es importante después del verbo is .

Variantes

En las ecuaciones que aparecen a continuación, las variables en minúscula representan vectores. Las matrices y contienen, respectivamente, los pesos de las conexiones de entrada y recurrentes, donde el subíndice puede ser la puerta de entrada , la puerta de salida , la puerta de olvido o la celda de memoria , según la activación que se esté calculando. En esta sección, utilizamos una "notación vectorial". Por lo tanto, por ejemplo, no es solo una unidad de una celda LSTM, sino que contiene las unidades de la celda LSTM. $W_{q}$ $U_{q}$ $_{q}$ $i$ $o$ $f$ $c$ $c_{t}\in \mathbb {R} ^{h}$ $h$

LSTM con puerta de olvido

Las formas compactas de las ecuaciones para el paso hacia adelante de una celda LSTM con una puerta de olvido son: ^[1]^[15]

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}x_{t}+U_{f}h_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}x_{t}+U_{i}h_{t-1}+b_{i})\\o_{t}&=\sigma _{g}(W_{o}x_{t}+U_{o}h_{t-1}+b_{o})\\{\tilde {c}}_{t}&=\sigma _{c}(W_{c}x_{t}+U_{c}h_{t-1}+b_{c})\\c_{t}&=f_{t}\odot c_{t-1}+i_{t}\odot {\tilde {c}}_{t}\\h_{t}&=o_{t}\odot \sigma _{h}(c_{t})\end{aligned}}

donde los valores iniciales son y y el operador denota el producto Hadamard (producto elemento por elemento). El subíndice indica el paso de tiempo. $c_{0}=0$ $h_{0}=0$ $\odot$ $t$

Variables

Dejando que los superíndices y hagan referencia al número de características de entrada y al número de unidades ocultas, respectivamente: $d$ $h$

$x_{t}\in \mathbb {R} ^{d}$ : vector de entrada a la unidad LSTM
$f_{t}\in {(0,1)}^{h}$ :olvidar el vector de activación de la puerta
$i_{t}\in {(0,1)}^{h}$ : vector de activación de la puerta de entrada/actualización
$o_{t}\in {(0,1)}^{h}$ : vector de activación de la puerta de salida
$h_{t}\in {(-1,1)}^{h}$ : vector de estado oculto también conocido como vector de salida de la unidad LSTM
${\tilde {c}}_{t}\in {(-1,1)}^{h}$ : vector de activación de entrada celular
$c_{t}\in \mathbb {R} ^{h}$ : vector de estado de la celda
$W\in \mathbb {R} ^{h\times d}$ , y : matrices de peso y parámetros de vector de sesgo que deben aprenderse durante el entrenamiento $U\in \mathbb {R} ^{h\times h}$ $b\in \mathbb {R} ^{h}$

Funciones de activación

$\sigma _{g}$ : función sigmoidea .
$\sigma _{c}$ : función tangente hiperbólica .
$\sigma _{h}$ :función tangente hiperbólica o, como sugiere el artículo LSTM de Peephole ^[18]^[19] , . $\sigma _{h}(x)=x$

Mirilla LSTM

{\estilo de visualización i} — Una unidad LSTM de mirilla con puertas de entrada (ie ), salida (ie ) y olvido (ie ) $i$ $o$ $f$

La figura de la derecha es una representación gráfica de una unidad LSTM con conexiones de mirilla (es decir, un LSTM de mirilla). ^[18]^[19] Las conexiones de mirilla permiten que las puertas accedan al carrusel de error constante (CEC), cuya activación es el estado de la celda. ^[18] no se utiliza, se utiliza en su lugar en la mayoría de los lugares. $h_{t-1}$ $c_{t-1}$

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}x_{t}+U_{f}c_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}x_{t}+U_{i}c_{t-1}+b_{i})\\o_{t}&=\sigma _{g}(W_{o}x_{t}+U_{o}c_{t-1}+b_{o})\\c_{t}&=f_{t}\odot c_{t-1}+i_{t}\odot \sigma _{c}(W_{c}x_{t}+b_{c})\\h_{t}&=o_{t}\odot \sigma _{h}(c_{t})\end{aligned}}

Cada una de las puertas puede considerarse como una neurona "estándar" en una red neuronal de propagación hacia adelante (o multicapa): es decir, calculan una activación (utilizando una función de activación) de una suma ponderada y representan las activaciones de las puertas de entrada, salida y olvido, respectivamente, en el paso de tiempo . $i_{t},o_{t}$ $f_{t}$ $t$

Las 3 flechas de salida de la celda de memoria hacia las 3 puertas y representan las conexiones de mirilla . Estas conexiones de mirilla en realidad denotan las contribuciones de la activación de la celda de memoria en el paso de tiempo , es decir, la contribución de (y no , como la imagen puede sugerir). En otras palabras, las puertas y calculan sus activaciones en el paso de tiempo (es decir, respectivamente, y ) considerando también la activación de la celda de memoria en el paso de tiempo , es decir . $c$ $i,o$ $f$ $c$ $t-1$ $c_{t-1}$ $c_{t}$ $i,o$ $f$ $t$ $i_{t},o_{t}$ $f_{t}$ $c$ $t-1$ $c_{t-1}$

La única flecha de izquierda a derecha que sale de la celda de memoria no es una conexión de mirilla y denota . $c_{t}$

Los círculos pequeños que contienen un símbolo representan una multiplicación elemento por elemento entre sus entradas. Los círculos grandes que contienen una curva tipo S representan la aplicación de una función diferenciable (como la función sigmoidea) a una suma ponderada. $\times$

LSTM convolucional de mirilla

LSTM convolucional de mirilla . ^[20] El denota el operador de convolución . $*$

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}*x_{t}+U_{f}*h_{t-1}+V_{f}\odot c_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}*x_{t}+U_{i}*h_{t-1}+V_{i}\odot c_{t-1}+b_{i})\\c_{t}&=f_{t}\odot c_{t-1}+i_{t}\odot \sigma _{c}(W_{c}*x_{t}+U_{c}*h_{t-1}+b_{c})\\o_{t}&=\sigma _{g}(W_{o}*x_{t}+U_{o}*h_{t-1}+V_{o}\odot c_{t}+b_{o})\\h_{t}&=o_{t}\odot \sigma _{h}(c_{t})\end{aligned}}

Capacitación

Una RNN que utiliza unidades LSTM se puede entrenar de manera supervisada en un conjunto de secuencias de entrenamiento, utilizando un algoritmo de optimización como el descenso de gradiente combinado con retropropagación a través del tiempo para calcular los gradientes necesarios durante el proceso de optimización, a fin de cambiar cada peso de la red LSTM en proporción a la derivada del error (en la capa de salida de la red LSTM) con respecto al peso correspondiente.

Un problema con el uso del descenso de gradiente para las RNN estándar es que los gradientes de error desaparecen exponencialmente rápido con el tamaño del desfase temporal entre eventos importantes. Esto se debe a si el radio espectral de es menor que 1. ^[2]^[21] $\lim _{n\to \infty }W^{n}=0$ $W$

Sin embargo, con las unidades LSTM, cuando los valores de error se retropropagan desde la capa de salida, el error permanece en la celda de la unidad LSTM. Este "carrusel de errores" retroalimenta continuamente el error a cada una de las puertas de la unidad LSTM, hasta que aprenden a cortar el valor.

Función de puntuación CTC

Muchas aplicaciones utilizan pilas de RNN LSTM ^[22] y las entrenan mediante clasificación temporal conexionista (CTC) ^[23] para encontrar una matriz de ponderación de RNN que maximice la probabilidad de las secuencias de etiquetas en un conjunto de entrenamiento, dadas las secuencias de entrada correspondientes. La CTC logra tanto la alineación como el reconocimiento.

Alternativas

A veces, puede ser ventajoso entrenar (partes de) un LSTM mediante neuroevolución ^[24] o mediante métodos de gradiente de políticas, especialmente cuando no hay un "maestro" (es decir, etiquetas de entrenamiento).

Éxito

Ha habido varias historias exitosas de entrenamiento, de manera no supervisada, de RNN con unidades LSTM.

En 2018, Bill Gates lo calificó como un "gran hito en el avance de la inteligencia artificial" cuando los bots desarrollados por OpenAI pudieron vencer a los humanos en el juego de Dota 2. [ ^11] OpenAI Five consta de cinco redes neuronales independientes pero coordinadas. Cada red se entrena mediante un método de gradiente de políticas sin un profesor supervisor y contiene una memoria de corto y largo plazo de una sola capa de 1024 unidades que ve el estado actual del juego y emite acciones a través de varios posibles cabezales de acción. ^[11]

En 2018, OpenAI también entrenó un LSTM similar mediante gradientes de políticas para controlar una mano robótica similar a la humana que manipula objetos físicos con una destreza sin precedentes. ^[10]

En 2019, el programa AlphaStar de DeepMind utilizó un núcleo LSTM profundo para sobresalir en el complejo videojuego Starcraft II . ^[12] Esto fue visto como un progreso significativo hacia la Inteligencia Artificial General. ^[12]

Aplicaciones

Las aplicaciones de LSTM incluyen:

Control de robots ^[9]
Predicción de series temporales ^[24]
Reconocimiento de voz ^[25]^[26]^[27]
Aprendizaje del ritmo ^[19]
Modelado hidrológico de precipitación y escorrentía ^[28]
Composición musical ^[29]
Aprendizaje de gramática ^[30]^[18]^[31]
Reconocimiento de escritura a mano ^[32]^[33]
Reconocimiento de la acción humana ^[34]
Traducción de la lengua de signos ^[35]
Detección de homología de proteínas ^[36]
Predicción de la localización subcelular de proteínas ^[37]
Detección de anomalías en series temporales ^[38]
Varias tareas de predicción en el área de gestión de procesos de negocio ^[39]
Predicción en las vías de atención médica ^[40]
Análisis semántico ^[41]
Cosegmentación de objetos ^[42]^[43]
Gestión de pasajeros en aeropuertos ^[44]
Previsión de tráfico a corto plazo ^[45]
Diseño de fármacos ^[46]
Predicción del mercado ^[47]
Clasificación de actividades en vídeo ^[48]

Cronología del desarrollo

1989: El trabajo de Mike Mozer sobre "retropropagación enfocada" ^[49] anticipa aspectos de LSTM, que se citan en el artículo de LSTM. ^[1]

1991: Sepp Hochreiter analizó el problema del gradiente evanescente y desarrolló los principios del método en su tesis de diploma alemana, ^[2] que fue considerada muy significativa por su supervisor Jürgen Schmidhuber . ^[50]

1995: Sepp Hochreiter y Jürgen Schmidhuber publican el informe técnico "Long Short-Term Memory (LSTM)" . ^[51]

1996: LSTM se publica en NIPS'1996, una conferencia revisada por pares. ^[14]

1997: El artículo principal de LSTM se publica en la revista Neural Computation . ^[1] Al introducir unidades de carrusel de error constante (CEC), LSTM aborda el problema del gradiente evanescente . La versión inicial del bloque LSTM incluía celdas y puertas de entrada y salida. ^[52]

1999: Felix Gers , Jürgen Schmidhuber y Fred Cummins introdujeron la puerta de olvido (también llamada "puerta de mantenimiento") en la arquitectura LSTM, ^[53] lo que permite que el LSTM restablezca su propio estado. ^[52]

2000: Gers, Schmidhuber y Cummins agregaron conexiones de mirilla (conexiones desde la celda a las puertas) a la arquitectura. ^[18]^[19] Además, se omitió la función de activación de salida. ^[52]

2001: Gers y Schmidhuber entrenaron a LSTM para aprender lenguajes que no se pueden aprender con modelos tradicionales como los modelos ocultos de Markov. ^[18]^[54]

Hochreiter et al. utilizaron LSTM para metaaprendizaje (es decir, aprender un algoritmo de aprendizaje). ^[55]

2004: Primera aplicación exitosa de LSTM al habla Alex Graves et al. ^[56]^[54]

2005: Primera publicación (Graves y Schmidhuber) de LSTM con retropropagación completa a través del tiempo y de LSTM bidireccional. ^[25]^[54]

2005: Daan Wierstra, Faustino Gómez y Schmidhuber entrenaron LSTM mediante neuroevolución sin un maestro. ^[24]

2006: Graves, Fernández, Gómez y Schmidhuber introducen una nueva función de error para LSTM: la clasificación temporal conexionista (CTC) para la alineación y el reconocimiento simultáneos de secuencias. ^[23] La LSTM entrenada con CTC condujo a avances en el reconocimiento de voz. ^[26]^[57]^[58]^[59]

Mayer et al. entrenaron a LSTM para controlar robots . ^[9]

2007: Wierstra, Foerster, Peters y Schmidhuber entrenaron LSTM mediante gradientes de políticas para el aprendizaje de refuerzo sin un profesor. ^[60]

Hochreiter, Heuesel y Obermayr aplicaron LSTM a la detección de homología de proteínas en el campo de la biología . ^[36]

2009: Un LSTM entrenado por CTC ganó la competencia de reconocimiento de escritura a mano conectada ICDAR . Tres de esos modelos fueron presentados por un equipo dirigido por Alex Graves . ^[3] Uno fue el modelo más preciso de la competencia y otro fue el más rápido. ^[61] Esta fue la primera vez que una RNN ganó competencias internacionales. ^[54]

2009: Justin Bayer et al. introdujeron la búsqueda de arquitectura neuronal para LSTM. ^[62]^[54]

2013: Alex Graves, Abdel-rahman Mohamed y Geoffrey Hinton utilizaron redes LSTM como un componente principal de una red que logró una tasa récord de error de fonemas del 17,7 % en el conjunto de datos de habla natural clásico TIMIT . ^[27]

2014: Kyunghyun Cho et al. propusieron una variante simplificada de la compuerta de olvido LSTM ^[53] denominada unidad recurrente con compuerta (GRU). ^[63]

2015: Google comenzó a utilizar un LSTM entrenado por CTC para el reconocimiento de voz en Google Voice. ^[57]^[58] Según la publicación del blog oficial, el nuevo modelo redujo los errores de transcripción en un 49 %. ^[64]

2015: Rupesh Kumar Srivastava, Klaus Greff y Schmidhuber utilizaron los principios LSTM ^[53] para crear la red Highway , una red neuronal de propagación hacia adelante con cientos de capas, mucho más profunda que las redes anteriores. ^[65]^[66]^{[67] 7 meses después, Kaiming He, Xiangyu Zhang; Shaoqing Ren y Jian Sun ganaron la competencia ImageNet 2015 con una variante}de red Highway con compuerta abierta o sin compuerta llamada red neuronal residual . ^[68] Esta se ha convertido en la red neuronal más citada del siglo XXI. ^[67]

2016: Google comenzó a utilizar un LSTM para sugerir mensajes en la aplicación de conversación Allo. ^[69] Ese mismo año, Google lanzó el sistema de traducción automática neuronal de Google para Google Translate, que utilizaba LSTM para reducir los errores de traducción en un 60 %. ^[6]^[70]^[71]

Apple anunció en su Conferencia Mundial de Desarrolladores que comenzaría a utilizar el LSTM para escritura rápida ^[72]^[73]^[74] en el iPhone y para Siri. ^[75]^[76]

Amazon lanzó Polly , que genera las voces detrás de Alexa, utilizando un LSTM bidireccional para la tecnología de texto a voz. ^[77]

2017: Facebook realizó alrededor de 4.500 millones de traducciones automáticas cada día utilizando redes de memoria a corto plazo. ^[7]

Investigadores de la Universidad Estatal de Michigan , IBM Research y la Universidad de Cornell publicaron un estudio en la conferencia Knowledge Discovery and Data Mining (KDD). ^[78]^[79]^[80] Su LSTM consciente del tiempo (T-LSTM) funciona mejor en ciertos conjuntos de datos que el LSTM estándar.

Microsoft informó que alcanzó una precisión de reconocimiento del 94,9% en el corpus de Switchboard, que incorpora un vocabulario de 165.000 palabras. El enfoque utilizó una "memoria a corto y largo plazo basada en sesiones de diálogo". ^[59]

2018: OpenAI utilizó LSTM entrenado por gradientes de políticas para vencer a humanos en el complejo videojuego Dota 2, ^[11] y para controlar una mano robótica similar a la humana que manipula objetos físicos con una destreza sin precedentes. ^[10]^[54]

2019: DeepMind utilizó LSTM entrenado por gradientes de políticas para sobresalir en el complejo videojuego Starcraft II . ^[12]^[54]

2021: según Google Scholar , en 2021, LSTM fue citado más de 16 000 veces en un solo año. Esto refleja las aplicaciones de LSTM en muchos campos diferentes, incluida la atención médica. ^[13]

2024: Un equipo dirigido por Sepp Hochreiter publica una actualización moderna de LSTM llamada xLSTM . Uno de los dos bloques (mLSTM) de la arquitectura es paralelizable, lo que le permite mantenerse al día con los modelos basados en transformadores, los otros (sLSTM) permiten el seguimiento del estado. ^[81]^[82]

Véase también

Referencias

^ ABCDE Sepp Hochreiter ; Jürgen Schmidhuber (1997). "Memoria larga a corto plazo". Computación neuronal . 9 (8): 1735–1780. doi :10.1162/neco.1997.9.8.1735. PMID 9377276. S2CID 1915014.
^ a b C Hochreiter, Sepp (1991). Untersuchungen zu dynamischen neuronalen Netzen (PDF) (tesis de diploma). Universidad Técnica de Munich, Instituto de Ciencias de la Computación.
^ ab Graves, A.; Liwicki, M.; Fernández, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (mayo de 2009). "Un nuevo sistema conexionista para el reconocimiento de escritura a mano sin restricciones". IEEE Transactions on Pattern Analysis and Machine Intelligence . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . doi :10.1109/tpami.2008.137. ISSN 0162-8828. PMID 19299860. S2CID 14635907.
^ Sak, Hasim; Senior, Andrew; Beaufays, Francoise (2014). "Arquitecturas de redes neuronales recurrentes de memoria a corto y largo plazo para modelado acústico a gran escala" (PDF) . Archivado desde el original (PDF) el 24 de abril de 2018.
^ Li, Xiangang; Wu, Xihong (15 de octubre de 2014). "Construcción de redes neuronales recurrentes profundas basadas en memoria de corto y largo plazo para el reconocimiento de voz de vocabulario amplio". arXiv : 1410.4281 [cs.CL].
^ ab Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V.; Norouzi, Mohammad; Macherey, Wolfgang; Krikun, Maxim; Cao, Yuan; Gao, Qin (26 de septiembre de 2016). "El sistema de traducción automática neuronal de Google: cerrando la brecha entre la traducción humana y la traducción automática". arXiv : 1609.08144 [cs.CL].
^ ab Ong, Thuy (4 de agosto de 2017). "Las traducciones de Facebook ahora funcionan completamente con inteligencia artificial". www.allthingsdistributed.com . Consultado el 15 de febrero de 2019 .
^ Sahidullah, Md; Patino, Jose; Cornell, Samuele; Yin, Ruiking; Sivasankaran, Sunit; Bredin, Herve; Korshunov, Pavel; Brutti, Alessio; Serizel, Romain; Vincent, Emmanuel; Evans, Nicholas; Marcel, Sebastien; Squartini, Stefano; Barras, Claude (6 de noviembre de 2019). "La presentación rápida a DIHARD II: contribuciones y lecciones aprendidas". arXiv : 1911.02388 [eess.AS].
^ abc Mayer, H.; Gomez, F.; Wierstra, D.; Nagy, I.; Knoll, A.; Schmidhuber, J. (octubre de 2006). "Un sistema para cirugía cardíaca robótica que aprende a hacer nudos utilizando redes neuronales recurrentes". Conferencia internacional IEEE/RSJ de 2006 sobre robots y sistemas inteligentes . págs. 543–548. CiteSeerX 10.1.1.218.3399 . doi :10.1109/IROS.2006.282190. ISBN 978-1-4244-0258-8. Número de identificación del sujeto 12284900.
^ abc "Aprender destreza". OpenAI . 30 de julio de 2018 . Consultado el 28 de junio de 2023 .
^ abcd Rodríguez, Jesús (2 de julio de 2018). "La ciencia detrás de OpenAI Cinco que acaban de producir uno de los mayores avances en la historia de la IA". Hacia la ciencia de datos . Archivado desde el original el 26 de diciembre de 2019. Consultado el 15 de enero de 2019 .
^ abcd Stanford, Stacy (25 de enero de 2019). "La IA de DeepMind, AlphaStar, muestra un progreso significativo hacia la inteligencia artificial general". Medium ML Memoirs . Consultado el 15 de enero de 2019 .
^ de Schmidhuber, Jürgen (2021). "La década de 2010: nuestra década de aprendizaje profundo / Perspectivas para la década de 2020". Blog de IA . IDSIA, Suiza . Consultado el 30 de abril de 2022 .
^ ab Hochreiter, Sepp; Schmidhuber, Juergen (1996). LSTM puede resolver problemas complejos con retardo temporal prolongado. Avances en sistemas de procesamiento de información neuronal.
^ abc Felix A. Gers; Jürgen Schmidhuber; Fred Cummins (2000). "Aprendiendo a olvidar: predicción continua con LSTM". Computación neuronal . 12 (10): 2451–2471. CiteSeerX 10.1.1.55.5709 . doi :10.1162/089976600300015015. PMID 11032042. S2CID 11598600.
^ Calin, Ovidiu (14 de febrero de 2020). Arquitecturas de aprendizaje profundo . Cham, Suiza: Springer Nature. p. 555. ISBN 978-3-030-36720-6.
^ Lakretz, Yair; Kruszewski, German; Desbordes, Theo; Hupkes, Dieuwke; Dehaene, Stanislas; Baroni, Marco (2019), "El surgimiento de unidades numéricas y sintácticas en", El surgimiento de unidades numéricas y sintácticas (PDF) , Association for Computational Linguistics, págs. 11–20, doi :10.18653/v1/N19-1002, hdl :11245.1/16cb6800-e10d-4166-8e0b-fed61ca6ebb4, S2CID 81978369
^ abcdef Gers, FA; Schmidhuber, J. (2001). "Las redes recurrentes LSTM aprenden lenguajes simples, libres de contexto y sensibles al contexto" (PDF) . Transacciones IEEE sobre redes neuronales . 12 (6): 1333–1340. doi :10.1109/72.963769. PMID 18249962. S2CID 10192330.
^ abcd Gers, F.; Schraudolph, N.; Schmidhuber, J. (2002). "Aprendizaje de tiempos precisos con redes recurrentes LSTM" (PDF) . Journal of Machine Learning Research . 3 : 115–143.
^ Xingjian Shi; Zhourong Chen; Hao Wang; Dit-Yan Yeung; Wai-kin Wong; Wang-chun Woo (2015). "Red LSTM convolucional: un enfoque de aprendizaje automático para la predicción inmediata de la precipitación". Actas de la 28.ª Conferencia internacional sobre sistemas de procesamiento de información neuronal : 802–810. arXiv : 1506.04214 . Código Bibliográfico :2015arXiv150604214S.
^ Hochreiter, S.; Bengio, Y.; Frasconi, P.; Schmidhuber, J. (2001). "Flujo de gradiente en redes recurrentes: la dificultad de aprender dependencias a largo plazo (Descarga en PDF disponible)". En Kremer y, SC; Kolen, JF (eds.). Una guía de campo para redes neuronales recurrentes dinámicas . IEEE Press.
^ Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). "Etiquetado de secuencias en dominios estructurados con redes neuronales recurrentes jerárquicas". Proc. 20th Int. Joint Conf. On Artificial Intelligence, Ijcai 2007 : 774–779. CiteSeerX 10.1.1.79.1887 .
^ ab Graves, Alex; Fernández, Santiago; Gomez, Faustino; Schmidhuber, Jürgen (2006). "Clasificación temporal conexionista: etiquetado de datos de secuencia no segmentados con redes neuronales recurrentes". En Actas de la Conferencia Internacional sobre Aprendizaje Automático, ICML 2006 : 369–376. CiteSeerX 10.1.1.75.6306 .
^ abc Wierstra, Daan; Schmidhuber, J.; Gomez, FJ (2005). "Evolino: Neuroevolución híbrida/Búsqueda lineal óptima para el aprendizaje de secuencias". Actas de la 19.ª Conferencia conjunta internacional sobre inteligencia artificial (IJCAI), Edimburgo : 853–858.
^ ab Graves, A.; Schmidhuber, J. (2005). "Clasificación de fonemas por marco con LSTM bidireccional y otras arquitecturas de redes neuronales". Redes neuronales . 18 (5–6): 602–610. CiteSeerX 10.1.1.331.5800 . doi :10.1016/j.neunet.2005.06.042. PMID 16112549. S2CID 1856462.
^ ab Fernández, S.; Graves, A.; Schmidhuber, J. (9 de septiembre de 2007). "Una aplicación de redes neuronales recurrentes para la detección discriminativa de palabras clave". Actas de la 17.ª Conferencia internacional sobre redes neuronales artificiales . ICANN'07. Berlín, Heidelberg: Springer-Verlag: 220–229. ISBN 978-3540746935. Recuperado el 28 de diciembre de 2023 .
^ ab Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey (2013). "Reconocimiento de voz con redes neuronales recurrentes profundas". Conferencia internacional IEEE de 2013 sobre acústica, voz y procesamiento de señales . págs. 6645–6649. arXiv : 1303.5778 . doi :10.1109/ICASSP.2013.6638947. ISBN . 978-1-4799-0356-6. Número de identificación del sujeto 206741496.
^ Kratzert, Frederik; Klotz, Daniel; Shalev, Guy; Klambauer, Günter; Hochreiter, Sepp; Nearing, Grey (17 de diciembre de 2019). "Hacia el aprendizaje de comportamientos hidrológicos universales, regionales y locales mediante aprendizaje automático aplicado a conjuntos de datos de muestras grandes". Hidrología y Ciencias del Sistema Terrestre . 23 (12): 5089–5110. arXiv : 1907.08456 . Código Bibliográfico :2019HESS...23.5089K. doi : 10.5194/hess-23-5089-2019 . ISSN 1027-5606.
^ Eck, Douglas; Schmidhuber, Jürgen (28 de agosto de 2002). "Aprendiendo la estructura a largo plazo del blues". Redes neuronales artificiales — ICANN 2002. Apuntes de clase en informática. Vol. 2415. Springer, Berlín, Heidelberg. págs. 284–289. CiteSeerX 10.1.1.116.3620 . doi :10.1007/3-540-46084-5_47. ISBN . 978-3540460848.
^ Schmidhuber, J.; Gers, F.; Eck, D.; Schmidhuber, J.; Gers, F. (2002). "Aprendizaje de lenguajes no regulares: una comparación de redes recurrentes simples y LSTM". Neural Computation . 14 (9): 2039–2041. CiteSeerX 10.1.1.11.7369 . doi :10.1162/089976602320263980. PMID 12184841. S2CID 30459046.
^ Perez-Ortiz, JA; Gers, FA; Eck, D.; Schmidhuber, J. (2003). "Los filtros de Kalman mejoran el rendimiento de la red LSTM en problemas irresolubles mediante redes recurrentes tradicionales". Redes neuronales . 16 (2): 241–250. CiteSeerX 10.1.1.381.1992 . doi :10.1016/s0893-6080(02)00219-8. PMID 12628609.
^ A. Graves, J. Schmidhuber. Reconocimiento de escritura a mano sin conexión con redes neuronales recurrentes multidimensionales. Advances in Neural Information Processing Systems 22, NIPS'22, págs. 545-552, Vancouver, MIT Press, 2009.
^ Graves, A.; Fernández, S.; Liwicki, M.; Bunke, H.; Schmidhuber, J. (3 de diciembre de 2007). "Reconocimiento de escritura a mano en línea sin restricciones con redes neuronales recurrentes". Actas de la 20.ª Conferencia internacional sobre sistemas de procesamiento de información neuronal . NIPS'07. EE. UU.: Curran Associates Inc.: 577–584. ISBN 9781605603520. Recuperado el 28 de diciembre de 2023 .
^ Baccouche, M.; Mamalet, F.; Wolf, C.; Garcia, C.; Baskurt, A. (2011). "Aprendizaje profundo secuencial para el reconocimiento de acciones humanas". En Salah, AA; Lepri, B. (eds.). 2nd International Workshop on Human Behavior Understanding (HBU) . Lecture Notes in Computer Science. Vol. 7065. Ámsterdam, Países Bajos: Springer. págs. 29–39. doi :10.1007/978-3-642-25446-8_4. ISBN 978-3-642-25445-1.
^ Huang, Jie; Zhou, Wengang; Zhang, Qilin; Li, Houqiang; Li, Weiping (30 de enero de 2018). "Reconocimiento de lengua de signos basado en vídeo sin segmentación temporal". arXiv : 1801.10111 [cs.CV].
^ ab Hochreiter, S.; Heusel, M.; Obermayer, K. (2007). "Detección rápida de homología de proteínas basada en modelos sin alineamiento". Bioinformática . 23 (14): 1728–1736. doi : 10.1093/bioinformatics/btm247 . PMID 17488755.
^ Thireou, T.; Reczko, M. (2007). "Redes de memoria a corto y largo plazo bidireccionales para predecir la localización subcelular de proteínas eucariotas". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 4 (3): 441–446. doi :10.1109/tcbb.2007.1015. PMID 17666763. S2CID 11787259.
^ Malhotra, Pankaj; Vig, Lovekesh; Shroff, Gautam; Agarwal, Puneet (abril de 2015). "Redes de memoria a corto y largo plazo para la detección de anomalías en series temporales" (PDF) . Simposio europeo sobre redes neuronales artificiales, inteligencia computacional y aprendizaje automático — ESANN 2015. Archivado desde el original (PDF) el 2020-10-30 . Consultado el 2018-02-21 .
^ Tax, N.; Verenich, I.; La Rosa, M.; Dumas, M. (2017). "Monitoreo predictivo de procesos de negocios con redes neuronales LSTM". Ingeniería de sistemas de información avanzada . Apuntes de clase en informática. Vol. 10253. págs. 477–492. arXiv : 1612.02130 . doi :10.1007/978-3-319-59536-8_30. ISBN . 978-3-319-59535-1. Número de identificación del sujeto 2192354.
^ Choi, E.; Bahadori, MT; Schuetz, E.; Stewart, W.; Sun, J. (2016). "Doctor AI: Predicción de eventos clínicos a través de redes neuronales recurrentes". Actas de talleres y congresos del JMLR . 56 : 301–318. arXiv : 1511.05942 . Código Bibliográfico :2015arXiv151105942C. PMC 5341604 . PMID 28286600.
^ Jia, Robin; Liang, Percy (2016). "Recombinación de datos para análisis semántico neuronal". arXiv : 1606.03622 [cs.CL].
^ Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (22 de mayo de 2018). "Segment-Tube: localización de acciones espacio-temporales en vídeos sin recortar con segmentación por fotograma" (PDF) . Sensors . 18 (5): 1657. Bibcode :2018Senso..18.1657W. doi : 10.3390/s18051657 . ISSN 1424-8220. PMC 5982167 . PMID 29789447.
^ Duan, Xuhuan; Wang, Le; Zhai, Changbo; Zheng, Nanning; Zhang, Qilin; Niu, Zhenxing; Hua, Gang (2018). "Localización conjunta de acciones espacio-temporales en vídeos sin recortar con segmentación por fotograma". 25.ª Conferencia Internacional IEEE sobre Procesamiento de Imágenes (ICIP) de 2018. 25.ª Conferencia Internacional IEEE sobre Procesamiento de Imágenes (ICIP). págs. 918–922. doi :10.1109/icip.2018.8451692. ISBN 978-1-4799-7061-2.
^ Orsini, F.; Gastaldi, M.; Mantecchini, L.; Rossi, R. (2019). Redes neuronales entrenadas con trazas WiFi para predecir el comportamiento de los pasajeros del aeropuerto . 6.ª Conferencia Internacional sobre Modelos y Tecnologías para Sistemas Inteligentes de Transporte. Cracovia: IEEE. arXiv : 1910.14026 . doi :10.1109/MTITS.2019.8883365. 8883365.
^ Zhao, Z.; Chen, W.; Wu, X.; Chen, PCY; Liu, J. (2017). "Red LSTM: un enfoque de aprendizaje profundo para el pronóstico de tráfico a corto plazo". IET Intelligent Transport Systems . 11 (2): 68–75. doi :10.1049/iet-its.2016.0208. S2CID 114567527.
^ Gupta A, Müller AT, Huisman BJH, Fuchs JA, Schneider P, Schneider G (2018). "Redes recurrentes generativas para el diseño de fármacos de novo". Mol Inform . 37 (1–2). doi :10.1002/minf.201700111. PMC 5836943 . PMID 29095571. {{cite journal}}: CS1 maint: multiple names: authors list (link)
^ Saiful Islam, Md.; Hossain, Emam (26 de octubre de 2020). "Predicción del tipo de cambio de divisas mediante una red híbrida GRU-LSTM". Soft Computing Letters . 3 : 100009. doi : 10.1016/j.socl.2020.100009 . ISSN 2666-2221.
^ {{Cite Abbey Martin, Andrew J. Hill, Konstantin M. Seiler y Mehala Balamurali (2023) Reconocimiento automático de la acción de la excavadora y localización de videos sin recortar utilizando redes híbridas LSTM-Transformer, International Journal of Mining, Reclamation and Environment, DOI: 10.1080/17480930.2023.2290364}}
^ Mozer, Mike (1989). "Un algoritmo de retropropagación enfocado para el reconocimiento de patrones temporales". Sistemas complejos .
^ Schmidhuber, Juergen (2022). "Historia comentada de la IA moderna y el aprendizaje profundo". arXiv : 2212.11279 [cs.NE].
^ Sepp Hochreiter ; Jürgen Schmidhuber (21 de agosto de 1995), Memoria a largo plazo, Wikidata Q98967430
^ abc Klaus Greff; Rupesh Kumar Srivastava; Jan Koutník; Bas R. Steunebrink; Jürgen Schmidhuber (2015). "LSTM: una odisea del espacio de búsqueda". IEEE Transactions on Neural Networks and Learning Systems . 28 (10): 2222–2232. arXiv : 1503.04069 . Código Bibliográfico :2015arXiv150304069G. doi :10.1109/TNNLS.2016.2582924. PMID 27411231. S2CID 3356463.
^ abc Gers, Felix; Schmidhuber, Jürgen; Cummins, Fred (1999). "Aprendiendo a olvidar: predicción continua con LSTM". Novena Conferencia Internacional sobre Redes Neuronales Artificiales: ICANN '99 . Vol. 1999. págs. 850–855. doi :10.1049/cp:19991218. ISBN 0-85296-721-7.
^ abcdefg Schmidhuber, Juergen (10 de mayo de 2021). "Aprendizaje profundo: nuestro año milagroso 1990-1991". arXiv : 2005.05744 [cs.NE].
^ Hochreiter, S.; Younger, AS; Conwell, PR (2001). "Aprender a aprender usando el descenso de gradiente". Redes neuronales artificiales — ICANN 2001 (PDF) . Apuntes de clase en informática. Vol. 2130. págs. 87–94. CiteSeerX 10.1.1.5.323 . doi :10.1007/3-540-44668-0_13. ISBN 978-3-540-42486-4. ISSN 0302-9743. S2CID 52872549.
^ Graves, Alex; Beringer, Nicole; Eck, Douglas; Schmidhuber, Juergen (2004). Reconocimiento de voz biológicamente plausible con redes neuronales LSTM . Taller sobre enfoques de inspiración biológica para la tecnología de la información avanzada, Bio-ADIT 2004, Lausana, Suiza. págs. 175–184.
^ ab Beaufays, Françoise (11 de agosto de 2015). «Las redes neuronales detrás de la transcripción de Google Voice». Blog de investigación . Consultado el 27 de junio de 2017 .
^ ab Sak, Haşim; Senior, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (24 de septiembre de 2015). «Búsqueda por voz de Google: más rápida y precisa». Blog de investigación . Consultado el 27 de junio de 2017 .
^ ab Haridy, Rich (21 de agosto de 2017). "El sistema de reconocimiento de voz de Microsoft ahora es tan bueno como un ser humano". newatlas.com . Consultado el 27 de agosto de 2017 .
^ Wierstra, Daan; Foerster, Alexander; Peters, Jan; Schmidhuber, Juergen (2005). "Resolución de POMDP de memoria profunda con gradientes de políticas recurrentes". Conferencia internacional sobre redes neuronales artificiales ICANN'07 .
^ Märgner, Volker; Abed, Haikal El (julio de 2009). "Concurso de reconocimiento de escritura a mano árabe ICDAR 2009". 2009 10.ª Conferencia internacional sobre análisis y reconocimiento de documentos . págs. 1383–1387. doi :10.1109/ICDAR.2009.256. ISBN 978-1-4244-4500-4. Número de identificación del sujeto 52851337.
^ Bayer, Justin; Wierstra, Daan; Togelius, Julian; Schmidhuber, Juergen (2009). "Evolución de las estructuras de las células de memoria para el aprendizaje de secuencias". Conferencia internacional sobre redes neuronales artificiales ICANN'09, Chipre .
^ Cho, Kyunghyun; van Merrienboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). "Aprendizaje de representaciones de frases mediante el codificador-decodificador RNN para traducción automática estadística". arXiv : 1406.1078 [cs.CL].
^ "Receta de neón... o mejor dicho, Nueva transcripción para Google Voice". Blog oficial de Google . 23 de julio de 2015 . Consultado el 25 de abril de 2020 .
^ Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen (2 de mayo de 2015). "Redes de Carreteras". arXiv : 1505.00387 [cs.LG].
^ Srivastava, Rupesh K; Greff, Klaus; Schmidhuber, Juergen (2015). "Entrenamiento de redes muy profundas". Avances en sistemas de procesamiento de información neuronal . 28 . Curran Associates, Inc.: 2377–2385.
^ de Schmidhuber, Jürgen (2021). "Las redes neuronales más citadas se basan en el trabajo realizado en mis laboratorios". AI Blog . IDSIA, Suiza . Consultado el 30 de abril de 2022 .
^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). Aprendizaje residual profundo para reconocimiento de imágenes. Conferencia IEEE 2016 sobre visión artificial y reconocimiento de patrones (CVPR) . Las Vegas, NV, EE. UU.: IEEE. págs. 770–778. arXiv : 1512.03385 . doi :10.1109/CVPR.2016.90. ISBN . 978-1-4673-8851-1.
^ Khaitan, Pranav (18 de mayo de 2016). "Chatea de forma más inteligente con Allo". Blog de investigación . Consultado el 27 de junio de 2017 .
^ Metz, Cade (27 de septiembre de 2016). "Una infusión de IA hace que Google Translate sea más potente que nunca | WIRED". Wired . Consultado el 27 de junio de 2017 .
^ "Una red neuronal para la traducción automática a escala de producción". Blog de inteligencia artificial de Google . 27 de septiembre de 2016. Consultado el 25 de abril de 2020 .
^ Efrati, Amir (13 de junio de 2016). "Las máquinas de Apple también pueden aprender". The Information . Consultado el 27 de junio de 2017 .
^ Ranger, Steve (14 de junio de 2016). «iPhone, IA y big data: así es como Apple planea proteger tu privacidad». ZDNet . Consultado el 27 de junio de 2017 .
^ "¿Puede el contexto semántico global mejorar los modelos de lenguaje neuronal? – Apple". Apple Machine Learning Journal . Consultado el 30 de abril de 2020 .
^ Smith, Chris (13 de junio de 2016). «iOS 10: Siri ahora funciona en aplicaciones de terceros y viene con funciones de inteligencia artificial adicionales». BGR . Consultado el 27 de junio de 2017 .
^ Capes, Tim; Coles, Paul; Conkie, Alistair; Golipour, Ladan; Hadjitarkhani, Abie; Hu, Qiong; Huddleston, Nancy; Hunt, Melvyn; Li, Jiangchuan; Neeracher, Matthias; Prahallad, Kishore (20 de agosto de 2017). "Sistema de texto a voz con selección de unidades guiada por aprendizaje profundo en el dispositivo Siri". Interspeech 2017. ISCA: 4011–4015. doi :10.21437/Interspeech.2017-1798.
^ Vogels, Werner (30 de noviembre de 2016). "Llevar la magia de Amazon AI y Alexa a las aplicaciones en AWS. – All Things Distributed". www.allthingsdistributed.com . Consultado el 27 de junio de 2017 .
^ "Subtipificación de pacientes mediante redes LSTM con reconocimiento temporal" (PDF) . msu.edu . Consultado el 21 de noviembre de 2018 .
^ "Subtipificación de pacientes mediante redes LSTM con reconocimiento temporal". Kdd.org . Consultado el 24 de mayo de 2018 .
^ "SIGKDD". Kdd.org . Consultado el 24 de mayo de 2018 .
^ Beck, Maximiliano; Pöppel, korbiniano; Sparing, Markus; Auer, Andreas; Prudnikova, Oleksandra; Kopp, Michael; Klambauer, Günter; Brandstetter, Johannes; Hochreiter, Sepp (7 de mayo de 2024). "xLSTM: memoria extendida a largo plazo". arXiv : 2405.04517 [cs.LG].
^ NX-AI/xlstm, NXAI, 4 de junio de 2024 , consultado el 4 de junio de 2024

^[1]

Lectura adicional

Monner, Derek D.; Reggia, James A. (2010). "Un algoritmo de entrenamiento generalizado similar a LSTM para redes neuronales recurrentes de segundo orden" (PDF) . Neural Networks . 25 (1): 70–83. doi :10.1016/j.neunet.2011.07.003. PMC 3217173. PMID 21803542. Extensión de alto rendimiento de LSTM que se ha simplificado a un solo tipo de nodo y puede entrenar arquitecturas arbitrarias.
Gers, Felix A.; Schraudolph, Nicol N.; Schmidhuber, Jürgen (agosto de 2002). "Aprendizaje de tiempos precisos con redes recurrentes LSTM" (PDF) . Journal of Machine Learning Research . 3 : 115–143.
Gers, Felix (2001). "Memoria a corto y largo plazo en redes neuronales recurrentes" (PDF) . Tesis doctoral .
Abidogun, Olusola Adeniyi (2005). Minería de datos, detección de fraudes y telecomunicaciones móviles: análisis de patrones de llamadas con redes neuronales no supervisadas. Tesis de maestría (tesis). Universidad del Cabo Occidental. hdl :11394/249. Archivado (PDF) desde el original el 22 de mayo de 2012.
- Original con dos capítulos dedicados a explicar las redes neuronales recurrentes, especialmente LSTM.

Enlaces externos

Redes neuronales recurrentes con más de 30 artículos LSTM del grupo de Jürgen Schmidhuber en IDSIA
Dolphin, R (12 de noviembre de 2021). «Redes LSTM: una explicación detallada». Artículo .
Herta, Christian. "Cómo implementar LSTM en Python con Theano". Tutorial .

^ Abbey Martin, Andrew J. Hill, Konstantin M. Seiler y Mehala Balamurali (2023) Reconocimiento y localización automáticos de la acción de la excavadora para videos sin recortar utilizando redes híbridas LSTM-Transformer, International Journal of Mining, Reclamation and Environment, DOI: 10.1080/17480930.2023.2290364