Memoria larga a corto plazo

La red de memoria a largo plazo ( LSTM ) ^[1] es una red neuronal recurrente (RNN), cuyo objetivo es abordar el problema del gradiente de desaparición ^[2] presente en los RNN tradicionales. Su relativa insensibilidad a la longitud del espacio es su ventaja sobre otros RNN, modelos ocultos de Markov y otros métodos de aprendizaje de secuencias. Su objetivo es proporcionar una memoria a corto plazo para RNN que pueda durar miles de pasos de tiempo, es decir, una " memoria larga a corto plazo". ^[1] Es aplicable a la clasificación , procesamiento y predicción de datos basados en series de tiempo , como escritura a mano , ^[3] reconocimiento de voz , ^[4]^[5] traducción automática , ^[6]^[7] detección de actividad del habla, ^{[8 ]} control de robots, ^[9]^[10] videojuegos, ^[11]^[12] y atención médica. ^[13]

Una unidad LSTM común se compone de una celda , una puerta de entrada , una puerta de salida ^[14] y una puerta de olvido . ^[15] La célula recuerda valores en intervalos de tiempo arbitrarios y las tres puertas regulan el flujo de información que entra y sale de la célula. Las puertas de olvido deciden qué información descartar de un estado anterior asignando a un estado anterior, en comparación con una entrada actual, un valor entre 0 y 1. Un valor (redondeado) de 1 significa mantener la información, y un valor de 0 significa mantener la información. Descártalo. Las puertas de entrada deciden qué información nueva almacenar en el estado actual, utilizando el mismo sistema que las puertas de olvido. Las puertas de salida controlan qué piezas de información en el estado actual se generan asignando un valor de 0 a 1 a la información, considerando los estados anterior y actual. La generación selectiva de información relevante del estado actual permite que la red LSTM mantenga dependencias útiles a largo plazo para hacer predicciones, tanto en pasos de tiempo actuales como futuros.

Motivación

En teoría, los RNN clásicos pueden realizar un seguimiento de dependencias arbitrarias a largo plazo en las secuencias de entrada. El problema con los RNN clásicos es de naturaleza computacional (o práctica): cuando se entrena un RNN clásico usando retropropagación , los gradientes a largo plazo que se propagan hacia atrás pueden "desaparecer" (es decir, pueden tender a cero) o " explotar" (es decir, pueden tender al infinito), ^[2] debido a los cálculos involucrados en el proceso. Los RNN que utilizan unidades LSTM resuelven parcialmente el problema del gradiente que desaparece , porque las unidades LSTM permiten que los gradientes también fluyan sin cambios . Sin embargo, las redes LSTM aún pueden sufrir el problema del gradiente explosivo. ^[dieciséis]

La intuición detrás de la arquitectura LSTM es crear un módulo adicional en una red neuronal que aprende cuándo recordar y cuándo olvidar información pertinente. ^[15] En otras palabras, la red aprende efectivamente qué información podría ser necesaria más adelante en una secuencia y cuándo esa información ya no es necesaria. Por ejemplo, en el contexto del procesamiento del lenguaje natural , la red puede aprender dependencias gramaticales. ^[17] Un LSTM podría procesar la oración " Dave , como resultado de sus controvertidas afirmaciones, ahora es un paria" recordando el género gramatical (estadísticamente probable) y el número del sujeto Dave . Tenga en cuenta que esta información es pertinente para el pronombre. his y tenga en cuenta que esta información ya no es importante después del verbo is .

Variantes

En las ecuaciones siguientes, las variables en minúscula representan vectores. Las matrices y contienen, respectivamente, los pesos de las conexiones de entrada y recurrentes, donde el subíndice puede ser la puerta de entrada , la puerta de salida , la puerta de olvido o la celda de memoria , dependiendo de la activación que se esté calculando. Por tanto, en esta sección utilizamos una "notación vectorial". Entonces, por ejemplo, no es solo una unidad de una celda LSTM, sino que contiene las unidades de la celda LSTM. $W_{q}$ $U_{q}$ $_{q}$ $i$ $o$ $f$ $c$ $c_{t}\in \mathbb {R} ^{h}$ $h$

LSTM con puerta de olvido

Las formas compactas de las ecuaciones para el paso directo de una celda LSTM con una puerta de olvido son: ^[1]^[15]

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}x_{t}+U_{f}h_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}x_{t}+U_{i}h_{t-1}+b_{i})\\o_{t}&=\sigma _{g}(W_{o}x_{t}+U_{o}h_{t-1}+b_{o})\\{\tilde {c}}_{t}&=\sigma _{c}(W_{c}x_{t}+U_{c}h_{t-1}+b_{c})\\c_{t}&=f_{t}\odot c_{t-1}+i_{t}\odot {\tilde {c}}_{t}\\h_{t}&=o_{t}\odot \sigma _{h}(c_{t})\end{aligned}}

donde los valores iniciales son y y el operador denota el producto de Hadamard (producto por elementos). El subíndice indexa el paso de tiempo. $c_{0}=0$ $h_{0}=0$ $\odot$ $t$

variables

Dejemos que los superíndices y se refieran al número de entidades de entrada y al número de unidades ocultas, respectivamente: $d$ $h$

$x_{t}\in \mathbb {R} ^{d}$ : vector de entrada a la unidad LSTM
$f_{t}\in {(0,1)}^{h}$ : olvidar el vector de activación de la puerta
$i_{t}\in {(0,1)}^{h}$ : vector de activación de la puerta de entrada/actualización
$o_{t}\in {(0,1)}^{h}$ : vector de activación de la puerta de salida
$h_{t}\in {(-1,1)}^{h}$ : vector de estado oculto también conocido como vector de salida de la unidad LSTM
${\tilde {c}}_{t}\in {(-1,1)}^{h}$ : vector de activación de entrada de celda
$c_{t}\in \mathbb {R} ^{h}$ : vector de estado celular
$W\in \mathbb {R} ^{h\times d}$ y : matrices de peso y parámetros de vector de sesgo que deben aprenderse durante el entrenamiento $U\in \mathbb {R} ^{h\times h}$ $b\in \mathbb {R} ^{h}$

Funciones de activación

$\sigma _{g}$ : función sigmoidea .
$\sigma _{c}$ : función tangente hiperbólica .
$\sigma _{h}$ : función tangente hiperbólica o, como sugiere el artículo de mirilla LSTM ^[18]^[19] ,. $\sigma _{h}(x)=x$

Mirilla LSTM

{\displaystyle i} — Una unidad LSTM de mirilla con puertas de entrada (es decir ), salida (es decir ) y olvido (es decir ) $i$ $o$ $f$

La figura de la derecha es una representación gráfica de una unidad LSTM con conexiones de mirilla (es decir, una mirilla LSTM). ^[18]^[19] Las conexiones de mirilla permiten que las puertas accedan al carrusel de error constante (CEC), cuya activación es el estado de la celda. ^[18] no se utiliza, sino que se utiliza en la mayoría de los lugares. $h_{t-1}$ $c_{t-1}$

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}x_{t}+U_{f}c_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}x_{t}+U_{i}c_{t-1}+b_{i})\\o_{t}&=\sigma _{g}(W_{o}x_{t}+U_{o}c_{t-1}+b_{o})\\c_{t}&=f_{t}\odot c_{t-1}+i_{t}\odot \sigma _{c}(W_{c}x_{t}+b_{c})\\h_{t}&=o_{t}\odot \sigma _{h}(c_{t})\end{aligned}}

Cada una de las puertas puede considerarse como una neurona "estándar" en una red neuronal de retroalimentación (o multicapa): es decir, calculan una activación (utilizando una función de activación) de una suma ponderada. y representan las activaciones de las puertas de entrada, salida y olvido, respectivamente, en el paso de tiempo . $i_{t},o_{t}$ $f_{t}$ $t$

Las 3 flechas de salida de la celda de memoria a las 3 puertas y representan las conexiones de la mirilla . Estas conexiones de mirilla en realidad denotan las contribuciones de la activación de la celda de memoria en el paso de tiempo , es decir, la contribución de (y no , como puede sugerir la imagen). En otras palabras, las puertas y calculan sus activaciones en el paso de tiempo (es decir, respectivamente, y ) considerando también la activación de la celda de memoria en el paso de tiempo , es decir . $c$ $i,o$ $f$ $c$ $t-1$ $c_{t-1}$ $c_{t}$ $i,o$ $f$ $t$ $i_{t},o_{t}$ $f_{t}$ $c$ $t-1$ $c_{t-1}$

La única flecha de izquierda a derecha que sale de la celda de memoria no es una conexión de mirilla y denota . $c_{t}$

Los pequeños círculos que contienen un símbolo representan una multiplicación de elementos entre sus entradas. Los círculos grandes que contienen una curva tipo S representan la aplicación de una función diferenciable (como la función sigmoidea) a una suma ponderada. $\times$

LSTM convolucional de mirilla

LSTM convolucional de mirilla . ^[20] El denota el operador de convolución . $*$

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}*x_{t}+U_{f}*h_{t-1}+V_{f}\odot c_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}*x_{t}+U_{i}*h_{t-1}+V_{i}\odot c_{t-1}+b_{i})\\c_{t}&=f_{t}\odot c_{t-1}+i_{t}\odot \sigma _{c}(W_{c}*x_{t}+U_{c}*h_{t-1}+b_{c})\\o_{t}&=\sigma _{g}(W_{o}*x_{t}+U_{o}*h_{t-1}+V_{o}\odot c_{t}+b_{o})\\h_{t}&=o_{t}\odot \sigma _{h}(c_{t})\end{aligned}}

Capacitación

Un RNN que utiliza unidades LSTM se puede entrenar de forma supervisada en un conjunto de secuencias de entrenamiento, utilizando un algoritmo de optimización como el descenso de gradiente combinado con retropropagación a través del tiempo para calcular los gradientes necesarios durante el proceso de optimización, con el fin de cambiar cada peso del LSTM. red en proporción a la derivada del error (en la capa de salida de la red LSTM) con respecto al peso correspondiente.

Un problema con el uso del descenso de gradiente para RNN estándar es que los gradientes de error desaparecen exponencialmente rápidamente con el tamaño del desfase entre eventos importantes. Esto se debe a que el radio espectral de es menor que 1. ^[2]^[21] $\lim _{n\to \infty }W^{n}=0$ $W$

Sin embargo, con las unidades LSTM, cuando los valores de error se propagan hacia atrás desde la capa de salida, el error permanece en la celda de la unidad LSTM. Este "carrusel de errores" alimenta continuamente el error a cada una de las puertas de la unidad LSTM, hasta que aprenden a cortar el valor.

Función de puntuación CTC

Muchas aplicaciones utilizan pilas de RNN de LSTM ^[22] y las entrenan mediante clasificación temporal conexionista (CTC) ^[23] para encontrar una matriz de pesos de RNN que maximice la probabilidad de las secuencias de etiquetas en un conjunto de entrenamiento, dadas las secuencias de entrada correspondientes. CTC logra tanto alineación como reconocimiento.

Alternativas

A veces, puede resultar ventajoso entrenar (partes de) un LSTM mediante neuroevolución ^[24] o mediante métodos de gradiente de políticas, especialmente cuando no hay un "maestro" (es decir, etiquetas de entrenamiento).

Éxito

Ha habido varias historias exitosas de capacitación, de forma no supervisada, de RNN con unidades LSTM.

En 2018, Bill Gates calificó como "un gran hito en el avance de la inteligencia artificial" cuando los bots desarrollados por OpenAI pudieron vencer a los humanos en el juego Dota 2 . ^[11] OpenAI Five consta de cinco redes neuronales independientes pero coordinadas. Cada red se entrena mediante un método de gradiente de políticas sin supervisión de un maestro y contiene una memoria a corto plazo de 1024 unidades de una sola capa que ve el estado actual del juego y emite acciones a través de varios cabezales de acción posibles. ^[11]

En 2018, OpenAI también entrenó un LSTM similar mediante gradientes de políticas para controlar una mano robótica de apariencia humana que manipula objetos físicos con una destreza sin precedentes. ^[10]

En 2019, el programa AlphaStar de DeepMind utilizó un núcleo LSTM profundo para sobresalir en el complejo videojuego Starcraft II . ^[12] Esto fue visto como un progreso significativo hacia la Inteligencia General Artificial. ^[12]

Aplicaciones

Las aplicaciones de LSTM incluyen:

Control de robots ^[9]
Predicción de series temporales ^[24]
Reconocimiento de voz ^[25]^[26]^[27]
Aprendizaje de ritmo ^[19]
Modelización hidrológica de lluvia y escorrentía ^[28]
Composición musical ^[29]
Aprendizaje de gramática ^[30]^[18]^[31]
Reconocimiento de escritura a mano ^[32]^[33]
Reconocimiento de la acción humana ^[34]
Traducción de lengua de signos ^[35]
Detección de homología de proteínas ^[36]
Predecir la localización subcelular de proteínas ^[37]
Detección de anomalías en series temporales ^[38]
Varias tareas de predicción en el área de la gestión de procesos de negocio ^[39]
Predicción en las vías de atención médica ^[40]
Análisis semántico ^[41]
Cosegmentación de objetos ^[42]^[43]
Gestión de pasajeros en aeropuertos ^[44]
Previsión de tráfico a corto plazo ^[45]
Diseño de fármacos ^[46]
Predicción del mercado ^[47]
Clasificación de actividades en vídeo ^[48]

Cronograma de desarrollo

1989: El trabajo de Mike Mozer sobre retropropagación enfocada ^[49] será citado más tarde en el artículo principal de LSTM. ^[1] La ecuación de Mozer (3.1) anticipa aspectos de las celdas LSTM: c_i(t+1) = d_i c_i(t) + f(x(t)), donde c_i(t) es la activación de la i-ésima auto- "unidad de contexto" conectada en el paso de tiempo t, x(t) es la entrada actual, f es una función no lineal y d_i es un "peso de desintegración" de valor real que se puede aprender. La conexión residual en el "carrusel de errores constantes" de una celda LSTM simplifica esto estableciendo d_i = 1,0: c_i(t+1) = c_i(t) + f(x(t)). El artículo de LSTM ^[1] llama a esto "la característica central de LSTM" y afirma: "Obsérvese la similitud con el sistema de constante de tiempo fijo de Mozer (1992): una constante de tiempo de 1,0 es apropiada para retrasos de tiempo potencialmente infinitos".

1991: Sepp Hochreiter analizó el problema del gradiente de fuga y desarrolló los principios del método en su tesis de diploma alemán, ^{[2] que su supervisor}Juergen Schmidhuber calificó como "uno de los documentos más importantes en la historia del aprendizaje automático" . ^[50]

1995: Sepp Hochreiter y Jürgen Schmidhuber publican en un informe técnico "Long Short-Term Memory (LSTM)" . ^[51]

1996: LSTM se publica en NIPS'1996, una conferencia revisada por pares. ^[14]

1997: Se publica el artículo principal de LSTM en la revista Neural Computation . ^[1] Al introducir unidades de carrusel de error constante (CEC), LSTM aborda el problema del gradiente que desaparece . La versión inicial del bloque LSTM incluía celdas, puertas de entrada y salida. ^[52]

1999: Felix Gers , Jürgen Schmidhuber y Fred Cummins introdujeron la puerta de olvido (también llamada "puerta de retención") en la arquitectura LSTM, ^[53] permitiendo al LSTM restablecer su propio estado. ^[52]

2000: Gers, Schmidhuber y Cummins agregaron conexiones de mirilla (conexiones desde la celda a las puertas) a la arquitectura. ^[18]^[19] Además, se omitió la función de activación de salida. ^[52]

2001: Gers y Schmidhuber entrenaron a LSTM para aprender lenguajes que los modelos tradicionales, como los modelos ocultos de Markov, no pueden aprender. ^[18]^[54]

Hochreiter et al. utilizó LSTM para metaaprendizaje (es decir, aprender un algoritmo de aprendizaje). ^[55]

2004: Primera aplicación exitosa de LSTM al habla Alex Graves et al. ^[56]^[54]

2005: Primera publicación (Graves y Schmidhuber) de LSTM con retropropagación total en el tiempo y de LSTM bidireccional. ^[25]^[54]

2005: Daan Wierstra, Faustino Gomez y Schmidhuber entrenaron LSTM mediante neuroevolución sin maestro. ^[24]

2006: Graves, Fernández, Gómez y Schmidhuber introducen una nueva función de error para LSTM: Clasificación Temporal Conexionista (CTC) para la alineación y el reconocimiento simultáneos de secuencias. ^[23] LSTM entrenado por CTC condujo a avances en el reconocimiento de voz. ^[26]^[57]^[58]^[59]

Mayer et al. LSTM entrenado para controlar robots . ^[9]

2007: Wierstra, Foerster, Peters y Schmidhuber capacitaron a LSTM mediante gradientes de políticas para el aprendizaje por refuerzo sin maestro. ^[60]

Hochreiter, Heuesel y Obermayr aplicaron LSTM a la detección de homología de proteínas en el campo de la biología . ^[36]

2009: Un LSTM capacitado por CTC ganó el concurso de reconocimiento de escritura a mano conectado ICDAR . Un equipo dirigido por Alex Graves presentó tres de estos modelos . ^[3] Uno fue el modelo más preciso de la competencia y otro fue el más rápido. ^[61] Esta fue la primera vez que una RNN ganó competencias internacionales. ^[54]

2009: Justin Bayer et al. Se introdujo la búsqueda de arquitectura neuronal para LSTM. ^[62]^[54]

2013: Alex Graves, Abdel-rahman Mohamed y Geoffrey Hinton utilizaron redes LSTM como componente principal de una red que logró una tasa récord de error de fonemas del 17,7 % en el conjunto de datos de habla natural TIMIT clásico . ^[27]

2014: Kyunghyun Cho et al. propuso una variante simplificada de la puerta de olvido LSTM ^[53] llamada unidad recurrente cerrada (GRU). ^[63]

2015: Google comenzó a utilizar un LSTM capacitado por CTC para el reconocimiento de voz en Google Voice. ^[57]^[58] Según la publicación del blog oficial, el nuevo modelo redujo los errores de transcripción en un 49%. ^[64]

2015: Rupesh Kumar Srivastava, Klaus Greff y Schmidhuber utilizaron los principios de LSTM ^[53] para crear la red Highway , una red neuronal feedforward con cientos de capas, mucho más profunda que las redes anteriores. ^[65]^[66]^[67] 7 meses después, Kaiming He, Xiangyu Zhang; Shaoqing Ren y Jian Sun ganaron el concurso ImageNet 2015 con una variante de red de autopistas con puertas abiertas o sin puertas llamada Red neuronal residual . ^[68] Esta se ha convertido en la red neuronal más citada del siglo XXI. ^[67]

2016: Google comenzó a usar un LSTM para sugerir mensajes en la aplicación de conversación Allo. ^[69] En el mismo año, Google lanzó el sistema de traducción automática neuronal de Google para Google Translate, que utilizaba LSTM para reducir los errores de traducción en un 60%. ^[6]^[70]^[71]

Apple anunció en su Conferencia Mundial de Desarrolladores que comenzaría a usar LSTM para QuickType ^[72]^[73]^[74] en el iPhone y para Siri. ^[75]^[76]

Amazon lanzó Polly , que genera las voces detrás de Alexa, utilizando un LSTM bidireccional para la tecnología de texto a voz. ^[77]

2017: Facebook realizó unos 4.500 millones de traducciones automáticas cada día utilizando redes de memoria a corto plazo. ^[7]

Investigadores de la Universidad Estatal de Michigan , IBM Research y la Universidad de Cornell publicaron un estudio en la conferencia Knowledge Discovery and Data Mining (KDD). ^[78]^[79]^[80] Su LSTM Time-Aware (T-LSTM) funciona mejor en ciertos conjuntos de datos que el LSTM estándar.

Microsoft informó haber alcanzado una precisión de reconocimiento del 94,9% en el corpus Switchboard, incorporando un vocabulario de 165.000 palabras. El enfoque utilizó "memoria a corto plazo basada en sesiones de diálogo". ^[59]

2018: OpenAI utilizó LSTM entrenado por gradientes de políticas para vencer a los humanos en el complejo videojuego de Dota 2, ^[11] y para controlar una mano robótica de apariencia humana que manipula objetos físicos con una destreza sin precedentes. ^[10]^[54]

2019: DeepMind utilizó LSTM entrenado mediante gradientes de políticas para sobresalir en el complejo videojuego de Starcraft II . ^[12]^[54]

2021: Según Google Scholar , en 2021, LSTM fue citado más de 16.000 veces en un solo año. Esto refleja las aplicaciones de LSTM en muchos campos diferentes, incluida la atención sanitaria. ^[13]

Ver también

Referencias

^ abcdef Sepp Hochreiter ; Jürgen Schmidhuber (1997). "Memoria larga a corto plazo". Computación neuronal . 9 (8): 1735–1780. doi :10.1162/neco.1997.9.8.1735. PMID 9377276. S2CID 1915014.
^ abcd Hochreiter, Sepp (1991). Untersuchungen zu dynamischen neuronalen Netzen (PDF) (tesis de diploma). Universidad Técnica de Munich, Instituto de Ciencias de la Computación.
^ ab Graves, A.; Liwicki, M.; Fernández, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (mayo de 2009). "Un novedoso sistema conexionista para el reconocimiento de escritura a mano sin restricciones". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . doi :10.1109/tpami.2008.137. ISSN 0162-8828. PMID 19299860. S2CID 14635907.
^ Sak, Hasim; Mayor, Andrés; Beaufays, Françoise (2014). "Arquitecturas de redes neuronales recurrentes de memoria a corto plazo para modelado acústico a gran escala" (PDF) . Archivado desde el original (PDF) el 24 de abril de 2018.
^ Li, Xiangang; Wu, Xihong (15 de octubre de 2014). "Construcción de redes neuronales recurrentes profundas basadas en memoria a largo plazo para el reconocimiento de voz de gran vocabulario". arXiv : 1410.4281 [cs.CL].
^ ab Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V.; Norouzi, Mohammad; Macherey, Wolfgang; Krikún, Maxim; Cao, Yuan; Gao, Qin (26 de septiembre de 2016). "Sistema de traducción automática neuronal de Google: reduciendo la brecha entre la traducción humana y automática". arXiv : 1609.08144 [cs.CL].
^ ab Ong, Thuy (4 de agosto de 2017). "Las traducciones de Facebook ahora funcionan completamente con IA". www.allthingsdistributed.com . Consultado el 15 de febrero de 2019 .
^ Sahidullah, Maryland; Patiño, José; Cornell, Samuele; Yin, Ruiking; Sivasankaran, Sunit; Bredin, Hervé; Korshunov, Pavel; Brutti, Alessio; Serizel, Romain; Vicente, Emmanuel; Evans, Nicolás; Marcel, Sebastián; Squartini, Stefano; Barras, Claude (6 de noviembre de 2019). "La presentación rápida a DIHARD II: contribuciones y lecciones aprendidas". arXiv : 1911.02388 [eess.AS].
^ abc Mayer, H.; Gómez, F.; Wierstra, D.; Nagy, I.; Knoll, A.; Schmidhuber, J. (octubre de 2006). "Un sistema para cirugía cardíaca robótica que aprende a hacer nudos utilizando redes neuronales recurrentes". 2006 Conferencia internacional IEEE/RSJ sobre robots y sistemas inteligentes . págs. 543–548. CiteSeerX 10.1.1.218.3399 . doi :10.1109/IROS.2006.282190. ISBN 978-1-4244-0258-8. S2CID 12284900.
^ abc "Aprendizaje de la destreza". AbiertoAI . 30 de julio de 2018 . Consultado el 28 de junio de 2023 .
^ abcd Rodríguez, Jesús (2 de julio de 2018). "La ciencia detrás de OpenAI Five que acaba de producir uno de los mayores avances en la historia de la IA". Hacia la ciencia de datos . Archivado desde el original el 26 de diciembre de 2019 . Consultado el 15 de enero de 2019 .
^ abcd Stanford, Stacy (25 de enero de 2019). "La IA de DeepMind, AlphaStar, muestra un progreso significativo hacia la AGI". Memorias medianas de ML . Consultado el 15 de enero de 2019 .
^ ab Schmidhuber, Jürgen (2021). "La década de 2010: nuestra década de aprendizaje profundo / perspectivas para la década de 2020". Blog de IA . IDSIA, Suiza . Consultado el 30 de abril de 2022 .
^ ab Hochreiter, Sepp; Schmidhuber, Jürgen (1996). LSTM puede resolver problemas difíciles de retrasos prolongados. Avances en los sistemas de procesamiento de información neuronal.
^ a b C Félix A. Gers; Jürgen Schmidhuber; Fred Cummins (2000). "Aprender a olvidar: predicción continua con LSTM". Computación neuronal . 12 (10): 2451–2471. CiteSeerX 10.1.1.55.5709 . doi :10.1162/089976600300015015. PMID 11032042. S2CID 11598600.
^ Calin, Ovidiu (14 de febrero de 2020). Arquitecturas de aprendizaje profundo . Cham, Suiza: Springer Nature. pag. 555.ISBN 978-3-030-36720-6.
^ Lakretz, Yair; Kruszewski, alemán; Desbordes, Theo; Hupkes, Dieuwke; Dehaene, Estanislao; Baroni, Marco (2019), "La aparición de unidades numéricas y de sintaxis en", La aparición de unidades numéricas y de sintaxis (PDF) , Asociación de Lingüística Computacional, págs. 11-20, doi :10.18653/v1/N19-1002, hdl :11245.1/16cb6800-e10d-4166-8e0b-fed61ca6ebb4, S2CID 81978369
^ abcdefGers , FA; Schmidhuber, J. (2001). "Las redes recurrentes de LSTM aprenden lenguajes simples sensibles al contexto y libres de contexto" (PDF) . Transacciones IEEE en redes neuronales . 12 (6): 1333-1340. doi : 10.1109/72.963769. PMID 18249962. S2CID 10192330.
^ abcdGers , F.; Schraudolph, N.; Schmidhuber, J. (2002). "Aprendiendo la sincronización precisa con redes recurrentes LSTM" (PDF) . Revista de investigación sobre aprendizaje automático . 3 : 115-143.
^ Xingjian Shi; Zhourong Chen; Hao Wang; Dit-Yan Yeung; Wai-kin Wong; Wang-chun Woo (2015). "Red LSTM convolucional: un enfoque de aprendizaje automático para la predicción inmediata de las precipitaciones". Actas de la 28ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural : 802–810. arXiv : 1506.04214 . Código Bib : 2015arXiv150604214S.
^ Hochreiter, S.; Bengio, Y.; Frasconi, P.; Schmidhuber, J. (2001). "Flujo de gradiente en redes recurrentes: la dificultad de aprender dependencias a largo plazo (descarga PDF disponible)". En Kremer y SC; Kolen, JF (eds.). Una guía de campo para redes neuronales dinámicas recurrentes . Prensa IEEE.
^ Fernández, Santiago; Tumbas, Alex; Schmidhuber, Jürgen (2007). "Etiquetado de secuencias en dominios estructurados con redes neuronales recurrentes jerárquicas". Proc. 20° Int. Conferencia conjunta. Sobre inteligencia artificial, Ijcai 2007 : 774–779. CiteSeerX 10.1.1.79.1887 .
^ ab Graves, Alex; Fernández, Santiago; Gómez, Faustino; Schmidhuber, Jürgen (2006). "Clasificación temporal conexionista: etiquetado de datos de secuencia no segmentados con redes neuronales recurrentes". En Actas de la Conferencia Internacional sobre Aprendizaje Automático, ICML 2006 : 369–376. CiteSeerX 10.1.1.75.6306 .
^ a b C Wierstra, Daan; Schmidhuber, J.; Gómez, FJ (2005). "Evolino: neuroevolución híbrida / búsqueda lineal óptima para el aprendizaje secuencial". Actas de la XIX Conferencia Internacional Conjunta sobre Inteligencia Artificial (IJCAI), Edimburgo : 853–858.
^ ab Graves, A.; Schmidhuber, J. (2005). "Clasificación de fonemas marco con LSTM bidireccional y otras arquitecturas de redes neuronales". Redes neuronales . 18 (5–6): 602–610. CiteSeerX 10.1.1.331.5800 . doi :10.1016/j.neunet.2005.06.042. PMID 16112549. S2CID 1856462.
^ ab Fernández, S.; Tumbas, A.; Schmidhuber, J. (9 de septiembre de 2007). "Una aplicación de redes neuronales recurrentes para la detección discriminativa de palabras clave". Actas de la 17ª Conferencia Internacional sobre Redes Neuronales Artificiales . ICANN'07. Berlín, Heidelberg: Springer-Verlag: 220–229. ISBN 978-3540746935. Consultado el 28 de diciembre de 2023 .
^ ab Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey (2013). "Reconocimiento de voz con redes neuronales recurrentes profundas". Conferencia internacional IEEE 2013 sobre acústica, habla y procesamiento de señales . págs. 6645–6649. arXiv : 1303.5778 . doi :10.1109/ICASSP.2013.6638947. ISBN 978-1-4799-0356-6. S2CID 206741496.
^ Kratzert, Federico; Klotz, Daniel; Shalev, Guy; Klambauer, Günter; Hochreiter, Sepp; Acercándose, Gray (17 de diciembre de 2019). "Hacia el aprendizaje de comportamientos hidrológicos universales, regionales y locales mediante el aprendizaje automático aplicado a conjuntos de datos de muestras grandes". Hidrología y Ciencias del Sistema Terrestre . 23 (12): 5089–5110. arXiv : 1907.08456 . Código Bib : 2019HESS...23.5089K. doi : 10.5194/hess-23-5089-2019 . ISSN 1027-5606.
^ Eck, Douglas; Schmidhuber, Jürgen (28 de agosto de 2002). "Aprender la estructura a largo plazo del blues". Redes neuronales artificiales: ICANN 2002 . Apuntes de conferencias sobre informática. vol. 2415. Springer, Berlín, Heidelberg. págs. 284–289. CiteSeerX 10.1.1.116.3620 . doi :10.1007/3-540-46084-5_47. ISBN 978-3540460848.
^ Schmidhuber, J.; Gers, F.; Eck, D.; Schmidhuber, J.; Gers, F. (2002). "Aprendizaje de lenguajes no regulares: una comparación de redes recurrentes simples y LSTM". Computación neuronal . 14 (9): 2039-2041. CiteSeerX 10.1.1.11.7369 . doi :10.1162/089976602320263980. PMID 12184841. S2CID 30459046.
^ Pérez-Ortiz, JA; Gers, FA; Eck, D.; Schmidhuber, J. (2003). "Los filtros Kalman mejoran el rendimiento de la red LSTM en problemas que las redes recurrentes tradicionales no pueden resolver". Redes neuronales . 16 (2): 241–250. CiteSeerX 10.1.1.381.1992 . doi :10.1016/s0893-6080(02)00219-8. PMID 12628609.
^ A. tumbas, J. Schmidhuber. Reconocimiento de escritura a mano sin conexión con redes neuronales recurrentes multidimensionales. Avances en sistemas de procesamiento de información neuronal 22, NIPS'22, págs. 545–552, Vancouver, MIT Press, 2009.
^ Tumbas, A.; Fernández, S.; Liwicki, M.; Bunke, H.; Schmidhuber, J. (3 de diciembre de 2007). "Reconocimiento de escritura a mano en línea sin restricciones con redes neuronales recurrentes". Actas de la XX Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural . NIPS'07. Estados Unidos: Curran Associates Inc.: 577–584. ISBN 9781605603520. Consultado el 28 de diciembre de 2023 .
^ Baccouche, M.; Mamalet, F.; Lobo, C.; García, C.; Baskurt, A. (2011). "Aprendizaje profundo secuencial para el reconocimiento de la acción humana". En Salah, AA; Lepri, B. (eds.). 2do Taller Internacional sobre Comprensión del Comportamiento Humano (HBU) . Apuntes de conferencias sobre informática. vol. 7065. Ámsterdam, Países Bajos: Springer. págs. 29–39. doi :10.1007/978-3-642-25446-8_4. ISBN 978-3-642-25445-1.
^ Huang, Jie; Zhou, Wengang; Zhang, Qilin; Li, Houqiang; Li, Weiping (30 de enero de 2018). "Reconocimiento de lengua de signos basado en vídeo sin segmentación temporal". arXiv : 1801.10111 [cs.CV].
^ ab Hochreiter, S.; Heusel, M.; Obermayer, K. (2007). "Detección rápida de homología de proteínas basada en modelos sin alineación". Bioinformática . 23 (14): 1728-1736. doi : 10.1093/bioinformática/btm247 . PMID 17488755.
^ Thireou, T.; Reczko, M. (2007). "Redes bidireccionales de memoria a largo plazo para predecir la localización subcelular de proteínas eucariotas". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 4 (3): 441–446. doi :10.1109/tcbb.2007.1015. PMID 17666763. S2CID 11787259.
^ Malhotra, Pankaj; Vig, Lovekesh; Shroff, Gautam; Agarwal, Puneet (abril de 2015). "Redes de memoria a largo plazo para la detección de anomalías en series temporales" (PDF) . Simposio europeo sobre redes neuronales artificiales, inteligencia computacional y aprendizaje automático — ESANN 2015 . Archivado desde el original (PDF) el 30 de octubre de 2020 . Consultado el 21 de febrero de 2018 .
^ Impuesto, N.; Verenich, I.; La Rosa, M.; Dumas, M. (2017). "Monitoreo predictivo de procesos de negocio con redes neuronales LSTM". Ingeniería Avanzada en Sistemas de Información . Apuntes de conferencias sobre informática. vol. 10253. págs. 477–492. arXiv : 1612.02130 . doi :10.1007/978-3-319-59536-8_30. ISBN 978-3-319-59535-1. S2CID 2192354.
^ Choi, E.; Bahadori, MT; Schuetz, E.; Stewart, W.; Sol, J. (2016). "Doctor AI: predicción de eventos clínicos a través de redes neuronales recurrentes". Actas de conferencias y talleres de JMLR . 56 : 301–318. arXiv : 1511.05942 . Código Bib : 2015arXiv151105942C. PMC 5341604 . PMID 28286600.
^ Jia, Robin; Liang, Percy (2016). "Recombinación de datos para análisis semántico neuronal". arXiv : 1606.03622 [cs.CL].
^ Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, pandilla; Zheng, Nanning (22 de mayo de 2018). "Segment-Tube: localización de acciones espacio-temporales en vídeos sin recortar con segmentación por fotograma" (PDF) . Sensores . 18 (5): 1657. Código bibliográfico : 2018Senso..18.1657W. doi : 10.3390/s18051657 . ISSN 1424-8220. PMC 5982167 . PMID 29789447.
^ Duan, Xuhuan; Wang, Le; Zhai, Changbo; Zheng, Nanning; Zhang, Qilin; Niu, Zhenxing; Hua, pandilla (2018). "Localización conjunta de acciones espacio-temporales en vídeos sin recortar con segmentación por fotograma". 2018 25a Conferencia Internacional IEEE sobre Procesamiento de Imágenes (ICIP) . 25ª Conferencia Internacional IEEE sobre Procesamiento de Imágenes (ICIP). págs. 918–922. doi :10.1109/icip.2018.8451692. ISBN 978-1-4799-7061-2.
^ Orsini, F.; Gastaldi, M.; Mantecchini, L.; Rossi, R. (2019). Redes neuronales entrenadas con trazas WiFi para predecir el comportamiento de los pasajeros en los aeropuertos . VI Congreso Internacional sobre Modelos y Tecnologías para Sistemas de Transporte Inteligentes. Cracovia: IEEE. arXiv : 1910.14026 . doi :10.1109/MTITS.2019.8883365. 8883365.
^ Zhao, Z.; Chen, W.; Wu, X.; Chen, PCY; Liu, J. (2017). "Red LSTM: un enfoque de aprendizaje profundo para la previsión del tráfico a corto plazo". Sistemas de transporte inteligentes IET . 11 (2): 68–75. doi :10.1049/iet-its.2016.0208. S2CID 114567527.
^ Gupta A, Müller AT, Huisman BJH, Fuchs JA, Schneider P, Schneider G (2018). "Redes generativas recurrentes para el diseño de fármacos de novo". Mol Informar . 37 (1–2). doi :10.1002/minf.201700111. PMC 5836943 . PMID 29095571. {{cite journal}}: CS1 maint: multiple names: authors list (link)
^ Saiful Islam, Maryland; Hossain, Emam (26 de octubre de 2020). "Predicción del tipo de cambio de divisas mediante una red híbrida GRU-LSTM". Letras de informática blanda . 3 : 100009. doi : 10.1016/j.socl.2020.100009 . ISSN 2666-2221.
^ {{Cite Abbey Martin, Andrew J. Hill, Konstantin M. Seiler y Mehala Balamurali (2023) Reconocimiento y localización automáticos de la acción de la excavadora para videos sin recortar utilizando redes híbridas LSTM-Transformer, International Journal of Mining, Reclamation and Environment, DOI: 10.1080 /17480930.2023.2290364}}
^ Mozer, Mike (1989). "Un algoritmo de retropropagación enfocado para el reconocimiento de patrones temporales". Sistemas complejos .
^ Schmidhuber, Jürgen (2022). "Historia comentada de la IA moderna y el aprendizaje profundo". arXiv : 2212.11279 [cs.NE].
^ Sepp Hochreiter ; Jürgen Schmidhuber (21 de agosto de 1995), Memoria a largo plazo, Wikidata Q98967430
^ abc Klaus Greff; Rupesh Kumar Srivastava; Jan Koutnik; Bas R. Steunebrink; Jürgen Schmidhuber (2015). "LSTM: una odisea de búsqueda en el espacio". Transacciones IEEE sobre redes neuronales y sistemas de aprendizaje . 28 (10): 2222–2232. arXiv : 1503.04069 . Código Bib : 2015arXiv150304069G. doi :10.1109/TNNLS.2016.2582924. PMID 27411231. S2CID 3356463.
^ abc Gers, Félix; Schmidhuber, Jürgen; Cummins, Fred (1999). "Aprender a olvidar: predicción continua con LSTM". 9ª Conferencia Internacional sobre Redes Neuronales Artificiales: ICANN '99 . vol. 1999, págs. 850–855. doi :10.1049/cp:19991218. ISBN 0-85296-721-7.
^ abcdefg Schmidhuber, Juergen (10 de mayo de 2021). "Aprendizaje profundo: nuestro año milagroso 1990-1991". arXiv : 2005.05744 [cs.NE].
^ Hochreiter, S.; Más joven, AS; Conwell, PR (2001). "Aprender a aprender utilizando el descenso de gradientes". Redes neuronales artificiales: ICANN 2001 (PDF) . Apuntes de conferencias sobre informática. vol. 2130, págs. 87–94. CiteSeerX 10.1.1.5.323 . doi :10.1007/3-540-44668-0_13. ISBN 978-3-540-42486-4. ISSN 0302-9743. S2CID 52872549.
^ Tumbas, Alex; Beringer, Nicole; Eck, Douglas; Schmidhuber, Jürgen (2004). "Reconocimiento de voz biológicamente plausible con redes neuronales LSTM ". Taller sobre enfoques de inspiración biológica para tecnologías de la información avanzadas, Bio-ADIT 2004, Lausana, Suiza. págs. 175–184.
^ ab Beaufays, Françoise (11 de agosto de 2015). "Las redes neuronales detrás de la transcripción de Google Voice". Blog de investigación . Consultado el 27 de junio de 2017 .
^ ab Sak, Haşim; Mayor, Andrés; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (24 de septiembre de 2015). "Búsqueda por voz de Google: más rápida y precisa". Blog de investigación . Consultado el 27 de junio de 2017 .
^ ab Haridy, Rich (21 de agosto de 2017). "El sistema de reconocimiento de voz de Microsoft ahora es tan bueno como el de un ser humano". newatlas.com . Consultado el 27 de agosto de 2017 .
^ Wierstra, Daan; Foerster, Alejandro; Peters, enero; Schmidhuber, Jürgen (2005). "Resolución de POMDP de memoria profunda con gradientes de políticas recurrentes". Conferencia Internacional sobre Redes Neuronales Artificiales ICANN'07 .
^ Märgner, Volker; Abed, Haikal El (julio de 2009). "Concurso de reconocimiento de escritura a mano en árabe ICDAR 2009". 2009 X Congreso Internacional sobre Análisis y Reconocimiento de Documentos . págs. 1383-1387. doi :10.1109/ICDAR.2009.256. ISBN 978-1-4244-4500-4. S2CID 52851337.
^ Bayer, Justin; Wierstra, Daan; Togelius, Julián; Schmidhuber, Jürgen (2009). "Evolución de estructuras de células de memoria para el aprendizaje de secuencias". Conferencia internacional sobre redes neuronales artificiales ICANN'09, Chipre .
^ Cho, Kyunghyun; van Merrienboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougarés, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). "Aprendizaje de representaciones de frases mediante codificador-decodificador RNN para traducción automática estadística". arXiv : 1406.1078 [cs.CL].
^ "Receta de neón... o mejor dicho, Nueva transcripción para Google Voice". Blog oficial de Google . 23 de julio de 2015 . Consultado el 25 de abril de 2020 .
^ Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen (2 de mayo de 2015). "Redes de Carreteras". arXiv : 1505.00387 [cs.LG].
^ Srivastava, Rupesh K; Greff, Klaus; Schmidhuber, Jürgen (2015). "Entrenamiento de redes muy profundas". Avances en los sistemas de procesamiento de información neuronal . Curran Associates, Inc. 28 : 2377–2385.
^ ab Schmidhuber, Jürgen (2021). "Todas las redes neuronales más citadas se basan en el trabajo realizado en mis laboratorios". Blog de IA . IDSIA, Suiza . Consultado el 30 de abril de 2022 .
^ Él, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sol, Jian (2016). Aprendizaje residual profundo para el reconocimiento de imágenes. Conferencia IEEE 2016 sobre visión por computadora y reconocimiento de patrones (CVPR) . Las Vegas, NV, EE.UU.: IEEE. págs. 770–778. arXiv : 1512.03385 . doi :10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.
^ Khaitan, Pranav (18 de mayo de 2016). "Chatea de forma más inteligente con Allo". Blog de investigación . Consultado el 27 de junio de 2017 .
^ Metz, Cade (27 de septiembre de 2016). "Una infusión de inteligencia artificial hace que Google Translate sea más poderoso que nunca | WIRED". Cableado . Consultado el 27 de junio de 2017 .
^ "Una red neuronal para traducción automática, a escala de producción". Blog de IA de Google . 27 de septiembre de 2016 . Consultado el 25 de abril de 2020 .
^ Efrati, Amir (13 de junio de 2016). "Las máquinas de Apple también pueden aprender". La información . Consultado el 27 de junio de 2017 .
^ Guardabosques, Steve (14 de junio de 2016). "iPhone, IA y big data: así es como Apple planea proteger su privacidad | ZDNet". ZDNet . Consultado el 27 de junio de 2017 .
^ "¿Puede el contexto semántico global mejorar los modelos de lenguaje neuronal? - Apple". Diario de aprendizaje automático de Apple . Consultado el 30 de abril de 2020 .
^ Smith, Chris (13 de junio de 2016). "iOS 10: Siri ahora funciona en aplicaciones de terceros y viene con funciones adicionales de IA". BGR . Consultado el 27 de junio de 2017 .
^ Capas, Tim; Coles, Pablo; Conkie, Alistair; Golipour, Ladan; Hadjitarkhani, Abie; Hu, Qiong; Huddleston, Nancy; Cazar, Melvyn; Li, Jiangchuan; Neeracher, Matías; Prahallad, Kishore (20 de agosto de 2017). "Sistema de texto a voz de selección de unidades guiada por aprendizaje profundo en el dispositivo Siri". Entre discursos 2017 . ISCA: 4011–4015. doi : 10.21437/Interspeech.2017-1798.
^ Vogels, Werner (30 de noviembre de 2016). "Llevando la magia de Amazon AI y Alexa a las aplicaciones en AWS. All Things Distributed". www.allthingsdistributed.com . Consultado el 27 de junio de 2017 .
^ "Subtipificación de pacientes a través de redes LSTM con reconocimiento de tiempo" (PDF) . msu.edu . Consultado el 21 de noviembre de 2018 .
^ "Subtipificación de pacientes a través de redes LSTM con reconocimiento de tiempo". Kdd.org . Consultado el 24 de mayo de 2018 .
^ "SIGKDD". Kdd.org . Consultado el 24 de mayo de 2018 .

^[1]

Otras lecturas

Monner, Derek D.; Reggia, James A. (2010). "Un algoritmo de entrenamiento generalizado similar a LSTM para redes neuronales recurrentes de segundo orden" (PDF) . Redes neuronales . 25 (1): 70–83. doi :10.1016/j.neunet.2011.07.003. PMC 3217173 . PMID 21803542. Extensión de alto rendimiento de LSTM que se ha simplificado a un solo tipo de nodo y puede entrenar arquitecturas arbitrarias.
Gers, Félix A.; Schraudolph, Nicol N.; Schmidhuber, Jürgen (agosto de 2002). "Aprendiendo la sincronización precisa con redes recurrentes LSTM" (PDF) . Revista de investigación sobre aprendizaje automático . 3 : 115-143.
Gers, Félix (2001). "Memoria a largo plazo en redes neuronales recurrentes" (PDF) . Tesis doctoral .
Abidogun, Olusola Adeniyi (2005). Minería de datos, detección de fraudes y telecomunicaciones móviles: análisis de patrones de llamadas con redes neuronales no supervisadas. Trabajo de Fin de Máster (Tesis). Universidad del Cabo Occidental. hdl :11394/249. Archivado (PDF) desde el original el 22 de mayo de 2012.
- Original con dos capítulos dedicados a explicar las redes neuronales recurrentes, especialmente LSTM.

enlaces externos

Redes neuronales recurrentes con más de 30 artículos sobre LSTM del grupo de Jürgen Schmidhuber en IDSIA
Delfín, R (12 de noviembre de 2021). "Redes LSTM: una explicación detallada". Artículo .
Herta, Cristian. "Cómo implementar LSTM en Python con Theano". Tutorial .

^ Abbey Martin, Andrew J. Hill, Konstantin M. Seiler y Mehala Balamurali (2023) Reconocimiento y localización automáticos de la acción de la excavadora para videos sin recortar utilizando redes híbridas LSTM-Transformer, International Journal of Mining, Reclamation and Environment, DOI: 10.1080/17480930.2023. 2290364