La memoria a corto plazo larga ( LSTM ) [1] es un tipo de red neuronal recurrente (RNN) destinada a mitigar el problema del gradiente de desaparición [2] que suelen encontrar las RNN tradicionales. Su relativa insensibilidad a la longitud de la brecha es su ventaja sobre otras RNN, modelos ocultos de Markov y otros métodos de aprendizaje de secuencias. Su objetivo es proporcionar una memoria a corto plazo para RNN que pueda durar miles de pasos de tiempo (de ahí la " memoria a corto plazo larga "). [1] El nombre se hace en analogía con la memoria a largo plazo y la memoria a corto plazo y su relación, estudiada por psicólogos cognitivos desde principios del siglo XX.
Una unidad LSTM se compone típicamente de una celda y tres puertas : una puerta de entrada , una puerta de salida [3] y una puerta de olvido [4] . La celda recuerda valores en intervalos de tiempo arbitrarios y las puertas regulan el flujo de información dentro y fuera de la celda. Las puertas de olvido deciden qué información descartar del estado anterior, asignando el estado anterior y la entrada actual a un valor entre 0 y 1. Un valor (redondeado) de 1 significa retención de la información y un valor de 0 representa descarte. Las puertas de entrada deciden qué piezas de información nueva almacenar en el estado actual de la celda, utilizando el mismo sistema que las puertas de olvido. Las puertas de salida controlan qué piezas de información en el estado actual de la celda se emitirán, asignando un valor de 0 a 1 a la información, considerando los estados anterior y actual. La emisión selectiva de información relevante del estado actual permite a la red LSTM mantener dependencias útiles a largo plazo para hacer predicciones, tanto en pasos de tiempo actuales como futuros.
En teoría, las RNN clásicas pueden realizar un seguimiento de dependencias arbitrarias a largo plazo en las secuencias de entrada. El problema con las RNN clásicas es de naturaleza computacional (o práctica): cuando se entrena una RNN clásica mediante retropropagación , los gradientes a largo plazo que se retropropagan pueden "desaparecer" , lo que significa que pueden tender a cero debido a que números muy pequeños se introducen en los cálculos, lo que hace que el modelo deje de aprender de manera efectiva. Las RNN que utilizan unidades LSTM resuelven parcialmente el problema del gradiente evanescente , porque las unidades LSTM permiten que los gradientes también fluyan con poca o ninguna atenuación. Sin embargo, las redes LSTM aún pueden sufrir el problema del gradiente explosivo. [18]
La intuición detrás de la arquitectura LSTM es crear un módulo adicional en una red neuronal que aprende cuándo recordar y cuándo olvidar información pertinente. [4] En otras palabras, la red aprende efectivamente qué información podría ser necesaria más adelante en una secuencia y cuándo esa información ya no es necesaria. Por ejemplo, en el contexto del procesamiento del lenguaje natural , la red puede aprender dependencias gramaticales. [19] Un LSTM podría procesar la oración " Dave , como resultado de sus controvertidas afirmaciones, ahora es un paria" recordando el género y número gramaticales (estadísticamente probables) del sujeto Dave , note que esta información es pertinente para el pronombre his y note que esta información ya no es importante después del verbo is .
Variantes
En las ecuaciones que aparecen a continuación, las variables en minúscula representan vectores. Las matrices y contienen, respectivamente, los pesos de las conexiones de entrada y recurrentes, donde el subíndice puede ser la puerta de entrada , la puerta de salida , la puerta de olvido o la celda de memoria , según la activación que se esté calculando. En esta sección, utilizamos una "notación vectorial". Por ejemplo, no es solo una unidad de una celda LSTM, sino que contiene las unidades de la celda LSTM.
Consulte [20] para un estudio empírico de 8 variantes arquitectónicas de LSTM.
LSTM con puerta de olvido
Las formas compactas de las ecuaciones para el paso hacia adelante de una celda LSTM con una puerta de olvido son: [1] [4]
donde los valores iniciales son y y el operador denota el producto Hadamard (producto elemento por elemento). El subíndice indica el paso de tiempo.
Variables
Dejando que los superíndices y hagan referencia al número de características de entrada y al número de unidades ocultas, respectivamente:
: vector de entrada a la unidad LSTM
:olvidar el vector de activación de la puerta
: vector de activación de la puerta de entrada/actualización
: vector de activación de la puerta de salida
: vector de estado oculto también conocido como vector de salida de la unidad LSTM
: vector de activación de entrada celular
: vector de estado de la celda
, y : matrices de peso y parámetros de vector de sesgo que deben aprenderse durante el entrenamiento
:función tangente hiperbólica o, como sugiere el artículo LSTM de Peephole [21] [22] , .
Mirilla LSTM
La figura de la derecha es una representación gráfica de una unidad LSTM con conexiones de mirilla (es decir, un LSTM de mirilla). [21] [22] Las conexiones de mirilla permiten que las puertas accedan al carrusel de error constante (CEC), cuya activación es el estado de la celda. [21] no se utiliza, se utiliza en su lugar en la mayoría de los lugares.
Cada una de las puertas puede considerarse como una neurona "estándar" en una red neuronal de propagación hacia adelante (o multicapa): es decir, calculan una activación (utilizando una función de activación) de una suma ponderada y representan las activaciones de las puertas de entrada, salida y olvido, respectivamente, en el paso de tiempo .
Las 3 flechas de salida de la celda de memoria hacia las 3 puertas y representan las conexiones de mirilla . Estas conexiones de mirilla en realidad denotan las contribuciones de la activación de la celda de memoria en el paso de tiempo , es decir, la contribución de (y no , como la imagen puede sugerir). En otras palabras, las puertas y calculan sus activaciones en el paso de tiempo (es decir, respectivamente, y ) considerando también la activación de la celda de memoria en el paso de tiempo , es decir .
La única flecha de izquierda a derecha que sale de la celda de memoria no es una conexión de mirilla y denota .
Los círculos pequeños que contienen un símbolo representan una multiplicación elemento por elemento entre sus entradas. Los círculos grandes que contienen una curva tipo S representan la aplicación de una función diferenciable (como la función sigmoidea) a una suma ponderada.
Una RNN que utiliza unidades LSTM se puede entrenar de manera supervisada en un conjunto de secuencias de entrenamiento, utilizando un algoritmo de optimización como el descenso de gradiente combinado con retropropagación a través del tiempo para calcular los gradientes necesarios durante el proceso de optimización, a fin de cambiar cada peso de la red LSTM en proporción a la derivada del error (en la capa de salida de la red LSTM) con respecto al peso correspondiente.
Un problema con el uso del descenso de gradiente para las RNN estándar es que los gradientes de error desaparecen exponencialmente rápido con el tamaño del desfase temporal entre eventos importantes. Esto se debe a que si el radio espectral de es menor que 1. [2] [24]
Sin embargo, con las unidades LSTM, cuando los valores de error se retropropagan desde la capa de salida, el error permanece en la celda de la unidad LSTM. Este "carrusel de errores" retroalimenta continuamente el error a cada una de las puertas de la unidad LSTM, hasta que aprenden a cortar el valor.
Función de puntuación CTC
Muchas aplicaciones utilizan pilas de RNN LSTM [25] y las entrenan mediante clasificación temporal conexionista (CTC) [5] para encontrar una matriz de ponderación de RNN que maximice la probabilidad de las secuencias de etiquetas en un conjunto de entrenamiento, dadas las secuencias de entrada correspondientes. La CTC logra tanto la alineación como el reconocimiento.
Alternativas
A veces, puede ser ventajoso entrenar (partes de) un LSTM mediante neuroevolución [7] o mediante métodos de gradiente de políticas, especialmente cuando no hay un "maestro" (es decir, etiquetas de entrenamiento).
2015: Google comenzó a utilizar un LSTM entrenado por CTC para el reconocimiento de voz en Google Voice. [50] [51] Según la publicación del blog oficial, el nuevo modelo redujo los errores de transcripción en un 49 %. [52]
2016: Google comenzó a utilizar un LSTM para sugerir mensajes en la aplicación de conversación Allo. [53] Ese mismo año, Google lanzó el sistema de traducción automática neuronal de Google para Google Translate, que utilizaba LSTM para reducir los errores de traducción en un 60 %. [10] [54] [55]
Apple anunció en su Conferencia Mundial de Desarrolladores que comenzaría a utilizar el LSTM para escritura rápida [56] [57] [58] en el iPhone y para Siri. [59] [60]
Amazon lanzó Polly , que genera las voces detrás de Alexa, utilizando un LSTM bidireccional para la tecnología de texto a voz. [61]
2017: Facebook realizó alrededor de 4.500 millones de traducciones automáticas cada día utilizando redes de memoria de corto plazo y largo plazo. [11]
Microsoft informó que alcanzó una precisión de reconocimiento del 94,9% en el corpus de Switchboard, que incorpora un vocabulario de 165.000 palabras. El enfoque utilizó una "memoria a corto y largo plazo basada en sesiones de diálogo". [62]
2018: OpenAI utilizó LSTM entrenado por gradientes de políticas para vencer a humanos en el complejo videojuego Dota 2, [15] y para controlar una mano robótica similar a la humana que manipula objetos físicos con una destreza sin precedentes. [14] [63]
2019: DeepMind utilizó LSTM entrenado por gradientes de políticas para sobresalir en el complejo videojuego Starcraft II . [16] [63]
Historia
Desarrollo
Los aspectos de LSTM fueron anticipados por la "retropropagación enfocada" (Mozer, 1989), [64] citado en el artículo LSTM. [1]
La tesis de diploma alemana de 1991 de Sepp Hochreiter analizó el problema del gradiente evanescente y desarrolló los principios del método. [2] Su supervisor, Jürgen Schmidhuber , consideró que la tesis era muy significativa. [65]
El punto de referencia más utilizado para LSTM se publicó en 1997 en la revista Neural Computation . [1] Al introducir unidades de carrusel de error constante (CEC), LSTM aborda el problema del gradiente evanescente . La versión inicial del bloque LSTM incluía celdas, puertas de entrada y salida. [20]
( Felix Gers , Jürgen Schmidhuber y Fred Cummins, 1999) [67] introdujo la puerta de olvido (también llamada "puerta de mantenimiento") en la arquitectura LSTM en 1999, lo que le permite al LSTM restablecer su propio estado. [20] Esta es la versión más utilizada de LSTM en la actualidad.
(Gers, Schmidhuber y Cummins, 2000) agregaron conexiones de mirilla. [21] [22] Además, se omitió la función de activación de salida. [20]
Desarrollo de variantes
(Graves, Fernández, Gómez y Schmidhuber, 2006) [5] introducen una nueva función de error para LSTM: Clasificación Temporal Conexionista (CTC) para la alineación y reconocimiento simultáneos de secuencias.
(Kyunghyun Cho et al., 2014) [68] publicaron una variante simplificada de la compuerta de olvido LSTM [67] llamada unidad recurrente bloqueada (GRU).
(Rupesh Kumar Srivastava, Klaus Greff y Schmidhuber, 2015) utilizaron los principios LSTM [67] para crear la red Highway , una red neuronal de propagación hacia adelante con cientos de capas, mucho más profunda que las redes anteriores. [69] [70] [71] Al mismo tiempo, se desarrolló la arquitectura ResNet , que es equivalente a una red de autopistas con puertas abiertas o sin puertas. [72]
Un equipo dirigido por Sepp Hochreiter publicó una actualización moderna de LSTM llamada xLSTM (Maximilian et al, 2024). [73] [74] Uno de los 2 bloques (mLSTM) de la arquitectura es paralelizable como la arquitectura Transformer , los otros (sLSTM) permiten el seguimiento del estado.
Aplicaciones
2004: Primera aplicación exitosa de LSTM al habla Alex Graves et al. [75] [63]
2001: Gers y Schmidhuber entrenaron a LSTM para aprender lenguajes que no se pueden aprender con modelos tradicionales como los modelos ocultos de Markov. [21] [63]
Hochreiter et al. utilizaron LSTM para metaaprendizaje (es decir, aprender un algoritmo de aprendizaje). [76]
2005: Daan Wierstra, Faustino Gómez y Schmidhuber entrenaron LSTM mediante neuroevolución sin un maestro. [7]
Mayer et al. entrenaron a LSTM para controlar robots . [13]
2007: Wierstra, Foerster, Peters y Schmidhuber entrenaron LSTM mediante gradientes de políticas para el aprendizaje de refuerzo sin un profesor. [77]
Hochreiter, Heuesel y Obermayr aplicaron LSTM a la detección de homología de proteínas en el campo de la biología . [37]
2009: Un LSTM entrenado por CTC ganó la competencia de reconocimiento de escritura a mano conectada ICDAR . Tres de esos modelos fueron presentados por un equipo dirigido por Alex Graves . [79] Uno fue el modelo más preciso de la competencia y otro fue el más rápido. [80] Esta fue la primera vez que una RNN ganó competencias internacionales. [63]
2013: Alex Graves, Abdel-rahman Mohamed y Geoffrey Hinton utilizaron redes LSTM como un componente principal de una red que logró una tasa récord de error de fonemas del 17,7 % en el conjunto de datos de habla natural clásico TIMIT . [28]
Investigadores de la Universidad Estatal de Michigan , IBM Research y la Universidad de Cornell publicaron un estudio en la conferencia Knowledge Discovery and Data Mining (KDD). [81] [82] [83] Su LSTM consciente del tiempo (T-LSTM) funciona mejor en ciertos conjuntos de datos que el LSTM estándar.
^ a b C Hochreiter, Sepp (1991). Untersuchungen zu dynamischen neuronalen Netzen (PDF) (tesis de diploma). Universidad Técnica de Munich, Instituto de Ciencias de la Computación.
^ ab Hochreiter, Sepp; Schmidhuber, Jürgen (3 de diciembre de 1996). "LSTM puede resolver problemas complejos con retardo temporal prolongado". Actas de la 9.ª Conferencia internacional sobre sistemas de procesamiento de información neuronal . NIPS'96. Cambridge, MA, EE. UU.: MIT Press: 473–479.
^ abc Felix A. Gers; Jürgen Schmidhuber; Fred Cummins (2000). "Aprendiendo a olvidar: predicción continua con LSTM". Computación neuronal . 12 (10): 2451–2471. CiteSeerX 10.1.1.55.5709 . doi :10.1162/089976600300015015. PMID 11032042. S2CID 11598600.
^ abc Graves, Alex; Fernández, Santiago; Gomez, Faustino; Schmidhuber, Jürgen (2006). "Clasificación temporal conexionista: etiquetado de datos de secuencias no segmentadas con redes neuronales recurrentes". En Actas de la Conferencia Internacional sobre Aprendizaje Automático, ICML 2006 : 369–376. CiteSeerX 10.1.1.75.6306 .
^ Karim, Fazle; Majumdar, Somshubra; Darabi, Houshang; Chen, Shun (2018). "Redes totalmente convolucionales LSTM para la clasificación de series temporales". IEEE Access . 6 : 1662–1669. doi :10.1109/ACCESS.2017.2779939. ISSN 2169-3536.
^ abcd Wierstra, Daan; Schmidhuber, J.; Gomez, FJ (2005). "Evolino: Neuroevolución híbrida/Búsqueda lineal óptima para el aprendizaje de secuencias". Actas de la 19.ª Conferencia conjunta internacional sobre inteligencia artificial (IJCAI), Edimburgo : 853–858.
^ Sak, Hasim; Senior, Andrew; Beaufays, Francoise (2014). "Arquitecturas de redes neuronales recurrentes de memoria a corto y largo plazo para modelado acústico a gran escala" (PDF) . Archivado desde el original (PDF) el 24 de abril de 2018.
^ Li, Xiangang; Wu, Xihong (15 de octubre de 2014). "Construcción de redes neuronales recurrentes profundas basadas en memoria de corto y largo plazo para el reconocimiento de voz de vocabulario amplio". arXiv : 1410.4281 [cs.CL].
^ ab Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V.; Norouzi, Mohammad; Macherey, Wolfgang; Krikun, Maxim; Cao, Yuan; Gao, Qin (26 de septiembre de 2016). "El sistema de traducción automática neuronal de Google: cerrando la brecha entre la traducción humana y la traducción automática". arXiv : 1609.08144 [cs.CL].
^ ab Ong, Thuy (4 de agosto de 2017). "Las traducciones de Facebook ahora funcionan completamente con inteligencia artificial". www.allthingsdistributed.com . Consultado el 15 de febrero de 2019 .
^ Sahidullah, Maryland; Patiño, José; Cornell, Samuele; Yin, Ruiking; Sivasankaran, Sunit; Bredin, Hervé; Korshunov, Pavel; Brutti, Alessio; Serizel, Romain; Vicente, Emmanuel; Evans, Nicolás; Marcel, Sebastián; Squartini, Stefano; Barras, Claude (6 de noviembre de 2019). "La presentación rápida a DIHARD II: contribuciones y lecciones aprendidas". arXiv : 1911.02388 [eess.AS].
^ abc Mayer, H.; Gomez, F.; Wierstra, D.; Nagy, I.; Knoll, A.; Schmidhuber, J. (octubre de 2006). "Un sistema para cirugía cardíaca robótica que aprende a hacer nudos utilizando redes neuronales recurrentes". Conferencia internacional IEEE/RSJ de 2006 sobre robots y sistemas inteligentes . págs. 543–548. CiteSeerX 10.1.1.218.3399 . doi :10.1109/IROS.2006.282190. ISBN978-1-4244-0258-8.S2CID12284900 .
^ ab "Aprender destreza". OpenAI . 30 de julio de 2018 . Consultado el 28 de junio de 2023 .
^ ab Rodriguez, Jesus (2 de julio de 2018). "La ciencia detrás de OpenAI Cinco que acaban de producir uno de los mayores avances en la historia de la IA". Towards Data Science . Archivado desde el original el 26 de diciembre de 2019. Consultado el 15 de enero de 2019 .
^ ab Stanford, Stacy (25 de enero de 2019). "La IA de DeepMind, AlphaStar, muestra un progreso significativo hacia la inteligencia artificial general". Medium ML Memoirs . Consultado el 15 de enero de 2019 .
^ Schmidhuber, Jürgen (2021). «La década de 2010: nuestra década de aprendizaje profundo / Perspectivas para la década de 2020». Blog de IA . IDSIA, Suiza . Consultado el 30 de abril de 2022 .
^ Calin, Ovidiu (14 de febrero de 2020). Arquitecturas de aprendizaje profundo . Cham, Suiza: Springer Nature. p. 555. ISBN978-3-030-36720-6.
^ Lakretz, Yair; Kruszewski, alemán; Desbordes, Theo; Hupkes, Dieuwke; Dehaene, Estanislao; Baroni, Marco (2019), "La aparición de unidades numéricas y de sintaxis en", La aparición de unidades numéricas y de sintaxis (PDF) , Asociación de Lingüística Computacional, págs. 11-20, doi :10.18653/v1/N19-1002, hdl :11245.1/16cb6800-e10d-4166-8e0b-fed61ca6ebb4, S2CID 81978369
^ abcd Klaus Greff; Rupesh Kumar Srivastava; Jan Koutník; Bas R. Steunebrink; Jürgen Schmidhuber (2015). "LSTM: una odisea del espacio de búsqueda". IEEE Transactions on Neural Networks and Learning Systems . 28 (10): 2222–2232. arXiv : 1503.04069 . Código Bibliográfico :2015arXiv150304069G. doi :10.1109/TNNLS.2016.2582924. PMID 27411231. S2CID 3356463.
^ abcdef Gers, FA; Schmidhuber, J. (2001). "Las redes recurrentes LSTM aprenden lenguajes simples, libres de contexto y sensibles al contexto" (PDF) . Transacciones IEEE sobre redes neuronales . 12 (6): 1333–1340. doi :10.1109/72.963769. PMID 18249962. S2CID 10192330.
^ abcd Gers, F.; Schraudolph, N.; Schmidhuber, J. (2002). "Aprendizaje de tiempos precisos con redes recurrentes LSTM" (PDF) . Journal of Machine Learning Research . 3 : 115–143.
^ Xingjian Shi; Zhourong Chen; Hao Wang; Dit-Yan Yeung; Wai-kin Wong; Wang-chun Woo (2015). "Red LSTM convolucional: un enfoque de aprendizaje automático para la predicción inmediata de la precipitación". Actas de la 28.ª Conferencia internacional sobre sistemas de procesamiento de información neuronal : 802–810. arXiv : 1506.04214 . Código Bibliográfico :2015arXiv150604214S.
^ Hochreiter, S.; Bengio, Y.; Frasconi, P.; Schmidhuber, J. (2001). "Flujo de gradiente en redes recurrentes: la dificultad de aprender dependencias a largo plazo (Descarga en PDF disponible)". En Kremer y, SC; Kolen, JF (eds.). Una guía de campo para redes neuronales recurrentes dinámicas . IEEE Press.
^ Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). "Etiquetado de secuencias en dominios estructurados con redes neuronales recurrentes jerárquicas". Proc. 20th Int. Joint Conf. On Artificial Intelligence, Ijcai 2007 : 774–779. CiteSeerX 10.1.1.79.1887 .
^ ab Graves, A.; Schmidhuber, J. (2005). "Clasificación de fonemas por marco con LSTM bidireccional y otras arquitecturas de redes neuronales". Redes neuronales . 18 (5–6): 602–610. CiteSeerX 10.1.1.331.5800 . doi :10.1016/j.neunet.2005.06.042. PMID 16112549. S2CID 1856462.
^ Fernández, S.; Graves, A.; Schmidhuber, J. (9 de septiembre de 2007). "Una aplicación de redes neuronales recurrentes para la detección discriminativa de palabras clave". Actas de la 17.ª Conferencia internacional sobre redes neuronales artificiales . ICANN'07. Berlín, Heidelberg: Springer-Verlag: 220–229. ISBN978-3540746935. Recuperado el 28 de diciembre de 2023 .
^ ab Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey (2013). "Reconocimiento de voz con redes neuronales recurrentes profundas". Conferencia internacional IEEE de 2013 sobre acústica, voz y procesamiento de señales . págs. 6645–6649. arXiv : 1303.5778 . doi :10.1109/ICASSP.2013.6638947. ISBN .978-1-4799-0356-6.S2CID206741496 .
^ Kratzert, Frederik; Klotz, Daniel; Shalev, Guy; Klambauer, Günter; Hochreiter, Sepp; Nearing, Grey (17 de diciembre de 2019). "Hacia el aprendizaje de comportamientos hidrológicos universales, regionales y locales mediante aprendizaje automático aplicado a conjuntos de datos de muestras grandes". Hidrología y Ciencias del Sistema Terrestre . 23 (12): 5089–5110. arXiv : 1907.08456 . Código Bibliográfico :2019HESS...23.5089K. doi : 10.5194/hess-23-5089-2019 . ISSN 1027-5606.
^ Eck, Douglas; Schmidhuber, Jürgen (28 de agosto de 2002). "Aprendiendo la estructura a largo plazo del blues". Redes neuronales artificiales — ICANN 2002. Apuntes de clase en informática. Vol. 2415. Springer, Berlín, Heidelberg. págs. 284–289. CiteSeerX 10.1.1.116.3620 . doi :10.1007/3-540-46084-5_47. ISBN .978-3540460848.
^ Schmidhuber, J.; Gers, F.; Eck, D.; Schmidhuber, J.; Gers, F. (2002). "Aprendizaje de lenguajes no regulares: una comparación de redes recurrentes simples y LSTM". Neural Computation . 14 (9): 2039–2041. CiteSeerX 10.1.1.11.7369 . doi :10.1162/089976602320263980. PMID 12184841. S2CID 30459046.
^ Perez-Ortiz, JA; Gers, FA; Eck, D.; Schmidhuber, J. (2003). "Los filtros de Kalman mejoran el rendimiento de la red LSTM en problemas irresolubles mediante redes recurrentes tradicionales". Redes neuronales . 16 (2): 241–250. CiteSeerX 10.1.1.381.1992 . doi :10.1016/s0893-6080(02)00219-8. PMID 12628609.
^ A. Graves, J. Schmidhuber. Reconocimiento de escritura a mano sin conexión con redes neuronales recurrentes multidimensionales. Avances en sistemas de procesamiento de información neuronal 22, NIPS'22, págs. 545–552, Vancouver, MIT Press, 2009.
^ Graves, A.; Fernández, S.; Liwicki, M.; Bunke, H.; Schmidhuber, J. (3 de diciembre de 2007). "Reconocimiento de escritura a mano en línea sin restricciones con redes neuronales recurrentes". Actas de la 20.ª Conferencia internacional sobre sistemas de procesamiento de información neuronal . NIPS'07. EE. UU.: Curran Associates Inc.: 577–584. ISBN9781605603520. Recuperado el 28 de diciembre de 2023 .
^ Baccouche, M.; Mamalet, F.; Wolf, C.; Garcia, C.; Baskurt, A. (2011). "Aprendizaje profundo secuencial para el reconocimiento de acciones humanas". En Salah, AA; Lepri, B. (eds.). 2nd International Workshop on Human Behavior Understanding (HBU) . Lecture Notes in Computer Science. Vol. 7065. Ámsterdam, Países Bajos: Springer. págs. 29–39. doi :10.1007/978-3-642-25446-8_4. ISBN978-3-642-25445-1.
^ Huang, Jie; Zhou, Wengang; Zhang, Qilin; Li, Houqiang; Li, Weiping (30 de enero de 2018). "Reconocimiento de lengua de signos basado en vídeo sin segmentación temporal". arXiv : 1801.10111 [cs.CV].
^ ab Hochreiter, S.; Heusel, M.; Obermayer, K. (2007). "Detección rápida de homología de proteínas basada en modelos sin alineamiento". Bioinformática . 23 (14): 1728–1736. doi : 10.1093/bioinformatics/btm247 . PMID 17488755.
^ Thireou, T.; Reczko, M. (2007). "Redes de memoria a corto y largo plazo bidireccionales para predecir la localización subcelular de proteínas eucariotas". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 4 (3): 441–446. doi :10.1109/tcbb.2007.1015. PMID 17666763. S2CID 11787259.
^ Malhotra, Pankaj; Vig, Lovekesh; Shroff, Gautam; Agarwal, Puneet (abril de 2015). "Redes de memoria a corto y largo plazo para la detección de anomalías en series temporales" (PDF) . Simposio europeo sobre redes neuronales artificiales, inteligencia computacional y aprendizaje automático — ESANN 2015. Archivado desde el original (PDF) el 2020-10-30 . Consultado el 2018-02-21 .
^ Tax, N.; Verenich, I.; La Rosa, M.; Dumas, M. (2017). "Monitoreo predictivo de procesos de negocios con redes neuronales LSTM". Ingeniería de sistemas de información avanzada . Apuntes de clase en informática. Vol. 10253. págs. 477–492. arXiv : 1612.02130 . doi :10.1007/978-3-319-59536-8_30. ISBN .978-3-319-59535-1. Número de identificación del sujeto 2192354.
^ Choi, E.; Bahadori, MT; Schuetz, E.; Stewart, W.; Sun, J. (2016). "Doctor AI: Predicción de eventos clínicos a través de redes neuronales recurrentes". Actas de talleres y congresos del JMLR . 56 : 301–318. arXiv : 1511.05942 . Código Bibliográfico :2015arXiv151105942C. PMC 5341604 . PMID 28286600.
^ Jia, Robin; Liang, Percy (2016). "Recombinación de datos para análisis semántico neuronal". arXiv : 1606.03622 [cs.CL].
^ Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (22 de mayo de 2018). "Segment-Tube: localización de acciones espacio-temporales en vídeos sin recortar con segmentación por fotograma" (PDF) . Sensors . 18 (5): 1657. Bibcode :2018Senso..18.1657W. doi : 10.3390/s18051657 . ISSN 1424-8220. PMC 5982167 . PMID 29789447.
^ Duan, Xuhuan; Wang, Le; Zhai, Changbo; Zheng, Nanning; Zhang, Qilin; Niu, Zhenxing; Hua, pandilla (2018). "Localización conjunta de acciones espacio-temporales en vídeos sin recortar con segmentación por fotograma". 2018 25a Conferencia Internacional IEEE sobre Procesamiento de Imágenes (ICIP) . 25ª Conferencia Internacional IEEE sobre Procesamiento de Imágenes (ICIP). págs. 918–922. doi :10.1109/icip.2018.8451692. ISBN978-1-4799-7061-2.
^ Orsini, F.; Gastaldi, M.; Mantecchini, L.; Rossi, R. (2019). Redes neuronales entrenadas con trazas WiFi para predecir el comportamiento de los pasajeros del aeropuerto . 6.ª Conferencia Internacional sobre Modelos y Tecnologías para Sistemas Inteligentes de Transporte. Cracovia: IEEE. arXiv : 1910.14026 . doi :10.1109/MTITS.2019.8883365. 8883365.
^ Zhao, Z.; Chen, W.; Wu, X.; Chen, PCY; Liu, J. (2017). "Red LSTM: un enfoque de aprendizaje profundo para el pronóstico de tráfico a corto plazo". IET Intelligent Transport Systems . 11 (2): 68–75. doi :10.1049/iet-its.2016.0208. S2CID 114567527.
^ Gupta A, Müller AT, Huisman BJH, Fuchs JA, Schneider P, Schneider G (2018). "Redes recurrentes generativas para el diseño de fármacos de novo". Mol Inform . 37 (1–2). doi :10.1002/minf.201700111. PMC 5836943 . PMID 29095571.{{cite journal}}: CS1 maint: multiple names: authors list (link)
^ Saiful Islam, Md.; Hossain, Emam (26 de octubre de 2020). "Predicción del tipo de cambio de divisas mediante una red híbrida GRU-LSTM". Soft Computing Letters . 3 : 100009. doi : 10.1016/j.socl.2020.100009 . ISSN 2666-2221.
^ {{Cite Abbey Martin, Andrew J. Hill, Konstantin M. Seiler y Mehala Balamurali (2023) Reconocimiento automático de la acción de la excavadora y localización de videos sin recortar utilizando redes híbridas LSTM-Transformer, International Journal of Mining, Reclamation and Environment, DOI: 10.1080/17480930.2023.2290364}}
^ Beaufays, Françoise (11 de agosto de 2015). «Las redes neuronales detrás de la transcripción de Google Voice». Blog de investigación . Consultado el 27 de junio de 2017 .
^ Sak, Haşim; Senior, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (24 de septiembre de 2015). «Búsqueda por voz de Google: más rápida y precisa». Blog de investigación . Consultado el 27 de junio de 2017 .
^ "Receta de neón... o mejor dicho, Nueva transcripción para Google Voice". Blog oficial de Google . 23 de julio de 2015 . Consultado el 25 de abril de 2020 .
^ Khaitan, Pranav (18 de mayo de 2016). "Chatea de forma más inteligente con Allo". Blog de investigación . Consultado el 27 de junio de 2017 .
^ Metz, Cade (27 de septiembre de 2016). "Una infusión de IA hace que Google Translate sea más poderoso que nunca | WIRED". Wired . Consultado el 27 de junio de 2017 .
^ "Una red neuronal para la traducción automática a escala de producción". Blog de inteligencia artificial de Google . 27 de septiembre de 2016. Consultado el 25 de abril de 2020 .
^ Efrati, Amir (13 de junio de 2016). "Las máquinas de Apple también pueden aprender". The Information . Consultado el 27 de junio de 2017 .
^ Ranger, Steve (14 de junio de 2016). «iPhone, IA y big data: así es como Apple planea proteger tu privacidad». ZDNet . Consultado el 27 de junio de 2017 .
^ "¿Puede el contexto semántico global mejorar los modelos de lenguaje neuronal? – Apple". Apple Machine Learning Journal . Consultado el 30 de abril de 2020 .
^ Smith, Chris (13 de junio de 2016). «iOS 10: Siri ahora funciona en aplicaciones de terceros y viene con funciones de inteligencia artificial adicionales». BGR . Consultado el 27 de junio de 2017 .
^ Capes, Tim; Coles, Paul; Conkie, Alistair; Golipour, Ladan; Hadjitarkhani, Abie; Hu, Qiong; Huddleston, Nancy; Hunt, Melvyn; Li, Jiangchuan; Neeracher, Matthias; Prahallad, Kishore (20 de agosto de 2017). "Sistema de texto a voz con selección de unidades guiada por aprendizaje profundo en el dispositivo Siri". Interspeech 2017. ISCA: 4011–4015. doi :10.21437/Interspeech.2017-1798.
^ Vogels, Werner (30 de noviembre de 2016). "Llevar la magia de Amazon AI y Alexa a las aplicaciones en AWS. – All Things Distributed". www.allthingsdistributed.com . Consultado el 27 de junio de 2017 .
^ Xiong, W.; Wu, L.; Alleva, F.; Droppo, J.; Huang, X.; Stolcke, A. (abril de 2018). "El sistema de reconocimiento de voz conversacional de Microsoft 2017". Conferencia internacional IEEE de 2018 sobre acústica, voz y procesamiento de señales (ICASSP) . IEEE. págs. 5934–5938. doi :10.1109/ICASSP.2018.8461870. ISBN .978-1-5386-4658-8.
^ abcdef Schmidhuber, Juergen (10 de mayo de 2021). "Aprendizaje profundo: nuestro año milagroso 1990-1991". arXiv : 2005.05744 [cs.NE].
^ Mozer, Mike (1989). "Un algoritmo de retropropagación enfocado para el reconocimiento de patrones temporales". Sistemas complejos .
^ Schmidhuber, Juergen (2022). "Historia comentada de la IA moderna y el aprendizaje profundo". arXiv : 2212.11279 [cs.NE].
^ abc Gers, Felix; Schmidhuber, Jürgen; Cummins, Fred (1999). "Aprendiendo a olvidar: predicción continua con LSTM". Novena Conferencia Internacional sobre Redes Neuronales Artificiales: ICANN '99 . Vol. 1999. págs. 850–855. doi :10.1049/cp:19991218. ISBN0-85296-721-7.
^ Cho, Kyunghyun; van Merrienboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). "Aprendizaje de representaciones de frases mediante el codificador-decodificador RNN para traducción automática estadística". arXiv : 1406.1078 [cs.CL].
^ Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen (2 de mayo de 2015). "Redes de Carreteras". arXiv : 1505.00387 [cs.LG].
^ Srivastava, Rupesh K; Greff, Klaus; Schmidhuber, Juergen (2015). "Entrenamiento de redes muy profundas". Avances en sistemas de procesamiento de información neuronal . 28 . Curran Associates, Inc.: 2377–2385.
^ Schmidhuber, Jürgen (2021). "Las redes neuronales más citadas se basan en el trabajo realizado en mis laboratorios". AI Blog . IDSIA, Suiza . Consultado el 30 de abril de 2022 .
^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). Aprendizaje residual profundo para reconocimiento de imágenes. Conferencia IEEE 2016 sobre visión artificial y reconocimiento de patrones (CVPR) . Las Vegas, NV, EE. UU.: IEEE. págs. 770–778. arXiv : 1512.03385 . doi :10.1109/CVPR.2016.90. ISBN .978-1-4673-8851-1.
^ Beck, Maximiliano; Pöppel, korbiniano; Sparing, Markus; Auer, Andreas; Prudnikova, Oleksandra; Kopp, Michael; Klambauer, Günter; Brandstetter, Johannes; Hochreiter, Sepp (7 de mayo de 2024). "xLSTM: memoria extendida a largo plazo". arXiv : 2405.04517 [cs.LG].
^ NX-AI/xlstm, NXAI, 4 de junio de 2024 , consultado el 4 de junio de 2024
^ Graves, Alex; Beringer, Nicole; Eck, Douglas; Schmidhuber, Juergen (2004). Reconocimiento de voz biológicamente plausible con redes neuronales LSTM . Taller sobre enfoques de inspiración biológica para la tecnología de la información avanzada, Bio-ADIT 2004, Lausana, Suiza. págs. 175–184.
^ Hochreiter, S.; Younger, AS; Conwell, PR (2001). "Aprender a aprender usando el descenso de gradiente". Redes neuronales artificiales — ICANN 2001 (PDF) . Apuntes de clase en informática. Vol. 2130. págs. 87–94. CiteSeerX 10.1.1.5.323 . doi :10.1007/3-540-44668-0_13. ISBN978-3-540-42486-4. ISSN 0302-9743. S2CID 52872549.
^ Wierstra, Daan; Foerster, Alexander; Peters, Jan; Schmidhuber, Juergen (2005). "Resolución de POMDP de memoria profunda con gradientes de políticas recurrentes". Conferencia internacional sobre redes neuronales artificiales ICANN'07 .
^ Bayer, Justin; Wierstra, Daan; Togelius, Julian; Schmidhuber, Juergen (2009). "Evolución de las estructuras de las células de memoria para el aprendizaje de secuencias". Conferencia internacional sobre redes neuronales artificiales ICANN'09, Chipre .
^ Graves, A.; Liwicki, M.; Fernández, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (mayo de 2009). "Un nuevo sistema conexionista para el reconocimiento de escritura a mano sin restricciones". IEEE Transactions on Pattern Analysis and Machine Intelligence . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . doi :10.1109/tpami.2008.137. ISSN 0162-8828. PMID 19299860. S2CID 14635907.
^ Märgner, Volker; Abed, Haikal El (julio de 2009). "Concurso de reconocimiento de escritura a mano árabe ICDAR 2009". 2009 10.ª Conferencia internacional sobre análisis y reconocimiento de documentos . págs. 1383–1387. doi :10.1109/ICDAR.2009.256. ISBN978-1-4244-4500-4. Número de identificación del sujeto 52851337.
^ "Subtipificación de pacientes mediante redes LSTM con reconocimiento temporal" (PDF) . msu.edu . Consultado el 21 de noviembre de 2018 .
^ "Subtipificación de pacientes mediante redes LSTM con reconocimiento temporal". Kdd.org . Consultado el 24 de mayo de 2018 .
^ "SIGKDD". Kdd.org . Consultado el 24 de mayo de 2018 .
Lectura adicional
Monner, Derek D.; Reggia, James A. (2010). "Un algoritmo de entrenamiento generalizado similar a LSTM para redes neuronales recurrentes de segundo orden" (PDF) . Redes neuronales . 25 (1): 70–83. doi :10.1016/j.neunet.2011.07.003. PMC 3217173. PMID 21803542. Extensión de alto rendimiento de LSTM que se ha simplificado a un solo tipo de nodo y puede entrenar arquitecturas arbitrarias.
Gers, Felix A.; Schraudolph, Nicol N.; Schmidhuber, Jürgen (agosto de 2002). "Aprendizaje de tiempos precisos con redes recurrentes LSTM" (PDF) . Journal of Machine Learning Research . 3 : 115–143.
Gers, Felix (2001). "Memoria a corto y largo plazo en redes neuronales recurrentes" (PDF) . Tesis doctoral .
Abidogun, Olusola Adeniyi (2005). Minería de datos, detección de fraudes y telecomunicaciones móviles: análisis de patrones de llamadas con redes neuronales no supervisadas. Tesis de maestría (tesis). Universidad del Cabo Occidental. hdl :11394/249. Archivado (PDF) desde el original el 22 de mayo de 2012.
Original con dos capítulos dedicados a explicar las redes neuronales recurrentes, especialmente LSTM.
Zhang, Aston; Lipton, Zachary; Li, Mu; Smola, Alexander J. (2024). "10.1. Memoria a corto y largo plazo (LSTM)". Sumérjase en el aprendizaje profundo . Cambridge New York Port Melbourne New Delhi Singapore: Cambridge University Press. ISBN 978-1-009-38943-3.