stringtranslate.com

Memoria a corto plazo y larga duración

La célula de memoria a largo plazo-corto plazo (LSTM) puede procesar datos secuencialmente y mantener su estado oculto a través del tiempo.

La memoria a corto plazo larga ( LSTM ) [1] es un tipo de red neuronal recurrente (RNN) destinada a mitigar el problema del gradiente de desaparición [2] que suelen encontrar las RNN tradicionales. Su relativa insensibilidad a la longitud de la brecha es su ventaja sobre otras RNN, modelos ocultos de Markov y otros métodos de aprendizaje de secuencias. Su objetivo es proporcionar una memoria a corto plazo para RNN que pueda durar miles de pasos de tiempo (de ahí la " memoria a corto plazo larga "). [1] El nombre se hace en analogía con la memoria a largo plazo y la memoria a corto plazo y su relación, estudiada por psicólogos cognitivos desde principios del siglo XX.

Una unidad LSTM se compone típicamente de una celda y tres puertas : una puerta de entrada , una puerta de salida [3] y una puerta de olvido [4] . La celda recuerda valores en intervalos de tiempo arbitrarios y las puertas regulan el flujo de información dentro y fuera de la celda. Las puertas de olvido deciden qué información descartar del estado anterior, asignando el estado anterior y la entrada actual a un valor entre 0 y 1. Un valor (redondeado) de 1 significa retención de la información y un valor de 0 representa descarte. Las puertas de entrada deciden qué piezas de información nueva almacenar en el estado actual de la celda, utilizando el mismo sistema que las puertas de olvido. Las puertas de salida controlan qué piezas de información en el estado actual de la celda se emitirán, asignando un valor de 0 a 1 a la información, considerando los estados anterior y actual. La emisión selectiva de información relevante del estado actual permite a la red LSTM mantener dependencias útiles a largo plazo para hacer predicciones, tanto en pasos de tiempo actuales como futuros.

LSTM tiene amplias aplicaciones en clasificación , [5] [6] procesamiento de datos , tareas de análisis de series de tiempo , [7] reconocimiento de voz , [8] [9] traducción automática , [10] [11] detección de actividad del habla, [12] control de robots , [13] [14] videojuegos , [15] [16] y atención médica . [17]

Motivación

En teoría, las RNN clásicas pueden realizar un seguimiento de dependencias arbitrarias a largo plazo en las secuencias de entrada. El problema con las RNN clásicas es de naturaleza computacional (o práctica): cuando se entrena una RNN clásica mediante retropropagación , los gradientes a largo plazo que se retropropagan pueden "desaparecer" , lo que significa que pueden tender a cero debido a que números muy pequeños se introducen en los cálculos, lo que hace que el modelo deje de aprender de manera efectiva. Las RNN que utilizan unidades LSTM resuelven parcialmente el problema del gradiente evanescente , porque las unidades LSTM permiten que los gradientes también fluyan con poca o ninguna atenuación. Sin embargo, las redes LSTM aún pueden sufrir el problema del gradiente explosivo. [18]

La intuición detrás de la arquitectura LSTM es crear un módulo adicional en una red neuronal que aprende cuándo recordar y cuándo olvidar información pertinente. [4] En otras palabras, la red aprende efectivamente qué información podría ser necesaria más adelante en una secuencia y cuándo esa información ya no es necesaria. Por ejemplo, en el contexto del procesamiento del lenguaje natural , la red puede aprender dependencias gramaticales. [19] Un LSTM podría procesar la oración " Dave , como resultado de sus controvertidas afirmaciones, ahora es un paria" recordando el género y número gramaticales (estadísticamente probables) del sujeto Dave , note que esta información es pertinente para el pronombre his y note que esta información ya no es importante después del verbo is .

Variantes

En las ecuaciones que aparecen a continuación, las variables en minúscula representan vectores. Las matrices y contienen, respectivamente, los pesos de las conexiones de entrada y recurrentes, donde el subíndice puede ser la puerta de entrada , la puerta de salida , la puerta de olvido o la celda de memoria , según la activación que se esté calculando. En esta sección, utilizamos una "notación vectorial". Por ejemplo, no es solo una unidad de una celda LSTM, sino que contiene las unidades de la celda LSTM.

Consulte [20] para un estudio empírico de 8 variantes arquitectónicas de LSTM.

LSTM con puerta de olvido

Las formas compactas de las ecuaciones para el paso hacia adelante de una celda LSTM con una puerta de olvido son: [1] [4]

donde los valores iniciales son y y el operador denota el producto Hadamard (producto elemento por elemento). El subíndice indica el paso de tiempo.

Variables

Dejando que los superíndices y hagan referencia al número de características de entrada y al número de unidades ocultas, respectivamente:

Funciones de activación

Mirilla LSTM

Una unidad LSTM de mirilla con puertas de entrada (ie ), salida (ie ) y olvido (ie )

La figura de la derecha es una representación gráfica de una unidad LSTM con conexiones de mirilla (es decir, un LSTM de mirilla). [21] [22] Las conexiones de mirilla permiten que las puertas accedan al carrusel de error constante (CEC), cuya activación es el estado de la celda. [21] no se utiliza, se utiliza en su lugar en la mayoría de los lugares.

Cada una de las puertas puede considerarse como una neurona "estándar" en una red neuronal de propagación hacia adelante (o multicapa): es decir, calculan una activación (utilizando una función de activación) de una suma ponderada y representan las activaciones de las puertas de entrada, salida y olvido, respectivamente, en el paso de tiempo .

Las 3 flechas de salida de la celda de memoria hacia las 3 puertas y representan las conexiones de mirilla . Estas conexiones de mirilla en realidad denotan las contribuciones de la activación de la celda de memoria en el paso de tiempo , es decir, la contribución de (y no , como la imagen puede sugerir). En otras palabras, las puertas y calculan sus activaciones en el paso de tiempo (es decir, respectivamente, y ) considerando también la activación de la celda de memoria en el paso de tiempo , es decir .

La única flecha de izquierda a derecha que sale de la celda de memoria no es una conexión de mirilla y denota .

Los círculos pequeños que contienen un símbolo representan una multiplicación elemento por elemento entre sus entradas. Los círculos grandes que contienen una curva tipo S representan la aplicación de una función diferenciable (como la función sigmoidea) a una suma ponderada.

LSTM convolucional de mirilla

LSTM convolucional de mirilla . [23] El denota el operador de convolución .

Capacitación

Una RNN que utiliza unidades LSTM se puede entrenar de manera supervisada en un conjunto de secuencias de entrenamiento, utilizando un algoritmo de optimización como el descenso de gradiente combinado con retropropagación a través del tiempo para calcular los gradientes necesarios durante el proceso de optimización, a fin de cambiar cada peso de la red LSTM en proporción a la derivada del error (en la capa de salida de la red LSTM) con respecto al peso correspondiente.

Un problema con el uso del descenso de gradiente para las RNN estándar es que los gradientes de error desaparecen exponencialmente rápido con el tamaño del desfase temporal entre eventos importantes. Esto se debe a que si el radio espectral de es menor que 1. [2] [24]

Sin embargo, con las unidades LSTM, cuando los valores de error se retropropagan desde la capa de salida, el error permanece en la celda de la unidad LSTM. Este "carrusel de errores" retroalimenta continuamente el error a cada una de las puertas de la unidad LSTM, hasta que aprenden a cortar el valor.

Función de puntuación CTC

Muchas aplicaciones utilizan pilas de RNN LSTM [25] y las entrenan mediante clasificación temporal conexionista (CTC) [5] para encontrar una matriz de ponderación de RNN que maximice la probabilidad de las secuencias de etiquetas en un conjunto de entrenamiento, dadas las secuencias de entrada correspondientes. La CTC logra tanto la alineación como el reconocimiento.

Alternativas

A veces, puede ser ventajoso entrenar (partes de) un LSTM mediante neuroevolución [7] o mediante métodos de gradiente de políticas, especialmente cuando no hay un "maestro" (es decir, etiquetas de entrenamiento).

Aplicaciones

Las aplicaciones de LSTM incluyen:

2015: Google comenzó a utilizar un LSTM entrenado por CTC para el reconocimiento de voz en Google Voice. [50] [51] Según la publicación del blog oficial, el nuevo modelo redujo los errores de transcripción en un 49 %. [52]

2016: Google comenzó a utilizar un LSTM para sugerir mensajes en la aplicación de conversación Allo. [53] Ese mismo año, Google lanzó el sistema de traducción automática neuronal de Google para Google Translate, que utilizaba LSTM para reducir los errores de traducción en un 60 %. [10] [54] [55]

Apple anunció en su Conferencia Mundial de Desarrolladores que comenzaría a utilizar el LSTM para escritura rápida [56] [57] [58] en el iPhone y para Siri. [59] [60]

Amazon lanzó Polly , que genera las voces detrás de Alexa, utilizando un LSTM bidireccional para la tecnología de texto a voz. [61]

2017: Facebook realizó alrededor de 4.500 millones de traducciones automáticas cada día utilizando redes de memoria de corto plazo y largo plazo. [11]

Microsoft informó que alcanzó una precisión de reconocimiento del 94,9% en el corpus de Switchboard, que incorpora un vocabulario de 165.000 palabras. El enfoque utilizó una "memoria a corto y largo plazo basada en sesiones de diálogo". [62]

2018: OpenAI utilizó LSTM entrenado por gradientes de políticas para vencer a humanos en el complejo videojuego Dota 2, [15] y para controlar una mano robótica similar a la humana que manipula objetos físicos con una destreza sin precedentes. [14] [63]

2019: DeepMind utilizó LSTM entrenado por gradientes de políticas para sobresalir en el complejo videojuego Starcraft II . [16] [63]

Historia

Desarrollo

Los aspectos de LSTM fueron anticipados por la "retropropagación enfocada" (Mozer, 1989), [64] citado en el artículo LSTM. [1]

La tesis de diploma alemana de 1991 de Sepp Hochreiter analizó el problema del gradiente evanescente y desarrolló los principios del método. [2] Su supervisor, Jürgen Schmidhuber , consideró que la tesis era muy significativa. [65]

Una primera versión de LSTM fue publicada en 1995 en un informe técnico de Sepp Hochreiter y Jürgen Schmidhuber , [66] luego publicado en la conferencia NIPS de 1996. [3]

El punto de referencia más utilizado para LSTM se publicó en 1997 en la revista Neural Computation . [1] Al introducir unidades de carrusel de error constante (CEC), LSTM aborda el problema del gradiente evanescente . La versión inicial del bloque LSTM incluía celdas, puertas de entrada y salida. [20]

( Felix Gers , Jürgen Schmidhuber y Fred Cummins, 1999) [67] introdujo la puerta de olvido (también llamada "puerta de mantenimiento") en la arquitectura LSTM en 1999, lo que le permite al LSTM restablecer su propio estado. [20] Esta es la versión más utilizada de LSTM en la actualidad.

(Gers, Schmidhuber y Cummins, 2000) agregaron conexiones de mirilla. [21] [22] Además, se omitió la función de activación de salida. [20]

Desarrollo de variantes

(Graves, Fernández, Gómez y Schmidhuber, 2006) [5] introducen una nueva función de error para LSTM: Clasificación Temporal Conexionista (CTC) para la alineación y reconocimiento simultáneos de secuencias.

(Graves, Schmidhuber, 2005) [26] publicaron LSTM con retropropagación completa a través del tiempo y LSTM bidireccional.

(Kyunghyun Cho et al., 2014) [68] publicaron una variante simplificada de la compuerta de olvido LSTM [67] llamada unidad recurrente bloqueada (GRU).

(Rupesh Kumar Srivastava, Klaus Greff y Schmidhuber, 2015) utilizaron los principios LSTM [67] para crear la red Highway , una red neuronal de propagación hacia adelante con cientos de capas, mucho más profunda que las redes anteriores. [69] [70] [71] Al mismo tiempo, se desarrolló la arquitectura ResNet , que es equivalente a una red de autopistas con puertas abiertas o sin puertas. [72]

Un equipo dirigido por Sepp Hochreiter publicó una actualización moderna de LSTM llamada xLSTM (Maximilian et al, 2024). [73] [74] Uno de los 2 bloques (mLSTM) de la arquitectura es paralelizable como la arquitectura Transformer , los otros (sLSTM) permiten el seguimiento del estado.

Aplicaciones

2004: Primera aplicación exitosa de LSTM al habla Alex Graves et al. [75] [63]

2001: Gers y Schmidhuber entrenaron a LSTM para aprender lenguajes que no se pueden aprender con modelos tradicionales como los modelos ocultos de Markov. [21] [63]

Hochreiter et al. utilizaron LSTM para metaaprendizaje (es decir, aprender un algoritmo de aprendizaje). [76]

2005: Daan Wierstra, Faustino Gómez y Schmidhuber entrenaron LSTM mediante neuroevolución sin un maestro. [7]

Mayer et al. entrenaron a LSTM para controlar robots . [13]

2007: Wierstra, Foerster, Peters y Schmidhuber entrenaron LSTM mediante gradientes de políticas para el aprendizaje de refuerzo sin un profesor. [77]

Hochreiter, Heuesel y Obermayr aplicaron LSTM a la detección de homología de proteínas en el campo de la biología . [37]

2009: Justin Bayer et al. introdujeron la búsqueda de arquitectura neuronal para LSTM. [78] [63]

2009: Un LSTM entrenado por CTC ganó la competencia de reconocimiento de escritura a mano conectada ICDAR . Tres de esos modelos fueron presentados por un equipo dirigido por Alex Graves . [79] Uno fue el modelo más preciso de la competencia y otro fue el más rápido. [80] Esta fue la primera vez que una RNN ganó competencias internacionales. [63]

2013: Alex Graves, Abdel-rahman Mohamed y Geoffrey Hinton utilizaron redes LSTM como un componente principal de una red que logró una tasa récord de error de fonemas del 17,7 % en el conjunto de datos de habla natural clásico TIMIT . [28]

Investigadores de la Universidad Estatal de Michigan , IBM Research y la Universidad de Cornell publicaron un estudio en la conferencia Knowledge Discovery and Data Mining (KDD). [81] [82] [83] Su LSTM consciente del tiempo (T-LSTM) funciona mejor en ciertos conjuntos de datos que el LSTM estándar.

Véase también

Referencias

  1. ^ ABCDE Sepp Hochreiter ; Jürgen Schmidhuber (1997). "Memoria larga a corto plazo". Computación neuronal . 9 (8): 1735–1780. doi :10.1162/neco.1997.9.8.1735. PMID  9377276. S2CID  1915014.
  2. ^ a b C Hochreiter, Sepp (1991). Untersuchungen zu dynamischen neuronalen Netzen (PDF) (tesis de diploma). Universidad Técnica de Munich, Instituto de Ciencias de la Computación.
  3. ^ ab Hochreiter, Sepp; Schmidhuber, Jürgen (3 de diciembre de 1996). "LSTM puede resolver problemas complejos con retardo temporal prolongado". Actas de la 9.ª Conferencia internacional sobre sistemas de procesamiento de información neuronal . NIPS'96. Cambridge, MA, EE. UU.: MIT Press: 473–479.
  4. ^ abc Felix A. Gers; Jürgen Schmidhuber; Fred Cummins (2000). "Aprendiendo a olvidar: predicción continua con LSTM". Computación neuronal . 12 (10): 2451–2471. CiteSeerX 10.1.1.55.5709 . doi :10.1162/089976600300015015. PMID  11032042. S2CID  11598600. 
  5. ^ abc Graves, Alex; Fernández, Santiago; Gomez, Faustino; Schmidhuber, Jürgen (2006). "Clasificación temporal conexionista: etiquetado de datos de secuencias no segmentadas con redes neuronales recurrentes". En Actas de la Conferencia Internacional sobre Aprendizaje Automático, ICML 2006 : 369–376. CiteSeerX 10.1.1.75.6306 . 
  6. ^ Karim, Fazle; Majumdar, Somshubra; Darabi, Houshang; Chen, Shun (2018). "Redes totalmente convolucionales LSTM para la clasificación de series temporales". IEEE Access . 6 : 1662–1669. doi :10.1109/ACCESS.2017.2779939. ISSN  2169-3536.
  7. ^ abcd Wierstra, Daan; Schmidhuber, J.; Gomez, FJ (2005). "Evolino: Neuroevolución híbrida/Búsqueda lineal óptima para el aprendizaje de secuencias". Actas de la 19.ª Conferencia conjunta internacional sobre inteligencia artificial (IJCAI), Edimburgo : 853–858.
  8. ^ Sak, Hasim; Senior, Andrew; Beaufays, Francoise (2014). "Arquitecturas de redes neuronales recurrentes de memoria a corto y largo plazo para modelado acústico a gran escala" (PDF) . Archivado desde el original (PDF) el 24 de abril de 2018.
  9. ^ Li, Xiangang; Wu, Xihong (15 de octubre de 2014). "Construcción de redes neuronales recurrentes profundas basadas en memoria de corto y largo plazo para el reconocimiento de voz de vocabulario amplio". arXiv : 1410.4281 [cs.CL].
  10. ^ ab Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V.; Norouzi, Mohammad; Macherey, Wolfgang; Krikun, Maxim; Cao, Yuan; Gao, Qin (26 de septiembre de 2016). "El sistema de traducción automática neuronal de Google: cerrando la brecha entre la traducción humana y la traducción automática". arXiv : 1609.08144 [cs.CL].
  11. ^ ab Ong, Thuy (4 de agosto de 2017). "Las traducciones de Facebook ahora funcionan completamente con inteligencia artificial". www.allthingsdistributed.com . Consultado el 15 de febrero de 2019 .
  12. ^ Sahidullah, Maryland; Patiño, José; Cornell, Samuele; Yin, Ruiking; Sivasankaran, Sunit; Bredin, Hervé; Korshunov, Pavel; Brutti, Alessio; Serizel, Romain; Vicente, Emmanuel; Evans, Nicolás; Marcel, Sebastián; Squartini, Stefano; Barras, Claude (6 de noviembre de 2019). "La presentación rápida a DIHARD II: contribuciones y lecciones aprendidas". arXiv : 1911.02388 [eess.AS].
  13. ^ abc Mayer, H.; Gomez, F.; Wierstra, D.; Nagy, I.; Knoll, A.; Schmidhuber, J. (octubre de 2006). "Un sistema para cirugía cardíaca robótica que aprende a hacer nudos utilizando redes neuronales recurrentes". Conferencia internacional IEEE/RSJ de 2006 sobre robots y sistemas inteligentes . págs. 543–548. CiteSeerX 10.1.1.218.3399 . doi :10.1109/IROS.2006.282190. ISBN  978-1-4244-0258-8.S2CID12284900  .​
  14. ^ ab "Aprender destreza". OpenAI . 30 de julio de 2018 . Consultado el 28 de junio de 2023 .
  15. ^ ab Rodriguez, Jesus (2 de julio de 2018). "La ciencia detrás de OpenAI Cinco que acaban de producir uno de los mayores avances en la historia de la IA". Towards Data Science . Archivado desde el original el 26 de diciembre de 2019. Consultado el 15 de enero de 2019 .
  16. ^ ab Stanford, Stacy (25 de enero de 2019). "La IA de DeepMind, AlphaStar, muestra un progreso significativo hacia la inteligencia artificial general". Medium ML Memoirs . Consultado el 15 de enero de 2019 .
  17. ^ Schmidhuber, Jürgen (2021). «La década de 2010: nuestra década de aprendizaje profundo / Perspectivas para la década de 2020». Blog de IA . IDSIA, Suiza . Consultado el 30 de abril de 2022 .
  18. ^ Calin, Ovidiu (14 de febrero de 2020). Arquitecturas de aprendizaje profundo . Cham, Suiza: Springer Nature. p. 555. ISBN 978-3-030-36720-6.
  19. ^ Lakretz, Yair; Kruszewski, alemán; Desbordes, Theo; Hupkes, Dieuwke; Dehaene, Estanislao; Baroni, Marco (2019), "La aparición de unidades numéricas y de sintaxis en", La aparición de unidades numéricas y de sintaxis (PDF) , Asociación de Lingüística Computacional, págs. 11-20, doi :10.18653/v1/N19-1002, hdl :11245.1/16cb6800-e10d-4166-8e0b-fed61ca6ebb4, S2CID  81978369
  20. ^ abcd Klaus Greff; Rupesh Kumar Srivastava; Jan Koutník; Bas R. Steunebrink; Jürgen Schmidhuber (2015). "LSTM: una odisea del espacio de búsqueda". IEEE Transactions on Neural Networks and Learning Systems . 28 (10): 2222–2232. arXiv : 1503.04069 . Código Bibliográfico :2015arXiv150304069G. doi :10.1109/TNNLS.2016.2582924. PMID  27411231. S2CID  3356463.
  21. ^ abcdef Gers, FA; Schmidhuber, J. (2001). "Las redes recurrentes LSTM aprenden lenguajes simples, libres de contexto y sensibles al contexto" (PDF) . Transacciones IEEE sobre redes neuronales . 12 (6): 1333–1340. doi :10.1109/72.963769. PMID  18249962. S2CID  10192330.
  22. ^ abcd Gers, F.; Schraudolph, N.; Schmidhuber, J. (2002). "Aprendizaje de tiempos precisos con redes recurrentes LSTM" (PDF) . Journal of Machine Learning Research . 3 : 115–143.
  23. ^ Xingjian Shi; Zhourong Chen; Hao Wang; Dit-Yan Yeung; Wai-kin Wong; Wang-chun Woo (2015). "Red LSTM convolucional: un enfoque de aprendizaje automático para la predicción inmediata de la precipitación". Actas de la 28.ª Conferencia internacional sobre sistemas de procesamiento de información neuronal : 802–810. arXiv : 1506.04214 . Código Bibliográfico :2015arXiv150604214S.
  24. ^ Hochreiter, S.; Bengio, Y.; Frasconi, P.; Schmidhuber, J. (2001). "Flujo de gradiente en redes recurrentes: la dificultad de aprender dependencias a largo plazo (Descarga en PDF disponible)". En Kremer y, SC; Kolen, JF (eds.). Una guía de campo para redes neuronales recurrentes dinámicas . IEEE Press.
  25. ^ Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). "Etiquetado de secuencias en dominios estructurados con redes neuronales recurrentes jerárquicas". Proc. 20th Int. Joint Conf. On Artificial Intelligence, Ijcai 2007 : 774–779. CiteSeerX 10.1.1.79.1887 . 
  26. ^ ab Graves, A.; Schmidhuber, J. (2005). "Clasificación de fonemas por marco con LSTM bidireccional y otras arquitecturas de redes neuronales". Redes neuronales . 18 (5–6): 602–610. CiteSeerX 10.1.1.331.5800 . doi :10.1016/j.neunet.2005.06.042. PMID  16112549. S2CID  1856462. 
  27. ^ Fernández, S.; Graves, A.; Schmidhuber, J. (9 de septiembre de 2007). "Una aplicación de redes neuronales recurrentes para la detección discriminativa de palabras clave". Actas de la 17.ª Conferencia internacional sobre redes neuronales artificiales . ICANN'07. Berlín, Heidelberg: Springer-Verlag: 220–229. ISBN 978-3540746935. Recuperado el 28 de diciembre de 2023 .
  28. ^ ab Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey (2013). "Reconocimiento de voz con redes neuronales recurrentes profundas". Conferencia internacional IEEE de 2013 sobre acústica, voz y procesamiento de señales . págs. 6645–6649. arXiv : 1303.5778 . doi :10.1109/ICASSP.2013.6638947. ISBN . 978-1-4799-0356-6.S2CID206741496  .​
  29. ^ Kratzert, Frederik; Klotz, Daniel; Shalev, Guy; Klambauer, Günter; Hochreiter, Sepp; Nearing, Grey (17 de diciembre de 2019). "Hacia el aprendizaje de comportamientos hidrológicos universales, regionales y locales mediante aprendizaje automático aplicado a conjuntos de datos de muestras grandes". Hidrología y Ciencias del Sistema Terrestre . 23 (12): 5089–5110. arXiv : 1907.08456 . Código Bibliográfico :2019HESS...23.5089K. doi : 10.5194/hess-23-5089-2019 . ISSN  1027-5606.
  30. ^ Eck, Douglas; Schmidhuber, Jürgen (28 de agosto de 2002). "Aprendiendo la estructura a largo plazo del blues". Redes neuronales artificiales — ICANN 2002. Apuntes de clase en informática. Vol. 2415. Springer, Berlín, Heidelberg. págs. 284–289. CiteSeerX 10.1.1.116.3620 . doi :10.1007/3-540-46084-5_47. ISBN .  978-3540460848.
  31. ^ Schmidhuber, J.; Gers, F.; Eck, D.; Schmidhuber, J.; Gers, F. (2002). "Aprendizaje de lenguajes no regulares: una comparación de redes recurrentes simples y LSTM". Neural Computation . 14 (9): 2039–2041. CiteSeerX 10.1.1.11.7369 . doi :10.1162/089976602320263980. PMID  12184841. S2CID  30459046. 
  32. ^ Perez-Ortiz, JA; Gers, FA; Eck, D.; Schmidhuber, J. (2003). "Los filtros de Kalman mejoran el rendimiento de la red LSTM en problemas irresolubles mediante redes recurrentes tradicionales". Redes neuronales . 16 (2): 241–250. CiteSeerX 10.1.1.381.1992 . doi :10.1016/s0893-6080(02)00219-8. PMID  12628609. 
  33. ^ A. Graves, J. Schmidhuber. Reconocimiento de escritura a mano sin conexión con redes neuronales recurrentes multidimensionales. Avances en sistemas de procesamiento de información neuronal 22, NIPS'22, págs. 545–552, Vancouver, MIT Press, 2009.
  34. ^ Graves, A.; Fernández, S.; Liwicki, M.; Bunke, H.; Schmidhuber, J. (3 de diciembre de 2007). "Reconocimiento de escritura a mano en línea sin restricciones con redes neuronales recurrentes". Actas de la 20.ª Conferencia internacional sobre sistemas de procesamiento de información neuronal . NIPS'07. EE. UU.: Curran Associates Inc.: 577–584. ISBN 9781605603520. Recuperado el 28 de diciembre de 2023 .
  35. ^ Baccouche, M.; Mamalet, F.; Wolf, C.; Garcia, C.; Baskurt, A. (2011). "Aprendizaje profundo secuencial para el reconocimiento de acciones humanas". En Salah, AA; Lepri, B. (eds.). 2nd International Workshop on Human Behavior Understanding (HBU) . Lecture Notes in Computer Science. Vol. 7065. Ámsterdam, Países Bajos: Springer. págs. 29–39. doi :10.1007/978-3-642-25446-8_4. ISBN 978-3-642-25445-1.
  36. ^ Huang, Jie; Zhou, Wengang; Zhang, Qilin; Li, Houqiang; Li, Weiping (30 de enero de 2018). "Reconocimiento de lengua de signos basado en vídeo sin segmentación temporal". arXiv : 1801.10111 [cs.CV].
  37. ^ ab Hochreiter, S.; Heusel, M.; Obermayer, K. (2007). "Detección rápida de homología de proteínas basada en modelos sin alineamiento". Bioinformática . 23 (14): 1728–1736. doi : 10.1093/bioinformatics/btm247 . PMID  17488755.
  38. ^ Thireou, T.; Reczko, M. (2007). "Redes de memoria a corto y largo plazo bidireccionales para predecir la localización subcelular de proteínas eucariotas". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 4 (3): 441–446. doi :10.1109/tcbb.2007.1015. PMID  17666763. S2CID  11787259.
  39. ^ Malhotra, Pankaj; Vig, Lovekesh; Shroff, Gautam; Agarwal, Puneet (abril de 2015). "Redes de memoria a corto y largo plazo para la detección de anomalías en series temporales" (PDF) . Simposio europeo sobre redes neuronales artificiales, inteligencia computacional y aprendizaje automático — ESANN 2015. Archivado desde el original (PDF) el 2020-10-30 . Consultado el 2018-02-21 .
  40. ^ Tax, N.; Verenich, I.; La Rosa, M.; Dumas, M. (2017). "Monitoreo predictivo de procesos de negocios con redes neuronales LSTM". Ingeniería de sistemas de información avanzada . Apuntes de clase en informática. Vol. 10253. págs. 477–492. arXiv : 1612.02130 . doi :10.1007/978-3-319-59536-8_30. ISBN . 978-3-319-59535-1. Número de identificación del sujeto  2192354.
  41. ^ Choi, E.; Bahadori, MT; Schuetz, E.; Stewart, W.; Sun, J. (2016). "Doctor AI: Predicción de eventos clínicos a través de redes neuronales recurrentes". Actas de talleres y congresos del JMLR . 56 : 301–318. arXiv : 1511.05942 . Código Bibliográfico :2015arXiv151105942C. PMC 5341604 . PMID  28286600. 
  42. ^ Jia, Robin; Liang, Percy (2016). "Recombinación de datos para análisis semántico neuronal". arXiv : 1606.03622 [cs.CL].
  43. ^ Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (22 de mayo de 2018). "Segment-Tube: localización de acciones espacio-temporales en vídeos sin recortar con segmentación por fotograma" (PDF) . Sensors . 18 (5): 1657. Bibcode :2018Senso..18.1657W. doi : 10.3390/s18051657 . ISSN  1424-8220. PMC 5982167 . PMID  29789447. 
  44. ^ Duan, Xuhuan; Wang, Le; Zhai, Changbo; Zheng, Nanning; Zhang, Qilin; Niu, Zhenxing; Hua, pandilla (2018). "Localización conjunta de acciones espacio-temporales en vídeos sin recortar con segmentación por fotograma". 2018 25a Conferencia Internacional IEEE sobre Procesamiento de Imágenes (ICIP) . 25ª Conferencia Internacional IEEE sobre Procesamiento de Imágenes (ICIP). págs. 918–922. doi :10.1109/icip.2018.8451692. ISBN 978-1-4799-7061-2.
  45. ^ Orsini, F.; Gastaldi, M.; Mantecchini, L.; Rossi, R. (2019). Redes neuronales entrenadas con trazas WiFi para predecir el comportamiento de los pasajeros del aeropuerto . 6.ª Conferencia Internacional sobre Modelos y Tecnologías para Sistemas Inteligentes de Transporte. Cracovia: IEEE. arXiv : 1910.14026 . doi :10.1109/MTITS.2019.8883365. 8883365.
  46. ^ Zhao, Z.; Chen, W.; Wu, X.; Chen, PCY; Liu, J. (2017). "Red LSTM: un enfoque de aprendizaje profundo para el pronóstico de tráfico a corto plazo". IET Intelligent Transport Systems . 11 (2): 68–75. doi :10.1049/iet-its.2016.0208. S2CID  114567527.
  47. ^ Gupta A, Müller AT, Huisman BJH, Fuchs JA, Schneider P, Schneider G (2018). "Redes recurrentes generativas para el diseño de fármacos de novo". Mol Inform . 37 (1–2). doi :10.1002/minf.201700111. PMC 5836943 . PMID  29095571. {{cite journal}}: CS1 maint: multiple names: authors list (link)
  48. ^ Saiful Islam, Md.; Hossain, Emam (26 de octubre de 2020). "Predicción del tipo de cambio de divisas mediante una red híbrida GRU-LSTM". Soft Computing Letters . 3 : 100009. doi : 10.1016/j.socl.2020.100009 . ISSN  2666-2221.
  49. ^ {{Cite Abbey Martin, Andrew J. Hill, Konstantin M. Seiler y Mehala Balamurali (2023) Reconocimiento automático de la acción de la excavadora y localización de videos sin recortar utilizando redes híbridas LSTM-Transformer, International Journal of Mining, Reclamation and Environment, DOI: 10.1080/17480930.2023.2290364}}
  50. ^ Beaufays, Françoise (11 de agosto de 2015). «Las redes neuronales detrás de la transcripción de Google Voice». Blog de investigación . Consultado el 27 de junio de 2017 .
  51. ^ Sak, Haşim; Senior, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (24 de septiembre de 2015). «Búsqueda por voz de Google: más rápida y precisa». Blog de investigación . Consultado el 27 de junio de 2017 .
  52. ^ "Receta de neón... o mejor dicho, Nueva transcripción para Google Voice". Blog oficial de Google . 23 de julio de 2015 . Consultado el 25 de abril de 2020 .
  53. ^ Khaitan, Pranav (18 de mayo de 2016). "Chatea de forma más inteligente con Allo". Blog de investigación . Consultado el 27 de junio de 2017 .
  54. ^ Metz, Cade (27 de septiembre de 2016). "Una infusión de IA hace que Google Translate sea más poderoso que nunca | WIRED". Wired . Consultado el 27 de junio de 2017 .
  55. ^ "Una red neuronal para la traducción automática a escala de producción". Blog de inteligencia artificial de Google . 27 de septiembre de 2016. Consultado el 25 de abril de 2020 .
  56. ^ Efrati, Amir (13 de junio de 2016). "Las máquinas de Apple también pueden aprender". The Information . Consultado el 27 de junio de 2017 .
  57. ^ Ranger, Steve (14 de junio de 2016). «iPhone, IA y big data: así es como Apple planea proteger tu privacidad». ZDNet . Consultado el 27 de junio de 2017 .
  58. ^ "¿Puede el contexto semántico global mejorar los modelos de lenguaje neuronal? – Apple". Apple Machine Learning Journal . Consultado el 30 de abril de 2020 .
  59. ^ Smith, Chris (13 de junio de 2016). «iOS 10: Siri ahora funciona en aplicaciones de terceros y viene con funciones de inteligencia artificial adicionales». BGR . Consultado el 27 de junio de 2017 .
  60. ^ Capes, Tim; Coles, Paul; Conkie, Alistair; Golipour, Ladan; Hadjitarkhani, Abie; Hu, Qiong; Huddleston, Nancy; Hunt, Melvyn; Li, Jiangchuan; Neeracher, Matthias; Prahallad, Kishore (20 de agosto de 2017). "Sistema de texto a voz con selección de unidades guiada por aprendizaje profundo en el dispositivo Siri". Interspeech 2017. ISCA: 4011–4015. doi :10.21437/Interspeech.2017-1798.
  61. ^ Vogels, Werner (30 de noviembre de 2016). "Llevar la magia de Amazon AI y Alexa a las aplicaciones en AWS. – All Things Distributed". www.allthingsdistributed.com . Consultado el 27 de junio de 2017 .
  62. ^ Xiong, W.; Wu, L.; Alleva, F.; Droppo, J.; Huang, X.; Stolcke, A. (abril de 2018). "El sistema de reconocimiento de voz conversacional de Microsoft 2017". Conferencia internacional IEEE de 2018 sobre acústica, voz y procesamiento de señales (ICASSP) . IEEE. págs. 5934–5938. doi :10.1109/ICASSP.2018.8461870. ISBN . 978-1-5386-4658-8.
  63. ^ abcdef Schmidhuber, Juergen (10 de mayo de 2021). "Aprendizaje profundo: nuestro año milagroso 1990-1991". arXiv : 2005.05744 [cs.NE].
  64. ^ Mozer, Mike (1989). "Un algoritmo de retropropagación enfocado para el reconocimiento de patrones temporales". Sistemas complejos .
  65. ^ Schmidhuber, Juergen (2022). "Historia comentada de la IA moderna y el aprendizaje profundo". arXiv : 2212.11279 [cs.NE].
  66. ^ Sepp Hochreiter ; Jürgen Schmidhuber (21 de agosto de 1995), Memoria a largo plazo, Wikidata  Q98967430
  67. ^ abc Gers, Felix; Schmidhuber, Jürgen; Cummins, Fred (1999). "Aprendiendo a olvidar: predicción continua con LSTM". Novena Conferencia Internacional sobre Redes Neuronales Artificiales: ICANN '99 . Vol. 1999. págs. 850–855. doi :10.1049/cp:19991218. ISBN 0-85296-721-7.
  68. ^ Cho, Kyunghyun; van Merrienboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). "Aprendizaje de representaciones de frases mediante el codificador-decodificador RNN para traducción automática estadística". arXiv : 1406.1078 [cs.CL].
  69. ^ Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen (2 de mayo de 2015). "Redes de Carreteras". arXiv : 1505.00387 [cs.LG].
  70. ^ Srivastava, Rupesh K; Greff, Klaus; Schmidhuber, Juergen (2015). "Entrenamiento de redes muy profundas". Avances en sistemas de procesamiento de información neuronal . 28 . Curran Associates, Inc.: 2377–2385.
  71. ^ Schmidhuber, Jürgen (2021). "Las redes neuronales más citadas se basan en el trabajo realizado en mis laboratorios". AI Blog . IDSIA, Suiza . Consultado el 30 de abril de 2022 .
  72. ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). Aprendizaje residual profundo para reconocimiento de imágenes. Conferencia IEEE 2016 sobre visión artificial y reconocimiento de patrones (CVPR) . Las Vegas, NV, EE. UU.: IEEE. págs. 770–778. arXiv : 1512.03385 . doi :10.1109/CVPR.2016.90. ISBN . 978-1-4673-8851-1.
  73. ^ Beck, Maximiliano; Pöppel, korbiniano; Sparing, Markus; Auer, Andreas; Prudnikova, Oleksandra; Kopp, Michael; Klambauer, Günter; Brandstetter, Johannes; Hochreiter, Sepp (7 de mayo de 2024). "xLSTM: memoria extendida a largo plazo". arXiv : 2405.04517 [cs.LG].
  74. ^ NX-AI/xlstm, NXAI, 4 de junio de 2024 , consultado el 4 de junio de 2024
  75. ^ Graves, Alex; Beringer, Nicole; Eck, Douglas; Schmidhuber, Juergen (2004). Reconocimiento de voz biológicamente plausible con redes neuronales LSTM . Taller sobre enfoques de inspiración biológica para la tecnología de la información avanzada, Bio-ADIT 2004, Lausana, Suiza. págs. 175–184.
  76. ^ Hochreiter, S.; Younger, AS; Conwell, PR (2001). "Aprender a aprender usando el descenso de gradiente". Redes neuronales artificiales — ICANN 2001 (PDF) . Apuntes de clase en informática. Vol. 2130. págs. 87–94. CiteSeerX 10.1.1.5.323 . doi :10.1007/3-540-44668-0_13. ISBN  978-3-540-42486-4. ISSN  0302-9743. S2CID  52872549.
  77. ^ Wierstra, Daan; Foerster, Alexander; Peters, Jan; Schmidhuber, Juergen (2005). "Resolución de POMDP de memoria profunda con gradientes de políticas recurrentes". Conferencia internacional sobre redes neuronales artificiales ICANN'07 .
  78. ^ Bayer, Justin; Wierstra, Daan; Togelius, Julian; Schmidhuber, Juergen (2009). "Evolución de las estructuras de las células de memoria para el aprendizaje de secuencias". Conferencia internacional sobre redes neuronales artificiales ICANN'09, Chipre .
  79. ^ Graves, A.; Liwicki, M.; Fernández, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (mayo de 2009). "Un nuevo sistema conexionista para el reconocimiento de escritura a mano sin restricciones". IEEE Transactions on Pattern Analysis and Machine Intelligence . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . doi :10.1109/tpami.2008.137. ISSN  0162-8828. PMID  19299860. S2CID  14635907. 
  80. ^ Märgner, Volker; Abed, Haikal El (julio de 2009). "Concurso de reconocimiento de escritura a mano árabe ICDAR 2009". 2009 10.ª Conferencia internacional sobre análisis y reconocimiento de documentos . págs. 1383–1387. doi :10.1109/ICDAR.2009.256. ISBN 978-1-4244-4500-4. Número de identificación del sujeto  52851337.
  81. ^ "Subtipificación de pacientes mediante redes LSTM con reconocimiento temporal" (PDF) . msu.edu . Consultado el 21 de noviembre de 2018 .
  82. ^ "Subtipificación de pacientes mediante redes LSTM con reconocimiento temporal". Kdd.org . Consultado el 24 de mayo de 2018 .
  83. ^ "SIGKDD". Kdd.org . Consultado el 24 de mayo de 2018 .

Lectura adicional

Enlaces externos