Memoria larga a corto plazo

A diferencia de otros modelos como los modelos ocultos de Markov, los LSTM pueden retener información durante miles de pasos temporales, lo que los convierte en una herramienta eficaz para procesar datos secuenciales.

[4]​ La puerta de entrada regula qué nueva información se almacenará en la célula de memoria, la puerta de salida decide qué información se usará para generar la salida en el paso actual, y la puerta de olvido determina qué información debe eliminarse.

[2]​ Además de sus aplicaciones en el procesamiento del lenguaje y el habla, los LSTM se utilizan en otras áreas como la predicción de series temporales, donde pueden prever valores futuros en secuencias basadas en patrones aprendidos de datos pasados.

[19]​[20]​ En teoría, las redes neuronales recurrentes clásicas (RNNs) pueden rastrear dependencias a largo plazo arbitrarias en las secuencias de entrada.

Sin embargo, el problema con las RNNs clásicas es de naturaleza computacional (o práctica): al entrenar una RNN clásica utilizando retropropagación, los gradientes a largo plazo que se retropropagan pueden «desvanecerse», lo que significa que tienden a cero debido a la acumulación de números muy pequeños en los cálculos, causando que el modelo efectivamente deje de aprender.

Las RNNs que utilizan unidades LSTM resuelven parcialmente el problema de desvanecimiento de gradiente, ya que las unidades LSTM permiten que los gradientes fluyan con poca o ninguna atenuación.

Sin embargo, las redes LSTM aún pueden sufrir el problema de los gradientes que explotan.

[21]​ La intuición detrás de la arquitectura LSTM es crear un módulo adicional en una red neuronal que aprenda cuándo recordar y cuándo olvidar información pertinente.

[4]​ En otras palabras, la red aprende efectivamente qué información podría necesitarse más adelante en una secuencia y cuándo esa información ya no es relevante.

[22]​ Un LSTM podría procesar la oración: «Dave, como resultado de sus afirmaciones controvertidas, ahora es un paria» recordando el género gramatical y el número del sujeto Dave (probablemente masculino y singular), notar que esta información es pertinente para el pronombre sus y darse cuenta de que esta información ya no es importante después del verbo es.

En las ecuaciones a continuación, las variables en minúsculas representan vectores.

, dependiendo de la activación que se esté calculando.

En esta sección, se utiliza una «notación vectorial».

no representa solo una unidad de una célula LSTM, sino que contiene

[4]​ La figura de la derecha es una representación gráfica de una unidad LSTM con conexiones peephole (es decir, LSTM con peephole).

[24]​[25]​ Las conexiones peephole permiten que las puertas accedan al carrusel de error constante (CEC, constant error carrousel), cuya activación corresponde al estado de la célula.

Los círculos grandes que contienen una curva en forma de «S» representan la aplicación de una función diferenciable (como la función sigmoide) a una suma ponderada.

Este proceso ajusta los parámetros de la red para minimizar el error entre las predicciones del modelo y los resultados esperados, lo cual permite que la red aprenda a hacer predicciones más precisas.

En otras palabras, esto permite calcular los gradientes necesarios durante el proceso de optimización.

Esta función logra tanto alineación como reconocimiento.

[1]​ Su supervisor, Jürgen Schmidhuber, consideró la tesis de gran relevancia.

[69]​ Una versión temprana de LSTM fue publicada en 1995 en un informe técnico por Sepp Hochreiter y Jürgen Schmidhuber[70]​ y luego presentada en la conferencia NIPS de 1996.

[3]​ La referencia más común para LSTM se publicó en 1997 en la revista Neural Computation.

[23]​ En 1999, Felix Gers, Jürgen Schmidhuber y Fred Cummins[71]​ introdujeron la puerta de olvido (también llamada «puerta de retención») en la arquitectura LSTM, permitiendo que el LSTM restablezca su propio estado.

[23]​ Esta es la versión más utilizada hoy en día.

En 2000, Gers, Schmidhuber y Cummins añadieron las conexiones peephole,[24]​[25]​ y eliminaron la función de activación de salida.

[23]​ A pesar de sus ventajas, los LSTM pueden experimentar el problema del gradiente explosivo, donde los gradientes crecen exponencialmente y causan inestabilidad en el entrenamiento.

Sin embargo, existen técnicas como la recorte de gradientes para gestionar estos problemas.

[28]​ En la actualidad, los LSTM siguen siendo una herramienta fundamental en el aprendizaje profundo, especialmente en áreas que involucran secuencias temporales complejas.

Su capacidad para aprender y retener información durante largos periodos de tiempo ha permitido avances en campos como el reconocimiento de voz, la traducción automática y la predicción de series temporales, consolidando su lugar como una de las arquitecturas más influyentes en la inteligencia artificial moderna.

La célula LSTM procesa datos secuencialmente y mantiene su estado oculto a lo largo del tiempo.
Una unidad LSTM con peephole con puertas de entrada ( , input ), salida ( , output ) y olvido ( , forget ).