Red neuronal recurrente

Las redes neuronales recurrentes (RNN) son una clase de redes neuronales artificiales para el procesamiento secuencial de datos. A diferencia de las redes neuronales de propagación hacia adelante , que procesan los datos en una sola pasada, las RNN procesan los datos en múltiples pasos de tiempo, lo que las hace muy adecuadas para el modelado y procesamiento de texto, voz y series temporales . ^[1]

El componente fundamental de una red neuronal recurrente es la unidad recurrente. Esta unidad mantiene un estado oculto, esencialmente una forma de memoria, que se actualiza en cada paso de tiempo en función de la entrada actual y el estado oculto anterior. Este bucle de retroalimentación permite que la red aprenda de las entradas anteriores e incorpore ese conocimiento en su procesamiento actual.

Las primeras RNN sufrieron el problema del gradiente de desaparición, lo que limitaba su capacidad para aprender dependencias de largo alcance. Esto se resolvió con la invención de las redes de memoria a corto y largo plazo (LSTM) en 1997, que se convirtieron en la arquitectura estándar para las RNN.

Se han aplicado a tareas como el reconocimiento de escritura a mano no segmentada y conectada , ^[2] reconocimiento de voz , ^[3]^[4] procesamiento del lenguaje natural y traducción automática neuronal . ^[5]^[6]

Historia

Antes de la modernidad

Un origen de las RNN fue la neurociencia. La palabra "recurrente" se utiliza para describir estructuras similares a bucles en anatomía. En 1901, Cajal observó "semicírculos recurrentes" en la corteza cerebelosa formados por fibras paralelas , células de Purkinje y células granulares . ^[7]^[8] En 1933, Lorente de Nó descubrió "conexiones recurrentes y recíprocas" mediante el método de Golgi y propuso que los bucles excitatorios explican ciertos aspectos del reflejo vestíbulo-ocular . ^[9]^[10] Durante la década de 1940, varias personas propusieron la existencia de retroalimentación en el cerebro, lo que contrastaba con la comprensión previa del sistema neuronal como una estructura puramente de retroalimentación. Hebb consideró el "circuito reverberante" como una explicación de la memoria a corto plazo. ^[11] El artículo de McCulloch y Pitts (1943), que propuso el modelo de neuronas McCulloch-Pitts , consideró redes que contienen ciclos. La actividad actual de tales redes puede verse afectada por la actividad indefinidamente lejana en el pasado. ^[12] Ambos estaban interesados en los bucles cerrados como posibles explicaciones para, por ejemplo, la epilepsia y la causalgia . ^[13]^[14] La inhibición recurrente se propuso en 1946 como un mecanismo de retroalimentación negativa en el control motor. Los bucles de retroalimentación neuronal fueron un tema común de discusión en las conferencias Macy . ^[15] Consulte ^[16] para una revisión extensa de los modelos de redes neuronales recurrentes en neurociencia.

En 1960, Frank Rosenblatt publicó "perceptrones de acoplamiento cruzado de bucle cerrado", que son redes de perceptrones de 3 capas cuya capa intermedia contiene conexiones recurrentes que cambian según una regla de aprendizaje hebbiana . ^[18]^{: 73–75} Más tarde, en Principles of Neurodynamics (1961), describió redes de perceptrones "de acoplamiento cruzado de bucle cerrado" y "de acoplamiento posterior", e hizo estudios teóricos y experimentales para el aprendizaje hebbiano en estas redes, ^[17]^{: Capítulo 19, 21} y señaló que una red de perceptrones completamente acoplada de forma cruzada es equivalente a una red de retroalimentación infinitamente profunda. ^[17]^{: Sección 19.11}

Redes similares fueron publicadas por Kaoru Nakano en 1971 ^[19]^[20] , Shun'ichi Amari en 1972, ^[21] y William A. Little [de] en 1974, ^[22] quien fue reconocido por Hopfield en su artículo de 1982.

Otro origen de las RNN fue la mecánica estadística . El modelo de Ising fue desarrollado por Wilhelm Lenz ^[23] y Ernst Ising ^[24] en la década de 1920 ^[25] como un modelo mecánico estadístico simple de imanes en equilibrio. Glauber en 1963 estudió el modelo de Ising evolucionando en el tiempo, como un proceso hacia el equilibrio ( dinámica de Glauber ), añadiendo el componente del tiempo. ^[26]

El modelo de Sherrington-Kirkpatrick del vidrio de espín, publicado en 1975, ^[27] es la red de Hopfield con inicialización aleatoria. Sherrington y Kirkpatrick descubrieron que es muy probable que la función de energía del modelo SK tenga muchos mínimos locales. En el artículo de 1982, Hopfield aplicó esta teoría recientemente desarrollada para estudiar la red de Hopfield con funciones de activación binarias. ^[28] En un artículo de 1984, la extendió a funciones de activación continua. ^[29] Se convirtió en un modelo estándar para el estudio de redes neuronales a través de la mecánica estadística. ^[30]^[31]

Moderno

Las redes RNN modernas se basan principalmente en dos arquitecturas: LSTM y BRNN. ^[32]

En el resurgimiento de las redes neuronales en la década de 1980, se volvieron a estudiar las redes recurrentes, a las que a veces se denominaba "redes iteradas". ^[33] Dos de los primeros trabajos influyentes fueron la red Jordan (1986) y la red Elman (1990), que aplicaron las redes neuronales recurrentes para estudiar la psicología cognitiva . En 1993, un sistema compresor de la historia neuronal resolvió una tarea de "aprendizaje muy profundo" que requería más de 1000 capas sucesivas en una red neuronal recurrente desplegada en el tiempo. ^[34]

Las redes de memoria a corto plazo (LSTM) fueron inventadas por Hochreiter y Schmidhuber en 1995 y establecieron récords de precisión en múltiples dominios de aplicación. ^[35]^[36] Se convirtió en la opción predeterminada para la arquitectura RNN.

Las redes neuronales recurrentes bidireccionales (BRNN) utilizan dos RNN que procesan la misma entrada en direcciones opuestas. ^[37] Estos dos a menudo se combinan, dando lugar a la arquitectura LSTM bidireccional.

Alrededor de 2006, el LSTM bidireccional comenzó a revolucionar el reconocimiento de voz , superando a los modelos tradicionales en ciertas aplicaciones de voz. ^[38]^[39] También mejoraron el reconocimiento de voz de vocabulario amplio ^[3]^[4] y la síntesis de texto a voz ^[40] y se utilizaron en la búsqueda por voz de Google y el dictado en dispositivos Android . ^[41] Batieron récords en traducción automática mejorada , ^[42] modelado de lenguaje ^[43] y procesamiento de lenguaje multilingüe. ^[44] Además, el LSTM combinado con redes neuronales convolucionales (CNN) mejoró el subtitulado automático de imágenes . ^[45]

La idea de la transducción de secuencias mediante codificador-decodificador se desarrolló a principios de la década de 2010. Los artículos que se citan con más frecuencia como los creadores que produjeron seq2seq son dos artículos de 2014. ^[46]^[47] Una arquitectura seq2seq emplea dos RNN, normalmente LSTM, un "codificador" y un "decodificador", para la transducción de secuencias, como la traducción automática. Se convirtieron en tecnología de punta en la traducción automática y fueron fundamentales en el desarrollo del mecanismo de atención y Transformer .

Configuraciones

Un modelo basado en RNN se puede dividir en dos partes: configuración y arquitectura. Se pueden combinar varias RNN en un flujo de datos, y el flujo de datos en sí es la configuración. Cada RNN puede tener cualquier arquitectura, incluidas LSTM, GRU, etc.

Estándar

Las RNN vienen en muchas variantes. En términos abstractos, una RNN es una función de tipo , donde $f_{\theta }$ $(x_{t},h_{t})\mapsto (y_{t},h_{t+1})$

$x_{t}$ : vector de entrada;
$h_{t}$ :vector oculto;
$y_{t}$ : vector de salida;
$\theta$ :parámetros de red neuronal.

En otras palabras, es una red neuronal que convierte una entrada en una salida , y el vector oculto cumple la función de "memoria", un registro parcial de todos los pares de entrada-salida anteriores. En cada paso, transforma la entrada en una salida y modifica su "memoria" para que pueda realizar mejor el procesamiento futuro. $x_{t}$ $y_{t}$ $h_{t}$

La ilustración de la derecha puede resultar engañosa para muchos, ya que las topologías de redes neuronales prácticas suelen organizarse en "capas" y el dibujo da esa apariencia. Sin embargo, lo que parecen capas son, de hecho, diferentes pasos en el tiempo, "desplegados" para producir la apariencia de capas .

RNN apilada

Una RNN apilada , o RNN profunda , está compuesta por múltiples RNN apiladas una sobre otra. De manera abstracta, está estructurada de la siguiente manera

La capa 1 tiene vectores , parámetros y mapas ocultos . $h_{1,t}$ $\theta _{1}$ $f_{\theta _{1}}:(x_{0,t},h_{1,t})\mapsto (x_{1,t},h_{1,t+1})$
La capa 2 tiene vectores , parámetros y mapas ocultos . $h_{2,t}$ $\theta _{2}$ $f_{\theta _{2}}:(x_{1,t},h_{2,t})\mapsto (x_{2,t},h_{2,t+1})$
...
La capa tiene vectores , parámetros y mapas ocultos . $n$ $h_{n,t}$ $\theta _{n}$ $f_{\theta _{n}}:(x_{n-1,t},h_{n,t})\mapsto (x_{n,t},h_{n,t+1})$

Cada capa funciona como una red neuronal recurrente independiente y la secuencia de salida de cada capa se utiliza como secuencia de entrada para la capa superior. No existe un límite conceptual para la profundidad de la red neuronal recurrente.

Bidireccional

Una RNN bidireccional (biRNN) está compuesta por dos RNN, una que procesa la secuencia de entrada en una dirección y otra en la dirección opuesta. De manera abstracta, está estructurada de la siguiente manera:

Los procesos RNN directos en una dirección: $f_{\theta }(x_{0},h_{0})=(y_{0},h_{1}),f_{\theta }(x_{1},h_{1})=(y_{1},h_{2}),\dots$
Los procesos RNN inversos en la dirección opuesta: $f'_{\theta '}(x_{N},h_{N}')=(y'_{N},h_{N-1}'),f'_{\theta '}(x_{N-1},h_{N-1}')=(y'_{N-1},h_{N-2}'),\dots$

Luego, las dos secuencias de salida se concatenan para obtener la salida total: . $((y_{0},y_{0}'),(y_{1},y_{1}'),\dots ,(y_{N},y_{N}'))$

La RNN bidireccional permite que el modelo procese un token tanto en el contexto de lo que lo precedió como de lo que lo siguió. Al apilar múltiples RNN bidireccionales, el modelo puede procesar un token de manera cada vez más contextual. El modelo ELMo (2018) ^{[48] es un}LSTM bidireccional apilado que toma como entrada el nivel de caracteres y produce incrustaciones a nivel de palabras.

Codificador-decodificador

Se pueden ejecutar dos RNN de adelante hacia atrás en una configuración de codificador-decodificador . El RNN codificador procesa una secuencia de entrada en una secuencia de vectores ocultos, y el RNN decodificador procesa la secuencia de vectores ocultos en una secuencia de salida, con un mecanismo de atención opcional. Esto se utilizó para construir traductores automáticos neuronales de última generación durante el período 2014-2017. Este fue un paso decisivo hacia el desarrollo de Transformers . ^[49]

PixelRNN

Una RNN puede procesar datos con más de una dimensión. PixelRNN procesa datos bidimensionales, con muchas direcciones posibles. ^[50] Por ejemplo, la dirección fila por fila procesa una cuadrícula de vectores en el siguiente orden: La diagonal BiLSTM utiliza dos LSTM para procesar la misma cuadrícula. Una la procesa desde la esquina superior izquierda hasta la esquina inferior derecha, de modo que procesa dependiendo de su estado oculto y el estado de la celda en la parte superior e izquierda: y . La otra la procesa desde la esquina superior derecha hasta la esquina inferior izquierda. $n\times n$ $x_{i,j}$ $x_{1,1},x_{1,2},\dots ,x_{1,n},x_{2,1},x_{2,2},\dots ,x_{2,n},\dots ,x_{n,n}$ $x_{i,j}$ $h_{i-1,j},c_{i-1,j}$ $h_{i,j-1},c_{i,j-1}$

Arquitecturas

Completamente recurrente

Una RNN completamente conectada con 4 neuronas.

Las redes neuronales completamente recurrentes (FRNN) conectan las salidas de todas las neuronas con las entradas de todas las neuronas. En otras palabras, es una red completamente conectada . Esta es la topología de red neuronal más general, porque todas las demás topologías se pueden representar estableciendo algunos pesos de conexión en cero para simular la falta de conexiones entre esas neuronas.

Campo de saltos

La red de Hopfield es una red neuronal recurrente en la que todas las conexiones entre las capas tienen el mismo tamaño. Requiere entradas estacionarias y, por lo tanto, no es una red neuronal recurrente general, ya que no procesa secuencias de patrones. Sin embargo, garantiza que convergerá. Si las conexiones se entrenan mediante aprendizaje hebbiano , la red de Hopfield puede funcionar como una memoria robusta direccionable por contenido , resistente a la alteración de la conexión.

Redes de Elman y redes de Jordan

Una red Elman es una red de tres capas (dispuestas horizontalmente como x , y y z en la ilustración) con la adición de un conjunto de unidades de contexto ( u en la ilustración). La capa intermedia (oculta) está conectada a estas unidades de contexto fijas con un peso de uno. ^[51] En cada paso de tiempo, la entrada se alimenta hacia adelante y se aplica una regla de aprendizaje . Las conexiones posteriores fijas guardan una copia de los valores anteriores de las unidades ocultas en las unidades de contexto (ya que se propagan por las conexiones antes de que se aplique la regla de aprendizaje). Por lo tanto, la red puede mantener una especie de estado, lo que le permite realizar tareas como la predicción de secuencias que están más allá del poder de un perceptrón multicapa estándar .

Las redes de Jordan son similares a las redes de Elman. Las unidades de contexto se alimentan desde la capa de salida en lugar de la capa oculta. Las unidades de contexto en una red de Jordan también se denominan capa de estado. Tienen una conexión recurrente con ellas mismas.^[51]

Las redes de Elman y Jordan también se conocen como "redes recurrentes simples" (SRN).

Red Elman ^[52]: ${\begin{aligned}h_{t}&=\sigma _{h}(W_{h}x_{t}+U_{h}h_{t-1}+b_{h})\\y_{t}&=\sigma _{y}(W_{y}h_{t}+b_{y})\end{aligned}}$
Red jordana ^[53]: ${\begin{aligned}h_{t}&=\sigma _{h}(W_{h}x_{t}+U_{h}s_{t}+b_{h})\\y_{t}&=\sigma _{y}(W_{y}h_{t}+b_{y})\\s_{t}&=\sigma _{s}(W_{s,s}s_{t-1}+W_{s,y}y_{t-1}+b_{s})\end{aligned}}$

Variables y funciones

$x_{t}$ : vector de entrada
$h_{t}$ : vector de capa oculta
$s_{t}$ : vector "estado",
$y_{t}$ : vector de salida
$W$ , y : matrices de parámetros y vectores $U$ $b$
$\sigma$ : Funciones de activación

Memoria a corto plazo y larga duración

La memoria a corto plazo larga (LSTM) es la arquitectura RNN más utilizada. Fue diseñada para resolver el problema del gradiente de desaparición . La LSTM normalmente se complementa con puertas recurrentes llamadas "puertas de olvido". ^[54] La LSTM evita que los errores retropropagados desaparezcan o exploten. ^[55] En cambio, los errores pueden fluir hacia atrás a través de un número ilimitado de capas virtuales desplegadas en el espacio. Es decir, la LSTM puede aprender tareas que requieren recuerdos de eventos que sucedieron miles o incluso millones de pasos de tiempo discretos antes. Se pueden desarrollar topologías similares a la LSTM específicas para el problema. ^[56] La LSTM funciona incluso con grandes retrasos entre eventos significativos y puede manejar señales que mezclan componentes de baja y alta frecuencia.

Muchas aplicaciones utilizan pilas de LSTM, ^[57] por lo que se denomina "LSTM profundo". LSTM puede aprender a reconocer lenguajes sensibles al contexto a diferencia de los modelos anteriores basados en modelos ocultos de Markov (HMM) y conceptos similares. ^[58]

Unidad recurrente cerrada

Las unidades recurrentes con compuerta (GRU), introducidas en 2014, se diseñaron como una simplificación de LSTM. Se utilizan en su forma completa y en varias variantes simplificadas. ^[59]^[60] Tienen menos parámetros que LSTM, ya que carecen de una compuerta de salida. ^[61]

Se encontró que su desempeño en el modelado de música polifónica y el modelado de señales de voz era similar al de la memoria a corto plazo. ^[62] No parece haber una diferencia particular en el desempeño entre LSTM y GRU. ^[62]^[63]

Memoria asociativa bidireccional

Introducida por Bart Kosko, ^[64] una red de memoria asociativa bidireccional (BAM) es una variante de una red de Hopfield que almacena datos asociativos como un vector. La bidireccionalidad proviene del paso de información a través de una matriz y su transposición . Normalmente, se prefiere la codificación bipolar a la codificación binaria de los pares asociativos. Recientemente, los modelos BAM estocásticos que utilizan el método de Markov fueron optimizados para aumentar la estabilidad de la red y la relevancia para aplicaciones del mundo real. ^[65]

Una red BAM tiene dos capas, cualquiera de las cuales puede utilizarse como entrada para recordar una asociación y producir una salida en la otra capa. ^[66]

Estado de eco

Las redes de estado de eco (ESN) tienen una capa oculta aleatoria escasamente conectada. Los pesos de las neuronas de salida son la única parte de la red que puede cambiar (entrenarse). Las ESN son buenas para reproducir ciertas series temporales .^[67] Una variante para activar neuronas se conoce como máquina de estado líquido .^[68]

Recursivo

Una red neuronal recursiva^[69] se crea aplicando el mismo conjunto de pesos de forma recursiva sobre una estructura similar a un gráfico diferenciable al recorrer la estructura en orden topológico . Estas redes también suelen entrenarse mediante el modo inverso de diferenciación automática . ^[70]^[71] Pueden procesar representaciones distribuidas de la estructura, como términos lógicos . Un caso especial de redes neuronales recursivas es la RNN cuya estructura corresponde a una cadena lineal. Las redes neuronales recursivas se han aplicado al procesamiento del lenguaje natural . ^[72] La red tensorial neuronal recursiva utiliza una función de composición basada en tensores para todos los nodos del árbol. ^[73]

Máquinas de Turing neuronales

Las máquinas de Turing neuronales (MTN) son un método para extender redes neuronales recurrentes acoplándolas a recursos de memoria externos con los que interactúan. El sistema combinado es análogo a una máquina de Turing o una arquitectura de Von Neumann, pero es diferenciable de extremo a extremo, lo que permite entrenarlo de manera eficiente con descenso de gradiente . ^[74]

Las computadoras neuronales diferenciables (DNC) son una extensión de las máquinas de Turing neuronales, que permiten el uso de cantidades difusas de cada dirección de memoria y un registro de cronología. ^[75]

Los autómatas de red neuronal pushdown (NNPDA) son similares a los NTM, pero las cintas se reemplazan por pilas analógicas que son diferenciables y entrenadas. De esta manera, son similares en complejidad a los reconocedores de gramáticas libres de contexto (CFG). ^[76]

Las redes neuronales recurrentes son completas de Turing y pueden ejecutar programas arbitrarios para procesar secuencias arbitrarias de entradas. ^[77]

Capacitación

Profesor forzado

Una RNN se puede entrenar para que sea un modelo generativo condicional de secuencias, también conocido como autorregresión .

En concreto, consideremos el problema de la traducción automática, es decir, dada una secuencia de palabras en inglés, el modelo debe producir una secuencia de palabras en francés. Se debe resolver mediante un modelo seq2seq . $(x_{1},x_{2},\dots ,x_{n})$ $(y_{1},\dots ,y_{m})$

Ahora bien, durante el entrenamiento, la mitad codificadora del modelo primero ingeriría , luego la mitad decodificadora comenzaría a generar una secuencia . El problema es que si el modelo comete un error al principio, digamos en , entonces es probable que los tokens subsiguientes también sean errores. Esto hace que sea ineficiente para el modelo obtener una señal de aprendizaje, ya que el modelo aprendería principalmente a cambiar hacia , pero no hacia los otros. $(x_{1},x_{2},\dots ,x_{n})$ $({\hat {y}}_{1},{\hat {y}}_{2},\dots ,{\hat {y}}_{l})$ ${\hat {y}}_{2}$ ${\hat {y}}_{2}$ $y_{2}$

La fuerza del profesor hace que el decodificador utilice la secuencia de salida correcta para generar la siguiente entrada en la secuencia. Por ejemplo, vería para generar . $(y_{1},\dots ,y_{k})$ ${\hat {y}}_{k+1}$

Descenso de gradiente

El descenso de gradiente es un algoritmo de optimización iterativo de primer orden para hallar el mínimo de una función. En redes neuronales, se puede utilizar para minimizar el término de error modificando cada peso en proporción a la derivada del error con respecto a ese peso, siempre que las funciones de activación no lineales sean diferenciables .

El método estándar para entrenar RNN por descenso de gradiente es el algoritmo de " retropropagación a través del tiempo " (BPTT), que es un caso especial del algoritmo general de retropropagación . Una variante en línea más costosa computacionalmente se llama "aprendizaje recurrente en tiempo real" o RTRL, ^[78]^[79] que es una instancia de diferenciación automática en el modo de acumulación hacia adelante con vectores tangentes apilados. A diferencia de BPTT, este algoritmo es local en el tiempo pero no local en el espacio.

En este contexto, local en el espacio significa que el vector de peso de una unidad se puede actualizar utilizando únicamente la información almacenada en las unidades conectadas y en la propia unidad, de modo que la complejidad de actualización de una sola unidad es lineal en la dimensionalidad del vector de peso. Local en el tiempo significa que las actualizaciones se llevan a cabo de manera continua (en línea) y dependen únicamente del paso de tiempo más reciente en lugar de múltiples pasos de tiempo dentro de un horizonte de tiempo determinado como en BPTT. Las redes neuronales biológicas parecen ser locales con respecto tanto al tiempo como al espacio. ^[80]^[81]

Para calcular recursivamente las derivadas parciales, RTRL tiene una complejidad temporal de O(número de pesos ocultos x número de pesos) por paso de tiempo para calcular las matrices jacobianas , mientras que BPTT solo toma O(número de pesos) por paso de tiempo, a costa de almacenar todas las activaciones hacia adelante dentro del horizonte de tiempo dado. ^[82] Existe un híbrido en línea entre BPTT y RTRL con complejidad intermedia, ^[83]^[84] junto con variantes para tiempo continuo. ^[85]

Un problema importante con el descenso de gradiente para las arquitecturas RNN estándar es que los gradientes de error se desvanecen exponencialmente rápido con el tamaño del desfase temporal entre eventos importantes. ^[55]^[86] LSTM combinado con un método de aprendizaje híbrido BPTT/RTRL intenta superar estos problemas. ^[36] Este problema también se resuelve en la red neuronal recurrente independiente (IndRNN) ^[87] al reducir el contexto de una neurona a su propio estado pasado y la información entre neuronas se puede explorar en las siguientes capas. Las memorias de diferentes rangos, incluida la memoria a largo plazo, se pueden aprender sin el problema de la desaparición y explosión del gradiente.

El algoritmo en línea denominado retropropagación recursiva causal (CRBP), implementa y combina los paradigmas BPTT y RTRL para redes localmente recurrentes. ^[88] Funciona con las redes localmente recurrentes más generales. El algoritmo CRBP puede minimizar el término de error global. Este hecho mejora la estabilidad del algoritmo, proporcionando una visión unificada de las técnicas de cálculo de gradiente para redes recurrentes con retroalimentación local.

Un enfoque para el cálculo de información de gradiente en RNN con arquitecturas arbitrarias se basa en la derivación diagramática de gráficos de flujo de señales. ^[89] Utiliza el algoritmo por lotes BPTT, basado en el teorema de Lee para cálculos de sensibilidad de red. ^[90] Fue propuesto por Wan y Beaufays, mientras que su versión rápida en línea fue propuesta por Campolucci, Uncini y Piazza. ^[90]

Clasificación temporal conexionista

La clasificación temporal conexionista (CTC) ^[91] es una función de pérdida especializada para entrenar RNN para problemas de modelado de secuencias donde el tiempo es variable. ^[92]

Métodos de optimización global

El entrenamiento de los pesos en una red neuronal se puede modelar como un problema de optimización global no lineal . Se puede formar una función objetivo para evaluar la aptitud o el error de un vector de peso particular de la siguiente manera: primero, se establecen los pesos en la red de acuerdo con el vector de peso. A continuación, se evalúa la red en relación con la secuencia de entrenamiento. Normalmente, se utiliza la diferencia de la suma de los cuadrados entre las predicciones y los valores objetivo especificados en la secuencia de entrenamiento para representar el error del vector de peso actual. A continuación, se pueden utilizar técnicas de optimización global arbitrarias para minimizar esta función objetivo.

El método de optimización global más común para el entrenamiento de RNN son los algoritmos genéticos , especialmente en redes no estructuradas. ^[93]^[94]^[95]

Inicialmente, el algoritmo genético se codifica con los pesos de la red neuronal de una manera predefinida, donde un gen en el cromosoma representa un vínculo de peso. La red completa se representa como un solo cromosoma. La función de aptitud se evalúa de la siguiente manera:

A cada peso codificado en el cromosoma se le asigna el respectivo enlace de peso de la red.
El conjunto de entrenamiento se presenta a la red que propaga las señales de entrada hacia adelante.
El error cuadrático medio se devuelve a la función de aptitud.
Esta función impulsa el proceso de selección genética.

La población está formada por muchos cromosomas, por lo que se desarrollan muchas redes neuronales diferentes hasta que se satisface un criterio de parada. Un esquema de parada común es:

Cuando la red neuronal ha aprendido un cierto porcentaje de los datos de entrenamiento o
Cuando se satisface el valor mínimo del error cuadrático medio o
Cuando se alcanza el número máximo de generaciones de entrenamiento.

La función de aptitud evalúa el criterio de parada a medida que recibe el error cuadrático medio recíproco de cada red durante el entrenamiento. Por lo tanto, el objetivo del algoritmo genético es maximizar la función de aptitud, reduciendo el error cuadrático medio.

Se pueden utilizar otras técnicas de optimización globales (y/o evolutivas) para buscar un buen conjunto de pesos, como el recocido simulado o la optimización por enjambre de partículas .

Otras arquitecturas

RNN independiente (IndRNN)

La red neuronal recurrente independiente (IndRNN) ^[87] aborda los problemas de desaparición y explosión de gradientes en la red neuronal completamente conectada tradicional. Cada neurona en una capa solo recibe su propio estado pasado como información de contexto (en lugar de una conectividad completa con todas las demás neuronas en esta capa) y, por lo tanto, las neuronas son independientes de la historia de las demás. La retropropagación del gradiente se puede regular para evitar la desaparición y explosión de gradientes con el fin de mantener la memoria a largo o corto plazo. La información entre neuronas se explora en las siguientes capas. La IndRNN se puede entrenar de forma robusta con funciones no lineales no saturadas como ReLU. Las redes profundas se pueden entrenar utilizando conexiones de salto.

Compresor de historia neuronal

El compresor de historial neuronal es una pila no supervisada de RNN. ^[96] En el nivel de entrada, aprende a predecir su próxima entrada a partir de las entradas anteriores. Solo las entradas impredecibles de algunas RNN en la jerarquía se convierten en entradas para la RNN de nivel superior siguiente, que, por lo tanto, recalcula su estado interno solo en raras ocasiones. De este modo, cada RNN de nivel superior estudia una representación comprimida de la información en la RNN inferior. Esto se hace de modo que la secuencia de entrada se pueda reconstruir con precisión a partir de la representación en el nivel más alto.

El sistema minimiza eficazmente la longitud de la descripción o el logaritmo negativo de la probabilidad de los datos. ^[97] Dada una gran cantidad de predictibilidad aprendible en la secuencia de datos entrantes, la RNN de nivel más alto puede usar el aprendizaje supervisado para clasificar fácilmente incluso secuencias profundas con intervalos largos entre eventos importantes.

Es posible destilar la jerarquía de las RNN en dos: el chunker "consciente" (nivel superior) y el automatizador "subconsciente" (nivel inferior). ^[96] Una vez que el chunker ha aprendido a predecir y comprimir entradas que son impredecibles para el automatizador, entonces se puede obligar al automatizador en la siguiente fase de aprendizaje a predecir o imitar a través de unidades adicionales las unidades ocultas del chunker que cambia más lentamente. Esto hace que sea fácil para el automatizador aprender recuerdos apropiados, que rara vez cambian a lo largo de intervalos largos. A su vez, esto ayuda al automatizador a hacer que muchas de sus entradas alguna vez impredecibles sean predecibles, de modo que el chunker puede centrarse en los eventos impredecibles restantes. ^[96]

En 1992, un modelo generativo superó parcialmente el problema del gradiente evanescente ^[55] de la diferenciación automática o retropropagación en redes neuronales. En 1993, un sistema de este tipo resolvió una tarea de "aprendizaje muy profundo" que requería más de 1000 capas subsiguientes en una RNN desplegada en el tiempo. ^[34]

RNN de segundo orden

Las RNN de segundo orden utilizan pesos de orden superior en lugar de los pesos estándar, y los estados pueden ser un producto. Esto permite una asignación directa a una máquina de estados finitos tanto en el entrenamiento, la estabilidad y la representación. ^[98]^[99] La memoria de corto plazo a largo plazo es un ejemplo de esto, pero no tiene asignaciones formales de este tipo ni prueba de estabilidad. $w{}_{ijk}$ $w{}_{ij}$

Red neuronal recurrente jerárquica

Las redes neuronales recurrentes jerárquicas (HRNN) conectan sus neuronas de diversas maneras para descomponer el comportamiento jerárquico en subprogramas útiles. ^[96]^[100] Estas estructuras jerárquicas de cognición están presentes en las teorías de la memoria presentadas por el filósofo Henri Bergson , cuyas visiones filosóficas han inspirado modelos jerárquicos. ^[101]

Las redes neuronales recurrentes jerárquicas son útiles para la previsión , ya que ayudan a predecir los componentes de inflación desagregados del índice de precios al consumidor (IPC). El modelo HRNN aprovecha la información de los niveles superiores de la jerarquía del IPC para mejorar las predicciones de nivel inferior. La evaluación de un conjunto sustancial de datos del índice IPC-U de EE. UU. demuestra el rendimiento superior del modelo HRNN en comparación con varios métodos de predicción de inflación establecidos. ^[102]

Red de perceptrones multicapa recurrente

En general, una red de perceptrones multicapa recurrente (red RMLP) consta de subredes en cascada, cada una de las cuales contiene múltiples capas de nodos. Cada subred es de retroalimentación, excepto la última capa, que puede tener conexiones de retroalimentación. Cada una de estas subredes está conectada únicamente mediante conexiones de retroalimentación. ^[103]

Modelo de múltiples escalas de tiempo

Una red neuronal recurrente de múltiples escalas de tiempo (MTRNN) es un modelo computacional basado en neuronas que puede simular la jerarquía funcional del cerebro a través de la autoorganización dependiendo de la conexión espacial entre neuronas y de distintos tipos de actividades neuronales, cada una con distintas propiedades temporales. ^[104]^[105] Con actividades neuronales tan variadas, las secuencias continuas de cualquier conjunto de comportamientos se segmentan en primitivas reutilizables, que a su vez se integran de manera flexible en diversos comportamientos secuenciales. La aprobación biológica de este tipo de jerarquía fue discutida en la teoría de predicción de la memoria de la función cerebral por Hawkins en su libro Sobre la inteligencia . ^{[ cita requerida ]} Tal jerarquía también concuerda con las teorías de la memoria postuladas por el filósofo Henri Bergson , que se han incorporado a un modelo MTRNN. ^[101]^[106]

Redes memristivas

Greg Snider de HP Labs describe un sistema de computación cortical con nanodispositivos memristivos. ^[107] Los memristores (resistencias de memoria) se implementan mediante materiales de película delgada en los que la resistencia se sintoniza eléctricamente a través del transporte de iones o vacantes de oxígeno dentro de la película. El proyecto SyNAPSE de DARPA ha financiado IBM Research y HP Labs, en colaboración con el Departamento de Sistemas Cognitivos y Neuronales (CNS) de la Universidad de Boston, para desarrollar arquitecturas neuromórficas que puedan basarse en sistemas memristivos. Las redes memristivas son un tipo particular de red neuronal física que tiene propiedades muy similares a las redes (Little-)Hopfield, ya que tienen dinámica continua, una capacidad de memoria limitada y relajación natural a través de la minimización de una función que es asintótica al modelo de Ising . En este sentido, la dinámica de un circuito memristivo tiene la ventaja en comparación con una red Resistor-Capacitor de tener un comportamiento no lineal más interesante. Desde este punto de vista, la ingeniería de redes memristivas analógicas da cuenta de un tipo peculiar de ingeniería neuromórfica en la que el comportamiento del dispositivo depende del cableado o la topología del circuito. La evolución de estas redes se puede estudiar analíticamente utilizando variaciones de la ecuación de Caravelli–Traversa– Di Ventra . ^[108]

Tiempo continuo

Una red neuronal recurrente de tiempo continuo (CTRNN) utiliza un sistema de ecuaciones diferenciales ordinarias para modelar los efectos de las entradas entrantes sobre una neurona. Por lo general, se analizan mediante la teoría de sistemas dinámicos . Muchos modelos de RNN en neurociencia son de tiempo continuo. ^[16]

Para una neurona en la red con activación , la tasa de cambio de activación viene dada por: $i$ $y_{i}$

\tau _{i}{\dot {y}}_{i}=-y_{i}+\sum _{j=1}^{n}w_{ji}\sigma (y_{j}-\Theta _{j})+I_{i}(t)

Dónde:

$\tau _{i}$ : Constante de tiempo del nodo postsináptico
$y_{i}$ :Activación del nodo postsináptico
${\dot {y}}_{i}$ :Tasa de cambio de activación del nodo postsináptico
$w{}_{ji}$ : Peso de la conexión del nodo presináptico al postsináptico
$\sigma (x)$ : Sigmoide de x p . ej . $\sigma (x)=1/(1+e^{-x})$
$y_{j}$ :Activación del nodo presináptico
$\Theta _{j}$ : Sesgo del nodo presináptico
$I_{i}(t)$ : Entrada (si la hay) al nodo

Las CTRNN se han aplicado a la robótica evolutiva , donde se han utilizado para abordar la visión, ^[109] la cooperación, ^[110] y el comportamiento cognitivo mínimo. ^[111]

Obsérvese que, según el teorema de muestreo de Shannon , las redes neuronales recurrentes de tiempo discreto pueden considerarse redes neuronales recurrentes de tiempo continuo donde las ecuaciones diferenciales se han transformado en ecuaciones diferenciales equivalentes . ^[112] Se puede pensar que esta transformación ocurre después de que las funciones de activación del nodo postsináptico se hayan filtrado con un paso bajo, pero antes del muestreo. $y_{i}(t)$

En realidad, se trata de redes neuronales recursivas con una estructura particular: la de una cadena lineal. Mientras que las redes neuronales recursivas operan sobre cualquier estructura jerárquica, combinando representaciones secundarias en representaciones primarias, las redes neuronales recurrentes operan sobre la progresión lineal del tiempo, combinando el paso de tiempo anterior y una representación oculta en la representación del paso de tiempo actual.

Desde una perspectiva de series temporales, las RNN pueden aparecer como versiones no lineales de filtros de respuesta al impulso finito y respuesta al impulso infinito y también como un modelo exógeno autorregresivo no lineal (NARX). ^[113] RNN tiene respuesta al impulso infinita mientras que las redes neuronales convolucionales tienen respuesta al impulso finito . Ambas clases de redes exhiben un comportamiento dinámico temporal . ^[114] Una red recurrente de impulso finito es un gráfico acíclico dirigido que se puede desenrollar y reemplazar con una red neuronal estrictamente de avance, mientras que una red recurrente de impulso infinito es un gráfico cíclico dirigido que no se puede desenrollar.

El efecto del aprendizaje basado en la memoria para el reconocimiento de secuencias también se puede implementar mediante un modelo más biológico que utiliza el mecanismo de silenciamiento exhibido en neuronas con una actividad de picos de frecuencia relativamente alta. ^[115]

Se pueden agregar estados almacenados adicionales y el almacenamiento bajo control directo de la red a las redes de impulso infinito y de impulso finito . Otra red o gráfico también puede reemplazar el almacenamiento si incorpora retrasos de tiempo o tiene bucles de retroalimentación. Dichos estados controlados se conocen como estados controlados o memoria controlada y son parte de las redes de memoria a corto plazo a largo plazo (LSTM) y las unidades recurrentes controladas . Esto también se llama red neuronal de retroalimentación (FNN).

Bibliotecas

El siguiente pseudocódigo (basado en el lenguaje de programación Python ) ilustra la funcionalidad de una red neuronal recurrente. ^[116]

def  RNN_forward ( x ,  sequence_length ,  neural_network ,  hidden_size ):  hidden  =  zeros ( size = hidden_size )  # inicializar con ceros para cada serie temporal independiente por separado  y_pred  =  zeros ( size = sequence_length )  for  i  in  range ( secuencia_length ):  y_pred [ i ],  hidden  =  neural_network ( x [ i ],  hidden )  # actualizar estado oculto  return  y_pred

Las bibliotecas modernas proporcionan implementaciones optimizadas en tiempo de ejecución de la funcionalidad anterior o permiten acelerar el bucle lento mediante la compilación justo a tiempo .

Apache Singa
Caffe : creado por el Centro de aprendizaje y visión de Berkeley (BVLC). Es compatible con CPU y GPU. Está desarrollado en C++ y tiene contenedores de Python y MATLAB .
Chainer : completamente en Python, soporte de producción para CPU, GPU, entrenamiento distribuido.
Deeplearning4j : aprendizaje profundo en Java y Scala en Spark con múltiples GPU habilitados .
Flux : incluye interfaces para RNN, incluidos GRU y LSTM, escritas en Julia .
Keras : API de alto nivel que proporciona un contenedor para muchas otras bibliotecas de aprendizaje profundo.
Kit de herramientas cognitivas de Microsoft
MXNet : un marco de aprendizaje profundo de código abierto utilizado para entrenar e implementar redes neuronales profundas.
PyTorch : tensores y redes neuronales dinámicas en Python con aceleración de GPU.
TensorFlow : biblioteca similar a Theano con licencia Apache 2.0 con soporte para CPU, GPU y TPU patentada de Google , ^[117] móvil
Theano : una biblioteca de aprendizaje profundo para Python con una API en gran medida compatible con la biblioteca NumPy .
Torch : un marco de computación científica con soporte para algoritmos de aprendizaje automático, escrito en C y Lua .

Aplicaciones

Las aplicaciones de las redes neuronales recurrentes incluyen:

Traducción automática ^[42]
Control de robots ^[118]
Predicción de series temporales ^[119]^[120]^[121]
Reconocimiento de voz ^[122]^[39]^[123]
Síntesis de voz ^[124]
Interfaces cerebro-computadora ^[125]
Detección de anomalías en series temporales ^[126]
Modelo de texto a vídeo ^[127]
Aprendizaje del ritmo ^[128]
Composición musical ^[129]
Aprendizaje de gramática ^[130]^[58]^[131]
Reconocimiento de escritura a mano ^[132]^[133]
Reconocimiento de la acción humana ^[134]
Detección de homología de proteínas ^[135]
Predicción de la localización subcelular de proteínas ^[136]
Varias tareas de predicción en el área de gestión de procesos de negocio ^[137]
Predicción en las vías de atención médica ^[138]
Predicciones de disrupciones de plasma de fusión en reactores (código de red neuronal recurrente de fusión (FRNN)) ^[139]

Referencias

^ Tealab, Ahmed (1 de diciembre de 2018). "Pronóstico de series temporales utilizando metodologías de redes neuronales artificiales: una revisión sistemática". Revista de informática y computación del futuro . 3 (2): 334–340. doi : 10.1016/j.fcij.2018.10.003 . ISSN 2314-7288.
^ Graves, Alex ; Liwicki, Marcus; Fernandez, Santiago; Bertolami, Roman; Bunke, Horst; Schmidhuber, Jürgen (2009). "Un nuevo sistema conexionista para mejorar el reconocimiento de escritura a mano sin restricciones" (PDF) . IEEE Transactions on Pattern Analysis and Machine Intelligence . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . doi :10.1109/tpami.2008.137. PMID 19299860. S2CID 14635907.
^ ab Sak, Haşim; Senior, Andrew; Beaufays, Françoise (2014). "Arquitecturas de redes neuronales recurrentes de memoria a corto y largo plazo para modelado acústico a gran escala" (PDF) . Investigación de Google.
^ ab Li, Xiangang; Wu, Xihong (15 de octubre de 2014). "Construcción de redes neuronales recurrentes profundas basadas en memoria de corto y largo plazo para el reconocimiento de voz de vocabulario amplio". arXiv : 1410.4281 [cs.CL].
^ Dupond, Samuel (2019). "Una revisión exhaustiva sobre el avance actual de las estructuras de redes neuronales". Reseñas anuales en control . 14 : 200–230.
^ Abiodun, Oludare Isaac; Jantan, Aman; Omolara, Abiodun Esther; Dada, Kemi Victoria; Mohamed, Nachaat Abdelatif; Arshad, Humaira (1 de noviembre de 2018). "Estado del arte en aplicaciones de redes neuronales artificiales: una encuesta". Heliyón . 4 (11): e00938. Código bibliográfico : 2018Heliy...400938A. doi : 10.1016/j.heliyon.2018.e00938 . ISSN 2405-8440. PMC 6260436 . PMID 30519653.
^ Espinosa-Sanchez, Juan Manuel; Gomez-Marin, Alex; de Castro, Fernando (5 de julio de 2023). "La importancia de la neurociencia de Cajal y Lorente de Nó para el nacimiento de la cibernética". The Neuroscientist . doi :10.1177/10738584231179932. hdl : 10261/348372 . ISSN 1073-8584. PMID 37403768.
↑ Ramón y Cajal, Santiago (1909). Histología del sistema nervioso del hombre y de las vértebras. vol. II. Biblioteca de colecciones especiales de Foyle King's College de Londres. París: A. Maloine. pag. 149.
^ de NÓ, R. Lorente (1933-08-01). "Arco reflejo vestíbulo-ocular". Archivos de Neurología y Psiquiatría . 30 (2): 245. doi :10.1001/archneurpsyc.1933.02240140009001. ISSN 0096-6754.
^ Larriva-Sahd, Jorge A. (3 de diciembre de 2014). "Algunas predicciones de Rafael Lorente de Nó 80 años después". Frontiers in Neuroanatomy . 8 : 147. doi : 10.3389/fnana.2014.00147 . ISSN 1662-5129. PMC 4253658 . PMID 25520630.
^ "circuito reverberante". Referencia de Oxford . Consultado el 27 de julio de 2024 .
^ McCulloch, Warren S.; Pitts, Walter (diciembre de 1943). "Un cálculo lógico de las ideas inmanentes en la actividad nerviosa". Boletín de biofísica matemática . 5 (4): 115–133. doi :10.1007/BF02478259. ISSN 0007-4985.
^ Moreno-Díaz, Roberto; Moreno-Díaz, Arminda (abril de 2007). "Sobre el legado de WS McCulloch". Biosystems . 88 (3): 185–190. Bibcode :2007BiSys..88..185M. doi :10.1016/j.biosystems.2006.08.010. PMID 17184902.
^ Arbib, Michael A (diciembre de 2000). "La búsqueda de Warren McCulloch de la lógica del sistema nervioso". Perspectivas en biología y medicina . 43 (2): 193–216. doi :10.1353/pbm.2000.0001. ISSN 1529-8795. PMID 10804585.
^ Renshaw, Birdsey (1 de mayo de 1946). "Efectos centrales de los impulsos centrípetos en los axones de las raíces ventrales espinales". Revista de neurofisiología . 9 (3): 191–204. doi :10.1152/jn.1946.9.3.191. ISSN 0022-3077. PMID 21028162.
^ ab Grossberg, Stephen (22 de febrero de 2013). "Redes neuronales recurrentes". Scholarpedia . 8 (2): 1888. Bibcode :2013SchpJ...8.1888G. doi : 10.4249/scholarpedia.1888 . ISSN 1941-6016.
^ abc Rosenblatt, Frank (15 de marzo de 1961). DTIC AD0256582: PRINCIPIOS DE LA NEURODINÁMICA. PERCEPTRONES Y TEORÍA DE LOS MECANISMOS CEREBRALES. Centro de Información Técnica de Defensa.
^ F. Rosenblatt, "Generalización perceptual sobre grupos de transformación", págs. 63-100 en Sistemas autoorganizados: Actas de una conferencia interdisciplinaria, 5 y 6 de mayo de 1959. Editado por Marshall C. Yovitz y Scott Cameron. Londres, Nueva York, [etc.], Pergamon Press, 1960. ix, 322 págs.
^ Nakano, Kaoru (1971). "Proceso de aprendizaje en un modelo de memoria asociativa". Reconocimiento de patrones y aprendizaje automático . pp. 172–186. doi :10.1007/978-1-4615-7566-5_15. ISBN 978-1-4615-7568-9.
^ Nakano, Kaoru (1972). "Asociatron: un modelo de memoria asociativa". IEEE Transactions on Systems, Man, and Cybernetics . SMC-2 (3): 380–388. doi :10.1109/TSMC.1972.4309133.
^ Amari, Shun-Ichi (1972). "Aprendizaje de patrones y secuencias de patrones mediante redes autoorganizadas de elementos umbral". IEEE Transactions . C (21): 1197–1206.
^ Little, WA (1974). "La existencia de estados persistentes en el cerebro". Ciencias biológicas matemáticas . 19 (1–2): 101–120. doi :10.1016/0025-5564(74)90031-5.
^ Lenz, W. (1920), "Beiträge zum Verständnis der magnetischen Eigenschaften in festen Körpern", Physikalische Zeitschrift , 21 : 613–615.
^ Ising, E. (1925), "Beitrag zur Theorie des Ferromagnetismus", Z. Phys. , 31 (1): 253–258, Bibcode :1925ZPhy...31..253I, doi :10.1007/BF02980577, S2CID 122157319
^ Brush, Stephen G. (1967). "Historia del modelo de Lenz-Ising". Reseñas de Física Moderna . 39 (4): 883–893. Bibcode :1967RvMP...39..883B. doi :10.1103/RevModPhys.39.883.
^ Glauber, Roy J. (febrero de 1963). "Roy J. Glauber "Estadísticas dependientes del tiempo del modelo de Ising"". Journal of Mathematical Physics . 4 (2): 294–307. doi :10.1063/1.1703954 . Consultado el 21 de marzo de 2021 .
^ Sherrington, David; Kirkpatrick, Scott (29 de diciembre de 1975). "Modelo resoluble de un vidrio de espín". Physical Review Letters . 35 (26): 1792–1796. doi :10.1103/PhysRevLett.35.1792. ISSN 0031-9007.
^ Hopfield, JJ (1982). "Redes neuronales y sistemas físicos con capacidades computacionales colectivas emergentes". Actas de la Academia Nacional de Ciencias . 79 (8): 2554–2558. Bibcode :1982PNAS...79.2554H. doi : 10.1073/pnas.79.8.2554 . PMC 346238 . PMID 6953413.
^ Hopfield, JJ (1984). "Las neuronas con respuesta graduada tienen propiedades computacionales colectivas como las de las neuronas de dos estados". Actas de la Academia Nacional de Ciencias . 81 (10): 3088–3092. Bibcode :1984PNAS...81.3088H. doi : 10.1073/pnas.81.10.3088 . PMC 345226 . PMID 6587342.
^ Engel, A.; Broeck, C. van den (2001). Mecánica estadística del aprendizaje . Cambridge, Reino Unido; Nueva York, NY: Cambridge University Press. ISBN 978-0-521-77307-2.
^ Seung, HS; Sompolinsky, H.; Tishby, N. (1 de abril de 1992). "Mecánica estadística del aprendizaje a partir de ejemplos". Physical Review A . 45 (8): 6056–6091. doi :10.1103/PhysRevA.45.6056.
^ Zhang, Aston; Lipton, Zachary; Li, Mu; Smola, Alexander J. (2024). "10. Redes neuronales recurrentes modernas". Sumérjase en el aprendizaje profundo . Cambridge New York Port Melbourne New Delhi Singapore: Cambridge University Press. ISBN 978-1-009-38943-3.
^ Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (octubre de 1986). "Aprendizaje de representaciones mediante retropropagación de errores". Nature . 323 (6088): 533–536. doi :10.1038/323533a0. ISSN 1476-4687.
^ de Schmidhuber, Jürgen (1993). Tesis de habilitación: Modelado y optimización de sistemas (PDF) .^{[ enlace muerto permanente ]} La página 150 y siguientes demuestra la asignación de crédito a lo largo del equivalente de 1200 capas en una RNN desplegada.
^ Sepp Hochreiter ; Jürgen Schmidhuber (21 de agosto de 1995), Memoria a largo plazo, Wikidata Q98967430
^ ab Hochreiter, Sepp ; Schmidhuber, Jürgen (1 de noviembre de 1997). "Memoria a largo plazo". Computación neuronal . 9 (8): 1735–1780. doi :10.1162/neco.1997.9.8.1735. PMID 9377276. S2CID 1915014.
^ Schuster, Mike y Kuldip K. Paliwal. "Redes neuronales recurrentes bidireccionales". Procesamiento de señales, IEEE Transactions on 45.11 (1997): 2673-2681.2. Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan
^ Graves, Alex; Schmidhuber, Jürgen (1 de julio de 2005). "Clasificación de fonemas por marco con LSTM bidireccional y otras arquitecturas de redes neuronales". Redes neuronales . IJCNN 2005. 18 (5): 602–610. CiteSeerX 10.1.1.331.5800 . doi :10.1016/j.neunet.2005.06.042. PMID 16112549. S2CID 1856462.
^ ab Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). "Una aplicación de redes neuronales recurrentes para la detección discriminativa de palabras clave". Actas de la 17.ª Conferencia internacional sobre redes neuronales artificiales . ICANN'07. Berlín, Heidelberg: Springer-Verlag. pp. 220–229. ISBN 978-3-540-74693-5.
^ Fan, Bo; Wang, Lijuan; Soong, Frank K.; Xie, Lei (2015). "Cabeza parlante fotorrealista con LSTM bidireccional profundo". Actas de la Conferencia internacional IEEE sobre acústica, habla y procesamiento de señales de ICASSP 2015. págs. 4884–8. doi :10.1109/ICASSP.2015.7178899. ISBN 978-1-4673-6997-8.
^ Sak, Haşim; Senior, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (septiembre de 2015). "Búsqueda por voz de Google: más rápida y precisa".
^ ab Sutskever, Ilya; Vinyals, Oriol; Le, Quoc V. (2014). "Aprendizaje secuencia a secuencia con redes neuronales" (PDF) . Actas electrónicas de la Conferencia sobre sistemas de procesamiento de información neuronal . 27 : 5346. arXiv : 1409.3215 . Código Bibliográfico :2014arXiv1409.3215S.
^ Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (7 de febrero de 2016). "Explorando los límites del modelado del lenguaje". arXiv : 1602.02410 [cs.CL].
^ Gillick, Dan; Brunk, Cliff; Vinyals, Oriol; Subramanya, Amarnag (30 de noviembre de 2015). "Procesamiento de lenguaje multilingüe a partir de bytes". arXiv : 1512.00103 [cs.CL].
^ Vinyals, Oriol; Toshev, Alexander; Bengio, Samy; Erhan, Dumitru (17 de noviembre de 2014). "Mostrar y contar: un generador de subtítulos de imágenes neuronal". arXiv : 1411.4555 [cs.CV].
^ Cho, Kyunghyun; van Merrienboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougarés, Fethi; Schwenk, Holger; Bengio, Yoshua (3 de junio de 2014). "Aprendizaje de representaciones de frases utilizando codificador-decodificador RNN para traducción automática estadística". doi :10.48550/ARXIV.1406.1078. {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet (14 de diciembre de 2014). "Aprendizaje secuencia a secuencia con redes neuronales". arXiv : 1409.3215 [cs.CL].[Primera versión publicada en arXiv el 10 de septiembre de 2014]
^ Peters ME, Neumann M, Iyyer M, Gardner M, Clark C, Lee K, Zettlemoyer L (2018). "Representaciones de palabras contextualizadas en profundidad". arXiv : 1802.05365 [cs.CL].
^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Ł ukasz; Polosukhin, Illia (2017). "La atención es todo lo que necesitas". Avances en sistemas de procesamiento de información neuronal . 30 . Curran Associates, Inc.
^ Oord, Aäron van den; Kalchbrenner, Nal; Kavukcuoglu, Koray (11 de junio de 2016). "Redes neuronales recurrentes de píxeles". Actas de la 33.ª Conferencia internacional sobre aprendizaje automático . PMLR: 1747–1756.
^ ab Cruse, Holk; Redes neuronales como sistemas cibernéticos, 2.ª edición y edición revisada
^ Elman, Jeffrey L. (1990). "Encontrar estructura en el tiempo". Ciencia cognitiva . 14 (2): 179–211. doi : 10.1016/0364-0213(90)90002-E .
^ Jordan, Michael I. (1 de enero de 1997). "Orden serial: un enfoque de procesamiento distribuido en paralelo". Modelos de redes neuronales de la cognición: Fundamentos bioconductuales . Avances en psicología. Vol. 121. págs. 471–495. doi :10.1016/s0166-4115(97)80111-2. ISBN 978-0-444-81931-4.S2CID 15375627 .
^ Gers, Felix A.; Schraudolph, Nicol N.; Schmidhuber, Jürgen (2002). "Aprendizaje de tiempos precisos con redes recurrentes LSTM" (PDF) . Journal of Machine Learning Research . 3 : 115–143 . Consultado el 13 de junio de 2017 .
^ a b C Hochreiter, Sepp (1991). Untersuchungen zu dynamischen neuronalen Netzen (PDF) (Diploma). Instituto f. Informática, Universidad Técnica de Múnich.
^ Bayer, Justin; Wierstra, Daan; Togelius, Julian; Schmidhuber, Jürgen (14 de septiembre de 2009). "Evolución de las estructuras de las células de memoria para el aprendizaje de secuencias". Redes neuronales artificiales – ICANN 2009 (PDF) . Apuntes de clase en informática. Vol. 5769. Berlín, Heidelberg: Springer. págs. 755–764. doi :10.1007/978-3-642-04277-5_76. ISBN . 978-3-642-04276-8.
^ Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). "Etiquetado de secuencias en dominios estructurados con redes neuronales recurrentes jerárquicas" (PDF) . Actas de la 20.ª Conferencia conjunta internacional sobre inteligencia artificial, Ijcai 2007 . págs. 774–9. CiteSeerX 10.1.1.79.1887 .
^ ab Gers, Felix A.; Schmidhuber, Jürgen (2001). "Las redes recurrentes LSTM aprenden lenguajes simples, libres de contexto y sensibles al contexto" (PDF) . IEEE Transactions on Neural Networks . 12 (6): 1333–40. doi :10.1109/72.963769. PMID 18249962. S2CID 10192330. Archivado desde el original (PDF) el 2020-07-10 . Consultado el 2017-12-12 .
^ Heck, Joel; Salem, Fathi M. (12 de enero de 2017). "Variaciones unitarias mínimas simplificadas con compuertas para redes neuronales recurrentes". arXiv : 1701.03452 [cs.NE].
^ Dey, Rahul; Salem, Fathi M. (20 de enero de 2017). "Variantes de compuertas de redes neuronales de unidades recurrentes cerradas (GRU)". arXiv : 1701.05923 [cs.NE].
^ Britz, Denny (27 de octubre de 2015). "Tutorial de redes neuronales recurrentes, parte 4: implementación de una red neuronal recurrente GRU/LSTM con Python y Theano – WildML". Wildml.com . Consultado el 18 de mayo de 2016 .
^ ab Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun; Bengio, Yoshua (2014). "Evaluación empírica de redes neuronales recurrentes controladas en el modelado de secuencias". arXiv : 1412.3555 [cs.NE].
^ Gruber, N.; Jockisch, A. (2020), "¿Son las células GRU más específicas y las células LSTM más sensibles en la clasificación de motivos del texto?", Frontiers in Artificial Intelligence , 3 : 40, doi : 10.3389/frai.2020.00040 , PMC 7861254 , PMID 33733157, S2CID 220252321
^ Kosko, Bart (1988). "Memorias asociativas bidireccionales". IEEE Transactions on Systems, Man, and Cybernetics . 18 (1): 49–60. doi :10.1109/21.87054. S2CID 59875735.
^ Rakkiyappan, Rajan; Chandrasekar, Arunachalam; Lakshmanan, Subramanian; Park, Ju H. (2 de enero de 2015). "Estabilidad exponencial para redes neuronales BAM estocásticas con saltos markovianos con retardos probabilísticos variables en el tiempo dependientes del modo y control de impulsos". Complejidad . 20 (3): 39–65. Código Bibliográfico :2015Cmplx..20c..39R. doi :10.1002/cplx.21503.
^ Rojas, Rául (1996). Redes neuronales: una introducción sistemática. Springer. p. 336. ISBN 978-3-540-60505-8.
^ Jaeger, Herbert; Haas, Harald (2 de abril de 2004). "Aprovechamiento de la no linealidad: predicción de sistemas caóticos y ahorro de energía en comunicaciones inalámbricas". Science . 304 (5667): 78–80. Bibcode :2004Sci...304...78J. CiteSeerX 10.1.1.719.2301 . doi :10.1126/science.1091277. PMID 15064413. S2CID 2184251.
^ Maass, Wolfgang; Natschläger, Thomas; Markram, Henry (2002). "Computación en tiempo real sin estados estables: un nuevo marco para la computación neuronal basada en perturbaciones" (PDF) . Neural Computation . 14 (11): 2531–2560. doi :10.1162/089976602760407955. PMID 12433288. S2CID 1045112.
^ Goller, Christoph; Küchler, Andreas (1996). "Aprendizaje de representaciones distribuidas dependientes de la tarea mediante retropropagación a través de la estructura". Actas de la Conferencia Internacional sobre Redes Neuronales (ICNN'96) . Vol. 1. pág. 347. CiteSeerX 10.1.1.52.4759 . doi :10.1109/ICNN.1996.548916. ISBN . 978-0-7803-3210-2.S2CID6536466 .
^ Linnainmaa, Seppo (1970). La representación del error de redondeo acumulativo de un algoritmo como una expansión de Taylor de los errores de redondeo locales (MSc) (en finlandés). Universidad de Helsinki.
^ Griewank, Andreas; Walther, Andrea (2008). Evaluación de derivadas: principios y técnicas de diferenciación algorítmica (segunda edición). SIAM. ISBN 978-0-89871-776-1.
^ Socher, Richard; Lin, Cliff; Ng, Andrew Y.; Manning, Christopher D., "Análisis de escenas naturales y lenguaje natural con redes neuronales recursivas" (PDF) , 28.ª Conferencia internacional sobre aprendizaje automático (ICML 2011)
^ Socher, Richard; Perelygin, Alex; Wu, Jean Y.; Chuang, Jason; Manning, Christopher D.; Ng, Andrew Y.; Potts, Christopher. "Modelos profundos recursivos para la composicionalidad semántica sobre un banco de árboles de sentimientos" (PDF) . Emnlp 2013 .
^ Graves, Alex; Wayne, Greg; Danihelka, Ivo (2014). "Máquinas de Turing neuronales". arXiv : 1410.5401 [cs.NE].
^ Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago (12 de octubre de 2016). "Computación híbrida utilizando una red neuronal con memoria externa dinámica". Nature . 538 (7626): 471–476. Bibcode :2016Natur.538..471G. doi :10.1038/nature20101. ISSN 1476-4687. PMID 27732574. S2CID 205251479.
^ Sun, Guo-Zheng; Giles, C. Lee; Chen, Hsing-Hen (1998). "El autómata pushdown de red neuronal: arquitectura, dinámica y entrenamiento". En Giles, C. Lee; Gori, Marco (eds.). Procesamiento adaptativo de secuencias y estructuras de datos . Notas de clase en informática. Berlín, Heidelberg: Springer. págs. 296–345. CiteSeerX 10.1.1.56.8723 . doi :10.1007/bfb0054003. ISBN. 978-3-540-64341-8.
^ Hyötyniemi, Heikki (1996). "Las máquinas de Turing son redes neuronales recurrentes". Actas de STeP '96/Publicaciones de la Sociedad Finlandesa de Inteligencia Artificial : 13–24.
^ Robinson, Anthony J.; Fallside, Frank (1987). La red de propagación dinámica de errores impulsada por la utilidad. Informe técnico CUED/F-INFENG/TR.1. Departamento de Ingeniería, Universidad de Cambridge.
^ Williams, Ronald J.; Zipser, D. (1 de febrero de 2013). "Algoritmos de aprendizaje basados en gradientes para redes recurrentes y su complejidad computacional". En Chauvin, Yves; Rumelhart, David E. (eds.). Retropropagación: teoría, arquitecturas y aplicaciones. Psychology Press. ISBN 978-1-134-77581-1.
^ Schmidhuber, Jürgen (1 de enero de 1989). "Un algoritmo de aprendizaje local para redes dinámicas de retroalimentación y recurrentes". Connection Science . 1 (4): 403–412. doi :10.1080/09540098908915650. S2CID 18721007.
^ Príncipe, José C.; Euliano, Neil R.; Lefebvre, W. Curt (2000). Sistemas neuronales y adaptativos: fundamentos mediante simulaciones. Wiley. ISBN 978-0-471-35167-2.
^ Yann, Ollivier; Tallec, Corentin; Charpiat, Guillaume (28 de julio de 2015). "Entrenamiento de redes recurrentes en línea sin retroceso". arXiv : 1507.07680 [cs.NE].
^ Schmidhuber, Jürgen (1992-03-01). "Un algoritmo de aprendizaje de complejidad temporal O(n3) de almacenamiento de tamaño fijo para redes de funcionamiento continuo completamente recurrentes". Neural Computation . 4 (2): 243–248. doi :10.1162/neco.1992.4.2.243. S2CID 11761172.
^ Williams, Ronald J. (1989). Complejidad de algoritmos de cálculo de gradiente exacto para redes neuronales recurrentes (Informe). Informe técnico NU-CCS-89-27. Boston (MA): Northeastern University, Facultad de Ciencias de la Computación. Archivado desde el original el 20 de octubre de 2017. Consultado el 2 de julio de 2017 .
^ Pearlmutter, Barak A. (1 de junio de 1989). "Aprendizaje de trayectorias espaciales de estados en redes neuronales recurrentes". Computación neuronal . 1 (2): 263–269. doi :10.1162/neco.1989.1.2.263. S2CID 16813485.
^ Hochreiter, Sepp; et al. (15 de enero de 2001). "Flujo de gradiente en redes recurrentes: la dificultad de aprender dependencias a largo plazo". En Kolen, John F.; Kremer, Stefan C. (eds.). Una guía de campo para redes recurrentes dinámicas . John Wiley & Sons. ISBN 978-0-7803-5369-5.
^ ab Li, Shuai; Li, Wanqing; Cook, Chris; Zhu, Ce; Yanbo, Gao (2018). "Red neuronal recurrente independiente (IndRNN): construcción de una RNN más larga y profunda". arXiv : 1803.04831 [cs.CV].
^ Campolucci, Paolo; Uncini, Aurelio; Piazza, Francesco; Rao, Bhaskar D. (1999). "Algoritmos de aprendizaje en línea para redes neuronales localmente recurrentes". Transacciones IEEE sobre redes neuronales . 10 (2): 253–271. CiteSeerX 10.1.1.33.7550 . doi :10.1109/72.750549. PMID 18252525.
^ Wan, Eric A.; Beaufays, Françoise (1996). "Derivación diagramática de algoritmos de gradiente para redes neuronales". Neural Computation . 8 : 182–201. doi :10.1162/neco.1996.8.1.182. S2CID 15512077.
^ ab Campolucci, Paolo; Uncini, Aurelio; Piazza, Francesco (2000). "Un enfoque de gráfico de flujo de señal para el cálculo de gradientes en línea". Neural Computation . 12 (8): 1901–1927. CiteSeerX 10.1.1.212.5406 . doi :10.1162/089976600300015196. PMID 10953244. S2CID 15090951.
^ Graves, Alex; Fernández, Santiago; Gomez, Faustino J. (2006). "Clasificación temporal conexionista: etiquetado de datos de secuencia no segmentados con redes neuronales recurrentes" (PDF) . Actas de la Conferencia Internacional sobre Aprendizaje Automático . págs. 369–376. CiteSeerX 10.1.1.75.6306 . doi :10.1145/1143844.1143891. ISBN 1-59593-383-2.
^ Hannun, Awni (27 de noviembre de 2017). "Modelado de secuencias con CTC". Distill . 2 (11): e8. doi : 10.23915/distill.00008 . ISSN 2476-0757.
^ Gomez, Faustino J.; Miikkulainen, Risto (1999), "Resolución de tareas de control no markoviano con neuroevolución" (PDF) , IJCAI 99 , Morgan Kaufmann , consultado el 5 de agosto de 2017
^ Syed, Omar (mayo de 1995). Aplicación de algoritmos genéticos a redes neuronales recurrentes para el aprendizaje de parámetros y arquitectura de redes (maestría). Departamento de Ingeniería Eléctrica, Universidad Case Western Reserve.
^ Gomez, Faustino J.; Schmidhuber, Jürgen; Miikkulainen, Risto (junio de 2008). "Evolución neuronal acelerada a través de sinapsis coevolucionadas cooperativamente" (PDF) . Journal of Machine Learning Research . 9 : 937–965.
^ abcd Schmidhuber, Jürgen (1992). "Aprendizaje de secuencias complejas y extendidas utilizando el principio de compresión histórica" (PDF) . Neural Computation . 4 (2): 234–242. doi :10.1162/neco.1992.4.2.234. S2CID 18271205.^{[ enlace muerto permanente ]}
^ Schmidhuber, Jürgen (2015). "Aprendizaje profundo". Scholarpedia . 10 (11): 32832. Código Bibliográfico :2015SchpJ..1032832S. doi : 10.4249/scholarpedia.32832 .
^ Giles, C. Lee; Miller, Clifford B.; Chen, Dong; Chen, Hsing-Hen; Sun, Guo-Zheng; Lee, Yee-Chun (1992). "Aprendizaje y extracción de autómatas de estados finitos con redes neuronales recurrentes de segundo orden" (PDF) . Neural Computation . 4 (3): 393–405. doi :10.1162/neco.1992.4.3.393. S2CID 19666035.
^ Omlin, Christian W.; Giles, C. Lee (1996). "Construcción de autómatas deterministas de estados finitos en redes neuronales recurrentes". Revista de la ACM . 45 (6): 937–972. CiteSeerX 10.1.1.32.2364 . doi :10.1145/235809.235811. S2CID 228941.
^ Paine, Rainer W.; Tani, Jun (1 de septiembre de 2005). "Cómo el control jerárquico se autoorganiza en sistemas adaptativos artificiales". Adaptive Behavior . 13 (3): 211–225. doi :10.1177/105971230501300303. S2CID 9932565.
^ ab "Burns, Benureau, Tani (2018) Una constante de tiempo adaptativa inspirada en Bergson para el modelo de red neuronal recurrente de múltiples escalas de tiempo. JNNS".
^ Barkan, Oren; Benchimol, Jonathan; Caspi, Itamar; Cohen, Eliya; Hammer, Allon; Koenigstein, Noam (2023). "Pronóstico de los componentes de la inflación del IPC con redes neuronales recurrentes jerárquicas". Revista internacional de previsión . 39 (3): 1145–1162. arXiv : 2011.07920 . doi :10.1016/j.ijforecast.2022.04.009.
^ Tutschku, Kurt (junio de 1995). Perceptrones multicapa recurrentes para identificación y control: el camino hacia las aplicaciones . Informe de investigación del Instituto de Ciencias de la Computación. Vol. 118. Universidad de Würzburg Am Hubland. CiteSeerX 10.1.1.45.3527 .
^ Yamashita, Yuichi; Tani, Jun (7 de noviembre de 2008). "Aparición de la jerarquía funcional en un modelo de red neuronal de escalas temporales múltiples: un experimento con un robot humanoide". PLOS Computational Biology . 4 (11): e1000220. Bibcode :2008PLSCB...4E0220Y. doi : 10.1371/journal.pcbi.1000220 . PMC 2570613 . PMID 18989398.
^ Alnajjar, Fady; Yamashita, Yuichi; Tani, Jun (2013). "La conectividad jerárquica y funcional de los mecanismos cognitivos de orden superior: modelo neurorobótico para investigar la estabilidad y flexibilidad de la memoria de trabajo". Frontiers in Neurorobotics . 7 : 2. doi : 10.3389/fnbot.2013.00002 . PMC 3575058 . PMID 23423881.
^ "Actas de la 28ª Conferencia Anual de la Sociedad Japonesa de Redes Neuronales (octubre de 2018)" (PDF) .
^ Snider, Greg (2008), "Computación cortical con nanodispositivos memristivos", Sci-DAC Review , 10 : 58–65, archivado desde el original el 2016-05-16 , consultado el 2019-09-06
^ Caravelli, Francesco; Traversa, Fabio Lorenzo; Di Ventra, Massimiliano (2017). "La dinámica compleja de los circuitos memristivos: resultados analíticos y relajación lenta universal". Physical Review E . 95 (2): 022140. arXiv : 1608.08651 . Bibcode :2017PhRvE..95b2140C. doi :10.1103/PhysRevE.95.022140. PMID 28297937. S2CID 6758362.
^ Harvey, Inman; Husbands, Phil; Cliff, Dave (1994), "Ver la luz: evolución artificial, visión real", 3.ª conferencia internacional sobre simulación de comportamiento adaptativo: de animales a animats 3 , págs. 392-401
^ Quinn, Matt (2001). "Evolución de la comunicación sin canales de comunicación dedicados". Avances en vida artificial: 6.ª conferencia europea, ECAL 2001. pp. 357–366. doi :10.1007/3-540-44811-X_38. ISBN 978-3-540-42567-0.
^ Beer, Randall D. (1997). "La dinámica del comportamiento adaptativo: un programa de investigación". Robótica y sistemas autónomos . 20 (2–4): 257–289. doi :10.1016/S0921-8890(96)00063-2.
^ Sherstinsky, Alex (7 de diciembre de 2018). Bloem-Reddy, Benjamin; Paige, Brooks; Kusner, Matt; Caruana, Rich; Rainforth, Tom; Teh, Yee Whye (eds.). Derivación de la definición de red neuronal recurrente y desenrollado de RNN mediante procesamiento de señales. Taller sobre crítica y corrección de tendencias en aprendizaje automático en NeurIPS-2018.
^ Siegelmann, Hava T.; Horne, Bill G.; Giles, C. Lee (1995). "Capacidades computacionales de redes neuronales NARX recurrentes". IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics . 27 (2): 208–15. CiteSeerX 10.1.1.48.7468 . doi :10.1109/3477.558801. PMID 18255858.
^ Miljanovic, Milos (febrero-marzo de 2012). "Análisis comparativo de redes neuronales de respuesta al impulso finito y recurrente en la predicción de series temporales" (PDF) . Revista india de informática e ingeniería . 3 (1).
^ Hodassman, Shiri; Meir, Yuval; Kisos, Karin; Ben-Noam, Itamar; Tugendhaft, Yael; Goldental, Amir; Vardi, Roni; Kanter, Ido (29 de septiembre de 2022). "Mecanismo de silenciamiento neuronal inspirado en el cerebro para permitir una identificación de secuencia confiable". Scientific Reports . 12 (1): 16003. arXiv : 2203.13028 . Bibcode :2022NatSR..1216003H. doi : 10.1038/s41598-022-20337-x . ISSN 2045-2322. PMC 9523036 . PMID 36175466.
^ Chollet, Francois; Kalinowski, Tomasz; Allaire, JJ (13 de septiembre de 2022). Aprendizaje profundo con R, segunda edición. Simon and Schuster. ISBN 978-1-63835-078-1.
^ Metz, Cade (18 de mayo de 2016). "Google construyó sus propios chips para impulsar sus robots de inteligencia artificial". Wired .
^ Mayer, Hermann; Gomez, Faustino J.; Wierstra, Daan; Nagy, Istvan; Knoll, Alois; Schmidhuber, Jürgen (octubre de 2006). "Un sistema para cirugía cardíaca robótica que aprende a hacer nudos utilizando redes neuronales recurrentes". Conferencia internacional IEEE/RSJ de 2006 sobre robots y sistemas inteligentes . págs. 543–548. CiteSeerX 10.1.1.218.3399 . doi :10.1109/IROS.2006.282190. ISBN . 978-1-4244-0258-8. Número de identificación del sujeto 12284900.
^ Wierstra, Daan; Schmidhuber, Jürgen; Gomez, Faustino J. (2005). "Evolino: Neuroevolución híbrida/Búsqueda lineal óptima para el aprendizaje de secuencias". Actas de la 19.ª Conferencia conjunta internacional sobre inteligencia artificial (IJCAI), Edimburgo . págs. 853–8. OCLC 62330637.
^ Petneházi, Gábor (1 de enero de 2019). "Redes neuronales recurrentes para la predicción de series temporales". arXiv : 1901.00069 [cs.LG].
^ Hewamalage, Hansika; Bergmeir, Christoph; Bandara, Kasun (2020). "Redes neuronales recurrentes para la predicción de series temporales: estado actual y direcciones futuras". Revista internacional de predicción . 37 : 388–427. arXiv : 1909.00590 . doi :10.1016/j.ijforecast.2020.06.008. S2CID 202540863.
^ Graves, Alex; Schmidhuber, Jürgen (2005). "Clasificación de fonemas por marco con LSTM bidireccional y otras arquitecturas de redes neuronales". Redes neuronales . 18 (5–6): 602–610. CiteSeerX 10.1.1.331.5800 . doi :10.1016/j.neunet.2005.06.042. PMID 16112549. S2CID 1856462.
^ Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey E. (2013). "Reconocimiento de voz con redes neuronales recurrentes profundas". Conferencia internacional IEEE de 2013 sobre acústica, voz y procesamiento de señales . págs. 6645–9. arXiv : 1303.5778 . Código Bibliográfico :2013arXiv1303.5778G. doi :10.1109/ICASSP.2013.6638947. ISBN: 978-1-4799-0356-6. Número de identificación del sujeto 206741496.
^ Chang, Edward F.; Chartier, Josh; Anumanchipalli, Gopala K. (24 de abril de 2019). "Síntesis de voz a partir de la decodificación neuronal de oraciones habladas". Nature . 568 (7753): 493–8. Bibcode :2019Natur.568..493A. doi :10.1038/s41586-019-1119-1. ISSN 1476-4687. PMC 9714519 . PMID 31019317. S2CID 129946122.
^ Moses, David A.; Metzger, Sean L.; Liu, Jessie R.; Anumanchipalli, Gopala K.; Makin, Joseph G.; Sun, Pengfei F.; Chartier, Josh; Dougherty, Maximilian E.; Liu, Patricia M.; Abrams, Gary M.; Tu-Chan, Adelyn; Ganguly, Karunesh; Chang, Edward F. (15 de julio de 2021). "Neuroprótesis para decodificar el habla en una persona paralizada con anartria". New England Journal of Medicine . 385 (3): 217–227. doi :10.1056/NEJMoa2027540. PMC 8972947 . PMID 34260835.
^ Malhotra, Pankaj; Vig, Lovekesh; Shroff, Gautam; Agarwal, Puneet (abril de 2015). "Redes de memoria a corto y largo plazo para la detección de anomalías en series temporales". Simposio europeo sobre redes neuronales artificiales, inteligencia computacional y aprendizaje automático – ESANN 2015. Ciaco. págs. 89–94. ISBN 978-2-87587-015-5.
^ "Documentos con código - DeepHS-HDRVideo: reconstrucción de video de alto rango dinámico y alta velocidad". paperswithcode.com . Consultado el 13 de octubre de 2022 .
^ Gers, Felix A.; Schraudolph, Nicol N.; Schmidhuber, Jürgen (2002). "Aprendizaje de tiempos precisos con redes recurrentes LSTM" (PDF) . Journal of Machine Learning Research . 3 : 115–143.
^ Eck, Douglas; Schmidhuber, Jürgen (28 de agosto de 2002). "Aprendiendo la estructura a largo plazo del blues". Redes neuronales artificiales — ICANN 2002. Apuntes de clase en informática. Vol. 2415. Berlín, Heidelberg: Springer. págs. 284–289. CiteSeerX 10.1.1.116.3620 . doi :10.1007/3-540-46084-5_47. ISBN . 978-3-540-46084-8.
^ Schmidhuber, Jürgen; Gers, Felix A.; Eck, Douglas (2002). "Aprendizaje de lenguajes no regulares: una comparación de redes recurrentes simples y LSTM". Computación neuronal . 14 (9): 2039–2041. CiteSeerX 10.1.1.11.7369 . doi :10.1162/089976602320263980. PMID 12184841. S2CID 30459046.
^ Pérez-Ortiz, Juan Antonio; Gers, Felix A.; Eck, Douglas; Schmidhuber, Jürgen (2003). "Los filtros de Kalman mejoran el rendimiento de la red LSTM en problemas irresolubles mediante redes recurrentes tradicionales". Redes neuronales . 16 (2): 241–250. CiteSeerX 10.1.1.381.1992 . doi :10.1016/s0893-6080(02)00219-8. PMID 12628609.
^ Graves, Alex; Schmidhuber, Jürgen (2009). "Reconocimiento de escritura a mano sin conexión con redes neuronales recurrentes multidimensionales" (PDF) . Avances en sistemas de procesamiento de información neuronal . Vol. 22, NIPS'22. MIT Press. págs. 545–552.
^ Graves, Alex; Fernández, Santiago; Liwicki, Marcus; Bunke, Horst; Schmidhuber, Jürgen (2007). "Reconocimiento de escritura a mano en línea sin restricciones con redes neuronales recurrentes". Actas de la 20.ª Conferencia internacional sobre sistemas de procesamiento de información neuronal . Curran Associates. págs. 577–584. ISBN. 978-1-60560-352-0.
^ Baccouche, Moez; Mamalet, Franck; Wolf, Christian; Garcia, Christophe; Baskurt, Atilla (2011). "Aprendizaje profundo secuencial para el reconocimiento de acciones humanas". En Salah, Albert Ali; Lepri, Bruno (eds.). Comprensión del comportamiento humano . Apuntes de clase en informática. Vol. 7065. Ámsterdam, Países Bajos: Springer. págs. 29–39. doi :10.1007/978-3-642-25446-8_4. ISBN 978-3-642-25445-1.
^ Hochreiter, Sepp; Heusel, Martin; Obermayer, Klaus (2007). "Detección rápida de homología de proteínas basada en modelos sin alineamiento". Bioinformática . 23 (14): 1728–1736. doi : 10.1093/bioinformatics/btm247 . PMID 17488755.
^ Thireou, Trias; Reczko, Martin (julio de 2007). "Redes de memoria a corto y largo plazo bidireccionales para predecir la localización subcelular de proteínas eucariotas". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 4 (3): 441–446. doi :10.1109/tcbb.2007.1015. PMID 17666763. S2CID 11787259.
^ Tax, Niek; Verenich, Ilya; La Rosa, Marcello; Dumas, Marlon (2017). "Monitoreo predictivo de procesos de negocios con redes neuronales LSTM". Ingeniería de sistemas de información avanzada . Apuntes de clase en informática. Vol. 10253. págs. 477–492. arXiv : 1612.02130 . doi :10.1007/978-3-319-59536-8_30. ISBN . 978-3-319-59535-1. Número de identificación del sujeto 2192354.
^ Choi, Edward; Bahadori, Mohammad Taha; Schuetz, Andy; Stewart, Walter F.; Sun, Jimeng (2016). "Doctor AI: Predicting Clinical Events via Recurrent Neural Networks". JMLR Workshop and Conference Proceedings. 56: 301–318. arXiv:1511.05942. Bibcode:2015arXiv151105942C. PMC 5341604. PMID 28286600.
^ "Artificial intelligence helps accelerate progress toward efficient fusion reactions". Princeton University. Retrieved 2023-06-12.