Interferencia catastrófica

La interferencia catastrófica , también conocida como olvido catastrófico , es la tendencia de una red neuronal artificial a olvidar abrupta y drásticamente la información previamente aprendida al aprender nueva información. ^[1]^[2]

Las redes neuronales son una parte importante del enfoque conexionista de la ciencia cognitiva . La cuestión de la interferencia catastrófica al modelar la memoria humana con modelos conexionistas fue traída originalmente a la atención de la comunidad científica por la investigación de McCloskey y Cohen (1989), ^[1] y Ratcliff (1990). ^[2] Es una manifestación radical del dilema "sensibilidad-estabilidad" ^[3] o el dilema "estabilidad-plasticidad". ^[4] Específicamente, estos problemas se refieren al desafío de hacer una red neuronal artificial que sea sensible a la nueva información, pero que no se vea alterada por ella.

Las tablas de búsqueda y las redes conexionistas se encuentran en lados opuestos del espectro de plasticidad de estabilidad. ^[5] Las primeras permanecen completamente estables en presencia de nueva información pero carecen de la capacidad de generalizar , es decir, inferir principios generales, a partir de nuevas entradas. Por otro lado, las redes conexionistas como la red de retropropagación estándar pueden generalizar a entradas no vistas, pero son sensibles a nueva información. Los modelos de retropropagación pueden ser análogos a la memoria humana en la medida en que tienen una capacidad similar para generalizar ^{[ cita requerida ]} , pero estas redes a menudo exhiben menos estabilidad que la memoria humana. Cabe destacar que estas redes de retropropagación son susceptibles a interferencias catastróficas. Este es un problema al modelar la memoria humana, porque a diferencia de estas redes, los humanos normalmente no muestran olvido catastrófico. ^[6]

Historia de interferencias catastróficas

El término interferencia catastrófica fue acuñado originalmente por McCloskey y Cohen (1989), pero también llegó a la atención de la comunidad científica gracias a la investigación de Ratcliff (1990). ^[2]

El problema del aprendizaje secuencial:McCloskey y Cohen (1989)

McCloskey y Cohen (1989) observaron el problema de la interferencia catastrófica durante dos experimentos diferentes con modelos de redes neuronales de retropropagación.

Experimento 1: Aprender las operaciones de adición de unos y dos

En su primer experimento, entrenaron una red neuronal de retropropagación estándar en un único conjunto de entrenamiento que constaba de 17 problemas de un solo dígito de unos (es decir, 1 + 1 a 9 + 1, y 1 + 2 a 1 + 9) hasta que la red pudiera representar y responder adecuadamente a todos ellos. El error entre el resultado real y el resultado deseado disminuyó de manera constante a lo largo de las sesiones de entrenamiento, lo que reflejó que la red aprendió a representar mejor los resultados objetivo en los ensayos. A continuación, entrenaron la red en un único conjunto de entrenamiento que constaba de 17 problemas de un solo dígito de dos (es decir, 2 + 1 a 2 + 9, y 1 + 2 a 9 + 2) hasta que la red pudiera representar y responder adecuadamente a todos ellos. Observaron que su procedimiento era similar a cómo un niño aprendería sus operaciones de suma. Después de cada ensayo de aprendizaje sobre las operaciones de dos, se probó el conocimiento de la red sobre las operaciones de suma de unos y de dos. Al igual que las operaciones de unos, la red aprendió fácilmente las operaciones de dos. Sin embargo, McCloskey y Cohen observaron que la red ya no era capaz de responder correctamente a los problemas de suma de unos, incluso después de un ensayo de aprendizaje de los problemas de suma de dos. El patrón de salida producido en respuesta a los datos de unos a menudo se parecía más a un patrón de salida para un número incorrecto que al patrón de salida para un número correcto. Esto se considera una cantidad drástica de error. Además, los problemas 2+1 y 2+1, que se incluyeron en ambos conjuntos de entrenamiento, incluso mostraron una interrupción dramática durante los primeros ensayos de aprendizaje de los datos de dos.

Experimento 2: Réplica del estudio de Barnes y Underwood (1959) ^[7]

En su segundo modelo conexionista, McCloskey y Cohen intentaron replicar el estudio sobre interferencia retroactiva en humanos de Barnes y Underwood (1959). Entrenaron el modelo con listas AB y AC y utilizaron un patrón de contexto en el vector de entrada (patrón de entrada) para diferenciar entre las listas. Específicamente, la red fue entrenada para responder con la respuesta B correcta cuando se le mostraba el estímulo A y el patrón de contexto AB y para responder con la respuesta C correcta cuando se le mostraba el estímulo A y el patrón de contexto AC. Cuando el modelo fue entrenado simultáneamente con los elementos AB y AC, la red aprendió rápidamente todas las asociaciones correctamente. En el entrenamiento secuencial, la lista AB fue entrenada primero, seguida por la lista AC. Después de cada presentación de la lista AC, se midió el desempeño tanto para la lista AB como para la lista AC. Encontraron que la cantidad de entrenamiento en la lista AC en el estudio de Barnes y Underwood que condujo a un 50% de respuestas correctas, condujo a casi un 0% de respuestas correctas por parte de la red de retropropagación. Además, descubrieron que la red tendía a mostrar respuestas que se parecían al patrón de respuesta C cuando se le pedía que diera el patrón de respuesta B. Esto indicaba que la lista AC aparentemente había sobrescrito la lista AB. Esto podría compararse con aprender la palabra perro, seguido de aprender la palabra taburete y luego descubrir que piensas en la palabra taburete cuando se te presenta la palabra perro.

McCloskey y Cohen intentaron reducir la interferencia mediante una serie de manipulaciones, entre ellas, cambiar la cantidad de unidades ocultas, cambiar el valor del parámetro de tasa de aprendizaje, sobreentrenar la lista AB, congelar ciertos pesos de conexión y cambiar los valores objetivo 0 y 1 en lugar de 0,1 y 0,9. Sin embargo, ninguna de estas manipulaciones redujo satisfactoriamente la interferencia catastrófica que exhibían las redes.

En general, McCloskey y Cohen (1989) concluyeron que:

Al menos se producirá alguna interferencia siempre que un nuevo aprendizaje altere los pesos involucrados que representan
Cuanto mayor sea la cantidad de nuevo aprendizaje, mayor será la disrupción en el conocimiento antiguo.
La interferencia fue catastrófica en las redes de retropropagación cuando el aprendizaje era secuencial pero no concurrente.

Restricciones impuestas por las funciones de aprendizaje y olvido:Ratcliff (1990)

Ratcliff (1990) utilizó múltiples conjuntos de modelos de retropropagación aplicados a procedimientos de memoria de reconocimiento estándar, en los que los elementos se aprendieron secuencialmente. ^[2] Después de inspeccionar los modelos de rendimiento de reconocimiento, encontró dos problemas importantes:

La información bien aprendida se olvidó catastróficamente a medida que se aprendió información nueva, tanto en redes de retropropagación pequeñas como grandes.

Incluso un solo ensayo de aprendizaje con nueva información resultó en una pérdida significativa de la información anterior, en paralelo con los hallazgos de McCloskey y Cohen (1989). ^[1] Ratcliff también descubrió que los resultados resultantes eran a menudo una mezcla de la entrada anterior y la nueva entrada. En redes más grandes, los elementos aprendidos en grupos (por ejemplo, AB y luego CD) eran más resistentes al olvido que los elementos aprendidos individualmente (por ejemplo, A, luego B y luego C...). Sin embargo, el olvido de los elementos aprendidos en grupos seguía siendo grande. Agregar nuevas unidades ocultas a la red no redujo la interferencia.

La discriminación entre los elementos estudiados y los elementos no vistos previamente disminuyó a medida que la red aprendió más.

Este hallazgo contradice los estudios sobre la memoria humana, que indicaban que la discriminación aumenta con el aprendizaje. Ratcliff intentó aliviar este problema añadiendo "nodos de respuesta" que respondieran selectivamente a entradas antiguas y nuevas. Sin embargo, este método no funcionó, ya que estos nodos de respuesta se activaban para todas las entradas. Un modelo que utilizaba un patrón de contexto tampoco logró aumentar la discriminación entre elementos nuevos y antiguos.

Soluciones propuestas

La principal causa de interferencia catastrófica parece ser la superposición de las representaciones en la capa oculta de las redes neuronales distribuidas. ^[8]^[9]^[10] En una representación distribuida, cada entrada tiende a crear cambios en los pesos de muchos de los nodos. El olvido catastrófico ocurre porque cuando se cambian muchos de los pesos donde se "almacena el conocimiento", es poco probable que el conocimiento previo se mantenga intacto. Durante el aprendizaje secuencial, las entradas se mezclan, y las nuevas entradas se superponen a las antiguas. ^[9] Otra forma de conceptualizar esto es visualizar el aprendizaje como un movimiento a través de un espacio de pesos. ^[11] Este espacio de pesos se puede comparar con una representación espacial de todas las posibles combinaciones de pesos que podría poseer la red. Cuando una red aprende por primera vez a representar un conjunto de patrones, encuentra un punto en el espacio de pesos que le permite reconocer todos esos patrones. ^[10] Sin embargo, cuando la red aprende un nuevo conjunto de patrones, se moverá a un lugar en el espacio de ponderación para el cual la única preocupación es el reconocimiento de los nuevos patrones. ^[10] Para reconocer ambos conjuntos de patrones, la red debe encontrar un lugar en el espacio de ponderación adecuado para reconocer tanto los patrones nuevos como los antiguos.

A continuación se presentan una serie de técnicas que cuentan con respaldo empírico para reducir con éxito la interferencia catastrófica en redes neuronales de retropropagación:

Ortogonalidad

Muchas de las primeras técnicas para reducir la superposición de representación implicaban hacer que los vectores de entrada o los patrones de activación de la unidad oculta fueran ortogonales entre sí. Lewandowsky y Li (1995) ^[12] observaron que la interferencia entre patrones aprendidos secuencialmente se minimiza si los vectores de entrada son ortogonales entre sí. Se dice que los vectores de entrada son ortogonales entre sí si el producto por pares de sus elementos a lo largo de los dos vectores suma cero. Por ejemplo, se dice que los patrones [0,0,1,0] y [0,1,0,0] son ortogonales porque (0×0 + 0×1 + 1×0 + 0×0) = 0. Una de las técnicas que pueden crear representaciones ortogonales en las capas ocultas implica la codificación de características bipolar (es decir, codificación utilizando -1 y 1 en lugar de 0 y 1). ^[10] Los patrones ortogonales tienden a producir menos interferencia entre sí. Sin embargo, no todos los problemas de aprendizaje pueden representarse utilizando este tipo de vectores y algunos estudios informan que el grado de interferencia todavía es problemático con vectores ortogonales. ^[2]

Técnica de afilado de nodos

Según French (1991), ^[8] la interferencia catastrófica surge en redes de retropropagación de retroalimentación debido a la interacción de activaciones de nodos, o superposición de activación, que ocurre en representaciones distribuidas en la capa oculta. Las redes neuronales que emplean representaciones muy localizadas no muestran interferencia catastrófica debido a la falta de superposición en la capa oculta. Por lo tanto, French sugirió que reducir el valor de la superposición de activación en la capa oculta reduciría la interferencia catastrófica en redes distribuidas. Específicamente, propuso que esto podría hacerse cambiando las representaciones distribuidas en la capa oculta a representaciones "semidistribuidas". Una representación "semidistribuida" tiene menos nodos ocultos que están activos, y/o un valor de activación más bajo para estos nodos, para cada representación, lo que hará que las representaciones de las diferentes entradas se superpongan menos en la capa oculta. French recomendó que esto se podría hacer a través de "agudización de activación", una técnica que aumenta ligeramente la activación de una cierta cantidad de nodos más activos en la capa oculta, reduce ligeramente la activación de todas las demás unidades y luego cambia los pesos de entrada a la capa oculta para reflejar estos cambios de activación (similar a la retropropagación de errores).

Regla de novedad

Kortge (1990) ^[13] propuso una regla de aprendizaje para entrenar redes neuronales, llamada "regla de novedad", para ayudar a aliviar la interferencia catastrófica. Como sugiere su nombre, esta regla ayuda a la red neuronal a aprender solo los componentes de una nueva entrada que difieren de una entrada anterior. En consecuencia, la regla de novedad cambia solo los pesos que no se dedicaron previamente a almacenar información, reduciendo así la superposición en las representaciones en las unidades ocultas. Para aplicar la regla de novedad, durante el aprendizaje, el patrón de entrada se reemplaza por un vector de novedad que representa los componentes que difieren. Cuando la regla de novedad se utiliza en una red de retropropagación estándar, no se olvidan los elementos antiguos, o se olvidan menos, cuando se presentan elementos nuevos secuencialmente. ^[13] Sin embargo, una limitación es que esta regla solo se puede utilizar con redes autocodificadoras o autoasociativas, en las que la respuesta objetivo para la capa de salida es idéntica al patrón de entrada.

Redes de pre-entrenamiento

McRae y Hetherington (1993) ^[9] argumentaron que los humanos, a diferencia de la mayoría de las redes neuronales, no asumen nuevas tareas de aprendizaje con un conjunto aleatorio de pesos. Más bien, las personas tienden a aportar una gran cantidad de conocimiento previo a una tarea y esto ayuda a evitar el problema de la interferencia. Demostraron que cuando una red se entrena previamente con una muestra aleatoria de datos antes de comenzar una tarea de aprendizaje secuencial, este conocimiento previo limitará naturalmente la forma en que se puede incorporar la nueva información. Esto ocurriría porque una muestra aleatoria de datos de un dominio que tiene un alto grado de estructura interna, como el idioma inglés, el entrenamiento capturaría las regularidades, o patrones recurrentes, que se encuentran dentro de ese dominio. Dado que el dominio se basa en regularidades, un elemento recién aprendido tenderá a ser similar a la información aprendida previamente, lo que permitirá que la red incorpore nuevos datos con poca interferencia con los datos existentes. Específicamente, un vector de entrada que sigue el mismo patrón de regularidades que los datos entrenados previamente no debería causar un patrón drásticamente diferente de activación en la capa oculta ni alterar drásticamente los pesos.

Ensayo

Robins (1995) ^[14] describió que el olvido catastrófico puede prevenirse mediante mecanismos de repetición. Esto significa que cuando se añade nueva información, la red neuronal se vuelve a entrenar con parte de la información previamente aprendida. Sin embargo, en general, la información previamente aprendida puede no estar disponible para dicho reentrenamiento. Una solución para esto es el "pseudo-ensayo", en el que la red no se vuelve a entrenar con los datos previos reales, sino con representaciones de ellos. Varios métodos se basan en este mecanismo general.

Figura 2: La arquitectura de una red pseudo-recurrente

Redes pseudo-recurrentes

French (1997) propuso una red de retropropagación pseudo-recurrente (ver Figura 2). ^[5] En este modelo la red se divide en dos subredes funcionalmente distintas pero que interactúan. Este modelo está inspirado biológicamente y se basa en la investigación de McClelland et al. (1995) ^[15] McClelland y colegas sugirieron que el hipocampo y el neocórtex actúan como sistemas de memoria separables pero complementarios, con el hipocampo para el almacenamiento de memoria de corto plazo y el neocórtex para el almacenamiento de memoria de largo plazo . La información almacenada inicialmente en el hipocampo puede ser "transferida" al neocórtex por medio de reactivación o reproducción. En la red pseudo-recurrente, una de las subredes actúa como un área de procesamiento temprano, similar al hipocampo, y funciona para aprender nuevos patrones de entrada. La otra subred actúa como un área de almacenamiento final, similar al neocórtex. Sin embargo, a diferencia de McClelland et al. (1995), el área de almacenamiento final envía la representación generada internamente de vuelta al área de procesamiento temprano. Esto crea una red recurrente. French propuso que este entrelazado de representaciones antiguas con representaciones nuevas es la única manera de reducir el olvido radical. Dado que el cerebro probablemente no tendría acceso a los patrones de entrada originales, los patrones que se devolverían al neocórtex serían representaciones generadas internamente llamadas pseudopatrones . Estos pseudopatrones son aproximaciones de entradas anteriores ^[14] y se pueden entrelazar con el aprendizaje de nuevas entradas.

Memoria que se refresca por sí sola

Inspirados por ^[14] e independientemente de ^[5] Ans y Rousset (1997) ^[16] también propusieron una arquitectura neuronal artificial de dos redes con auto-refresco de memoria que supera la interferencia catastrófica cuando se llevan a cabo tareas de aprendizaje secuencial en redes distribuidas entrenadas por retropropagación. El principio es aprender nuevos patrones externos simultáneamente con pseudo-patrones generados internamente, o 'pseudo-memorias', que reflejan la información previamente aprendida. Lo que principalmente distingue a este modelo de aquellos que usan pseudo-ensayo clásico ^[14]^[5] en redes multicapa de propagación hacia adelante es un proceso reverberante ^{[ se necesita más explicación ]} que se utiliza para generar pseudo-patrones. Después de una serie de reinyecciones de actividad a partir de una sola semilla aleatoria, este proceso tiende a subir a atractores de red no lineales que son más adecuados para capturar de manera óptima la estructura profunda del conocimiento distribuido dentro de los pesos de conexión que el único pase de propagación hacia adelante de la actividad utilizado en el pseudo-ensayo. El procedimiento de autorrefresco de la memoria resultó muy eficiente en procesos de transferencia ^[17] y en el aprendizaje serial de secuencias temporales de patrones sin olvido catastrófico. ^[18]

Repetición generativa

En los últimos años, el pseudoensayo ha recuperado popularidad gracias al progreso en las capacidades de los modelos generativos profundos . Cuando se utilizan estos modelos generativos profundos para generar los "pseudodatos" que se van a ensayar, este método se conoce normalmente como repetición generativa. ^[19] Esta repetición generativa puede prevenir eficazmente el olvido catastrófico, especialmente cuando la repetición se realiza en las capas ocultas en lugar de en el nivel de entrada. ^[20]^[21]

Repetición espontánea

Los conocimientos sobre los mecanismos de consolidación de la memoria durante los procesos del sueño en el cerebro humano y animal dieron lugar a otros enfoques de inspiración biológica. Si bien los recuerdos declarativos se consolidan en el cuadro clásico mediante el diálogo hipocampo-neocortical durante la fase NREM del sueño (véase más arriba), se sugirió que algunos tipos de recuerdos procedimentales no dependen del hipocampo e involucran la fase REM del sueño (por ejemplo, ^[22] pero véase ^[23] para la complejidad del tema). Esto inspiró modelos en los que las representaciones internas (recuerdos) creadas por el aprendizaje previo se reproducen espontáneamente durante períodos similares al sueño en la propia red ^[24]^[25] (es decir, sin la ayuda de la red secundaria realizada por los enfoques de reproducción generativa mencionados anteriormente).

Aprendizaje latente

El aprendizaje latente es una técnica utilizada por Gutstein y Stump (2015) ^[26] para mitigar la interferencia catastrófica aprovechando el aprendizaje por transferencia . Este enfoque intenta encontrar codificaciones óptimas para cualquier clase nueva que se aprenda, de modo que sea menos probable que interfieran catastróficamente con las respuestas existentes. Dada una red que ha aprendido a discriminar entre un conjunto de clases utilizando códigos de salida de corrección de errores (ECOC) ^[27] (en lugar de códigos 1 hot ), las codificaciones óptimas para las nuevas clases se eligen observando las respuestas promedio de la red a ellas. Dado que estas respuestas promedio surgieron mientras se aprendía el conjunto original de clases sin ninguna exposición a las nuevas clases , se las conoce como "codificaciones aprendidas de forma latente". Esta terminología toma prestado del concepto de aprendizaje latente , introducido por Tolman en 1930. ^[28] En efecto, esta técnica utiliza el aprendizaje por transferencia para evitar la interferencia catastrófica, al hacer que las respuestas de una red a las nuevas clases sean lo más consistentes posible con las respuestas existentes a las clases ya aprendidas.

Consolidación de peso elástica

Kirkpatrick et al. (2017) ^[29] propusieron la consolidación elástica de pesos (EWC), un método para entrenar secuencialmente una única red neuronal artificial en múltiples tareas. Esta técnica supone que algunos pesos de la red neuronal entrenada son más importantes para tareas previamente aprendidas que otros. Durante el entrenamiento de la red neuronal en una nueva tarea, los cambios en los pesos de la red se hacen menos probables cuanto mayor sea su importancia. Para estimar la importancia de los pesos de la red, la EWC utiliza mecanismos probabilísticos, en particular la matriz de información de Fisher, pero esto también se puede hacer de otras maneras. ^[30]^[31]^[32]

Véase también

Alucinación (inteligencia artificial)

Referencias

^ abc McCloskey, Michael; Cohen, Neal J. (1989). Interferencia catastrófica en redes conexionistas: el problema del aprendizaje secuencial . Psicología del aprendizaje y la motivación. Vol. 24. págs. 109-165. doi :10.1016/S0079-7421(08)60536-8. ISBN 978-0-12-543324-2.
^ abcde Ratcliff, Roger (1990). "Modelos conexionistas de la memoria de reconocimiento: restricciones impuestas por las funciones de aprendizaje y olvido". Psychological Review . 97 (2): 285–308. doi :10.1037/0033-295x.97.2.285. PMID 2186426. S2CID 18556305.
^ Hebb, Donald Olding (1949). La organización del comportamiento: una teoría neuropsicológica . Wiley. ISBN 978-0-471-36727-7.OCLC 569043119 .^{[ página necesaria ]}
^ Carpenter, Gail A.; Grossberg, Stephen (1 de diciembre de 1987). "ART 2: autoorganización de códigos de reconocimiento de categorías estables para patrones de entrada analógicos". Applied Optics . 26 (23): 4919–4930. Bibcode :1987ApOpt..26.4919C. doi :10.1364/AO.26.004919. PMID 20523470.
^ abcd French, Robert M (diciembre de 1997). "Redes conexionistas pseudo-recurrentes: una aproximación al dilema 'sensibilidad-estabilidad'". Connection Science . 9 (4): 353–380. doi : 10.1080/095400997116595 .
^ González, Oscar C; Sokolov, Yury; Krishnan, Giri P; Delanois, Jean Erik; Bazhenov, Maxim (4 de agosto de 2020). "¿Puede el sueño proteger los recuerdos del olvido catastrófico?". eLife . 9 : e51005. doi : 10.7554/eLife.51005 . PMC 7440920 . PMID 32748786.
^ Barnes, Jean M.; Underwood, Benton J. (agosto de 1959). "'Destino' de las asociaciones de primera lista en la teoría de la transferencia". Revista de Psicología Experimental . 58 (2): 97–105. doi :10.1037/h0047507. PMID 13796886.
^ ab French, Robert M. (1991). Uso de representaciones semidistribuidas para superar el olvido catastrófico en redes conexionistas (PDF) . Actas de la 13.ª Conferencia Anual de la Sociedad de Ciencias Cognitivas. Nueva Jersey: Lawrence Erlbaum. págs. 173–178. CiteSeerX 10.1.1.1040.3564 .
^ abc "Se elimina la interferencia catastrófica en redes preentrenadas". Actas de la decimoquinta conferencia anual de la Sociedad de Ciencias Cognitivas: 18 al 21 de junio de 1993, Instituto de Ciencias Cognitivas, Universidad de Colorado-Boulder . Psychology Press. 1993. págs. 723–728. ISBN 978-0-8058-1487-3.
^ abcd French, R (1 de abril de 1999). "Olvido catastrófico en redes conexionistas". Tendencias en Ciencias Cognitivas . 3 (4): 128–135. doi :10.1016/S1364-6613(99)01294-2. PMID 10322466. S2CID 2691726.
^ Lewandowsky, Stephan (1991). "Desaprendizaje gradual e interferencia catastrófica: una comparación de arquitecturas distribuidas". En Hockley, William E.; Lewandowsky, Stephan (eds.). Relacionar teoría y datos: ensayos sobre la memoria humana en honor a Bennet B. Murdock . Psychology Press. págs. 445–476. ISBN 978-1-317-76013-9.
^ Lewandowsky, Stephan; Li, Shu-Chen (1995). "Interferencia catastrófica en redes neuronales". Interferencia e inhibición en la cognición . págs. 329–361. doi :10.1016/B978-012208930-5/50011-8. ISBN 978-0-12-208930-5.
^ ab Kortge, CA (1990). Memoria episódica en redes conexionistas. En: La duodécima conferencia anual de la Cognitive Science Society , (pp. 764-771). Hillsdale, NJ: Lawrence Erlbaum.
^ abcd Robins, Anthony (junio de 1995). "Olvido catastrófico, ensayo y pseudoensayo". Connection Science . 7 (2): 123–146. doi :10.1080/09540099550039318. S2CID 22882861.
^ McClelland, James L.; McNaughton, Bruce L.; O'Reilly, Randall C. (julio de 1995). "Por qué existen sistemas de aprendizaje complementarios en el hipocampo y el neocórtex: perspectivas a partir de los éxitos y fracasos de los modelos conexionistas de aprendizaje y memoria". Psychological Review . 102 (3): 419–457. doi :10.1037/0033-295X.102.3.419. PMID 7624455. S2CID 2832081.
^ Respuesta, Bernard; Rousset, Stéphane (diciembre de 1997). "Evitar el olvido catastrófico acoplando dos redes neuronales reverberantes". Cuentas Rendus de la Academia de Ciencias, Serie III . 320 (12): 989–997. Código Bib : 1997CRASG.320..989A. doi :10.1016/S0764-4469(97)82472-9.
^ Ans, Bernard; Rousset, Stéphane (marzo de 2000). "Redes neuronales con una memoria que se refresca por sí sola: transferencia de conocimiento en tareas de aprendizaje secuencial sin olvido catastrófico". Connection Science . 12 (1): 1–19. doi :10.1080/095400900116177. S2CID 7019649.
^ Ans, Bernard; Rousset, Stéphane; French, Robert M.; Musca, Serban (junio de 2004). "Memoria autorrenovable en redes neuronales artificiales: aprendizaje de secuencias temporales sin olvido catastrófico". Connection Science . 16 (2): 71–99. doi : 10.1080/09540090412331271199 . S2CID 13462914.
^ Mocanu, Decebal Constantin; Torres Vega, Maria; Eaton, Eric; Stone, Peter; Liotta, Antonio (18 de octubre de 2016). "Divergencia contrastiva en línea con repetición generativa: repetición de experiencias sin almacenar datos". arXiv : 1610.05555 [cs.LG].
^ Shin, Hanul; Lee, Jung Kwon; Kim, Jaehong; Kim, Jiwon (diciembre de 2017). Aprendizaje continuo con repetición generativa profunda. NIPS'17: Actas de la 31.ª Conferencia internacional sobre sistemas de procesamiento de información neuronal. Curran Associates. págs. 2994–3003. ISBN 978-1-5108-6096-4.
^ van de Ven, Gido M.; Siegelmann, Hava T.; Tolias, Andreas S. (13 de agosto de 2020). "Reproducción inspirada en el cerebro para el aprendizaje continuo con redes neuronales artificiales". Nature Communications . 11 (1): 4069. Bibcode :2020NatCo..11.4069V. doi :10.1038/s41467-020-17866-2. PMC 7426273 . PMID 32792531.
^ McDevitt, Elizabeth A.; Duggan, Katherine A.; Mednick, Sara C. (1 de julio de 2015). "El sueño REM rescata el aprendizaje de la interferencia". Neurobiología del aprendizaje y la memoria . Sueño REM y memoria. 122 : 51–62. doi :10.1016/j.nlm.2014.11.015. ISSN 1074-7427. PMC 4704701. PMID 25498222 .
^ MacDonald, Kevin J.; Cote, Kimberly A. (1 de octubre de 2021). "Contribuciones del sueño REM y NREM posterior al aprendizaje a la recuperación de la memoria". Reseñas de medicina del sueño . 59 : 101453. doi :10.1016/j.smrv.2021.101453. hdl : 10464/17792 . ISSN 1087-0792. PMID 33588273.
^ Golden, Ryan; Delanois, Jean Erik; Sanda, Pavel; Bazhenov, Maxim (18 de noviembre de 2022). "El sueño previene el olvido catastrófico en las redes neuronales activas mediante la formación de una representación de peso sináptico conjunta". PLOS Computational Biology . 18 (11): e1010628. Bibcode :2022PLSCB..18E0628G. doi : 10.1371/journal.pcbi.1010628 . ISSN 1553-7358. PMC 9674146 . PMID 36399437.
^ Tadros, Timothy; Krishnan, Giri P.; Ramyaa, Ramyaa; Bazhenov, Maxim (15 de diciembre de 2022). "La repetición no supervisada similar al sueño reduce el olvido catastrófico en redes neuronales artificiales". Nature Communications . 13 (1): 7742. Bibcode :2022NatCo..13.7742T. doi :10.1038/s41467-022-34938-7. ISSN 2041-1723. PMC 9755223 . PMID 36522325.
^ Gutstein, Steven; Stump, Ethan (2015). "Reducción del olvido catastrófico con aprendizaje por transferencia y códigos de salida ternarios". Conferencia conjunta internacional sobre redes neuronales (IJCNN) de 2015. págs. 1–8. doi :10.1109/IJCNN.2015.7280416. ISBN 978-1-4799-1960-4.S2CID 18745466 .
^ Dietterich, TG; Bakiri, G. (1 de enero de 1995). "Resolución de problemas de aprendizaje multiclase mediante códigos de salida de corrección de errores". Revista de investigación en inteligencia artificial . 2 : 263–286. arXiv : cs/9501101 . doi : 10.1613/jair.105 . S2CID 47109072.
^ Tolman, EC; Honzik, CH (1930). "'Insight' en ratas". Publicaciones en Psicología . 4 . Universidad de California: 215–232.
^ Kirkpatrick, James; Pascanu, Razvan; Rabinowitz, Neil; Veness, Joel; Desjardins, Guillaume; Rusu, Andrei A.; Milan, Kieran; Quan, John; Ramalho, Tiago; Grabska-Barwinska, Agnieszka; Hassabis, Demis; Clopath, Claudia; Kumaran, Dharshan; Hadsell, Raia (14 de marzo de 2017). "Superar el olvido catastrófico en redes neuronales". Actas de la Academia Nacional de Ciencias . 114 (13): 3521–3526. arXiv : 1612.00796 . Código Bibliográfico :2017PNAS..114.3521K. doi : 10.1073/pnas.1611835114 . PMC 5380101 . Número de modelo: PMID28292907.
^ Zenke, Friedemann; Poole, Ben; Ganguli, Surya (2017). "Aprendizaje continuo a través de la inteligencia sináptica". Actas de investigación sobre aprendizaje automático . 70 : 3987–3995. arXiv : 1703.04200 . PMC 6944509. PMID 31909397 .
^ Aljundi, Rahaf; Babiloni, Francesca; Elhoseiny, Mohamed; Rohrbach, Marcus; Tuytelaars, Tinne (2018). "Sinapsis conscientes de la memoria: aprender qué (no) olvidar". Visión artificial – ECCV 2018. Apuntes de clase en informática. Vol. 11207. págs. 144–161. arXiv : 1711.09601 . doi :10.1007/978-3-030-01219-9_9. ISBN 978-3-030-01218-2.S2CID 4254748 .
^ Kutalev, Alexey (2020). "Una forma natural de superar el olvido catastrófico en redes neuronales". Tecnologías de la información modernas y educación en TI . 16 (2): 331–337. arXiv : 2005.07107 . doi :10.25559/SITITO.16.202002.331-337. S2CID 218628670.