En el aprendizaje automático , la red de autopistas fue la primera red neuronal de propagación hacia adelante muy profunda con cientos de capas, mucho más profunda que las redes neuronales artificiales anteriores . [1] [2] [3] Utiliza conexiones de salto moduladas por mecanismos de compuerta aprendidos para regular el flujo de información, inspirados en las redes neuronales recurrentes de memoria a corto y largo plazo (LSTM) . [4] [5] La ventaja de una red de autopistas sobre las redes neuronales profundas comunes es que resuelve o previene parcialmente el problema del gradiente de desaparición , [6] lo que conduce a redes neuronales más fáciles de optimizar. Los mecanismos de compuerta facilitan el flujo de información a través de muchas capas ("autopistas de información"). [1] [2]
Las redes de carreteras se han utilizado como parte de tareas de etiquetado de secuencias de texto y reconocimiento de voz . [7] [8]
En 2014, el estado del arte era entrenar “redes neuronales muy profundas” con 20 a 30 capas. [9] Apilar demasiadas capas condujo a una reducción pronunciada en la precisión del entrenamiento , [10] conocido como el problema de “degradación”. [11] En 2015, se desarrollaron dos técnicas para entrenar redes muy profundas: la Highway Network se publicó en mayo de 2015 y la red neuronal residual (ResNet) [12] en diciembre de 2015. ResNet se comporta como una Highway Net de compuerta abierta.
El modelo tiene dos puertas además de la puerta H(W H , x) : la puerta de transformación T(W T , x ) y la puerta de acarreo C(W C , x) . Esas dos últimas puertas son funciones de transferencia no lineales (por convención, función sigmoidea ). La función H(W H , x) puede ser cualquier función de transferencia deseada.
La compuerta de acarreo se define como C(W C , x) = 1 - T(W T , x) . Mientras que la compuerta de transformación es simplemente una compuerta con una función de transferencia sigmoidea.
La estructura de una capa oculta sigue la ecuación:
Sepp Hochreiter analizó el problema del gradiente evanescente en 1991 y le atribuyó la razón por la que el aprendizaje profundo no funcionaba bien. [6] Para superar este problema, las redes neuronales recurrentes de memoria a corto y largo plazo (LSTM) [4] tienen conexiones residuales con un peso de 1.0 en cada celda LSTM (llamada carrusel de error constante) para calcular . Durante la retropropagación a través del tiempo , esto se convierte en la fórmula residual para redes neuronales de avance. Esto permite entrenar redes neuronales recurrentes muy profundas con un lapso de tiempo muy largo t. Una versión posterior de LSTM publicada en 2000 [5] modula las conexiones LSTM de identidad mediante las llamadas "puertas de olvido" de modo que sus pesos no se fijan en 1.0 sino que se pueden aprender. En los experimentos, las puertas de olvido se inicializaron con pesos de sesgo positivos, [5] abriéndose así, abordando el problema del gradiente evanescente. Mientras las puertas de olvido del LSTM 2000 estén abiertas, se comportará como el LSTM 1997.
La Red de Carreteras de mayo de 2015 [1] aplica estos principios a las redes neuronales de propagación hacia adelante . Se informó que era "la primera red de propagación hacia adelante muy profunda con cientos de capas". [13] Es como una LSTM de 2000 con puertas de olvido desplegadas en el tiempo , [5] mientras que las Redes Residuales posteriores no tienen equivalente de puertas de olvido y son como la LSTM original de 1997 desplegada. [4] Si las conexiones de salto en las Redes de Carreteras no tienen puertas, o si sus puertas se mantienen abiertas (activación 1.0), se convierten en Redes Residuales.
La conexión residual es un caso especial de la "conexión de atajo" o "conexión de salto" de Rosenblatt (1961) [14] y Lang & Witbrock (1988) [15] que tiene la forma.En este caso, la matriz de pesos inicializada aleatoriamente A no tiene por qué ser la asignación de identidad. Toda conexión residual es una conexión de salto, pero casi todas las conexiones de salto no son conexiones residuales.
El artículo original de Highway Network [16] no solo introdujo el principio básico para redes de propagación hacia adelante muy profundas, sino que también incluyó resultados experimentales con redes de 20, 50 y 100 capas, y mencionó experimentos en curso con hasta 900 capas. Las redes con 50 o 100 capas tuvieron un error de entrenamiento menor que sus contrapartes de red simple, pero no menor que su contraparte de 20 capas (en el conjunto de datos MNIST, Figura 1 en [16] ). No se informó ninguna mejora en la precisión de la prueba con redes más profundas que 19 capas (en el conjunto de datos CIFAR-10; Tabla 1 en [16] ). Sin embargo, el artículo de ResNet [17] proporcionó evidencia experimental sólida de los beneficios de ir más allá de las 20 capas. Argumentó que el mapeo de identidad sin modulación es crucial y mencionó que la modulación en la conexión de salto aún puede conducir a señales que desaparecen en la propagación hacia adelante y hacia atrás (Sección 3 en [17] ). Esta es también la razón por la que las puertas de olvido del LSTM 2000 [18] se abrieron inicialmente a través de pesos de sesgo positivos: mientras las puertas estén abiertas, se comporta como el LSTM 1997. De manera similar, una Highway Net cuyas puertas se abren a través de pesos de sesgo fuertemente positivos se comporta como una ResNet. Las conexiones de salto utilizadas en las redes neuronales modernas (por ejemplo, Transformers ) son predominantemente asignaciones de identidad.