" Attention Is All You Need " [1] es un artículo de investigación de 2017 que marcó un hito [2] [3] en aprendizaje automático escrito por ocho científicos que trabajan en Google. El artículo presentó una nueva arquitectura de aprendizaje profundo conocida como transformador , basada en el mecanismo de atención propuesto en 2014 por Bahdanau et al. [4] Se considera un artículo fundacional [5] en inteligencia artificial moderna , ya que el enfoque del transformador se ha convertido en la arquitectura principal de grandes modelos de lenguaje como los basados en GPT . [6] [7] En ese momento, el enfoque de la investigación estaba en mejorar las técnicas Seq2seq para la traducción automática , pero los autores van más allá en el artículo, previendo el potencial de la técnica para otras tareas como la respuesta a preguntas y lo que ahora se conoce como IA generativa multimodal . [1]
El título del artículo es una referencia a la canción " All You Need Is Love " de los Beatles . [8] El nombre "Transformer" fue elegido porque a Uszkoreit le gustaba el sonido de esa palabra. [9]
Un documento de diseño inicial se tituló "Transformers: Autoatención iterativa y procesamiento para diversas tareas", e incluía una ilustración de seis personajes de la serie animada Transformers . El equipo se denominó Team Transformer. [8]
Algunos de los primeros ejemplos en los que el equipo probó su arquitectura Transformer incluyeron la traducción del inglés al alemán, la generación de artículos de Wikipedia sobre "The Transformer" y el análisis sintáctico de . Estos ejemplos convencieron al equipo de que Transformer es un modelo de lenguaje de propósito general y no solo bueno para la traducción. [9]
Hasta 2024, [actualizar]el artículo había sido citado más de 100.000 veces. [10]
Para su modelo Transformer de 100M parámetros, sugirieron que la tasa de aprendizaje debería escalarse linealmente desde 0 hasta el valor máximo para la primera parte del entrenamiento (es decir, el 2% del número total de pasos de entrenamiento) y utilizar la deserción para estabilizar el entrenamiento.
Los autores del artículo son: Ashish Vaswani , Noam Shazeer , Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan Gomez , Lukasz Kaiser e Illia Polosukhin. Los ocho autores contribuyeron al artículo por igual; el orden de la lista fue aleatorio. El artículo de Wired destaca la diversidad del grupo: [8]
Seis de los ocho autores nacieron fuera de Estados Unidos; los otros dos son hijos de dos alemanes con tarjeta verde que estaban temporalmente en California y de un estadounidense de primera generación cuya familia había huido de la persecución, respectivamente.
En 2023, los ocho autores habían abandonado Google y fundado sus propias empresas emergentes de inteligencia artificial (excepto Łukasz Kaiser, que se unió a OpenAI ). [8] [10]
Durante muchos años, el modelado y la generación de secuencias se realizaron mediante redes neuronales recurrentes (RNN, por sus siglas en inglés). Un ejemplo temprano muy citado fue la red Elman (1990). En teoría, la información de un token puede propagarse arbitrariamente a lo largo de la secuencia, pero en la práctica, el problema del gradiente evanescente deja el estado del modelo al final de una oración larga sin información precisa y extraíble sobre los tokens anteriores.
Un avance clave fue LSTM (1995), [nota 1] una RNN que utilizó varias innovaciones para superar el problema del gradiente de desaparición, lo que permitió un aprendizaje eficiente del modelado de secuencias largas. Una innovación clave fue el uso de un mecanismo de atención que utiliza neuronas que multiplican las salidas de otras neuronas, las llamadas unidades multiplicativas . [11] Las redes neuronales que utilizan unidades multiplicativas se denominaron posteriormente redes sigma-pi [12] o redes de orden superior . [13] LSTM se convirtió en la arquitectura estándar para el modelado de secuencias largas hasta la publicación de Transformers en 2017. Sin embargo, LSTM todavía utilizaba el procesamiento secuencial, como la mayoría de las otras RNN. [nota 2] Específicamente, las RNN operan un token a la vez desde el primero hasta el último; no pueden operar en paralelo sobre todos los tokens de una secuencia.
Los transformadores modernos superan este problema, pero a diferencia de las redes neuronales regresivas, requieren un tiempo de cálculo que es cuadrático en el tamaño de la ventana de contexto. El controlador de peso rápido de escalamiento lineal (1992) aprende a calcular una matriz de peso para su posterior procesamiento en función de la entrada. [14] Una de sus dos redes tiene "pesos rápidos" o "enlaces dinámicos" (1981). [15] [16] [17] Una red neuronal lenta aprende por descenso de gradiente a generar claves y valores para calcular los cambios de peso de la red neuronal rápida que calcula las respuestas a las consultas. [14] Más tarde se demostró que esto era equivalente al transformador lineal no normalizado. [18] [19]
La idea de la transducción de secuencias codificador-descodificador se desarrolló a principios de la década de 2010 (consulte [20] [21] para consultar artículos anteriores). Los artículos que se citan con más frecuencia como los creadores de seq2seq son dos artículos publicados simultáneamente en 2014. [20] [21]
(Sutskever et al, 2014) [21] fue un modelo de 380M de parámetros para la traducción automática que utiliza dos memorias de corto plazo largas (LSTM). La arquitectura consta de dos partes. El codificador es un LSTM que toma una secuencia de tokens y la convierte en un vector. El decodificador es otro LSTM que convierte el vector en una secuencia de tokens. De manera similar, (Cho et al, 2014) [20] fue un modelo de 130M de parámetros que utilizó unidades recurrentes controladas (GRU) en lugar de LSTM. Investigaciones posteriores demostraron que las GRU no son ni mejores ni peores que las LSTM para seq2seq. [22] [23]
Estos primeros modelos seq2seq no tenían mecanismo de atención, y el vector de estado es accesible solo después de que se haya procesado la última palabra del texto fuente. Aunque en teoría un vector de este tipo retiene la información sobre toda la oración original, en la práctica la información se conserva de forma deficiente, ya que la entrada se procesa secuencialmente por una red recurrente en un vector de salida de tamaño fijo , que luego es procesado por otra red recurrente en una salida. Si la entrada es larga, entonces el vector de salida no podría contener toda la información relevante y la calidad de la salida se degrada. Como prueba, invertir la oración de entrada mejoró la traducción seq2seq. [24]
(Bahdanau et al, 2014) [25] introdujeron un mecanismo de atención en seq2seq para la traducción automática con el fin de resolver el problema del cuello de botella (del vector de salida de tamaño fijo ), lo que permite que el modelo procese dependencias de larga distancia con mayor facilidad. Llamaron a su modelo RNNsearch , ya que "emula la búsqueda a través de una oración fuente durante la decodificación de una traducción".
(Luong et al, 2015) [26] compararon el desempeño relativo de las arquitecturas de modelos de atención global (el de (Bahdanau et al, 2014)) y local (ventana deslizante) para la traducción automática, y encontraron que una arquitectura de atención mixta tenía mayor calidad que la atención global, mientras que el uso de una arquitectura de atención local reducía el tiempo de traducción.
En 2016, Google Translate fue renovado a Google Neural Machine Translation , que reemplazó al modelo anterior basado en traducción automática estadística . El nuevo modelo era un modelo seq2seq donde el codificador y el decodificador eran ambos 8 capas de LSTM bidireccional. [27] Tomó nueve meses para desarrollarse, y logró un mayor nivel de rendimiento que el enfoque estadístico, que tardó diez años en desarrollarse. [28] En el mismo año, se propuso la autoatención avant la lettre , originalmente llamada intraatención o atención intra-oración , para las LSTM. [29] [30]
Los modelos Seq2seq con atención (incluida la autoatención) todavía sufrían del mismo problema con las redes recurrentes, que es que son difíciles de paralelizar, lo que impedía que se aceleraran en las GPU. En 2016, la atención descomponible aplicó un mecanismo de autoatención a las redes de propagación hacia adelante , que son fáciles de paralelizar, y logró un resultado SOTA en implicación textual con un orden de magnitud menos de parámetros que las LSTM. [31] Uno de sus autores, Jakob Uszkoreit, sospechó que la atención sin recurrencia es suficiente para la traducción de idiomas, de ahí el título "la atención es todo lo que necesitas". [32] Esa hipótesis iba en contra de la sabiduría convencional de la época, e incluso su padre, un conocido lingüista computacional, era escéptico. [32]
En 2017, el modelo de transformador codificador-decodificador original (de tamaño 100M) se propuso en el artículo " Attention is all you need ". En ese momento, el foco de la investigación estaba en mejorar seq2seq para la traducción automática , eliminando su recurrencia para procesar todos los tokens en paralelo, pero preservando su mecanismo de atención de producto escalar para mantener su rendimiento de procesamiento de texto. [30] Su paralelización fue un factor importante para su uso generalizado en grandes redes neuronales. [33]
Ya en la primavera de 2017, incluso antes de que se publicara el preprint "Attention is all you need", uno de los coautores aplicó la variante "solo decodificador" de la arquitectura para generar artículos ficticios de Wikipedia. [34] La arquitectura de transformadores ahora se utiliza en muchos modelos generativos que contribuyen al auge actual de la IA .
En el campo del modelado del lenguaje, ELMo (2018) fue un LSTM bidireccional que produce incrustaciones de palabras contextualizadas , mejorando la línea de investigación de bag of words y word2vec . Le siguió BERT (2018), un modelo Transformer solo codificador. [35] En octubre de 2019, Google comenzó a utilizar BERT para procesar consultas de búsqueda. [36] En 2020, Google Translate reemplazó el modelo RNN-codificador-RNN-decodificador anterior por un modelo Transformer-codificador-RNN-decodificador. [37]
A partir de 2018, la serie OpenAI GPT de Transformers con solo decodificador se convirtió en la última generación de lenguaje natural . En 2022, un chatbot basado en GPT-3, ChatGPT , se volvió inesperadamente popular, [38] lo que desencadenó un auge en torno a los modelos de lenguaje de gran tamaño . [39] [40]
Desde 2020, los Transformers se han aplicado en modalidades más allá del texto, incluido el transformador de visión , [41] reconocimiento de voz, [42] robótica, [43] y multimodal . [44] El transformador de visión, a su vez, estimuló nuevos desarrollos en redes neuronales convolucionales . [45] Los generadores de imágenes y videos como DALL-E (2021), Stable Diffusion 3 (2024), [46] y Sora (2024), se basan en la arquitectura Transformer.
inventors
fue invocada pero nunca definida (ver la página de ayuda ).2017_Attention_Is_All_You_Need
fue invocada pero nunca definida (ver la página de ayuda ).Gulati2020
fue invocada pero nunca definida (ver la página de ayuda ).