La atención es todo lo que necesitas

Una ilustración de los componentes principales del modelo del transformador del artículo

" Attention Is All You Need " ^[1] es un artículo de investigación de 2017 que marcó un hito ^[2]^[3] en aprendizaje automático escrito por ocho científicos que trabajan en Google. El artículo presentó una nueva arquitectura de aprendizaje profundo conocida como transformador , basada en el mecanismo de atención propuesto en 2014 por Bahdanau et al. ^[4] Se considera un artículo fundacional ^[5] en inteligencia artificial moderna , ya que el enfoque del transformador se ha convertido en la arquitectura principal de grandes modelos de lenguaje como los basados en GPT . ^[6]^[7] En ese momento, el enfoque de la investigación estaba en mejorar las técnicas Seq2seq para la traducción automática , pero los autores van más allá en el artículo, previendo el potencial de la técnica para otras tareas como la respuesta a preguntas y lo que ahora se conoce como IA generativa multimodal . ^[1]

El título del artículo es una referencia a la canción " All You Need Is Love " de los Beatles . ^[8] El nombre "Transformer" fue elegido porque a Uszkoreit le gustaba el sonido de esa palabra. ^[9]

Un documento de diseño inicial se tituló "Transformers: Autoatención iterativa y procesamiento para diversas tareas", e incluía una ilustración de seis personajes de la serie animada Transformers . El equipo se denominó Team Transformer. ^[8]

Algunos de los primeros ejemplos en los que el equipo probó su arquitectura Transformer incluyeron la traducción del inglés al alemán, la generación de artículos de Wikipedia sobre "The Transformer" y el análisis sintáctico de . Estos ejemplos convencieron al equipo de que Transformer es un modelo de lenguaje de propósito general y no solo bueno para la traducción. ^[9]

Hasta 2024, ^[actualizar]el artículo había sido citado más de 100.000 veces. ^[10]

Para su modelo Transformer de 100M parámetros, sugirieron que la tasa de aprendizaje debería escalarse linealmente desde 0 hasta el valor máximo para la primera parte del entrenamiento (es decir, el 2% del número total de pasos de entrenamiento) y utilizar la deserción para estabilizar el entrenamiento.

Autores

Los autores del artículo son: Ashish Vaswani , Noam Shazeer , Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan Gomez , Lukasz Kaiser e Illia Polosukhin. Los ocho autores contribuyeron al artículo por igual; el orden de la lista fue aleatorio. El artículo de Wired destaca la diversidad del grupo: ^[8]

Seis de los ocho autores nacieron fuera de Estados Unidos; los otros dos son hijos de dos alemanes con tarjeta verde que estaban temporalmente en California y de un estadounidense de primera generación cuya familia había huido de la persecución, respectivamente.

En 2023, los ocho autores habían abandonado Google y fundado sus propias empresas emergentes de inteligencia artificial (excepto Łukasz Kaiser, que se unió a OpenAI ). ^[8]^[10]

Contexto histórico

Antecesores

Durante muchos años, el modelado y la generación de secuencias se realizaron mediante redes neuronales recurrentes (RNN, por sus siglas en inglés). Un ejemplo temprano muy citado fue la red Elman (1990). En teoría, la información de un token puede propagarse arbitrariamente a lo largo de la secuencia, pero en la práctica, el problema del gradiente evanescente deja el estado del modelo al final de una oración larga sin información precisa y extraíble sobre los tokens anteriores.

Un avance clave fue LSTM (1995), ^{[nota 1]} una RNN que utilizó varias innovaciones para superar el problema del gradiente de desaparición, lo que permitió un aprendizaje eficiente del modelado de secuencias largas. Una innovación clave fue el uso de un mecanismo de atención que utiliza neuronas que multiplican las salidas de otras neuronas, las llamadas unidades multiplicativas . ^[11] Las redes neuronales que utilizan unidades multiplicativas se denominaron posteriormente redes sigma-pi ^[12] o redes de orden superior . ^[13] LSTM se convirtió en la arquitectura estándar para el modelado de secuencias largas hasta la publicación de Transformers en 2017. Sin embargo, LSTM todavía utilizaba el procesamiento secuencial, como la mayoría de las otras RNN. ^{[nota 2]} Específicamente, las RNN operan un token a la vez desde el primero hasta el último; no pueden operar en paralelo sobre todos los tokens de una secuencia.

Los transformadores modernos superan este problema, pero a diferencia de las redes neuronales regresivas, requieren un tiempo de cálculo que es cuadrático en el tamaño de la ventana de contexto. El controlador de peso rápido de escalamiento lineal (1992) aprende a calcular una matriz de peso para su posterior procesamiento en función de la entrada. ^[14] Una de sus dos redes tiene "pesos rápidos" o "enlaces dinámicos" (1981). ^[15]^[16]^[17] Una red neuronal lenta aprende por descenso de gradiente a generar claves y valores para calcular los cambios de peso de la red neuronal rápida que calcula las respuestas a las consultas. ^[14] Más tarde se demostró que esto era equivalente al transformador lineal no normalizado. ^[18]^[19]

Atención con seq2seq

La idea de la transducción de secuencias codificador-descodificador se desarrolló a principios de la década de 2010 (consulte ^[20]^[21] para consultar artículos anteriores). Los artículos que se citan con más frecuencia como los creadores de seq2seq son dos artículos publicados simultáneamente en 2014. ^[20]^[21]

(Sutskever et al, 2014) ^[21] fue un modelo de 380M de parámetros para la traducción automática que utiliza dos memorias de corto plazo largas (LSTM). La arquitectura consta de dos partes. El codificador es un LSTM que toma una secuencia de tokens y la convierte en un vector. El decodificador es otro LSTM que convierte el vector en una secuencia de tokens. De manera similar, (Cho et al, 2014) ^[20] fue un modelo de 130M de parámetros que utilizó unidades recurrentes controladas (GRU) en lugar de LSTM. Investigaciones posteriores demostraron que las GRU no son ni mejores ni peores que las LSTM para seq2seq. ^[22]^[23]

Estos primeros modelos seq2seq no tenían mecanismo de atención, y el vector de estado es accesible solo después de que se haya procesado la última palabra del texto fuente. Aunque en teoría un vector de este tipo retiene la información sobre toda la oración original, en la práctica la información se conserva de forma deficiente, ya que la entrada se procesa secuencialmente por una red recurrente en un vector de salida de tamaño fijo , que luego es procesado por otra red recurrente en una salida. Si la entrada es larga, entonces el vector de salida no podría contener toda la información relevante y la calidad de la salida se degrada. Como prueba, invertir la oración de entrada mejoró la traducción seq2seq. ^[24]

(Bahdanau et al, 2014) ^[25] introdujeron un mecanismo de atención en seq2seq para la traducción automática con el fin de resolver el problema del cuello de botella (del vector de salida de tamaño fijo ), lo que permite que el modelo procese dependencias de larga distancia con mayor facilidad. Llamaron a su modelo RNNsearch , ya que "emula la búsqueda a través de una oración fuente durante la decodificación de una traducción".

(Luong et al, 2015) ^[26] compararon el desempeño relativo de las arquitecturas de modelos de atención global (el de (Bahdanau et al, 2014)) y local (ventana deslizante) para la traducción automática, y encontraron que una arquitectura de atención mixta tenía mayor calidad que la atención global, mientras que el uso de una arquitectura de atención local reducía el tiempo de traducción.

En 2016, Google Translate fue renovado a Google Neural Machine Translation , que reemplazó al modelo anterior basado en traducción automática estadística . El nuevo modelo era un modelo seq2seq donde el codificador y el decodificador eran ambos 8 capas de LSTM bidireccional. ^[27] Tomó nueve meses para desarrollarse, y logró un mayor nivel de rendimiento que el enfoque estadístico, que tardó diez años en desarrollarse. ^[28] En el mismo año, se propuso la autoatención avant la lettre , originalmente llamada intraatención o atención intra-oración , para las LSTM. ^[29]^[30]

Paralelizando la atención

Los modelos Seq2seq con atención (incluida la autoatención) todavía sufrían del mismo problema con las redes recurrentes, que es que son difíciles de paralelizar, lo que impedía que se aceleraran en las GPU. En 2016, la atención descomponible aplicó un mecanismo de autoatención a las redes de propagación hacia adelante , que son fáciles de paralelizar, y logró un resultado SOTA en implicación textual con un orden de magnitud menos de parámetros que las LSTM. ^[31] Uno de sus autores, Jakob Uszkoreit, sospechó que la atención sin recurrencia es suficiente para la traducción de idiomas, de ahí el título "la atención es todo lo que necesitas". ^[32] Esa hipótesis iba en contra de la sabiduría convencional de la época, e incluso su padre, un conocido lingüista computacional, era escéptico. ^[32]

En 2017, el modelo de transformador codificador-decodificador original (de tamaño 100M) se propuso en el artículo " Attention is all you need ". En ese momento, el foco de la investigación estaba en mejorar seq2seq para la traducción automática , eliminando su recurrencia para procesar todos los tokens en paralelo, pero preservando su mecanismo de atención de producto escalar para mantener su rendimiento de procesamiento de texto. ^[30] Su paralelización fue un factor importante para su uso generalizado en grandes redes neuronales. ^[33]

La era del auge de la IA

Ya en la primavera de 2017, incluso antes de que se publicara el preprint "Attention is all you need", uno de los coautores aplicó la variante "solo decodificador" de la arquitectura para generar artículos ficticios de Wikipedia. ^[34] La arquitectura de transformadores ahora se utiliza en muchos modelos generativos que contribuyen al auge actual de la IA .

En el campo del modelado del lenguaje, ELMo (2018) fue un LSTM bidireccional que produce incrustaciones de palabras contextualizadas , mejorando la línea de investigación de bag of words y word2vec . Le siguió BERT (2018), un modelo Transformer solo codificador. ^[35] En octubre de 2019, Google comenzó a utilizar BERT para procesar consultas de búsqueda. ^[36] En 2020, Google Translate reemplazó el modelo RNN-codificador-RNN-decodificador anterior por un modelo Transformer-codificador-RNN-decodificador. ^[37]

A partir de 2018, la serie OpenAI GPT de Transformers con solo decodificador se convirtió en la última generación de lenguaje natural . En 2022, un chatbot basado en GPT-3, ChatGPT , se volvió inesperadamente popular, ^[38] lo que desencadenó un auge en torno a los modelos de lenguaje de gran tamaño . ^[39]^[40]

Desde 2020, los Transformers se han aplicado en modalidades más allá del texto, incluido el transformador de visión , ^[41] reconocimiento de voz, ^[42] robótica, ^[43] y multimodal . ^[44] El transformador de visión, a su vez, estimuló nuevos desarrollos en redes neuronales convolucionales . ^[45] Los generadores de imágenes y videos como DALL-E (2021), Stable Diffusion 3 (2024), ^[46] y Sora (2024), se basan en la arquitectura Transformer.

Notas

^ Las unidades recurrentes cerradas (2014) redujeron aún más su complejidad.
^ Algunas arquitecturas, como RWKV o los modelos de espacio de estados, evitan el problema.

Referencias

^ ab Vaswani, Ashish ; Shazeer, Noam ; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N ; Kaiser, Łukasz; Polosukhin, Illia (2017). "La atención es todo lo que necesitas" (PDF) . Avances en sistemas de procesamiento de información neuronal . 30 . Curran Associates, Inc.
^ Love, Julia (10 de julio de 2023). "Investigador de inteligencia artificial que ayudó a escribir un artículo de referencia se va de Google". Bloomberg News . Consultado el 1 de abril de 2024 .
^ Goldman, Sharon (20 de marzo de 2024). "Los creadores de 'Attention is All You Need' buscan inteligencia artificial más allá de Transformers en Nvidia GTC: 'El mundo necesita algo mejor'". VentureBeat . Consultado el 1 de abril de 2024 .
^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (19 de mayo de 2016). "Traducción automática neuronal mediante aprendizaje conjunto de alineación y traducción". arXiv : 1409.0473 [cs.CL].
^ Shinde, Gitanjali; Wasatkar, Namrata; Mahalle, Parikshit (6 de junio de 2024). Inteligencia artificial centrada en datos para aplicaciones multidisciplinarias. CRC Press . p. 75. ISBN 9781040031131.
^ Toews, Rob (3 de septiembre de 2023). "Transformers revolucionó la IA. ¿Qué los reemplazará?". Forbes . Archivado desde el original el 26 de septiembre de 2023. Consultado el 3 de diciembre de 2023 .
^ Murgia, Madhumita (23 de julio de 2023). «Transformers: los científicos de Google que fueron pioneros en una revolución de la IA». Financial Times . Archivado desde el original el 28 de diciembre de 2023. Consultado el 22 de marzo de 2024 .
^ abcd Levy, Steven. "8 empleados de Google inventaron la inteligencia artificial moderna. Aquí está la historia desde dentro". Wired . ISSN 1059-1028 . Consultado el 20 de marzo de 2024 .
^ ab Marche, Stephen (23 de agosto de 2024). "¿La IA lingüística se creó por accidente?". The New Yorker . ISSN 0028-792X . Consultado el 24 de agosto de 2024 .
^ ab "Conoce a las superestrellas de la inteligencia artificial de 4.000 millones de dólares que Google perdió". Bloomberg . 13 de julio de 2023 – vía www.bloomberg.com.
^ Feldman, JA; Ballard, DH (1 de julio de 1982). "Modelos conexionistas y sus propiedades". Ciencia cognitiva . 6 (3): 205–254. doi :10.1016/S0364-0213(82)80001-3. ISSN 0364-0213.
^ Rumelhart, David E.; McClelland, James L.; Hinton, Geoffrey E. (29 de julio de 1987). Procesamiento distribuido paralelo, volumen 1: exploraciones en la microestructura de la cognición: fundamentos, capítulo 2 (PDF) . Cambridge, Mass: Bradford Books. ISBN 978-0-262-68053-0.
^ Giles, C. Lee; Maxwell, Tom (1 de diciembre de 1987). "Aprendizaje, invariancia y generalización en redes neuronales de orden superior". Óptica Aplicada . 26 (23): 4972–4978. doi :10.1364/AO.26.004972. ISSN 0003-6935. PMID 20523475.
^ ab Schmidhuber, Jürgen (1992). "Aprender a controlar las memorias de peso rápido: una alternativa a las redes recurrentes" (PDF) . Neural Computation . 4 (1): 131–139. doi :10.1162/neco.1992.4.1.131. S2CID 16683347.
^ Christoph von der Malsburg: La teoría de la correlación de la función cerebral. Informe interno 81-2, MPI Biophysical Chemistry, 1981. http://cogprints.org/1380/1/vdM_correlation.pdf Véase la reimpresión en Models of Neural Networks II, capítulo 2, páginas 95-119. Springer, Berlín, 1994.
^ Jerome A. Feldman, "Conexiones dinámicas en redes neuronales", Biological Cybernetics, vol. 46, no. 1, pp. 27-39, diciembre de 1982.
^ Hinton, Geoffrey E.; Plaut, David C. (1987). "Uso de pesos rápidos para desenfocar viejos recuerdos". Actas de la Reunión Anual de la Sociedad de Ciencias Cognitivas . 9 .
^ Katharopoulos, Angelos; Vyas, Apoorv; Pappas, Nikolaos; Fleuret, François (2020). "Los transformadores son RNN: transformadores autorregresivos rápidos con atención lineal". ICML 2020 . PMLR. págs. 5156–5165.
^ Schlag, Imanol; Irie, Kazuki; Schmidhuber, Jürgen (2021). "Los transformadores lineales son programadores de peso secretamente rápidos". ICML 2021 . Saltador. págs. 9355–9366.
^ abc Cho, Kyunghyun; van Merriënboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (octubre de 2014). "Aprendizaje de representaciones de frases mediante el codificador-decodificador RNN para traducción automática estadística". En Moschitti, Alessandro; Pang, Bo; Daelemans, Walter (eds.). Actas de la Conferencia de 2014 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP) . Doha, Qatar: Asociación de Lingüística Computacional. págs. 1724–1734. arXiv : 1406.1078 . doi :10.3115/v1/D14-1179.
^ abc Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet (14 de diciembre de 2014). "Aprendizaje secuencia a secuencia con redes neuronales". arXiv : 1409.3215 [cs.CL].[Primera versión publicada en arXiv el 10 de septiembre de 2014]
^ Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun; Bengio, Yoshua (2014). "Evaluación empírica de redes neuronales recurrentes controladas en el modelado de secuencias". arXiv : 1412.3555 [cs.NE].
^ Gruber, N.; Jockisch, A. (2020), "¿Son las células GRU más específicas y las células LSTM más sensibles en la clasificación de motivos del texto?", Frontiers in Artificial Intelligence , 3 : 40, doi : 10.3389/frai.2020.00040 , PMC 7861254 , PMID 33733157, S2CID 220252321
^ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc V (2014). "Aprendizaje secuencia a secuencia con redes neuronales". Avances en sistemas de procesamiento de información neuronal . 27 . Curran Associates, Inc. arXiv : 1409.3215 .
^ Error de cita: La referencia nombrada inventorsfue invocada pero nunca definida (ver la página de ayuda ).
^ Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (2015). "Enfoques efectivos para la traducción automática neuronal basada en la atención". arXiv : 1508.04025 [cs.CL].
^ Wu, Yonghui; et al. (1 de septiembre de 2016). "El sistema de traducción automática neuronal de Google: cerrando la brecha entre la traducción humana y la traducción automática". arXiv : 1609.08144 [cs.CL].
^ Lewis-Kraus, Gideon (14 de diciembre de 2016). «El gran despertar de la IA». The New York Times . ISSN 0362-4331. Archivado desde el original el 24 de mayo de 2023. Consultado el 22 de junio de 2023 .
^ Cheng, Jianpeng; Dong, Li; Lapata, Mirella (noviembre de 2016). "Redes de memoria a corto y largo plazo para lectura de máquinas". En Su, Jian; Duh, Kevin; Carreras, Xavier (eds.). Actas de la Conferencia de 2016 sobre métodos empíricos en el procesamiento del lenguaje natural . Austin, Texas: Asociación de Lingüística Computacional. págs. 551–561. doi :10.18653/v1/D16-1053.
^ ab Error en la cita: La referencia nombrada 2017_Attention_Is_All_You_Needfue invocada pero nunca definida (ver la página de ayuda ).
^ Parikh, Ankur P.; Täckström, Oscar; Das, Dipanjan; Uszkoreit, Jakob (25 de septiembre de 2016). "Un modelo de atención descomponible para la inferencia del lenguaje natural". arXiv : 1606.01933 [cs.CL].
^ ab Levy, Steven. "8 empleados de Google inventaron la IA moderna. Aquí está la historia desde dentro". Wired . ISSN 1059-1028. Archivado desde el original el 20 de marzo de 2024 . Consultado el 6 de agosto de 2024 .
^ Peng, Bo; Alcaide, Eric; Anthony, Quentin; Albalak, Alon; Arcadinho, Samuel; Biderman, Stella; Cao, Huanqi; Cheng, Xin; Chung, Michael (10 de diciembre de 2023), RWKV: Reinventando las RNN para la era de los transformadores , arXiv : 2305.13048
^ Marche, Stephen (23 de agosto de 2024). "¿La IA lingüística se creó por accidente?". The New Yorker . ISSN 0028-792X . Consultado el 27 de agosto de 2024 .
^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 de octubre de 2018). "BERT: preentrenamiento de transformadores bidireccionales profundos para la comprensión del lenguaje". arXiv : 1810.04805v2 [cs.CL].
^ "Google: BERT ahora se utiliza en casi todas las consultas en inglés". Search Engine Land . 15 de octubre de 2020 . Consultado el 24 de noviembre de 2020 .
^ "Avances recientes en Google Translate". research.google . Consultado el 8 de mayo de 2024 .
^ "La historia interna de cómo se creó ChatGPT a partir de las personas que lo hicieron". MIT Technology Review . Consultado el 6 de agosto de 2024 .
^ "Mejorar la comprensión del lenguaje con aprendizaje no supervisado". openai.com . 11 de junio de 2018. Archivado desde el original el 18 de marzo de 2023 . Consultado el 18 de marzo de 2023 .
^ finetune-transformer-lm, OpenAI, 11 de junio de 2018 , consultado el 1 de mayo de 2023
^ Dosovitskiy, Alexey; Beyer, Lucas; Kolesnikov, Alejandro; Weissenborn, Dirk; Zhai, Xiaohua; Unterthiner, Thomas; Dehghani, Mostafa; Minderer, Matías; Heigold, Georg; Gelly, Sylvain; Uszkoreit, Jakob (3 de junio de 2021). "Una imagen vale 16 x 16 palabras: transformadores para el reconocimiento de imágenes a escala". arXiv : 2010.11929 [cs.CV].
^ Error de cita: La referencia nombrada Gulati2020fue invocada pero nunca definida (ver la página de ayuda ).
^ Chen, Lili; Lu, Kevin; Rajeswaran, Aravind; Lee, Kimin; Grover, Aditya; Laskin, Michael; Abbeel, Pieter; Srinivas, Aravind; Mordatch, Igor (24 de junio de 2021), Transformador de decisiones: aprendizaje por refuerzo a través del modelado de secuencias , arXiv : 2106.01345
^ Choromanski, Krzysztof; Likhosherstov, Valerii; Dohan, David; Canción, Xingyou; Gane, Andreea; Sarlos, Tamas; Hawkins, Peter; Davis, Jared; Mohiuddin, Afroz (19 de noviembre de 2022), Repensar la atención con los artistas intérpretes o ejecutantes , arXiv : 2009.14794
^ Liu, Zhuang; Mao, Hanzi; Wu, Chao-Yuan; Feichtenhofer, Christoph; Darrell, Trevor; Xie, Saining (2022). Una ConvNet para la década de 2020. Conferencia sobre visión artificial y reconocimiento de patrones. págs. 11976–11986.
^ Esser, Patrick; Kulal, Sumith; Blattmann, Andreas; Entezari, Rahim; Müller, Jonas; Saini, Harry; Levi, Yam; Lorenz, Dominik; Sauer, Axel (5 de marzo de 2024), Transformadores de flujo rectificados de escalado para síntesis de imágenes de alta resolución , arXiv : 2403.03206

Enlaces externos

Uszkoreit, Jakob (31 de agosto de 2017). "Transformer: una nueva arquitectura de red neuronal para la comprensión del lenguaje". research.google . Consultado el 9 de agosto de 2024 .Una publicación de blog simultánea en el blog de investigación de Google.