Transformer (arquitectura de aprendizaje profundo)

Un transformador es una arquitectura de aprendizaje profundo desarrollada por Google y basada en el mecanismo de atención de múltiples cabezales , propuesto en un artículo de 2017 " Attention Is All You Need ". ^[1] El texto se convierte en representaciones numéricas llamadas tokens , y cada token se convierte en un vector buscando en una tabla de incrustación de palabras . ^[1] En cada capa, cada token se contextualiza dentro del alcance de la ventana de contexto con otros tokens (desenmascarados) a través de un mecanismo de atención paralelo de múltiples cabezales que permite amplificar la señal de los tokens clave y disminuir los tokens menos importantes. El artículo de Transformer, publicado en 2017, se basa en el mecanismo de atención basado en softmax propuesto por Bahdanau et al. en 2014 para traducción automática , ^[2]^[3] y el Fast Weight Controller, similar a un transformador, propuesto en 1992. ^[4]^[5]^[6]

Los transformadores tienen la ventaja de no tener unidades recurrentes y, por lo tanto, requieren menos tiempo de entrenamiento que las arquitecturas neuronales recurrentes (RNN) anteriores, como la memoria a corto plazo (LSTM). ^[7] Se han adoptado ampliamente variaciones posteriores para entrenar modelos de lenguaje grandes (LLM) en conjuntos de datos (lenguaje) grandes, como el corpus de Wikipedia y Common Crawl . ^[8]

Los transformadores se utilizan actualmente en el procesamiento del lenguaje natural a gran escala , visión por computadora ( transformadores de visión ), audio, ^[9] procesamiento multimodal, robótica, ^[10] e incluso en el juego de ajedrez . ^[11] También ha llevado al desarrollo de sistemas pre-entrenados , como transformadores generativos pre-entrenados (GPT) ^[12] y BERT ^[13] (Representaciones de codificador bidireccional de transformadores).

Historia

Línea de tiempo

En 1990, la red Elman , utilizando una red neuronal recurrente , codificó cada palabra en un conjunto de entrenamiento como un vector, llamado incrustación de palabras , y todo el vocabulario como una base de datos vectorial , lo que le permitió realizar tareas como predicciones de secuencias que son más allá del poder de un simple perceptrón multicapa . Una deficiencia de las incrustaciones estáticas era que no diferenciaban entre múltiples significados de homónimos . ^[14]
En 1992, Jürgen Schmidhuber publicó el controlador de peso rápido . ^[4] Una red de otra red neuronal a través de productos externos de vectores clave y vectores de valor llamados FROM y TO. Más tarde se demostró que era equivalente al Transformador lineal no normalizado. ^[6]^[5]^[15]^[16] Schmidhuber utilizó la terminología "aprendizaje de focos internos de atención" ^[17] en 1993, y ahora afirma que fue un precursor de lo que ahora se conoce como el mecanismo de atención, pero Geoffrey Hinton cuestiona esta reivindicación de prioridad. ^[18]
En 1993, los modelos de alineación de IBM se utilizaron para la traducción automática estadística . ^[19]
En 2001, se utilizó un corpus de texto de mil millones de palabras, extraído de Internet, denominado en ese momento "muy, muy grande", para la desambiguación de palabras . ^[20]
En 2012, AlexNet demostró la eficacia de grandes redes neuronales para el reconocimiento de imágenes, fomentando el enfoque de grandes redes neuronales artificiales en lugar de enfoques estadísticos más antiguos.
En 2014, Sutskever et al propusieron un modelo seq2seq de 380M de parámetros para traducción automática utilizando dos redes de memoria a largo plazo ( LSTM ). ^[21] La arquitectura consta de dos partes. El codificador es un LSTM que toma una secuencia de tokens y la convierte en un vector. El decodificador es otro LSTM que convierte el vector en una secuencia de tokens.
En 2014, la activación demostró ser útil en un modelo seq2seq de 130M de parámetros , que utilizaba unidades recurrentes controladas (GRU) simplificadas. Bahdanau et al ^[22] demostraron que los GRU no son ni mejores ni peores que los LSTM cerrados. ^[23]^[24]
En 2014, Bahdanau et al. ^[25] mejoraron el modelo seq2seq anterior mediante el uso de un mecanismo de atención de tipo "aditivo" entre dos redes LSTM. Sin embargo, todavía no era el tipo de atención paralelizable ("producto escalar" escalado, propuesto más tarde en el documento sobre transformadores de 2017).
En 2015, Luong et al evaluaron el rendimiento relativo de las arquitecturas de modelos de atención global y local (en ventanas), y se descubrió que una arquitectura de atención mixta mejoraba las traducciones ofrecidas por la arquitectura de Bahdanau, mientras que el uso de una arquitectura de atención local reducía el tiempo de traducción. ^[26]
En 2016, Google Translate reemplazó gradualmente el antiguo enfoque de traducción automática estadística con el enfoque más nuevo basado en redes neuronales que incluía un modelo seq2seq combinado por LSTM y el tipo de mecanismo de atención "aditivo". En sólo nueve meses lograron un nivel de rendimiento superior al del enfoque estadístico, que tardó diez años en desarrollarse. ^[27]^[28]
En 2017, el modelo de transformador codificador-decodificador original (de tamaño 100M) con un mecanismo de atención más rápido (paralelizable o descomponible) se propuso en el artículo " La atención es todo lo que necesitas ". Como el modelo tenía dificultades para converger, se sugirió que la tasa de aprendizaje debería aumentarse linealmente desde 0 hasta el valor máximo para la primera parte del entrenamiento (es decir, 2% del número total de pasos de entrenamiento). La intención del modelo transformador es tomar un modelo seq2seq y eliminar sus redes neuronales recurrentes, pero preservar su mecanismo de atención aditiva. ^[1]
En el artículo de ELMo de 2018 , se utiliza un LSTM bidireccional para calcular incrustaciones contextualizadas profundas para cada palabra, mejorando la línea de investigación de bag of Words y word2vec .
En 2018, se utilizó un transformador solo codificador en el modelo BERT (de tamaño más de 1B) , mejorando ELMo. ^[29]
En 2020, el transformador de visión ^[30] y el transformador de convolución aumentada de procesamiento del habla ^[31] superaron a las redes neuronales recurrentes , utilizadas anteriormente para la visión y el habla.
En 2020, Xiong et al resolvieron las dificultades con la convergencia del transformador original normalizando capas antes (en lugar de después) de la atención multidireccional. Esto se llama transformador anterior a LN . ^[32]
En 2023, se utilizaban transformadores unidireccionales ("autoregresivos") en el GPT-3 (de tamaño más de 100B) y otros modelos OpenAI GPT . ^[33]^[34]
En 2024, se aplicaron transformadores para evaluar las posiciones del tablero de ajedrez. Utilizando únicamente la evaluación estática (es decir, sin búsqueda Minimax ) pudo alcanzar un Elo de 2895, colocándolo al nivel de gran maestro . ^[11]

Antecesores

El modelado y la generación de secuencias se habían realizado durante muchos años con redes neuronales recurrentes simples. Un ejemplo temprano bien citado fue la red Elman (1990). En teoría, la información de un token puede propagarse arbitrariamente hacia abajo en la secuencia, pero en la práctica el problema del gradiente evanescente deja el estado del modelo al final de una larga oración sin información precisa y extraíble sobre los tokens anteriores.

Un componente clave del mecanismo de atención es incluir neuronas que multiplican las salidas de otras neuronas. Estas neuronas se denominaron unidades multiplicativas , y las redes neuronales que utilizaban unidades multiplicativas se denominaron redes sigma-pi o redes de segundo orden , ^[35] pero se enfrentaban a una alta complejidad computacional. ^[7] Un avance clave fue LSTM (1995), ^{[nota 1]} que incorporó unidades multiplicativas en una red recurrente, así como otras innovaciones que evitaron el problema del gradiente de desaparición y permitieron un aprendizaje eficiente del modelado de secuencias largas. Se convirtió en la arquitectura estándar para el modelado de secuencias largas hasta la publicación de Transformers en 2017.

Sin embargo, LSTM no resolvió un problema general que suelen tener las redes recurrentes ^{[nota 2]} , que es que no pueden operar en paralelo con todos los tokens en una secuencia. Debe operar uno a la vez desde el primer token hasta el último. The Fast Weight Controller (1992) fue uno de los primeros intentos de sortear la dificultad. Utilizó la arquitectura de pesos rápidos, ^[36] donde una red neuronal genera los pesos de otra red neuronal. Más tarde se demostró que era equivalente al Transformador lineal sin normalización. ^[17]^[4]

Atención recurrente

En 2014, se introdujo un mecanismo de atención a los modelos seq2seq (que utilizan unidades recurrentes cerradas, una variante de LSTM) para la traducción automática. ^[2]^[3] Se introdujo para resolver un problema específico encontrado en seq2seq. En seq2seq, la entrada es procesada secuencialmente por una red recurrente en un vector de salida de tamaño fijo , que luego fue procesada por otra red recurrente en una salida. Si la entrada es larga, entonces el vector de salida no podrá contener toda la información relevante y la calidad de la salida se degradará.

La idea del mecanismo de atención en redes recurrentes es utilizar todas las salidas de la primera red, no solo la última salida. La segunda red en cada paso utiliza un mecanismo de atención para combinarlos linealmente y luego lo procesa aún más.

Anteriormente, seq2seq no tenía ningún mecanismo de atención y solo se podía acceder al vector de estado después de que se procesaba la última palabra del texto fuente. Aunque en teoría dicho vector conserva la información sobre toda la frase original, en la práctica la información se conserva mal. Esto se debe a que los modelos seq2seq tienen dificultades para modelar dependencias a larga distancia. Revertir la oración de entrada mejoró la traducción seq2seq. ^[37] Con un mecanismo de atención, la red puede modelar dependencias a larga distancia más fácilmente. ^[2]

Atención

Los modelos Seq2seq con atención todavía sufrieron el mismo problema con las redes recurrentes, que es que son difíciles de paralelizar, lo que impidió que se aceleraran en las GPU. En 2016, la atención descomponible aplicó un mecanismo de atención a la red feedforward , que es fácil de paralelizar. ^[38]

En 2017, Vaswani et al. También propuso reemplazar las redes neuronales recurrentes con autoatención y comenzó el esfuerzo de evaluar esa idea. ^[1] Los transformadores, utilizando un mecanismo de atención, procesando todos los tokens simultáneamente, calcularon pesos "suaves" entre ellos en capas sucesivas. Dado que el mecanismo de atención solo utiliza información sobre otros tokens de capas inferiores, se puede calcular para todos los tokens en paralelo, lo que mejora la velocidad de entrenamiento.

Capacitación

Métodos para estabilizar el entrenamiento.

La arquitectura simple del transformador tuvo dificultades para converger. En el artículo original ^[1], los autores recomendaron utilizar el calentamiento con tasa de aprendizaje. Es decir, la tasa de aprendizaje debe aumentar linealmente desde 0 hasta el valor máximo para la primera parte del entrenamiento (generalmente se recomienda que sea el 2% del número total de pasos de entrenamiento), antes de disminuir nuevamente.

Un artículo de 2020 encontró que el uso de la normalización de capas antes (en lugar de después) de la atención de múltiples cabezas y las capas de avance estabiliza el entrenamiento, sin requerir un calentamiento de la tasa de aprendizaje. ^[32]

Ajuste previo al entrenamiento

Los transformadores suelen someterse a un aprendizaje autosupervisado que implica un entrenamiento previo no supervisado seguido de un ajuste fino supervisado . El entrenamiento previo generalmente se realiza en un conjunto de datos más grande que el ajuste fino, debido a la disponibilidad limitada de datos de entrenamiento etiquetados . Las tareas de preentrenamiento y ajuste comúnmente incluyen:

modelado de lenguaje ^[13]
predicción de la siguiente oración ^[13]
respuesta a preguntas ^[8]
comprensión lectora
análisis de sentimiento ^[1]
parafraseando ^[1]

El informe del transformador T5 ^[39] documenta una gran cantidad de tareas de preentrenamiento. Algunos ejemplos son:

restaurar texto dañado: Thank you <X> me to your party <Y> week.-> <X> for inviting <Y> last <Z>donde <Z>significa "fin de salida".
traducción: translate English to German: That is good.-> Das ist gut..
juzgar la aceptabilidad gramatical de una oración ( oración CoLA ): The course is jumping well.-> not acceptable.

Aplicaciones

El transformador ha tenido un gran éxito en el procesamiento del lenguaje natural (PLN), por ejemplo en tareas de traducción automática y predicción de series temporales . Muchos modelos de lenguaje grandes como GPT-2 , GPT-3 , GPT-4 , Claude , BERT , XLNet, RoBERTa y ChatGPT demuestran la capacidad de los transformadores para realizar una amplia variedad de tareas relacionadas con la PNL y tienen el potencial de encontrar aplicaciones del mundo real. Estos pueden incluir:

máquina traductora
resumen de documentos
generación de documentos
reconocimiento de entidad nombrada (NER) ^[40]
análisis de secuencia biológica
escribir código informático basado en requisitos expresados en lenguaje natural.
comprensión del vídeo .

Además de las aplicaciones de PNL, también ha tenido éxito en otros campos, como la visión por ordenador o las aplicaciones de plegado de proteínas (como AlphaFold ).

Como ejemplo ilustrativo, Ithaca es un transformador solo codificador con tres cabezales de salida. Toma como entrada la inscripción griega antigua como secuencias de caracteres, pero con caracteres ilegibles reemplazados por "-". Sus tres cabezales de salida generan respectivamente distribuciones de probabilidad sobre caracteres griegos, ubicación de inscripción y fecha de inscripción. ^[41]

Implementaciones

El modelo transformador se ha implementado en marcos estándar de aprendizaje profundo como TensorFlow y PyTorch .

Transformers es una biblioteca producida por Hugging Face que proporciona arquitecturas basadas en transformadores y modelos previamente entrenados. ^[12]

Arquitectura

Una ilustración de los componentes principales del modelo de transformador del artículo original, donde la normalización de capas se realizó después de la atención de múltiples cabezas. En un artículo de 2020, se descubrió que colocar la normalización de la capa delante de la atención de múltiples cabezas (en lugar de después) mejora la estabilidad del entrenamiento. ^[32]

Todos los transformadores tienen los mismos componentes primarios:

Tokenizadores, que convierten texto en tokens.
Una única capa de incrustación, que convierte tokens y posiciones de los tokens en representaciones vectoriales.
Capas transformadoras, que realizan transformaciones repetidas sobre las representaciones vectoriales, extrayendo cada vez más información lingüística. Estos constan de capas alternas de atención y retroalimentación.
(opcional) Capa de desintegración, que convierte las representaciones vectoriales finales en una distribución de probabilidad sobre los tokens.

Las capas de transformadores pueden ser de dos tipos: codificador y decodificador . En el artículo original se utilizaban ambos, mientras que los modelos posteriores incluían sólo un tipo. BERT es un ejemplo de un modelo de solo codificador; GPT son modelos solo con decodificador.

Aporte

El texto de entrada se analiza en tokens mediante un tokenizador, generalmente un tokenizador de codificación de pares de bytes , y cada token se convierte en un vector buscando en una tabla de incrustación de palabras . Luego, la información posicional del token se agrega a la palabra incrustación.

Arquitectura codificador-decodificador

Al igual que los modelos seq2seq anteriores , el modelo de transformador original utilizaba una arquitectura codificador-decodificador . El codificador consta de capas de codificación que procesan los tokens de entrada de forma iterativa, una capa tras otra, mientras que el decodificador consta de capas de decodificación que procesan de forma iterativa la salida del codificador, así como los tokens de salida del decodificador hasta el momento.

La función de cada capa codificadora es generar representaciones de tokens contextualizadas, donde cada representación corresponde a un token que "mezcla" información de otros tokens de entrada mediante un mecanismo de autoatención. Cada capa de decodificador contiene dos subcapas de atención: (1) atención cruzada para incorporar la salida del codificador (representaciones de tokens de entrada contextualizadas) y (2) autoatención para "mezclar" información entre los tokens de entrada al decodificador (es decir, la tokens generados hasta ahora durante el tiempo de inferencia). ^[42]^[43]

Tanto la capa codificadora como la capa decodificadora tienen una red neuronal de retroalimentación para el procesamiento adicional de las salidas y contienen conexiones residuales y pasos de normalización de capas. ^[43]

Atención de productos escalados

Los bloques de construcción del transformador son unidades de atención de productos escalados . Para cada unidad de atención, el modelo transformador aprende tres matrices de ponderaciones: ponderaciones de consulta , ponderaciones de clave y ponderaciones de valor . Para cada token , la representación del token de entrada se multiplica por cada una de las tres matrices de peso para producir un vector de consulta , un vector clave y un vector de valor . Los pesos de atención se calculan utilizando los vectores clave y de consulta: el peso de atención de un token a otro es el producto escalar entre y . Los pesos de atención se dividen por la raíz cuadrada de la dimensión de los vectores clave, que estabiliza los gradientes durante el entrenamiento, y se pasan a través de un softmax que normaliza los pesos. El hecho de que y sean matrices diferentes permite que la atención sea no simétrica: si el token atiende al token (es decir, es grande), esto no significa necesariamente que el token atenderá al token (es decir, podría ser pequeño). La salida de la unidad de atención para el token es la suma ponderada de los vectores de valor de todos los tokens, ponderada por la atención del token a cada token. $W_{Q}$ $W_{K}$ $W_{V}$ $i$ $x_{i}$ $q_{i}=x_{i}W_{Q}$ $k_{i}=x_{i}W_{K}$ $v_{i}=x_{i}W_{V}$ $a_{ij}$ $i$ $j$ $q_{i}$ $k_{j}$ ${\sqrt {d_{k}}}$ $W_{Q}$ $W_{K}$ $i$ $j$ $q_{i}\cdot k_{j}$ $j$ $i$ $q_{j}\cdot k_{i}$ $i$ $a_{ij}$ $i$

El cálculo de atención para todos los tokens se puede expresar como un cálculo matricial grande utilizando la función softmax , que es útil para el entrenamiento debido a las optimizaciones de operaciones matriciales computacionales que calculan rápidamente las operaciones matriciales. Las matrices , y se definen como las matrices donde las filas enésimas son vectores , y respectivamente. Entonces podemos representar la atención como $Q$ $K$ $V$ $i$ $q_{i}$ $k_{i}$ $v_{i}$

${\begin{aligned}{\text{Attention}}(Q,K,V)={\text{softmax}}\left({\frac {QK^{\mathrm {T} }}{\sqrt {d_{k}}}}\right)V\end{aligned}}$

donde softmax se toma sobre el eje horizontal.

Atención multicabezal

Un conjunto de matrices se llama cabeza de atención y cada capa en un modelo de transformador tiene múltiples cabezas de atención. Si bien cada cabezal de atención atiende a los tokens que son relevantes para cada token, múltiples cabezales de atención permiten que el modelo haga esto para diferentes definiciones de "relevancia". Además, el campo de influencia que representa la relevancia puede dilatarse progresivamente en capas sucesivas. Muchas cabezas de atención transformadoras codifican relaciones de relevancia que son significativas para los humanos. Por ejemplo, algunas cabezas de atención pueden prestar atención principalmente a la siguiente palabra, mientras que otras prestan atención principalmente de los verbos a sus objetos directos. ^[44] Los cálculos para cada cabeza de atención se pueden realizar en paralelo , lo que permite un procesamiento rápido. Las salidas de la capa de atención se concatenan para pasar a las capas de la red neuronal de retroalimentación . $\left(W_{Q},W_{K},W_{V}\right)$

Concretamente, dejemos que las múltiples cabezas de atención estén indexadas por , entonces tenemos donde la matriz es la concatenación de incrustaciones de palabras, y las matrices son "matrices de proyección" propiedad de la cabeza de atención individual , y es una matriz de proyección final propiedad de todo el multi- cabeza de atención dirigida. $i$ ${\text{MultiheadedAttention}}(Q,K,V)={\text{Concat}}_{i\in [\#heads]}({\text{Attention}}(XW_{i}^{Q},XW_{i}^{K},XW_{i}^{V}))W^{O}$ $X$ $W_{i}^{Q},W_{i}^{K},W_{i}^{V}$ $i$ $W^{O}$

Atención enmascarada

Puede que sea necesario eliminar los vínculos de atención entre algunos pares de palabras. Por ejemplo, el decodificador, al decodificar la posición del token , no debe tener acceso al token en la posición . Esto se puede lograr antes de la etapa softmax agregando una matriz de máscara que esté en las entradas donde se debe cortar el vínculo de atención y en otros lugares: Por ejemplo, la siguiente matriz de máscara se usa en el modelado autorregresivo: En palabras, significa que cada El token puede prestar atención a sí mismo y a todos los tokens anteriores a él, pero no a los posteriores. $t$ $t+1$ $M$ $-\infty$ $0$ ${\begin{aligned}{\text{MaskedAttention}}(Q,K,V)={\text{softmax}}\left(M+{\frac {QK^{\mathrm {T} }}{\sqrt {d_{k}}}}\right)V\end{aligned}}$ $M={\begin{bmatrix}0&-\infty &-\infty &\dots &-\infty \\0&0&-\infty &\dots &-\infty \\0&0&0&\dots &-\infty \\\vdots &\vdots &\vdots &\ddots &\vdots \\0&0&0&\dots &0\end{bmatrix}}$

Codificador

Cada codificador consta de dos componentes principales: un mecanismo de autoatención y una red neuronal de retroalimentación. El mecanismo de autoatención acepta codificaciones de entrada del codificador anterior y pondera su relevancia entre sí para generar codificaciones de salida. La red neuronal de retroalimentación procesa además cada codificación de salida individualmente. Estas codificaciones de salida luego se pasan al siguiente codificador como entrada, así como a los decodificadores.

El primer codificador toma como entrada información posicional e incrustaciones de la secuencia de entrada, en lugar de codificaciones. La información de posición es necesaria para que el transformador haga uso del orden de la secuencia, porque ninguna otra parte del transformador hace uso de ella. ^[1]

El codificador es bidireccional. Se puede prestar atención a los tokens antes y después del token actual. Se utilizan fichas en lugar de palabras para dar cuenta de la polisemia .

Codificación posicional

Una codificación posicional es una representación vectorial de tamaño fijo que encapsula las posiciones relativas de los tokens dentro de una secuencia objetivo: proporciona al modelo de transformador información sobre dónde están las palabras en la secuencia de entrada.

La codificación posicional se define como una función del tipo , donde es un número entero par positivo . La codificación posicional completa, tal como se define en el artículo original, viene dada por la ecuación: donde . $f:\mathbb {R} \to \mathbb {R} ^{d};d\in \mathbb {Z} ,d>0$ $d$ $(f(t)_{2k},f(t)_{2k+1})=(\sin(\theta ),\cos(\theta ))\quad \forall k\in \{0,1,\ldots ,d/2-1\}$ $\theta ={\frac {t}{r^{k}}},r=N^{2/d}$

Aquí hay un parámetro libre que debería ser significativamente mayor que el mayor que se ingresaría en la función de codificación posicional. En el artículo original, ^[1] los autores eligieron . $N$ $k$ $N=10000$

La función tiene una forma más simple cuando se escribe como una función compleja de tipo donde . $f:\mathbb {R} \to \mathbb {C} ^{d/2}$ $f(t)=\left(e^{it/r^{k}}\right)_{k=0,1,\ldots ,{\frac {d}{2}}-1}$ $r=N^{2/d}$

La razón principal por la que los autores eligieron esto como función de codificación posicional es que permite realizar cambios como transformaciones lineales: ¿ dónde está la distancia que se desea cambiar? Esto permite que el transformador tome cualquier posición codificada y encuentre la codificación de la posición n pasos adelante o n pasos atrás, mediante una multiplicación de matrices. $f(t+\Delta t)=\mathrm {diag} (f(\Delta t))f(t)$ $\Delta t\in \mathbb {R}$

Al tomar una suma lineal, cualquier convolución también se puede implementar como transformaciones lineales: para cualquier constante . Esto permite que el transformador tome cualquier posición codificada y encuentre una suma lineal de las ubicaciones codificadas de sus vecinos. Esta suma de posiciones codificadas, cuando se introduce en el mecanismo de atención, crearía pesos de atención en sus vecinos, de forma muy parecida a lo que sucede en un modelo de lenguaje de red neuronal convolucional . En palabras del autor, "presumimos que permitiría al modelo aprender fácilmente a atender por posición relativa". $\sum _{j}c_{j}f(t+\Delta t_{j})=\left(\sum _{j}c_{j}\,\mathrm {diag} (f(\Delta t_{j}))\right)f(t)$ $c_{j}$

En implementaciones típicas, todas las operaciones se realizan con números reales, no con números complejos, pero dado que la multiplicación compleja se puede implementar como una multiplicación real de matrices 2 por 2 , esta es una mera diferencia de notación.

Descifrador

Cada decodificador consta de tres componentes principales: un mecanismo de autoatención, un mecanismo de atención sobre las codificaciones y una red neuronal de retroalimentación. El decodificador funciona de manera similar al codificador, pero se inserta un mecanismo de atención adicional que, en cambio, extrae información relevante de las codificaciones generadas por los codificadores. Este mecanismo también puede denominarse atención codificador-decodificador . ^[1]^[43]

Al igual que el primer codificador, el primer decodificador toma como entrada información posicional e incrustaciones de la secuencia de salida, en lugar de codificaciones. El transformador no debe utilizar la salida actual o futura para predecir una salida, por lo que la secuencia de salida debe estar parcialmente enmascarada para evitar este flujo de información inverso. ^[1] Esto permite la generación de texto autorregresivo . Para todos los jefes de atención, no se puede poner atención en las siguientes fichas. Al último decodificador le sigue una transformación lineal final y una capa softmax , para producir las probabilidades de salida sobre el vocabulario.

Todos los miembros de la serie GPT de OpenAI tienen una arquitectura de solo decodificador.

Terminología

En modelos de lenguaje grandes , la terminología es algo diferente a la terminología utilizada en el artículo original de Transformer: ^[45]

"solo codificador": codificador completo, decodificador completo.
"codificador-decodificador": codificador completo, decodificador autorregresivo.
"solo decodificador": codificador autorregresivo, decodificador autorregresivo.

Aquí, "autoregresivo" significa que se inserta una máscara en el cabezal de atención para poner a cero toda la atención desde un token a todos los tokens que le siguen, como se describe en la sección "atención enmascarada".

Generalmente, los modelos de lenguaje basados en Transformer son de dos tipos: causales (o "autoregresivos") y enmascarados. La serie GPT es sólo causal y decodificadora. BERT está enmascarado y solo codificador. ^[46]^[47] La serie T5 es codificador-decodificador, con codificador completo y decodificador autorregresivo. ^[39]

Trabajo posterior

Funciones de activación alternativas

El transformador original utiliza la función de activación ReLU . Se desarrollaron otras funciones de activación, como SwiGLU. ^[48]

Codificaciones posicionales alternativas

Los transformadores pueden utilizar otros métodos de codificación posicional distintos de los sinusoidales. ^[49]

Soga

RoPE (incrustación posicional rotativa), ^[50] se explica mejor considerando una lista de vectores bidimensionales . Ahora elige algún ángulo . Entonces la codificación RoPE es equivalente, si escribimos los vectores bidimensionales como números complejos , entonces la codificación RoPE es simplemente una multiplicación por un ángulo: para una lista de vectores bidimensionales, un codificador RoPE se define por una secuencia de ángulos . Luego se aplica la codificación RoPE a cada par de coordenadas. $[(x_{1}^{(1)},x_{1}^{(2)}),(x_{2}^{(1)},x_{2}^{(2)}),(x_{3}^{(1)},x_{3}^{(2)}),...]$ $\theta$ ${\text{RoPE}}{\big (}x_{m}^{(1)},x_{m}^{(2)},m{\big )}={\begin{pmatrix}\cos m\theta &-\sin m\theta \\\sin m\theta &\cos m\theta \end{pmatrix}}{\begin{pmatrix}x_{m}^{(1)}\\x_{m}^{(2)}\\\end{pmatrix}}={\begin{pmatrix}x_{m}^{(1)}\cos m\theta -x_{m}^{(2)}\sin m\theta \\x_{m}^{(2)}\cos m\theta +x_{m}^{(1)}\sin m\theta \\\end{pmatrix}}$ $z_{m}:=x_{m}^{(1)}+ix_{m}^{(2)}$ ${\text{RoPE}}{\big (}z_{m},m{\big )}=e^{im\theta }z_{m}$ $2n$ $\theta ^{(1)},...,\theta ^{(n)}$

El beneficio de RoPE es que el producto escalar entre dos vectores depende únicamente de su ubicación relativa:

${\text{RoPE}}{\big (}x,m{\big )}^{T}{\text{RoPE}}{\big (}y,n{\big )}={\text{RoPE}}{\big (}x,m+k{\big )}^{T}{\text{RoPE}}{\big (}y,n+k{\big )}$ para cualquier número entero . $k$

Coartada

ALiBi (Atención con polarizaciones lineales) ^[51] no reemplaza el codificador posicional del transformador original. En cambio, es un codificador posicional adicional que se conecta directamente al mecanismo de atención. Específicamente , el mecanismo de atención de ALiBi es un número real ("escalar") y es la matriz de sesgo lineal definida por , en otras palabras, . ${\begin{aligned}{\text{Attention}}(Q,K,V)={\text{softmax}}\left({\frac {QK^{\mathrm {T} }}{\sqrt {d_{k}}}}+sB\right)V\end{aligned}}$ $s$ $B$ $B={\begin{pmatrix}0&1&2&3&\cdots \\-1&0&1&2&\cdots \\-2&-1&0&1&\cdots \\-3&-2&-1&0&\cdots \\\vdots &\vdots &\vdots &\vdots &\ddots \\\end{pmatrix}}$ $B_{i,j}=j-i$

ALiBi permite el entrenamiento previo en ventanas de contexto cortas y luego el ajuste en ventanas de contexto más largas. Dado que se conecta directamente al mecanismo de atención, se puede combinar con cualquier codificador posicional que esté conectado al "fondo" de toda la red (que es donde se encuentra el codificador sinusoidal del transformador original, así como RoPE y muchos otros). Están localizados).

Codificaciones de posición relativa

Codificaciones de posición relativa ^[52] es similar a ALiBi, pero más genérica: dónde está una matriz de Toeplitz , es decir, cuando sea . ${\begin{aligned}{\text{Attention}}(Q,K,V)={\text{softmax}}\left({\frac {QK^{\mathrm {T} }}{\sqrt {d_{k}}}}+B\right)V\end{aligned}}$ $B$ $B_{i,j}=B_{i',j'}$ $i-j=i'-j'$

Implementación eficiente

FlashAtención

FlashAttention ^[53] es un algoritmo que implementa eficientemente el mecanismo de atención del transformador en una GPU. Realiza multiplicaciones de matrices en bloques , de modo que cada bloque cabe dentro del caché de una GPU y, mediante una gestión cuidadosa de los bloques, minimiza la copia de datos entre cachés de GPU (ya que el movimiento de datos es lento).

Se desarrolló una versión mejorada, FlashAttention-2, ^[54]^[55]^[56] para satisfacer la creciente demanda de modelos de lenguaje capaces de manejar contextos de mayor longitud. Ofrece mejoras en la partición del trabajo y el paralelismo, lo que le permite alcanzar hasta 230 TFLOP/s en GPU A100 ( FP16 / BF16 ), un aumento de velocidad 2 veces mayor que el FlashAttention original.

Los avances clave en FlashAttention-2 incluyen la reducción de FLOP no matmul, paralelismo mejorado en la dimensión de longitud de secuencia, mejor partición del trabajo entre deformaciones de GPU y soporte agregado para dimensiones de cabeza de hasta 256 y atención de consultas múltiples (MQA) y agrupación. atención de consultas (GQA).

Los puntos de referencia revelaron que FlashAttention-2 es hasta 2 veces más rápido que FlashAttention y hasta 9 veces más rápido que una implementación de atención estándar en PyTorch. Los desarrollos futuros incluyen la optimización para nuevo hardware como las GPU H100 y nuevos tipos de datos como FP8.

Atención multiconsulta

La atención de consultas múltiples cambia el mecanismo de atención de múltiples cabezas. ^[57] Mientras que normalmente,

${\text{MultiheadedAttention}}(Q,K,V)={\text{Concat}}_{i\in [\#heads]}\left({\text{Attention}}(XW_{i}^{Q},XW_{i}^{K},XW_{i}^{V})\right)W^{O}$ con Atención Multiconsulta, solo hay una , por lo tanto: $W^{K},W^{V}$

${\text{MultiQueryAttention}}(Q,K,V)={\text{Concat}}_{i\in [\#heads]}\left({\text{Attention}}(XW_{i}^{Q},XW^{K},XW^{V})\right)W^{O}$

Esto tiene un efecto neutral sobre la calidad del modelo y la velocidad de entrenamiento, pero aumenta la velocidad de inferencia.

Almacenamiento en caché

Cuando se utiliza un transformador autorregresivo para inferencia, como generar texto, el vector de consulta es diferente en cada paso, pero los vectores clave y de valor ya calculados son siempre los mismos. El método de almacenamiento en caché KV guarda los vectores de clave y valor calculados en cada bloque de atención, de modo que no se vuelvan a calcular en cada nuevo token. PagedAttention aplica paginación de memoria al almacenamiento en caché de KV. ^[58]^[59]^[60]

Si se utiliza un transformador con un mensaje integrado, como ["Usted es un agente de atención al cliente..."], entonces los vectores clave y de valor se pueden calcular para el mensaje y guardarse en el disco. El ahorro en computación es significativo cuando el modelo se utiliza para muchas interacciones breves, como en los chatbots en línea.

Decodificación especulativa

Los transformadores se utilizan en modelos de lenguaje grandes para la generación de secuencias autorregresivas: generar un flujo de texto, un token a la vez. Sin embargo, en la mayoría de los entornos, la decodificación de modelos de lenguaje está ligada a la memoria, lo que significa que tenemos potencia de cálculo disponible. La decodificación especulativa ^[61]^[62] utiliza esta potencia de cálculo adicional calculando varios tokens en paralelo. De manera similar a la ejecución especulativa en las CPU, los tokens futuros se calculan simultáneamente, especulando sobre el valor de los tokens anteriores, y luego se descartan si resulta que la especulación fue incorrecta.

Específicamente, considere un modelo de transformador como GPT-3 con un tamaño de ventana de contexto de 512. Para generar una ventana de contexto completa de forma autorregresiva con decodificación codiciosa, se debe ejecutar 512 veces, generando cada vez un token . Sin embargo, si tuviéramos alguna suposición fundamentada sobre los valores de estos tokens, podríamos verificarlos todos en paralelo, en una ejecución del modelo, comprobando que cada uno es de hecho el token con la mayor probabilidad logarítmica en el -ésimo resultado. . $x_{1},x_{2},...,x_{512}$ $x_{t}$ $t$

En la decodificación especulativa, se utiliza un modelo más pequeño o alguna otra heurística simple para generar algunos tokens especulativos que posteriormente son verificados por el modelo más grande. Por ejemplo, supongamos que un modelo pequeño generó cuatro tokens especulativos: . Estos tokens se ejecutan en el modelo más grande y solo se aceptan y . La misma ejecución del modelo grande ya generó un nuevo token para reemplazar y está completamente descartado. Luego, el proceso se repite (a partir del cuarto token) hasta que se generen todos los tokens. ${\tilde {x_{1}}},{\tilde {x_{2}}},{\tilde {x_{3}}},{\tilde {x_{4}}}$ ${\tilde {x_{1}}}$ ${\tilde {x_{2}}}$ $x_{3}$ ${\tilde {x_{3}}}$ ${\tilde {x_{4}}}$

Para la decodificación no codiciosa, se aplican ideas similares, excepto que los tokens especulativos se aceptan o rechazan estocásticamente, de una manera que garantiza que la distribución de salida final sea la misma que si no se utilizara la decodificación especulativa. ^[61]^[63]

Transformadores subcuadráticos

Entrenar arquitecturas basadas en transformadores puede resultar costoso, especialmente para entradas largas. ^[64] Las arquitecturas alternativas incluyen el Reformer (que reduce la carga computacional de a ^[64] ), o modelos como ETC/BigBird (que puede reducirla a ) ^[65] donde es la longitud de la secuencia. Esto se hace utilizando hash sensible a la localidad y capas reversibles. ^[66]^[67] $O(N^{2})$ $O(N\ln N)$ $O(N)$ $N$

Los transformadores ordinarios requieren un tamaño de memoria que sea cuadrático en el tamaño de la ventana contextual. Los transformadores sin atención ^[68] reducen esto a una dependencia lineal y al mismo tiempo conservan las ventajas de un transformador al vincular la clave al valor.

Long Range Arena (2020) ^[69] es un punto de referencia estándar para comparar el comportamiento de arquitecturas de transformadores en entradas largas.

Atención de características aleatorias (2021) ^[70] utiliza características aleatorias de Fourier : donde hay muestras independientes de la distribución normal . Esta elección de parámetros satisface , o En consecuencia, la atención unidireccional, con una consulta, se puede escribir como donde . Lo mismo ocurre con consultas múltiples y con atención de múltiples cabezas. $\varphi (x)={\frac {1}{\sqrt {D}}}[\cos \langle w_{1},x\rangle ,\sin \langle w_{1},x\rangle ,\cdots \cos \langle w_{D},x\rangle ,\sin \langle w_{D},x\rangle ]^{T}$ $w_{1},...,w_{D}$ $N(0,\sigma ^{2}I)$ $\mathbb {E} [\langle \varphi (x),\varphi (y)\rangle ]=e^{-{\frac {\|x-y\|^{2}}{2\sigma ^{2}}}}$ $e^{\langle x,y\rangle /\sigma ^{2}}=\mathbb {E} [\langle e^{\|x\|^{2}/2\sigma ^{2}}\varphi (x),e^{\|y\|^{2}/2\sigma ^{2}}\varphi (y)\rangle ]\approx \langle e^{\|x\|^{2}/2\sigma ^{2}}\varphi (x),e^{\|y\|^{2}/2\sigma ^{2}}\varphi (y)\rangle$ ${\text{Attention}}(q,K,V)={\text{softmax}}\left({\frac {qK^{\mathrm {T} }}{\sqrt {d_{k}}}}\right)V\approx {\frac {\varphi (q)^{T}\sum _{i}e^{\|k_{i}\|^{2}/2\sigma ^{2}}\varphi (k_{i})v_{i}^{T}}{\varphi (q)^{T}\sum _{i}e^{\|k_{i}\|^{2}/2\sigma ^{2}}\varphi (k_{i})}}$ $\sigma =d_{K}^{1/4}$

Esta aproximación se puede calcular en tiempo lineal, ya que primero podemos calcular la matriz y luego multiplicarla por la consulta. En esencia, hemos logrado obtener una versión más precisa de $\varphi (k_{i})v_{i}^{T}$ ${\text{Attention}}(Q,K,V)={\text{softmax}}\left({\frac {QK^{\mathrm {T} }}{\sqrt {d_{k}}}}\right)V\approx Q(K^{T}V/{\sqrt {d_{k}}})$

Performer (2022) ^[71] utiliza la misma atención de características aleatorias, pero primero se muestrean de forma independiente de la distribución normal y luego se procesan según Gram-Schmidt . $w_{1},...,w_{D}$ $N(0,\sigma ^{2}I)$

Multimodalidad

Los transformadores también se pueden usar/adaptar para modalidades (entrada o salida) más allá del simple texto, generalmente encontrando una manera de "tokenizar" la modalidad.

Los transformadores de visión ^[30] adaptan el transformador a la visión por computadora descomponiendo las imágenes de entrada como una serie de parches, convirtiéndolas en vectores y tratándolas como tokens en un transformador estándar.

Conformer ^[31] y posteriormente Whisper ^[72] siguen el mismo patrón para el reconocimiento de voz , primero convirtiendo la señal de voz en un espectrograma , que luego se trata como una imagen, es decir, se divide en una serie de parches, se convierte en vectores y se trata como fichas en un transformador estándar.

Perceptores de Andrew Jaegle et al. (2021) ^[73]^[74] pueden aprender de grandes cantidades de datos heterogéneos.

Con respecto a la salida de imágenes , Peebles et al introdujeron un transformador de difusión (DiT) que facilita el uso de la arquitectura del transformador para la producción de imágenes basada en difusión . ^[75] Además, Google lanzó un generador de imágenes centrado en transformadores llamado "Muse" basado en decodificación paralela y tecnología de transformadores generativos enmascarados. ^[76] (Los transformadores desempeñaron un papel menos central con las tecnologías de producción de imágenes anteriores, ^[77] aunque sigue siendo importante. ^[78] )

Ver también

Perceiver : algoritmo de aprendizaje automático para datos no textuales
BERT (modelo de lenguaje) : modelo de lenguaje desarrollado por Google
GPT-3 : modelo de lenguaje de generación de texto 2020
GPT-4 – Modelo de lenguaje de generación de texto 2023
ChatGPT – Chatbot y asistente virtual desarrollado por OpenAI
Wu Dao : programa chino de inteligencia artificial multimodal
Transformador de visión : algoritmo de aprendizaje automático para el procesamiento de la visión
BLOOM (modelo de lenguaje) – Modelo de lenguaje multilingüe de acceso abierto

Notas

^ Las unidades recurrentes cerradas (2014) redujeron aún más su complejidad.
^ Algunas arquitecturas, como RWKV o modelos de espacio de estados, evitan el problema.

Referencias

^ abcdefghijk Vaswani, Ashish ; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, León; Gómez, Aidan N ; Káiser, Łukasz; Polosukhin, Illia (2017). "La atención es todo lo que necesita" (PDF) . Avances en los sistemas de procesamiento de información neuronal . 30 . Curran asociados, Inc.
^ abc Bahdanau; Cho, Kyunghyun; Bengio, Yoshua (1 de septiembre de 2014). "Traducción automática neuronal mediante el aprendizaje conjunto de alinear y traducir". arXiv : 1409.0473 [cs.CL].
^ ab Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (17 de agosto de 2015). "Enfoques eficaces para la traducción automática neuronal basada en la atención". arXiv : 1508.04025 [cs.CL].
^ abc Schmidhuber, Jürgen (1992). "Aprender a controlar los recuerdos de peso rápido: una alternativa a las redes recurrentes" (PDF) . Computación neuronal . 4 (1): 131-139. doi :10.1162/neco.1992.4.1.131. S2CID 16683347.
^ ab Schlag, Imanol; Irie, Kazuki; Schmidhuber, Jürgen (2021). "Los transformadores lineales son programadores de peso secretamente rápidos". ICML 2021 . Saltador. págs. 9355–9366.
^ ab Katharopoulos, Angelos; Vyas, Apoorv; Pappas, Nikolaos; Fleuret, François (2020). "Los transformadores son RNN: transformadores autorregresivos rápidos con atención lineal". ICML 2020 . PMLR. págs. 5156–5165.
^ ab Hochreiter, Sepp ; Schmidhuber, Jürgen (1 de noviembre de 1997). "Memoria a largo plazo". Computación neuronal . 9 (8): 1735–1780. doi :10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. S2CID 1915014.
^ ab "Mejores modelos de lenguaje y sus implicaciones". AbiertoAI . 2019-02-14. Archivado desde el original el 19 de diciembre de 2020 . Consultado el 25 de agosto de 2019 .
^ Radford, Alec; Jong Wook Kim; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022). "Reconocimiento de voz robusto mediante supervisión débil a gran escala". arXiv : 2212.04356 [eess.AS].
^ Monastirsky, Máxima; Azulay, Osher; Sintov, Avishai (febrero de 2023). "Aprender a lanzar con un puñado de muestras utilizando transformadores de decisión". Cartas de robótica y automatización IEEE . 8 (2): 576–583. doi :10.1109/LRA.2022.3229266. ISSN 2377-3766.
^ ab Ruoss, Anian; Delétang, Grégoire; Medapati, Surabh; Grau-Moya, Jordi; Wenliang, Li; Catt, Elliot; Reid, Juan; Genewein, Tim (7 de febrero de 2024). "Ajedrez a nivel de gran maestro sin búsqueda". arXiv : 2402.04494v1 [cs.LG].
^ ab Lobo, Thomas; Debut, Lisandro; Sanh, Víctor; Chaumond, Julien; Delangue, Clemente; Yo, Antonio; Cistac, Pierric; Rault, Tim; Louf, Rémi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; Von Platen, Patrick; Mamá, Clara; Jernita, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Téven; Gugger, Sylvain; Drama, Mariama; Lhoest, Quentin; Rush, Alejandro (2020). "Transformers: procesamiento del lenguaje natural de última generación". Actas de la Conferencia de 2020 sobre métodos empíricos en el procesamiento del lenguaje natural: demostraciones de sistemas . págs. 38–45. doi :10.18653/v1/2020.emnlp-demos.6. S2CID 208117506.
^ abc "Open Sourcing BERT: formación previa de última generación para el procesamiento del lenguaje natural". Blog de IA de Google . 2 de noviembre de 2018. Archivado desde el original el 13 de enero de 2021 . Consultado el 25 de agosto de 2019 .
^ Elman, Jeffrey L. (marzo de 1990). "Encontrar estructura en el tiempo". Ciencia cognitiva . 14 (2): 179–211. doi :10.1207/s15516709cog1402_1. S2CID 2763403.
^ Choromanski, Krzysztof; Likhosherstov, Valerii; Dohan, David; Canción, Xingyou; Gane, Andreea; Sarlos, Tamas; Hawkins, Peter; Davis, Jared; Mohiuddin, Afroz; Káiser, Lukasz; Belanger, David; Colwell, Lucy; Weller, Adrián (2020). "Repensar la atención con los artistas intérpretes o ejecutantes". arXiv : 2009.14794 [cs.CL].
^ Schmidhuber, Juergen (26 de marzo de 2021). "26 de marzo de 1991: las redes neuronales aprenden a programar redes neuronales con pesos rápidos: las primeras variantes de Transformer. 2021: ¡cosas nuevas!". IDSIA, Suiza. Archivado desde el original el 5 de diciembre de 2023 . Consultado el 29 de diciembre de 2023 .
^ ab Schmidhuber, Jürgen (1993). "Reducir la relación entre la complejidad del aprendizaje y el número de variables que varían en el tiempo en redes totalmente recurrentes". ICANN 1993 . Saltador. págs. 460–463.
^ Schmidhuber, Jürgen (2022). "Aprendizaje profundo: nuestro año milagroso 1990-1991". idsia.ch . Consultado el 23 de julio de 2024 .
^ Marrón, Peter F. (1993). "Las matemáticas de la traducción automática estadística: estimación de parámetros". Lingüística computacional (19): 263–311.
^ Banko, Michele; Brillante, Eric (2001). "Escalar a corpus muy grandes para la desambiguación del lenguaje natural". Actas de la 39ª Reunión Anual de la Asociación de Lingüística Computacional - ACL '01 . Morristown, Nueva Jersey, EE. UU.: Asociación de Lingüística Computacional: 26–33. doi : 10.3115/1073012.1073017 . S2CID 6645623.
^ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc V (2014). "Aprendizaje secuencia a secuencial con redes neuronales". Avances en los sistemas de procesamiento de información neuronal . 27 . Curran Associates, Inc. arXiv : 1409.3215 .
^ Cho, Kyunghyun; van Merrienboer, Bart; Bahdanau, Dzmitry; Bengio, Yoshua (2014). "Sobre las propiedades de la traducción automática neuronal: enfoques codificador-decodificador". Actas de SSST-8, Octavo taller sobre sintaxis, semántica y estructura en traducción estadística . Stroudsburg, PA, EE.UU.: Asociación de Lingüística Computacional: 103–111. arXiv : 1409.1259 . doi :10.3115/v1/w14-4012. S2CID 11336213.
^ Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun; Bengio, Yoshua (2014). "Evaluación empírica de redes neuronales recurrentes cerradas en modelado de secuencias". arXiv : 1412.3555 [cs.NE].
^ Gruber, N.; Jockisch, A. (2020), "¿Son las células GRU más específicas y las células LSTM más sensibles en la clasificación de motivos del texto?", Frontiers in Artificial Intelligence , 3 : 40, doi : 10.3389/frai.2020.00040 , PMC 7861254 , PMID 33733157, S2CID 220252321
^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (1 de septiembre de 2014). "Traducción automática neuronal mediante el aprendizaje conjunto de alinear y traducir". arXiv : 1409.0473 [cs.CL].
^ Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (2015). "Enfoques eficaces para la traducción automática neuronal basada en la atención". arXiv : 1508.04025 [cs.CL].
^ Lewis-Kraus, Gideon (14 de diciembre de 2016). "El gran despertar de la IA". Los New York Times . ISSN 0362-4331. Archivado desde el original el 24 de mayo de 2023 . Consultado el 22 de junio de 2023 .
^ Wu, Yonghui; et al. (01 de septiembre de 2016). "Sistema de traducción automática neuronal de Google: reduciendo la brecha entre la traducción humana y automática". arXiv : 1609.08144 [cs.CL].
^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 de octubre de 2018). "BERT: formación previa de transformadores bidireccionales profundos para la comprensión del lenguaje". arXiv : 1810.04805v2 [cs.CL].
^ ab Dosovitskiy, Alexey; Beyer, Lucas; Kolesnikov, Alejandro; Weissenborn, Dirk; Zhai, Xiaohua; Unterthiner, Thomas; Dehghani, Mostafa; Minderer, Matías; Heigold, Georg; Gelly, Sylvain; Uszkoreit, Jakob (3 de junio de 2021). "Una imagen vale 16 x 16 palabras: transformadores para el reconocimiento de imágenes a escala". arXiv : 2010.11929 [cs.CV].
^ ab Gulati, Anmol; Qin, James; Chiu, Chung-Cheng; Parmar, Niki; Zhang, Yu; Yu, Jiahui; Han, Wei; Wang, Shibo; Zhang, Zhengdong; Wu, Yonghui; Pang, Ruoming (2020). "Conformador: transformador de convolución aumentada para reconocimiento de voz". arXiv : 2005.08100 [eess.AS].
^ abc Xiong, Ruibin; Yang, Yunchang; Él, Di; Zheng, Kai; Zheng, Shuxin; Xing, Chen; Zhang, Huishuai; Lan, Yanyan; Wang, Liwei; Liu, Tie-Yan (29 de junio de 2020). "Sobre la normalización de capas en la arquitectura del transformador". arXiv : 2002.04745 [cs.LG].
^ "Mejorar la comprensión del lenguaje con el aprendizaje no supervisado". openai.com . 11 de junio de 2018. Archivado desde el original el 18 de marzo de 2023 . Consultado el 18 de marzo de 2023 .
^ finetune-transformer-lm, OpenAI, 11 de junio de 2018 , consultado el 1 de mayo de 2023
^ Molinero, Clifford B.; Giles, C. Lee (agosto de 1993). "Comparación experimental del efecto del orden en redes neuronales recurrentes". Revista Internacional de Reconocimiento de Patrones e Inteligencia Artificial . 07 (4): 849–872. doi :10.1142/S0218001493000431. ISSN 0218-0014.
^ Hinton, Geoffrey E.; Plaut, David C. (1987). "Uso de pesas rápidas para borrar viejos recuerdos". Actas de la reunión anual de la Sociedad de Ciencias Cognitivas . 9 .
^ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc V (2014). "Aprendizaje secuencia a secuencial con redes neuronales". Avances en los sistemas de procesamiento de información neuronal . 27 . Curran asociados, Inc.
^ Parikh, Ankur P.; Täckstrom, Oscar; Das, Dipanjan; Uszkoreit, Jakob (25 de septiembre de 2016). "Un modelo de atención descomponible para la inferencia del lenguaje natural". arXiv : 1606.01933 [cs.CL].
^ ab Raffel, Colin; Shazeer, Noam; Roberts, Adán; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei; Liu, Peter J. (1 de enero de 2020). "Explorando los límites del aprendizaje por transferencia con un transformador unificado de texto a texto". La revista de investigación sobre aprendizaje automático . 21 (1): 140:5485–140:5551. arXiv : 1910.10683 . ISSN 1532-4435.
^ Kariampuzha, William; Alyea, Gioconda; Qu, Sue; Sanjak, Jaleal; Mathé, Ewy; Sid, Eric; Chatelaine, Haley; Yadaw, Arjun; Xu, Yanji; Zhu, Qian (2023). "Extracción de información de precisión para la epidemiología de enfermedades raras a escala". Revista de medicina traslacional . 21 (1): 157. doi : 10.1186/s12967-023-04011-y . PMC 9972634 . PMID 36855134.
^ Assael, Yannis; Sommerschield, Thea; Shillingford, Brendan; Bordbar, Mahyar; Pavlopoulos, Juan; Chatzipanagiotou, Marita; Androutsopoulos, Ion; Praga, Jonathan; de Freitas, Nando (marzo de 2022). "Restauración y atribución de textos antiguos mediante redes neuronales profundas". Naturaleza . 603 (7900): 280–283. Código Bib :2022Natur.603..280A. doi :10.1038/s41586-022-04448-z. ISSN 1476-4687. PMC 8907065 . PMID 35264762.
^ "Modelado de secuencias con redes neuronales (Parte 2): modelos de atención". Índico . 2016-04-18. Archivado desde el original el 21 de octubre de 2020 . Consultado el 15 de octubre de 2019 .
^ abc Alammar, Jay. "El transformador ilustrado". jalammar.github.io . Archivado desde el original el 18 de octubre de 2020 . Consultado el 15 de octubre de 2019 .
^ Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (agosto de 2019). "¿Qué mira BERT? Un análisis de la atención de BERT". Actas del taller ACL BlackboxNLP de 2019: análisis e interpretación de redes neuronales para PNL . Florencia, Italia: Asociación de Lingüística Computacional: 276–286. arXiv : 1906.04341 . doi : 10.18653/v1/W19-4828 . Archivado desde el original el 21 de octubre de 2020 . Consultado el 20 de mayo de 2020 .
^ LeCun, Yann (28 de abril de 2023). "Un estudio de LLM con una guía práctica y un árbol evolutivo". Gorjeo . Archivado desde el original el 23 de junio de 2023 . Consultado el 23 de junio de 2023 .
^ "Modelado de lenguaje enmascarado". abrazandoface.co . Consultado el 5 de octubre de 2023 .
^ "Modelado de lenguaje causal". abrazandoface.co . Consultado el 5 de octubre de 2023 .
^ Shazeer, Noam (1 de febrero de 2020). "Las variantes de GLU mejoran el transformador". arXiv : 2002.05202 [cs.LG].
^ Dufter, Philipp; Schmitt, Martín; Schütze, Hinrich (6 de junio de 2022). "Información de posición en transformadores: descripción general". Ligüística computacional . 48 (3): 733–763. arXiv : 2102.11090 . doi : 10.1162/coli_a_00445 . ISSN 0891-2017. S2CID 231986066.
^ Su, Jianlin; Lu, Yu; Pan, Shengfeng; Murtadha, Ahmed; Wen, Bo; Liu, Yunfeng (1 de abril de 2021). "RoFormer: transformador mejorado con incrustación de posición giratoria". arXiv : 2104.09864 [cs.CL].
^ Prensa, Ofir; Smith, Noé A.; Lewis, Mike (1 de agosto de 2021). "Entrene corto, pruebe largo: la atención con sesgos lineales permite la extrapolación de la longitud de entrada". arXiv : 2108.12409 [cs.CL].
^ Shaw, Pedro; Uszkoreit, Jakob; Vaswani, Ashish (2018). "Autoatención con representaciones de posición relativa". arXiv : 1803.02155 [cs.CL].
^ Dao, Tri; Fu, Dan; Ermón, Stefano; Rudra, Atri; Ré, Christopher (6 de diciembre de 2022). "FlashAttention: atención exacta rápida y con uso eficiente de la memoria con IO-Awareness". Avances en los sistemas de procesamiento de información neuronal . 35 : 16344–16359. arXiv : 2205.14135 .
^ "CRFM de Stanford". crfm.stanford.edu . Consultado el 18 de julio de 2023 .
^ "FlashAttention-2: atención más rápida con mejor paralelismo y partición del trabajo". PNL de Princeton . 2023-06-17 . Consultado el 18 de julio de 2023 .
^ "Presentamos a Tri Dao, científico jefe de IA de Together, mientras lanza FlashAttention-2 para acelerar el entrenamiento y la inferencia de modelos". JUNTOS . Consultado el 18 de julio de 2023 .
^ Chowdhery, Aakanksha; Narang, Sharan; Devlin, Jacob; Bosma, Martín; Mishra, Gaurav; Roberts, Adán; Barham, Pablo; Chung, Hyung Won; Sutton, Carlos; Gehrmann, Sebastián; Schuh, Parker; Shi, Kensen; Tsvyashchenko, Sasha; Maynez, Josué; Rao, Abhishek (1 de abril de 2022). "PaLM: ampliación del modelado del lenguaje con Pathways". arXiv : 2204.02311 [cs.CL].
^ Kwon, Woosuk; Li, Zhuohan; Zhuang, Siyuan; Sheng, Ying; Zheng, Lianmin; Yu, Cody Hao; González, José; Zhang, Hao; Estoica, Ion (23 de octubre de 2023). "Gestión eficiente de la memoria para modelos de lenguajes grandes que sirven con PagedAttention". Actas del 29º Simposio sobre principios de sistemas operativos . SOSP '23. Nueva York, NY, EE.UU.: Asociación de Maquinaria de Computación. págs. 611–626. arXiv : 2309.06180 . doi :10.1145/3600006.3613165. ISBN 979-8-4007-0229-7.
^ vllm-project/vllm, vLLM, 2024-06-20 , consultado el 20 de junio de 2024
^ Contribución), Woosuk Kwon*, Zhuohan Li*, Siyuan Zhuang, Ying Sheng, Lianmin Zheng, Cody Yu, Joey González, Hao Zhang e Ion Stoica (* Equal (2023-06-20). "vLLM: Fácil, Rápido y servicio LLM económico con PagedAttention". Blog de vLLM . Consultado el 20 de junio de 2024 .{{cite web}}: CS1 maint: multiple names: authors list (link)
^ ab Leviatán, Yaniv; Kalman, Matán; Matias, Yossi (18 de mayo de 2023), Inferencia rápida a partir de transformadores mediante decodificación especulativa , arXiv : 2211.17192
^ Fu, Yao (13 de diciembre de 2023). "Hacia una aceleración de 100 veces: optimización de inferencia de transformadores de pila completa".
^ Chen, Charlie; Borgeaud, Sebastián; Irving, Geoffrey; Lespiau, Jean-Baptiste; Sifré, Laurent; Jumper, John (2 de febrero de 2023), Aceleración de la decodificación de modelos de lenguaje grande con muestreo especulativo , arXiv : 2302.01318
^ ab Kitaev, Nikita; Káiser, Łukasz; Levskaya, Anselmo (2020). "Reformador: el transformador eficiente". arXiv : 2001.04451 [cs.LG].
^ "Construcción de transformadores para secuencias más largas con métodos de atención escasa". Blog de IA de Google . 25 de marzo de 2021. Archivado desde el original el 18 de septiembre de 2021 . Consultado el 28 de mayo de 2021 .
^ "Tareas con secuencias largas: Chatbot". Coursera . Archivado desde el original el 26 de octubre de 2020 . Consultado el 22 de octubre de 2020 .
^ "Reformador: el transformador eficiente". Blog de IA de Google . 16 de enero de 2020. Archivado desde el original el 22 de octubre de 2020 . Consultado el 22 de octubre de 2020 .
^ Zhai, Shuangfei; Talbott, Walter; Srivastava, nitish; Huang, Chen; Vaya, Hanlin; Zhang, Ruixiang; Susskind, Josh (21 de septiembre de 2021). "Un transformador sin atención". arXiv : 2105.14103 [cs.LG].
^ Tay, Yi; Dehghani, Mostafa; Abnar, Samira; Shen, Yikang; Bahri, Dara; Pham, Felipe; Rao, Jinfeng; Yang, Liu; Ruder, Sebastián; Metzler, Donald (8 de noviembre de 2020). "Arena de largo alcance: un punto de referencia para transformadores eficientes". arXiv : 2011.04006 [cs.LG].
^ Peng, Hao; Pappas, Nikolaos; Yogatama, Dani; Schwartz, Roy; Smith, Noé A.; Kong, Lingpeng (19 de marzo de 2021). "Atención a funciones aleatorias". arXiv : 2103.02143 [cs.CL].
^ Choromanski, Krzysztof; Likhosherstov, Valerii; Dohan, David; Canción, Xingyou; Gane, Andreea; Sarlos, Tamas; Hawkins, Peter; Davis, Jared; Belanger, David; Colwell, Lucy; Weller, Adrián (30 de septiembre de 2020). "Modelado de lenguaje enmascarado para proteínas mediante transformadores de contexto largo linealmente escalables". arXiv : 2006.03555 [cs.LG].
^ Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022). "Reconocimiento de voz robusto mediante supervisión débil a gran escala". arXiv : 2212.04356 [eess.AS].
^ Jaegle, Andrés; Gimeno, Félix; Brock, Andrés; Zisserman, Andrés; Vinyals, Oriol; Carreira, Joao (22/06/2021). "Perceptor: percepción general con atención iterativa". arXiv : 2103.03206 [cs.CV].
^ Jaegle, Andrés; Borgeaud, Sebastián; Alayrac, Jean-Baptiste; Doersch, Carl; Ionescu, Catalín; Ding, David; Koppula, Skanda; Zoran, Daniel; Brock, Andrés; Shelhamer, Evan; Hénaff, Olivier (2 de agosto de 2021). "Perceiver IO: una arquitectura general para entradas y salidas estructuradas". arXiv : 2107.14795 [cs.LG].
^ Peebles, William; Xie, Saining (2 de marzo de 2023). "Modelos de difusión escalables con transformadores". arXiv : 2212.09748 [cs.CV].
^ "Google AI presenta Muse, un nuevo modelo transformador de texto a imagen". InfoQ .
^ "Uso de modelos de difusión para crear avatares NeRF superiores". 5 de enero de 2023.
^ Islam, Arham (14 de noviembre de 2022). "¿Cómo funcionan DALL·E 2, difusión estable y mitad del viaje?".

Otras lecturas

Alexander Rush, The Annotated Transformer Archivado el 22 de septiembre de 2021 en Wayback Machine , grupo de PNL de Harvard, 3 de abril de 2018.
Phuong, María; Hutter, Marcus (2022). "Algoritmos formales para transformadores". arXiv : 2207.09238 [cs.LG].
Fernando, Javier; Sarti, Gabriele; Bisazza, Arianna; Costa-jussà, Marta R. (2024-05-01). "Introducción al funcionamiento interno de los modelos de lenguaje basados en transformadores". arXiv : 2405.00208 [cs.CL].
Hubert Ramsauer et al. (2020), "Hopfield Networks es todo lo que necesita" Archivado el 18 de septiembre de 2021 en Wayback Machine , preimpresión enviada para ICLR 2021. arXiv : 2008.02217; ver también el blog de los autores Archivado el 18 de septiembre de 2021 en Wayback Machine.

– Discusión del efecto de una capa transformadora como equivalente a una actualización de Hopfield, acercando la entrada a uno de los puntos fijos (patrones representables) de una red Hopfield de valor continuo.