stringtranslate.com

Transformador de visión

La arquitectura de Vision Transformer. Una imagen de entrada se divide en parches, cada uno de los cuales se mapea linealmente a través de una capa de incrustación de parches, antes de ingresar a un codificador Transformer estándar.

Un transformador de visión ( ViT ) es un transformador diseñado para la visión artificial . [1] Un ViT descompone una imagen de entrada en una serie de parches (en lugar de texto en tokens ), serializa cada parche en un vector y lo asigna a una dimensión más pequeña con una sola multiplicación de matrices . Estas incrustaciones de vectores luego son procesadas por un codificador de transformador como si fueran incrustaciones de tokens.

Las ViT se diseñaron como alternativas a las redes neuronales convolucionales (CNN) en aplicaciones de visión artificial. Tienen diferentes sesgos inductivos, estabilidad de entrenamiento y eficiencia de datos. [2] En comparación con las CNN, las ViT son menos eficientes en el uso de datos, pero tienen mayor capacidad. Algunos de los modelos de visión artificial modernos más grandes son ViT, como uno con 22B parámetros. [3] [4]

Después de su publicación, se propusieron muchas variantes, con arquitecturas híbridas con características tanto de ViT como de CNN. Las ViT han encontrado aplicación en el reconocimiento de imágenes , la segmentación de imágenes y la conducción autónoma . [5] [6]

Historia

Los transformadores se introdujeron en Attention Is All You Need (2017), [7] y han encontrado un uso generalizado en el procesamiento del lenguaje natural . Un artículo de 2019 [8] aplicó ideas del transformador a la visión por computadora. Específicamente, comenzaron con un ResNet , una red neuronal convolucional estándar utilizada para la visión por computadora, y reemplazaron todos los núcleos convolucionales por el mecanismo de autoatención que se encuentra en un transformador. Resultó en un rendimiento superior. Sin embargo, no es un transformador de visión.

En 2020, se adaptó un transformador que solo funcionaba con codificador para la visión artificial, lo que dio como resultado el ViT, que alcanzó el estado del arte en la clasificación de imágenes, superando el dominio anterior de las redes neuronales convolucionales. [1] El autocodificador enmascarado (2022) amplió el ViT para que funcione con entrenamiento no supervisado. El transformador de visión y el autocodificador enmascarado, a su vez, estimularon nuevos desarrollos en las redes neuronales convolucionales. [9] [10]

Posteriormente, se produjo una fertilización cruzada entre el enfoque CNN anterior y el enfoque ViT.

En 2021, se propusieron algunas variantes importantes de los Transformadores de Visión. Estas variantes están destinadas principalmente a ser más eficientes, más precisas o más adecuadas para un dominio específico. Dos estudios [11] [12] mejoraron la eficiencia y la robustez de ViT al agregar una CNN como preprocesador. El Transformador Swin [13] logró resultados de última generación en algunos conjuntos de datos de detección de objetos como COCO , mediante el uso de ventanas deslizantes de mecanismo de atención similares a la convolución y el proceso piramidal en la visión artificial clásica.

Descripción general

Arquitectura del Transformer de Vision, que muestra los bloques del Transformer con solo codificador en su interior.

La arquitectura básica utilizada en el artículo original de 2020 [1] es la siguiente. En resumen, se trata de un transformador con codificador único similar a BERT.

La imagen de entrada es de tipo , donde son altura, ancho y canal ( RGB ). Luego se divide en parches cuadrados de tipo .

Para cada parche, se lo empuja a través de un operador lineal para obtener un vector ("incrustación de parche"). La posición del parche también se transforma en un vector mediante "codificación de posición". Los dos vectores se suman y luego se los empuja a través de varios codificadores Transformer.

El mecanismo de atención en un ViT transforma repetidamente los vectores de representación de los fragmentos de imagen, incorporando cada vez más relaciones semánticas entre los fragmentos de imagen de una imagen. Esto es análogo a cómo en el procesamiento del lenguaje natural, a medida que los vectores de representación fluyen a través de un transformador, incorporan cada vez más relaciones semánticas entre palabras, desde la sintaxis hasta la semántica.

La arquitectura anterior convierte una imagen en una secuencia de representaciones vectoriales. Para utilizarlas en aplicaciones posteriores, es necesario entrenar un cabezal adicional para que las interprete.

Por ejemplo, para utilizarlo con fines de clasificación, se puede añadir un MLP superficial encima que genere una distribución de probabilidad sobre las clases. El artículo original utiliza una red lineal- GeLU -lineal-softmax. [1]

Variantes

ViT original

El ViT original era un transformador de solo codificador entrenado de forma supervisada para predecir la etiqueta de la imagen a partir de los parches de la imagen. Como en el caso de BERT , utiliza un token especial <CLS>en el lado de entrada y el vector de salida correspondiente se utiliza como la única entrada del cabezal MLP de salida final. El token especial es un truco arquitectónico que permite que el modelo comprima toda la información relevante para predecir la etiqueta de la imagen en un solo vector.

Animación de ViT. El token 0 es el especial <CLS>. Los otros 9 parches se proyectan mediante una capa lineal antes de ser introducidos en el codificador Transformer como tokens de entrada 1 a 9.

Los transformadores encontraron sus aplicaciones iniciales en tareas de procesamiento de lenguaje natural , como lo demuestran los modelos de lenguaje como BERT y GPT-3 . Por el contrario, el sistema de procesamiento de imágenes típico utiliza una red neuronal convolucional (CNN). Los proyectos más conocidos incluyen Xception, ResNet , EfficientNet , [14] DenseNet , [15] e Inception . [16]

Los transformadores miden las relaciones entre pares de tokens de entrada (palabras en el caso de cadenas de texto), denominadas atención . El costo es cuadrático en el número de tokens. Para las imágenes, la unidad básica de análisis es el píxel . Sin embargo, calcular relaciones para cada par de píxeles en una imagen típica es prohibitivo en términos de memoria y computación. En cambio, ViT calcula relaciones entre píxeles en varias secciones pequeñas de la imagen (por ejemplo, 16x16 píxeles), a un costo drásticamente reducido. Las secciones (con incrustaciones posicionales) se colocan en una secuencia. Las incrustaciones son vectores que se pueden aprender. Cada sección se organiza en una secuencia lineal y se multiplica por la matriz de incrustaciones. El resultado, con la incrustación de posición, se alimenta al transformador. [16]

Mejoras arquitectónicas

Agrupamiento

Después de que ViT procesa una imagen, produce algunos vectores de incrustación. Estos deben convertirse en una predicción de probabilidad de clase única mediante algún tipo de red. En el ViT original y Masked Autoencoder, utilizaron un [CLS]token ficticio, en emulación del modelo de lenguaje BERT . La salida en [CLS]es el token de clasificación, que luego es procesado por un módulo LayerNorm -feedforward-softmax en una distribución de probabilidad.

El agrupamiento de promedios globales (GAP) no utiliza el token ficticio, sino que simplemente toma el promedio de todos los tokens de salida como token de clasificación. En el ViT original se mencionó que era igualmente bueno. [1]

La agrupación de atención multicabezal (MAP) aplica un bloque de atención multicabezal a la agrupación. Específicamente, toma como entrada una lista de vectores , que podrían considerarse como los vectores de salida de una capa de un ViT. Luego aplica una capa de avance en cada vector, lo que da como resultado una matriz . Luego, esta se envía a una atención multicabezal, lo que da como resultado , donde es una matriz de parámetros entrenables. [17] Esto se propuso por primera vez en la arquitectura Set Transformer . [18]

Artículos posteriores demostraron que tanto GAP como MAP funcionan mejor que la agrupación de tipo BERT. [17] [19] Se propuso una variante de MAP llamada atención de clase , que aplica MAP, luego feedforward y luego MAP nuevamente. [20]

Se propuso la re-atención para permitir el entrenamiento de ViT profundo. Cambia el módulo de atención multicabezal. [21]

Codificador automático enmascarado

Arquitectura de codificador automático enmascarado.

El autocodificador enmascarado [22] se inspiró en los autocodificadores de eliminación de ruido . Tiene dos ViTs colocados uno al lado del otro. El primero ("codificador") toma parches de imagen con codificación posicional y genera vectores que representan cada parche. El segundo (llamado "decodificador", aunque sigue siendo un transformador solo de codificador) toma vectores con codificación posicional y genera parches de imagen nuevamente. Durante el entrenamiento, se utilizan tanto el ViT del codificador como del decodificador. Durante la inferencia, solo se utiliza el ViT del codificador.

Durante el entrenamiento, cada imagen se corta en parches y se le añaden sus incrustaciones posicionales. De estos, solo se selecciona el 25 % de los parches. El codificador ViT procesa los parches seleccionados. No se utilizan tokens de máscara. Luego, se vuelven a agregar los tokens de máscara y las incrustaciones posicionales. Estos son procesados ​​por el decodificador ViT, que genera una reconstrucción de la imagen completa. La pérdida es la pérdida cuadrática media total en el espacio de píxeles para todos los parches enmascarados (la pérdida de reconstrucción no se calcula para los parches no enmascarados).

Una arquitectura similar fue BERT ViT (BEiT), publicada simultáneamente. [23]

Dinosaurio

Al igual que el autocodificador enmascarado, el método DINO (autodestilación sin etiquetas ) es una forma de entrenar un ViT mediante autosupervisión . [24] DINO es una forma de autodestilación profesor-alumno . En DINO, el alumno es el modelo en sí mismo y el profesor es un promedio exponencial de los estados pasados ​​del alumno. El método es similar a trabajos anteriores como el contraste de momento [25] y el arranque de su propia latente [26].

La función de pérdida utilizada en DINO es la pérdida de entropía cruzada entre la salida de la red de profesores ( ) y la salida de la red de estudiantes ( ). La red de profesores es un promedio decreciente exponencialmente de los parámetros pasados ​​de la red de estudiantes: . Las entradas a las redes son dos cultivos diferentes de la misma imagen, representados como y , donde es la imagen original. La función de pérdida se escribe como Un problema es que la red puede "colapsar" al generar siempre el mismo valor ( ), independientemente de la entrada. Para evitar este colapso, DINO emplea dos estrategias:

En enero de 2024, Meta AI Research lanzó una versión actualizada llamada DINOv2 [27] que introdujo mejoras significativas en las estrategias de entrenamiento, la arquitectura y el rendimiento general. Los avances clave en DINOv2 incluyen:

Transformador Swin

El transformador Swin (" ventanas desplazadas " ) [ 13] se inspiró en las CNN estándar:

Se ha mejorado con Swin Transformer V2, [28] que modifica el ViT mediante un mecanismo de atención diferente [13] : Figura 1  :

Transformador de tiempo

El TimeSformer [29] fue diseñado para tareas de comprensión de videos y aplicó una autoatención factorizada, similar a los núcleos de convolución factorizados que se encuentran en la arquitectura CNN Inception . [30] Esquemáticamente, divide un video en cuadros y cada cuadro en una cuadrícula de parches (igual que ViT). Sea cada coordenada de parche denotada por , que denota horizontal, vertical y tiempo.

El TimeSformer también consideró otros diseños de capas de atención, como la "capa de atención de altura", donde el requisito es . Sin embargo, descubrieron empíricamente que el mejor diseño intercala una capa de atención espacial y una capa de atención temporal.

ViT-VQGAN

En ViT-VQGAN , [31] hay dos codificadores ViT y un discriminador. Uno codifica parches de 8x8 de una imagen en una lista de vectores, uno para cada parche. Los vectores solo pueden provenir de un conjunto discreto de "libro de códigos", como en la cuantificación vectorial . Otro codifica los vectores cuantificados nuevamente en parches de imagen. El objetivo de entrenamiento intenta hacer que la imagen de reconstrucción (la imagen de salida) sea fiel a la imagen de entrada. El discriminador (generalmente una red convolucional, pero se permiten otras redes) intenta decidir si una imagen es una imagen real original o una imagen reconstruida por el ViT.

La idea es esencialmente la misma que la del autocodificador variacional cuantificado vectorial (VQVAE) más la red generativa antagónica (GAN).

Una vez que se ha entrenado un ViT-VQGAN de este tipo, se puede utilizar para codificar una imagen arbitraria en una lista de símbolos y codificar una lista arbitraria de símbolos en una imagen. La lista de símbolos se puede utilizar para entrenar un transformador autorregresivo estándar (como GPT) para generar una imagen de forma autorregresiva. Además, se puede tomar una lista de pares de subtítulos e imágenes, convertir las imágenes en cadenas de símbolos y entrenar un transformador estándar de estilo GPT. Luego, en el momento de la prueba, se puede simplemente dar un subtítulo a la imagen y hacer que genere la imagen de forma autorregresiva. Esta es la estructura de Google Parti. [32]

Otros

Otros ejemplos incluyen el transformador visual, [33] CoAtNet, [34] CvT, [35] el ViT (DeiT) eficiente en datos, [36] etc.

En la arquitectura Transformer in Transformer, cada capa aplica una capa de Transformer de visión en cada incrustación de parche de imagen, agrega nuevamente los tokens resultantes a la incrustación y luego aplica otra capa de Transformer de visión. [37]

Comparación con las CNN

Por lo general, ViT utiliza tamaños de parche más grandes que los núcleos CNN estándar (3x3 a 7x7). ViT es más sensible a la elección del optimizador, los hiperparámetros y la profundidad de la red. El preprocesamiento con una capa de filtros convolucionales superpuestos (paso < tamaño) de menor tamaño ayuda con el rendimiento y la estabilidad. [12]

Este comportamiento diferente parece derivar de los diferentes sesgos inductivos que poseen.

CNN aplica el mismo conjunto de filtros para procesar toda la imagen. Esto les permite ser más eficientes en el uso de datos y menos sensibles a las perturbaciones locales. [2] ViT aplica autoatención, lo que les permite capturar fácilmente relaciones de largo alcance entre parches. También requieren más datos para entrenar, pero pueden ingerir más datos de entrenamiento en comparación con CNN, lo que podría no mejorar después de entrenar en un conjunto de datos de entrenamiento lo suficientemente grande. ViT también parece más robusto a las distorsiones de la imagen de entrada, como parches adversarios o permutaciones. [38]

Aplicaciones

ViT se ha utilizado en muchas tareas de visión artificial con excelentes resultados y, en algunos casos, incluso de última generación. Clasificación de imágenes , detección de objetos , detección de deepfake de vídeo , [39] Segmentación de imágenes , [40] Detección de anomalías , síntesis de imágenes , análisis de clústeres , conducción autónoma . [5] [6]

ViT se ha utilizado para la generación de imágenes como columna vertebral para GAN [41] y para modelos de difusión (transformador de difusión o DiT). [42]

Se ha demostrado que DINO [24] aprende representaciones útiles para agrupar imágenes y explorar perfiles morfológicos en conjuntos de datos biológicos, como imágenes generadas con el ensayo Cell Painting . [43]

Véase también

Referencias

  1. ^ abcde Dosovitskiy, Alexey; Beyer, Lucas; Kolesnikov, Alejandro; Weissenborn, Dirk; Zhai, Xiaohua; Unterthiner, Thomas; Dehghani, Mostafa; Minderer, Matías; Heigold, Georg; Gelly, Sylvain; Uszkoreit, Jakob (3 de junio de 2021). "Una imagen vale 16 x 16 palabras: transformadores para el reconocimiento de imágenes a escala". arXiv : 2010.11929 [cs.CV].
  2. ^ ab Raghu, Maithra; Unterthiner, Thomas; Kornblith, Simon; Zhang, Chiyuan; Dosovitskiy, Alexey (19 de agosto de 2021). "¿Los transformadores de visión ven como redes neuronales convolucionales?". arXiv : 2108.08810 [cs.CV].
  3. ^ Dehghani, Mostafa; Djolonga, Josip; Mustafa, Albahaca; Padlewski, Piotr; Hola, Jonathan; Gilmer, Justin; Steiner, Andreas; Carón, Mathilde; Geirhos, Robert (10 de febrero de 2023), Escalado de transformadores de visión a 22 mil millones de parámetros , arXiv : 2302.05442
  4. ^ "Escalando los transformadores de visión a 22 mil millones de parámetros". research.google . Consultado el 7 de agosto de 2024 .
  5. ^ ab Han, Kai; Wang, Yunhe; Chen, Hanting; Chen, Xinghao; Guo, Jianyuan; Liu, Zhenhua; Tang, Yehui; Xiao, An; Xu, Chunjing; Xu, Yixing; Yang, Zhaohui; Zhang, Yiman; Tao, Dacheng (1 de enero de 2023). "Una encuesta sobre Vision Transformer". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 45 (1): 87-110. arXiv : 2012.12556 . doi :10.1109/TPAMI.2022.3152247. ISSN  0162-8828. PMID  35180075.
  6. ^ ab Khan, Salman; Naseer, Muzammal; Hayat, Munawar; Zamir, Syed Waqas; Khan, Fahad Shahbaz; Shah, Mubarak (13 de septiembre de 2022). "Transformadores en visión: una encuesta". Computación ACM. Sobrevivir . 54 (10s): 200:1–200:41. arXiv : 2101.01169 . doi :10.1145/3505244. ISSN  0360-0300.
  7. ^ Vaswani, Ashish ; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, León; Gómez, Aidan N ; Káiser, Łukasz; Polosukhin, Illia (2017). "La atención es todo lo que necesita" (PDF) . Avances en los sistemas de procesamiento de información neuronal . 30 . Curran asociados, Inc.
  8. ^ Ramachandran, Prajit; Parmar, Niki; Vaswani, Ashish; Bello, Irwan; Levskaya, Anselm; Shlens, Jon (2019). "Autoatención autónoma en modelos de visión". Avances en sistemas de procesamiento de información neuronal . 32 . Curran Associates, Inc. arXiv : 1906.05909 .
  9. ^ Liu, Zhuang; Mao, Hanzi; Wu, Chao-Yuan; Feichtenhofer, Christoph; Darrell, Trevor; Xie, Saining (2022). "Una ConvNet para la década de 2020": 11976–11986. arXiv : 2201.03545 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
  10. ^ Woo, Sanghyun; Debnath, Shoubhik; Hu, Ronghang; Chen, Xinlei; Liu, Zhuang; Kweon, In So; Xie, Saining (2023). "ConvNeXt V2: Codiseño y escalado de ConvNets con autocodificadores enmascarados": 16133–16142. arXiv : 2301.00808 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
  11. ^ Wu, Bichén; Xu, Chenfeng; Dai, Xiaoliang; Wan, Alvin; Zhang, Peizhao; Yan, Zhicheng; Masayoshi, Tomizuka; González, José; Keutzer, Kurt; Vajda, Peter (2020). "Visual Transformers: representación y procesamiento de imágenes basadas en tokens para visión por computadora". arXiv : 2006.03677 [cs.CV].
  12. ^ ab Xiao, Tete; Singh, Mannat; Mintun, Eric; Darrell, Trevor; Dollár, Piotr; Girshick, Ross (28 de junio de 2021). "Las convoluciones tempranas ayudan a los transformadores a ver mejor". arXiv : 2106.14881 [cs.CV].
  13. ^ abc Liu, Ze; Lin, Yutong; Cao, Yue; Hu, Han; Wei, Yixuan; Zhang, Zheng; Lin, Esteban; Guo, Baining (25 de marzo de 2021). "Swin Transformer: transformador de visión jerárquica que utiliza ventanas desplazadas". arXiv : 2103.14030 [cs.CV].
  14. ^ Tan, Mingxing; Le, Quoc (23 de junio de 2021). «EfficientNetV2: modelos más pequeños y entrenamiento más rápido» (PDF) . Actas de la 38.ª Conferencia internacional sobre aprendizaje automático (PMLR) . 139 : 10096–10106. arXiv : 2104.00298 . Consultado el 31 de octubre de 2023 .
  15. ^ Huang, Gao; Liu, Zhuang; van der Maaten, Laurens; Q. Weinberger, Kilian (28 de enero de 2018). "Redes convolucionales densamente conectadas". arXiv : 1608.06993 [cs.CV].
  16. ^ ab Sarkar, Arjun (20 de mayo de 2021). "¿Son los Transformers mejores que las CNN en el reconocimiento de imágenes?". Medium . Consultado el 11 de julio de 2021 .
  17. ^ ab Zhai, Xiaohua; Kolesnikov, Alexander; Houlsby, Neil; Beyer, Lucas (junio de 2022). "Transformadores de visión a escala". Conferencia IEEE/CVF de 2022 sobre visión artificial y reconocimiento de patrones (CVPR) . IEEE. págs. 1204–1213. arXiv : 2106.04560 . doi :10.1109/cvpr52688.2022.01179. ISBN . 978-1-6654-6946-3.
  18. ^ Lee, Juho; Lee, Yoonho; Kim, Jungtaek; Kosiorek, Adam; Choi, Seungjin; Teh, Yee Whye (24 de mayo de 2019). "Set Transformer: un marco para redes neuronales invariantes de permutación basadas en la atención". Actas de la 36.ª Conferencia internacional sobre aprendizaje automático . PMLR: 3744–3753. arXiv : 1810.00825 .
  19. ^ Karamcheti, Siddharth; Nair, Suraj; Chen, Annie S.; Kollar, Thomas; Finn, Chelsea; Sadigh, Dorsa; Liang, Percy (24 de febrero de 2023), Aprendizaje de representación impulsado por el lenguaje para robótica , arXiv : 2302.12766
  20. ^ Touvron, Hugo; Cordón, Matthieu; Sablayrolles, Alexandre; Synnaeve, Gabriel; Jégou, Hervé (2021). "Profundizando con Image Transformers": 32–42. arXiv : 2103.17239 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
  21. ^ Zhou, Daquan; Kang, Bingyi; Jin, Xiaojie; Yang, Linjie; Lian, Xiaochen; Jiang, Zihang; Hou, Qibin; Feng, Jiashi (19 de abril de 2021), DeepViT: hacia un transformador de visión más profunda , arXiv : 2103.11886
  22. ^ He, Kaiming; Chen, Xinlei; Xie, Saining; Li, Yanghao; Dollár, Piotr; Girshick, Ross (2021). "Los autocodificadores enmascarados son aprendices de visión escalables". arXiv : 2111.06377 [cs.CV].
  23. ^ Bao, Hangbo; Dong, Li; Piao, Songhao; Wei, Furu (6 de octubre de 2021). "BEiT: Preentrenamiento BERT de transformadores de imágenes". Conferencia internacional sobre representaciones de aprendizaje . arXiv : 2106.08254 .
  24. ^ ab Caron, Mathilde; Touvron, Hugo; Misra, Ishan; Jegou, Hervé; Mairal, Julien; Bojanowski, Piotr; Joulin, Armand (octubre de 2021). "Propiedades emergentes en transformadores de visión autosupervisados". Conferencia internacional IEEE/CVF 2021 sobre visión por computadora (ICCV) . IEEE. págs. 9630–9640. arXiv : 2104.14294 . doi :10.1109/iccv48922.2021.00951. ISBN 978-1-6654-2812-5.
  25. ^ He, Kaiming; Fan, Haoqi; Wu, Yuxin; Xie, Saining; Girshick, Ross (2020). "Contraste de momento para el aprendizaje de representaciones visuales no supervisadas": 9729–9738. arXiv : 1911.05722 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
  26. ^ Grill, Jean-Bastien; Strub, Florian; Altché, Florent; Tallec, Corentin; Richemond, Pierre; Buchatskaya, Elena; Doersch, Carl; Avila Pires, Bernardo; Guo, Zhaohan; Gheshlaghi Azar, Mohammad; Piot, Bilal; kavukcuoglu, koray; Munos, Remi; Valko, Michal (2020). "Bootstrap Your Own Latent - Un nuevo enfoque para el aprendizaje autosupervisado". Avances en sistemas de procesamiento de información neuronal . 33 . Curran Associates, Inc.: 21271–21284.
  27. ^ Oquab, Maxime; Darcet, Timothée; Moutakani, Théo; Vo, Huy; Szafraniec, Marc; Khalidov, Vasil; Fernández, Pierre; Haziza, Daniel; Massa, Francisco (14-04-2023). "DINOv2: aprendizaje de funciones visuales sólidas sin supervisión". arXiv : 2304.07193 [cs.CV].
  28. ^ Liu, Ze; Hu, Han; Lin, Yutong; Yao, Zhuliang; Xie, Zhenda; Wei, Yixuan; Ning, Jia; Cao, Yue; Zhang, Zheng; Dong, Li; Wei, Furu; Guo, Baining (2022). "Swin Transformer V2: aumento de la capacidad y la resolución". Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones. págs. 12009-12019.
  29. ^ Bertasius, Gedas; Wang, Heng; Torresani, Lorenzo (9 de febrero de 2021). "¿Es la atención espacio-temporal todo lo que necesitas para comprender el video?". arXiv : 2102.05095 [cs.CV].
  30. ^ Szegedy, Christian; Vanhoucke, Vincent; Ioffe, Sergey; Shlens, Jon; Wojna, Zbigniew (2016). "Replanteando la arquitectura inicial para la visión artificial": 2818–2826. arXiv : 1512.00567 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
  31. ^ Yu, Jiahui; Li, Xin; Koh, Jing Yu; Zhang, Han; Pang, Ruoming; Qin, James; Ku, Alejandro; Xu, Yuanzhong; Baldridge, Jason; Wu, Yonghui (2021). "Modelado de imágenes cuantificadas por vectores con VQGAN mejorado". arXiv : 2110.04627 [cs.CV].
  32. ^ "Parti: Pathways Autoregressive Text-to-Image Model" (Modelo de texto a imagen autorregresivo de vías). sites.research.google . Consultado el 3 de noviembre de 2023 .
  33. ^ Wu, Bichén; Xu, Chenfeng; Dai, Xiaoliang; Wan, Alvin; Zhang, Peizhao; Yan, Zhicheng; Tomizuka, Masayoshi; González, José; Keutzer, Kurt (19 de noviembre de 2020), Transformadores visuales: representación y procesamiento de imágenes basadas en tokens para visión por computadora , arXiv : 2006.03677
  34. ^ Dai, Zihang; Liu, Hanxiao; Le, Quoc V.; Tan, Mingxing (9 de junio de 2021). "CoAtNet: Combinando convolución y atención para todos los tamaños de datos". arXiv : 2106.04803 [cs.CV].
  35. ^ Wu, Haiping; Xiao, Bin; Codella, Noel; Liu, Mengchen; Dai, Xiyang; Yuan, Lu; Zhang, Lei (29 de marzo de 2021). "CvT: Introducción de convoluciones a los transformadores de visión". arXiv : 2103.15808 [cs.CV].
  36. ^ Touvron, Hugo; Cordón, Matthieu; Jégou, Hervé (2022). "DeiT III: La venganza de ViT". En Avidan, Shai; Brostow, Gabriel; Cissé, Moustapha; Farinella, Giovanni María; Hassner, Tal (eds.). Visión por Computador – ECCV 2022 . Apuntes de conferencias sobre informática. vol. 13684. Cham: Springer Nature Suiza. págs. 516–533. doi :10.1007/978-3-031-20053-3_30. ISBN 978-3-031-20053-3.
  37. ^ Han, Kai; Xiao, An; Wu, Enhua; Guo, Jianyuan; XU, Chunjing; Wang, Yunhe (2021). "Transformador en Transformador". Avances en los sistemas de procesamiento de información neuronal . 34 . Curran Associates, Inc.: 15908–15919.
  38. ^ Naseer, Muzammal; Ranasinghe, Kanchana; Khan, Salman; Hayat, Munawar; Khan, Fahad Shahbaz; Yang, Ming-Hsuan (21 de mayo de 2021). "Propiedades intrigantes de los transformadores de visión". arXiv : 2105.10497 [cs.CV].
  39. ^ Coccomini, Davide; Messina, Nicola; Gennaro, Claudio; Falchi, Fabrizio (2022). "Combinación de transformadores de red y visión eficientes para la detección de deepfakes en vídeo". Análisis y procesamiento de imágenes – ICIAP 2022. Apuntes de clase en informática. Vol. 13233. págs. 219–229. arXiv : 2107.02612 . doi :10.1007/978-3-031-06433-3_19. ISBN 978-3-031-06432-6. Número de identificación del sujeto  235742764.
  40. ^ Kirillov, Alejandro; Mintun, Eric; Ravi, Nikhila; Mao, Hanzi; Rolland, Cloe; Gustafson, Laura; Xiao, Tete; Whitehead, Spencer; Berg, Alejandro C.; Lo, Wan-Yen; Dólar, Piotr; Girshick, Ross (2023). "Segmentar cualquier cosa": 4015–4026. {{cite journal}}: Requiere citar revista |journal=( ayuda )
  41. ^ Jiang, Yifan; Chang, Shiyu; Wang, Zhangyang (2021). "TransGAN: dos transformadores puros pueden formar una GAN fuerte y escalable". Avances en sistemas de procesamiento de información neuronal . 34 . Curran Associates, Inc.: 14745–14758. arXiv : 2102.07074 .
  42. ^ Peebles, William; Xie, Saining (marzo de 2023). "Modelos de difusión escalables con transformadores". arXiv : 2212.09748v2 [cs.CV].
  43. ^ Doron, Michael; Moutakanni, Théo; Chen, Zitong S.; Moshkov, Nikita; Caron, Mathilde; Touvron, Hugo; Bojanowski, Piotr; Pernice, Wolfgang M.; Caicedo, Juan C. (18 de junio de 2023). "Morfología unicelular imparcial con transformadores de visión autosupervisados". BioRxiv: El servidor de preimpresiones para biología : 2023.06.16.545359. doi :10.1101/2023.06.16.545359. PMC 10312751. PMID 37398158.  Consultado el 12 de febrero de 2024 . 

Lectura adicional