Transformador de visión

Por otro lado, el procesamiento de imágenes tradicionalmente ha utilizado redes neuronales convolucionales (en inglés: Convolutional Neural Network o CNN).

Algunos de los proyectos más reconocidos en este ámbito incluyen Xception, ResNet, EfficientNet,[2]​ DenseNet[3]​ e Inception.

Se trata de un token especial que se utiliza como entrada exclusiva del último perceptrón multicapa (en inglés: Multilayer Perceptron o MLP), ya que ha sido influenciado por todos los demás tokens en el modelo.

La arquitectura general de los transformadores fue introducida inicialmente en 2017 en el influyente artículo titulado "Attention is All You Need".

[5]​ Posteriormente, esta arquitectura fue evaluada de manera más exhaustiva en el conocido artículo titulado "An image is worth 16x16 words".

En el campo del NLP, el mecanismo de atención en los transformadores se utiliza para capturar las relaciones entre diferentes palabras en el texto analizado.

Esto resultó en una reducción drástica de los costes computacionales y un aumento en la precisión del modelo.

Este comportamiento diferente parece ser el resultado de los distintos sesgos inductivos que poseen.

Sin embargo, esta misma arquitectura puede limitar su capacidad para capturar relaciones globales de manera más compleja.

[15]​ No obstante, elegir una arquitectura sobre la otra no siempre es la elección más adecuada, ya que se han obtenido excelentes resultados en varias tareas de visión por computadora mediante arquitecturas híbridas que combinan capas convolucionales con transformadores de visión.

Arquitectura de transformadores de visión para la clasificación de imágenes