stringtranslate.com

Perceptor

Perceiver es una variante de la arquitectura Transformer , adaptada para procesar formas arbitrarias de datos, como imágenes, sonidos y videos, y datos espaciales . A diferencia de los sistemas Transformer anteriores, como BERT y GPT-3 , que fueron diseñados para el procesamiento de texto, Perceiver está diseñado como una arquitectura general que puede aprender de grandes cantidades de datos heterogéneos. Lo logra con un mecanismo de atención asimétrica para destilar las entradas en un cuello de botella latente.

El perceptor iguala o supera a los modelos especializados en tareas de clasificación. [1]

Perceiver fue presentado en junio de 2021 por DeepMind . [1] Le siguió Perceiver IO en agosto de 2021. [2]

Diseño

Perceiver está diseñado sin elementos específicos de la modalidad . Por ejemplo, no tiene elementos especializados para manejar imágenes, texto o audio. Además, puede manejar múltiples flujos de entrada correlacionados de tipos heterogéneos. Utiliza un pequeño conjunto de unidades latentes que forman un cuello de botella de atención a través del cual deben pasar las entradas. Una ventaja es que elimina el problema de escala cuadrática que se encontraba en los primeros transformadores. Los trabajos anteriores utilizaban extractores de características personalizados para cada modalidad. [1]

Asocia características específicas de posición y modalidad con cada elemento de entrada (por ejemplo, cada píxel o muestra de audio). Estas características se pueden aprender o construir utilizando características de Fourier de alta fidelidad . [1]

Perceiver utiliza la atención cruzada para producir capas de complejidad lineal y separar la profundidad de la red del tamaño de entrada. Esta disociación permite arquitecturas más profundas. [1]

Componentes

Un módulo de atención cruzada asigna una matriz de bytes (más grande) (por ejemplo, una matriz de píxeles) y una matriz latente (más pequeña) a otra matriz latente, lo que reduce la dimensionalidad . Una torre de transformador asigna una matriz latente a otra matriz latente, que se utiliza para consultar la entrada nuevamente. Los dos componentes se alternan. Ambos componentes utilizan la atención de consulta-clave-valor (QKV). La atención QKV aplica redes de consulta, clave y valor, que normalmente son perceptrones multicapa , a cada elemento de una matriz de entrada, lo que produce tres matrices que preservan la dimensionalidad del índice (o longitud de secuencia) de sus entradas.

Perceptor IO

Perceiver IO puede consultar de forma flexible el espacio latente del modelo para producir resultados de tamaño y semántica arbitrarios. Logra resultados en tareas con espacios de salida estructurados, como lenguaje natural y comprensión visual , StarCraft II y multitarea. Perceiver IO iguala una línea base BERT basada en Transformer en el punto de referencia del lenguaje GLUE sin necesidad de tokenización de entrada y logra un rendimiento de vanguardia en la estimación de flujo óptico de Sintel . [2]

Los resultados se generan al prestar atención a la matriz latente mediante una consulta de salida específica asociada con esa salida en particular. Por ejemplo, para predecir el flujo óptico en un píxel, una consulta prestaría atención utilizando las coordenadas xy del píxel más una incrustación de tarea de flujo óptico para producir un único vector de flujo. Es una variación de la arquitectura de codificador/decodificador utilizada en otros diseños. [2]

Actuación

El rendimiento de Perceiver es comparable al de ResNet -50 y ViT en ImageNet sin convoluciones 2D . Atiende a 50.000 píxeles . Es competitivo en todas las modalidades de AudioSet . [1]

Véase también

Referencias

  1. ^ abcdef Jaegle, Andrew; Gimeno, Felix; Brock, Andrew; Zisserman, Andrew; Vinyals, Oriol; Carreira, Joao (2021-06-22). "Perceptor: Percepción general con atención iterativa". arXiv : 2103.03206 [cs.CV].
  2. ^ abc Jaegle, Andrés; Borgeaud, Sebastián; Alayrac, Jean-Baptiste; Doersch, Carl; Ionescu, Catalín; Ding, David; Koppula, Skanda; Zoran, Daniel; Brock, Andrés; Shelhamer, Evan; Hénaff, Olivier (2 de agosto de 2021). "Perceiver IO: una arquitectura general para entradas y salidas estructuradas". arXiv : 2107.14795 [cs.LG].

Enlaces externos