La arquitectura de matriz asincrónica de procesadores simples ( AsAP ) comprende una matriz 2-D de procesadores programables de complejidad reducida con pequeñas memorias de borrador interconectadas por una red de malla reconfigurable . AsAP fue desarrollado por investigadores del Laboratorio de Computación VLSI (VCL) de la Universidad de California, Davis y logra un alto rendimiento y eficiencia energética, mientras utiliza un área de circuito relativamente pequeña. Fue creado en 2006. [1]
Los procesadores AsAP son muy adecuados para su implementación en futuras tecnologías de fabricación y su reloj funciona de manera globalmente asincrónica y localmente sincrónica (GALS). Los osciladores individuales se detienen por completo (solo por fuga) en 9 ciclos cuando no hay trabajo que hacer y se reinician a toda velocidad en menos de un ciclo después de que el trabajo esté disponible. El chip no requiere osciladores de cristal , bucles de enganche de fase , bucles de enganche de retardo , señal de reloj global ni ninguna señal global relacionada con la frecuencia o la fase.
La arquitectura multiprocesador hace uso del paralelismo a nivel de tareas en muchas aplicaciones complejas de procesadores de señales digitales (DSP) y también calcula muchas tareas grandes utilizando paralelismo de grano fino .
AsAP utiliza varias características clave novedosas, de las cuales cuatro son:
En mayo de 2005 se fabricó un chip que contiene 36 procesadores programables (6x6) en CMOS de 0,18 μm utilizando una tecnología de celdas estándar sintetizadas y es completamente funcional. Los procesadores del chip funcionan a frecuencias de reloj de 520 MHz a 540 MHz a 1,8 V y cada procesador disipa 32 mW en promedio mientras ejecuta aplicaciones a 475 MHz.
La mayoría de los procesadores funcionan a frecuencias de reloj superiores a 600 MHz a 2,0 V, lo que convierte a AsAP en uno de los procesadores fabricados (programables o no programables) con la frecuencia de reloj más alta conocida jamás diseñada en una universidad; es el segundo más alto conocido en artículos de investigación publicados.
A 0,9 V, la potencia media de aplicación por procesador es de 2,4 mW a 116 MHz. Cada procesador ocupa 0,66 mm².
Un diseño CMOS de 65 nm de segunda generación contiene 167 procesadores con transformada rápida de Fourier (FFT) dedicada, decodificador de Viterbi y procesadores de estimación de movimiento de video ; memorias compartidas de 16 KB; e interconexión entre procesadores de larga distancia. Los procesadores programables pueden cambiar individual y dinámicamente su voltaje de suministro y frecuencia de reloj . El chip es completamente funcional. Los procesadores operan hasta 1,2 GHz a 1,3 V, lo que se cree que es el procesador con la frecuencia de reloj más alta fabricado en cualquier universidad. A 1,2 V, operan a 1,07 GHz y 47 mW cuando están 100% activos. A 0,675 V, operan a 66 MHz y 608 μW cuando están 100% activos. Este punto operativo permite 1 billón de MAC o unidad lógica aritmética (ALU) operaciones / s con una disipación de energía de solo 9,2 vatios. Debido a su arquitectura MIMD y al bloqueo del oscilador de reloj de grano fino, esta eficiencia energética por operación es casi perfectamente constante en cargas de trabajo muy variables, lo que no es el caso de muchas arquitecturas.
Se ha completado la codificación de muchas tareas generales y de procesamiento de señales digitales (DSP) para AsAP. Las tareas asignadas incluyen: filtros, codificadores convolucionales , entrelazadores, ordenamiento, raíz cuadrada, CORDIC seno/coseno/arco seno/arco coseno, multiplicación de matrices , generadores de números pseudoaleatorios, transformadas rápidas de Fourier (FFT) de longitudes 32-1024, un decodificador de Viterbi k=7 completo , un codificador JPEG , un procesador de banda base totalmente compatible para un transmisor y receptor de LAN inalámbrica IEEE 802.11a/g , y un bloque de compresión CAVLC completo para un codificador H.264 . Los bloques se conectan directamente entre sí sin necesidad de modificaciones. Los resultados de potencia, rendimiento y área suelen ser mucho mejores que los de los procesadores DSP programables existentes.
La arquitectura permite una clara separación entre la programación y la sincronización entre procesadores, que se gestionan completamente mediante hardware. Un compilador de C recientemente terminado y una herramienta de mapeo automático simplifican aún más la programación.