Intel Teraflops Research Chip (nombre en código Polaris ) es un procesador multinúcleo de investigación que contiene 80 núcleos , que utiliza una arquitectura de red en chip , desarrollado por el Programa de investigación de computación a escala tera de Intel . [1] Se fabricó utilizando un proceso CMOS de 65 nm con ocho capas de interconexión de cobre y contiene 100 millones de transistores en una matriz de 275 mm 2 . [2] [3] [4] Su objetivo de diseño era demostrar una arquitectura modular capaz de un rendimiento sostenido de 1,0 TFLOPS mientras disipa menos de 100 W. [3] La investigación del proyecto se incorporó posteriormente a Xeon Phi . El líder técnico del proyecto fue Sriram R. Vangal. [4]
El procesador se presentó inicialmente en el Intel Developer Forum el 26 de septiembre de 2006 [5] y se anunció oficialmente el 11 de febrero de 2007. [6] Se presentó un chip funcional en la Conferencia Internacional de Circuitos de Estado Sólido IEEE de 2007 , junto con especificaciones técnicas. [2]
El chip consta de una red de malla 2D de 10x8 núcleos y funciona nominalmente a 4 GHz. [nb 1] Cada núcleo, llamado mosaico (3 mm 2 ), contiene un motor de procesamiento y un enrutador conmutado por agujero de gusano de 5 puertos (0,34 mm 2 ) con interfaces mesócronas , con un ancho de banda de 80 GB/s y una latencia de 1,25 ns a 4 GHz. [2] El motor de procesamiento de cada mosaico contiene dos unidades independientes de canalización de 9 etapas , multiplicador acumulador de punto flotante de precisión simple (FPMAC), 3 KB de memoria de instrucciones de ciclo único y 2 KB de memoria de datos. [3] Cada unidad FPMAC es capaz de realizar 2 operaciones de punto flotante de precisión simple por ciclo . Por tanto, cada mosaico tiene un rendimiento máximo estimado de 16 GFLOPS en la configuración estándar de 4 GHz. Una palabra de instrucción muy larga (VLIW) de 96 bits codifica hasta ocho operaciones por ciclo. [3] El conjunto de instrucciones personalizado incluye instrucciones para enviar y recibir paquetes hacia/desde la red del chip, así como instrucciones para poner en reposo y despertar un mosaico en particular. [4] Debajo de cada mosaico, se apiló en 3D un módulo SRAM de 256 KB (nombre en código Freya ) , acercando así la memoria al procesador para aumentar el ancho de banda de memoria general a 1 TB/s, a expensas de un mayor costo, estrés térmico y latencia, y una pequeña capacidad total de 20 MB. [7] Se demostró que la red de Polaris tiene un ancho de banda de bisección de 1,6 Tbit/s a 3,16 GHz y 2,92 Tbit/s a 5,67 GHz. [8]
Otras características destacadas del chip Teraflops Research incluyen su gestión de energía de grano fino con 21 regiones de suspensión independientes en un mosaico y suspensión de mosaico dinámica, y una eficiencia energética muy alta con un pico teórico de 27 GFLOPS/W a 0,6 V y 19,4 GFLOPS/W reales para plantilla a 0,75 V. [4] [9]
Intel se propuso ayudar al desarrollo de software para la nueva arquitectura exótica creando un nuevo modelo de programación , especialmente para el chip, llamado Ct . El modelo nunca tuvo el apoyo que Intel esperaba y finalmente se incorporó a Intel Array Building Blocks , una biblioteca C++ ahora descontinuada.