Hewlett Packard Enterprise Frontier , u OLCF-5 , es la primera supercomputadora a exaescala del mundo . Está alojada en Oak Ridge Leadership Computing Facility (OLCF) en Tennessee , Estados Unidos y comenzó a funcionar en 2022. A diciembre de 2023 , Frontier es la supercomputadora más rápida del mundo . Está basada en Cray EX y es la sucesora de Summit (OLCF-4). Frontier logró un Rmax de 1,102 exaFLOPS , que son 1,102 trillones de operaciones de punto flotante por segundo, utilizando CPU y GPU AMD . [2] [3] [4] [5] [6][actualizar]
Con una potencia de 62,86 gigaflops/vatio, el TDS (sistema de prueba y desarrollo) Frontier más pequeño encabezó la lista Green500 de supercomputadoras más eficientes [6] hasta que fue destronado en eficiencia por la supercomputadora Henri del Flatiron Institute en noviembre de 2022. [7]
Frontier utiliza 9.472 CPU AMD Epyc 7713 "Trento" de 64 núcleos y 2 GHz (606.208 núcleos) y 37.888 GPU Instinct MI250X (8.335.360 núcleos). Pueden realizar operaciones de doble precisión a la misma velocidad que las de precisión simple. [8]
"Trento" es una CPU EPYC optimizada de tercera generación [9] ("Milan"), que se basa en la microarquitectura Zen 3 .
Ocupa 74 gabinetes de rack de 19 pulgadas (48 cm). [10] Cada gabinete alberga 64 blades , cada uno de los cuales consta de 2 nodos.
Los blades están interconectados por conmutadores HPE Slingshot de 64 puertos que proporcionan 12,8 terabits/segundo de ancho de banda. Los grupos de blades están vinculados en una topología Dragonfly con un máximo de tres saltos entre dos nodos. El cableado es óptico o de cobre, personalizado para minimizar la longitud del cable. El cableado total recorre 145 km (90 mi). Frontier está refrigerado por líquido mediante 4 bombas de 350 caballos de fuerza, que hacen circular alrededor de 6000 galones (22 712,47 litros) de agua no preenfriada a través del sistema cada minuto, lo que permite una densidad 5 veces mayor que la de las arquitecturas refrigeradas por aire. [8] [11]
Cada nodo consta de una CPU, 4 GPU y 4 terabytes de memoria flash. Cada GPU tiene 128 GB de RAM soldada y cada CPU tiene 512 GB de memoria DDR4 local. [8] [12]
Frontier tiene interconexiones coherentes entre CPU y GPU, lo que permite que el código que se ejecuta en las CPU Epyc acceda a la memoria de la GPU de forma coherente. [13]
Frontier utiliza un sistema de almacenamiento flash interno de 75 TB/s de lectura/35 TB/s de escritura/15 mil millones de IOPS, junto con el sistema de archivos Lustre de 700 PB de Orion para todo el sitio . [14]
Frontier consume alrededor de 21 megavatios (MW) (lo que equivale a la energía necesaria para 15.000 viviendas unifamiliares), en comparación con los 13 MW de su predecesor Summit . [11]
Uno de los mayores desafíos durante el desarrollo fue el consumo de energía. La información existente indicaba que se necesitaban cientos de miles de GPU para lograr 1 exaFLOP, con un consumo total de energía de 150-500 MW. Por lo tanto, la alta eficiencia era un objetivo principal del proyecto. [8]
Oak Ridge se asoció con HPE Cray y AMD para construir el sistema a un costo de 600 millones de dólares. Comenzó a implementarse en 2021 [15] y alcanzó su capacidad máxima en 2022. [16] Alcanzó 1,1 exaflops Rmax en mayo de 2022, lo que lo convirtió en la supercomputadora más rápida del mundo según la edición de junio de 2022 de la lista TOP500 , reemplazando a Fugaku . [1] [17]
Tras su lanzamiento, la supercomputadora encabezó la lista Green500 de las supercomputadoras más eficientes, con una capacidad de 62,68 gigaflops/vatio. [6] El director del ORNL, Thomas Zacharia, dijo: "Frontier está marcando el comienzo de una nueva era de computación a exaescala para resolver los mayores desafíos científicos del mundo". Añadió: "Este hito ofrece sólo un anticipo de la capacidad inigualable de Frontier como herramienta para el descubrimiento científico. Es el resultado de más de una década de colaboración entre los laboratorios nacionales, la academia y la industria privada, incluido el Proyecto de Computación a Exaescala del DOE, que está implementando las aplicaciones, las tecnologías de software, el hardware y la integración necesarios para garantizar el impacto a exaescala". [14]