Hewlett Packard Enterprise Frontier , u OLCF-5 , es la primera supercomputadora a exaescala del mundo . Está alojado en Oak Ridge Leadership Computing Facility (OLCF) en Tennessee , Estados Unidos, y entró en funcionamiento en 2022. En diciembre de 2023 , Frontier es la supercomputadora más rápida del mundo . Está basado en Cray EX y es el sucesor de Summit (OLCF-4). Frontier logró un Rmax de 1,102 exaFLOPS , que son 1,102 quintillones de operaciones de punto flotante por segundo, utilizando CPU y GPU AMD . [2] [3] [4] [5] [6][actualizar]
Medido a 62,86 gigaflops/vatio, el Frontier TDS (sistema de prueba y desarrollo) más pequeño encabezó la lista Green500 de supercomputadora más eficiente [6] hasta que fue destronado en eficiencia por la supercomputadora Henri del Flatiron Institute en noviembre de 2022. [7]
Frontier utiliza 9.472 CPU AMD Epyc 7713 "Trento" de 64 núcleos a 2 GHz (606.208 núcleos) y 37.888 GPU Instinct MI250X (8.335.360 núcleos). Pueden realizar operaciones de doble precisión a la misma velocidad que las de precisión simple. [8]
"Trento" es una CPU EPYC optimizada de tercera generación [9] ("Milan"), que se basa en la microarquitectura Zen 3 .
Ocupa 74 armarios rack de 19 pulgadas (48 cm). [10] Cada gabinete alberga 64 blades , cada uno de los cuales consta de 2 nodos.
Los blades están interconectados mediante conmutadores HPE Slingshot de 64 puertos que proporcionan 12,8 terabits/segundo de ancho de banda. Los grupos de blades están vinculados en una topología de libélula con como máximo tres saltos entre dos nodos cualesquiera. El cableado es óptico o de cobre, personalizado para minimizar la longitud del cable. El cableado total recorre 145 km (90 millas). Frontier está refrigerado por líquido mediante 4 bombas de 350 caballos de fuerza, que hacen fluir alrededor de 6000 galones (22 712,47 litros) de agua no preenfriada a través del sistema cada minuto. Permitiendo así 5 veces la densidad de las arquitecturas refrigeradas por aire. [8] [11]
Cada nodo consta de una CPU, 4 GPU y 4 terabytes de memoria flash. Cada GPU tiene 128 GB de RAM soldados y cada CPU tiene 512 GB de memoria DDR4 local. [8] [12]
Frontier tiene interconexiones coherentes entre CPU y GPU, lo que permite acceder de forma coherente a la memoria de la GPU mediante el código que se ejecuta en las CPU de Epyc. [13]
Frontier utiliza un sistema de almacenamiento flash interno de 75 TB/s de lectura/35 TB/s de escritura/15 mil millones de IOPS, junto con el sistema de archivos Lustre de 700 PB para todo el sitio Orion . [14]
Frontier consume alrededor de 21 megavatios (MW) (lo que equivale a la energía necesaria para 15.000 viviendas unifamiliares), en comparación con los 13 MW de su predecesor Summit . [15]
Uno de los mayores desafíos durante el desarrollo fue el consumo de energía. La información existente apuntaba a que se necesitaban cientos de miles de GPU para lograr 1 exaFLOP, con un consumo total de energía de 150-500 MW. Por lo tanto, la alta eficiencia era el objetivo principal del proyecto. [8]
Oak Ridge se asoció con HPE Cray y AMD para construir el sistema a un costo de 600 millones de dólares. Comenzó a implementarse en 2021 [16] y alcanzó su capacidad total en 2022. [17] Registró 1,1 exaflops Rmax en mayo de 2022, lo que la convierte en la supercomputadora más rápida del mundo según lo medido en la edición de junio de 2022 de la lista TOP500 , reemplazando a Fugaku . [1] [18]
Tras su lanzamiento, la supercomputadora encabezó la lista Green500 de supercomputadora más eficiente, medida con 62,68 gigaflops/vatio. [6] El director de ORNL, Thomas Zacharia, dijo: "Frontier está marcando el comienzo de una nueva era de computación a exaescala para resolver los mayores desafíos científicos del mundo". Añadió: "Este hito ofrece sólo un adelanto de la capacidad incomparable de Frontier como herramienta para el descubrimiento científico. Es el resultado de más de una década de colaboración entre los laboratorios nacionales, el mundo académico y la industria privada, incluido el Proyecto de Computación Exaescala del DOE, que es implementar las aplicaciones, tecnologías de software, hardware e integración necesarias para garantizar el impacto a exaescala". [14]