Nvidia DGX

Nvidia DGX representa una serie de servidores y estaciones de trabajo diseñados por Nvidia , orientados principalmente a mejorar las aplicaciones de aprendizaje profundo mediante el uso de computación de propósito general en unidades de procesamiento gráfico (GPGPU). Estos sistemas suelen venir en formato de montaje en bastidor con CPU de servidor x86 de alto rendimiento en la placa base.

La característica principal de un sistema DGX es la inclusión de entre 4 y 8 módulos GPU Nvidia Tesla , que se encuentran alojados en una placa de sistema independiente. Estas GPU se pueden conectar a través de una versión del zócalo SXM o una ranura PCIe x16, lo que facilita una integración flexible dentro de la arquitectura del sistema. Para gestionar la importante salida térmica, las unidades DGX están equipadas con disipadores térmicos y ventiladores diseñados para mantener temperaturas de funcionamiento óptimas.

Este marco hace que las unidades DGX sean adecuadas para tareas computacionales asociadas con modelos de inteligencia artificial y aprendizaje automático. ^{[ ¿según quién? ]}

Modelos

Pascal-Vuelta

DGX-1

Los servidores DGX-1 cuentan con 8 GPU basadas en las tarjetas hijas Pascal o Volta ^[1] con 128 GB de memoria HBM2 total, conectadas por una red de malla NVLink . ^[2] El DGX-1 se anunció el 6 de abril de 2016. ^[3] Todos los modelos se basan en una configuración de doble zócalo de CPU Intel Xeon E5 y están equipados con las siguientes características.

512 GB de DDR4-2133
Red dual de 10 Gb
4 SSD de 1,92 TB
Capacidad de suministro de energía combinada de 3200 W
Chasis para montaje en rack de 3U

La línea de productos está destinada a cerrar la brecha entre las GPU y los aceleradores de IA utilizando características específicas para cargas de trabajo de aprendizaje profundo. ^[4] El DGX-1 inicial basado en Pascal entregó 170 teraflops de procesamiento de media precisión , ^[5] mientras que la actualización basada en Volta aumentó esto a 960 teraflops . ^[6]

La DGX-1 estuvo disponible inicialmente solo en la configuración basada en Pascal, con el zócalo SXM de primera generación. La revisión posterior de la DGX-1 ofreció soporte para tarjetas Volta de primera generación a través del zócalo SXM-2. Nvidia ofreció kits de actualización que permitían a los usuarios con una DGX-1 basada en Pascal actualizar a una DGX-1 basada en Volta. ^[7]^[8]

El DGX-1 basado en Pascal tiene dos variantes, una con un procesador Intel Xeon E5-2698 V3 de 16 núcleos y otra con un procesador E5-2698 V4 de 20 núcleos. El precio de la variante equipada con un procesador E5-2698 V4 no está disponible; el DGX-1 basado en Pascal con un procesador E5-2698 V3 tenía un precio de lanzamiento de 129 000 dólares ^[9].
El DGX-1 basado en Volta está equipado con un V4 E5-2698 y su precio de lanzamiento fue de 149.000 dólares. ^[9]

Estación DGX

Diseñada como una supercomputadora de inteligencia artificial de escritorio llave en mano , la DGX Station es una computadora de torre que puede funcionar de forma completamente independiente sin la infraestructura típica de un centro de datos, como refrigeración, energía redundante o racks de 19 pulgadas .

La estación DGX estuvo disponible por primera vez con las siguientes especificaciones. ^[10]

Cuatro aceleradores Tesla V100 basados en Volta , cada uno con 16 GB de memoria HBM2
480 TFLOPS FP16
Intel Xeon E5-2698 v4 único ^[11]
256 GB DDR4
4 unidades SSD de 1,92 TB
Doble Ethernet de 10 Gb

La estación DGX está refrigerada por agua para gestionar mejor el calor de casi 1500 W de los componentes totales del sistema, lo que le permite mantener un rango de ruido por debajo de los 35 dB bajo carga. ^[12] Esto, entre otras características, hizo que este sistema fuera una compra atractiva para los clientes que no tenían la infraestructura para ejecutar sistemas DGX montados en rack , que pueden ser ruidosos, generar mucho calor y ocupar un área grande. Esta fue la primera incursión de Nvidia en la computación de alto rendimiento para escritorios, que desde entonces ha seguido siendo una estrategia de marketing destacada para Nvidia. ^[13]

DGX-2

El sucesor del Nvidia DGX-1 es el Nvidia DGX-2, que utiliza dieciséis tarjetas V100 de 32 GB (segunda generación) basadas en Volta en una sola unidad. Se anunció el 27 de marzo de 2018. ^[14] El DGX-2 ofrece 2 Petaflops con 512 GB de memoria compartida para abordar conjuntos de datos masivos y utiliza NVSwitch para comunicación interna de alto ancho de banda. DGX-2 tiene un total de 512 GB de memoria HBM2 , un total de 1,5 TB de DDR4 . También están presentes ocho tarjetas InfiniBand de 100 Gb/seg y 30,72 TB de almacenamiento SSD, ^[15] todo ello encerrado dentro de un enorme chasis de montaje en rack de 10U y que consume hasta 10 kW bajo carga máxima. ^[16] El precio inicial del DGX-2 fue de 399.000 dólares. ^[17]

El DGX-2 se diferencia de otros modelos DGX en que contiene dos placas secundarias GPU independientes, cada una con ocho GPU. Estas placas están conectadas mediante un sistema NVSwitch que permite una comunicación de ancho de banda completo entre todas las GPU del sistema, sin latencia adicional entre placas. ^[16]

También se ofreció una variante de mayor rendimiento del DGX-2, el DGX-2H. El DGX-2H reemplazó los dos procesadores Intel Xeon Platinum 8168 del DGX-2 por dos procesadores Intel Xeon Platinum 8174 mejorados. Esta actualización no aumenta el número de núcleos por sistema, ya que ambas CPU tienen 24 núcleos, ni habilita nuevas funciones del sistema, pero sí aumenta la frecuencia base de las CPU de 2,7 GHz a 3,1 GHz. ^[18]^[19]^[20]

Amperio

Servidor DGX A100

Anunciado y lanzado el 14 de mayo de 2020. El DGX A100 fue la tercera generación del servidor DGX, que incluye 8 aceleradores A100 basados en Ampere . ^[21] También se incluyen 15 TB de almacenamiento NVMe PCIe gen 4 , ^[22] 1 TB de RAM y ocho NIC HDR InfiniBand ConnectX-6 de 200 GB/s con tecnología Mellanox . El DGX A100 se encuentra en un gabinete mucho más pequeño que su predecesor, el DGX-2, y ocupa solo 6 unidades de rack. ^[23]

El DGX A100 también pasó a tener una CPU AMD EPYC 7742 de 64 núcleos, siendo el primer servidor DGX que no se fabricó con una CPU Intel Xeon . El precio inicial del servidor DGX A100 era de 199.000 dólares. ^[21]

Estación DGX A100

Como sucesor de la DGX Station original, la DGX Station A100 tiene como objetivo llenar el mismo nicho que la DGX Station al ser una solución de clúster en una caja silenciosa, eficiente y llave en mano que puede ser comprada, arrendada o alquilada por empresas más pequeñas o personas que quieran utilizar el aprendizaje automático. Sigue muchas de las opciones de diseño de la DGX Station original, como la orientación de la torre, la placa base de CPU de un solo zócalo , un nuevo sistema de enfriamiento basado en refrigerante y una cantidad reducida de aceleradores en comparación con el DGX A100 de montaje en rack correspondiente de la misma generación. ^[13] El precio de la DGX Station A100 320G es de $149,000 y $99,000 para el modelo 160G, Nvidia también ofrece alquiler de Station a ~$9000 USD por mes a través de socios en los EE. UU. (rentacomputer.com) y Europa (iRent IT Systems) para ayudar a reducir los costos de implementación de estos sistemas a pequeña escala. ^[24]^[25]

La DGX Station A100 viene con dos configuraciones diferentes del A100 incorporado.

Cuatro aceleradores A100 basados en Ampere
, configurados con 40 GB (HBM) u 80 GB (HBM2e) de memoria, dando así un total de 160 GB o 320 GB dando como resultado variantes de DGX Station A100 de 160G o 320G.
2,5 PFLOPS FP16
Procesador AMD EPYC 7742 de 64 núcleos
512 GB DDR4
1 unidad de SO NVMe de 1,92 TB
1 unidad NVMe U.2 de 7,68 TB
Puerto dual Ethernet de 10 Gb
Puerto BMC de 1 Gb de un solo puerto

Tolva

Servidor DGX H100

Anunciado el 22 de marzo de 2022 ^[26] y planeado para su lanzamiento en el tercer trimestre de 2022, ^[27] el DGX H100 es la cuarta generación de servidores DGX, construido con 8 aceleradores H100 basados en Hopper , para un total de 32 PFLOP de cómputo de IA FP8 y 640 GB de memoria HBM3, una actualización sobre la memoria HBM2 de 640 GB del DGX A100. Esta actualización también aumenta el ancho de banda de VRAM a 3 TB/s. ^[28] El DGX H100 aumenta el tamaño del montaje en rack a 8U para acomodar el TDP de 700 W de cada tarjeta H100 SXM. El DGX H100 también tiene dos SSD de 1,92 TB para el almacenamiento del sistema operativo y 30,72 TB de almacenamiento de estado sólido para datos de aplicaciones.

Otra incorporación notable es la presencia de dos DPU Nvidia Bluefield 3 , ^[29] y la actualización a InfiniBand de 400 Gb/s mediante NIC Mellanox ConnectX-7 , el doble del ancho de banda del DGX A100. El DGX H100 utiliza nuevas tarjetas 'Cedar Fever', cada una con cuatro controladores ConnectX-7 de 400 GB/s y dos tarjetas por sistema. Esto le da al DGX H100 3,2 Tb/s de ancho de banda de red a través de Infiniband. ^[30]

El DGX H100 tiene dos CPU escalables Xeon Platinum 8480C (nombre en código Sapphire Rapids ) ^[31] y 2 terabytes de memoria del sistema . ^[32]

El DGX H100 tenía un precio de £379,000 o ~$482,000 USD en el momento de su lanzamiento. ^[33]

DGXGH200

Anunciado en mayo de 2023, el DGX GH200 conecta 32 superchips Nvidia Hopper en un superchip singular, que consta en total de 256 GPU H100, 32 CPU Grace Neoverse V2 de 72 núcleos, 32 VPI ConnectX-7 de puerto único OSFT con 400 Gb/s InfiniBand y 16 VPI BlueField-3 de puerto dual con 200 Gb/s de Mellanox [1] [2] . Nvidia DGX GH200 está diseñado para manejar modelos de clase terabyte para sistemas de recomendación masivos, IA generativa y análisis de gráficos, ofreciendo 19,5 TB de memoria compartida con escalabilidad lineal para modelos de IA gigantes. ^[34]

DGX Helios

La supercomputadora DGX Helios, anunciada en mayo de 2023, cuenta con 4 sistemas DGX GH200. Cada uno está interconectado con la red Nvidia Quantum-2 InfiniBand para potenciar el rendimiento de los datos para entrenar modelos de IA de gran tamaño. Helios incluye 1024 GPU H100.

Pozo negro

DGX GB200

Anunciado en marzo de 2024, el GB200 NVL72 conecta 36 CPU Grace Neoverse V2 de 72 núcleos y 72 GPU B100 en un diseño a escala de rack. El GB200 NVL72 es una solución a escala de rack refrigerada por líquido que cuenta con un dominio NVLink de 72 GPU que actúa como una única GPU masiva [3]. Nvidia DGX GB200 ofrece 13,5 TB HBM3e de memoria compartida con escalabilidad lineal para modelos de IA gigantes, menos que su predecesor DGX GH200.

SuperPod DGX

El DGX Superpod es una solución de supercomputadora llave en mano de alto rendimiento proporcionada por Nvidia que utiliza hardware DGX. ^[35] Este sistema combina nodos de cómputo DGX con almacenamiento rápido y redes de alto ancho de banda para brindar una solución a cargas de trabajo de aprendizaje automático de alta demanda. El superordenador Selene , en el Laboratorio Nacional Argonne , es un ejemplo de un sistema basado en DGX SuperPod.

Selene, construida a partir de 280 nodos DGX A100, ocupó el quinto lugar en la lista Top500 de las supercomputadoras más poderosas en el momento de su finalización, y ha seguido manteniendo un alto rendimiento. Esta misma integración está disponible para cualquier cliente con un mínimo esfuerzo de su parte, y el nuevo SuperPod basado en Hopper puede escalar a 32 nodos DGX H100, para un total de 256 GPU H100 y 64 CPU x86 . Esto le da al SuperPod completo 20 TB de memoria HBM3, 70,4 TB/s de ancho de banda de bisección y hasta 1 ExaFLOP de cómputo de IA FP8 . ^[36] Estos SuperPods luego se pueden unir para crear supercomputadoras más grandes.

La supercomputadora Eos, diseñada, construida y operada por Nvidia, ^[37]^[38]^[39] fue construida con 18 SuperPods basados en H100, totalizando 576 sistemas DGX H100, 500 conmutadores Quantum-2 InfiniBand y 360 conmutadores NVLink , que permiten a Eos entregar 18 EFLOP de cómputo FP8 y 9 EFLOP de cómputo FP16, lo que convierte a Eos en la quinta supercomputadora de IA más rápida del mundo, según TOP500 (edición de noviembre de 2023).

Como Nvidia no produce ningún dispositivo o sistema de almacenamiento, los SuperPods de Nvidia dependen de socios para proporcionar almacenamiento de alto rendimiento. Los socios de almacenamiento actuales para los SuperPods de Nvidia son Dell EMC , DDN , HPE , IBM , NetApp , Pavilion Data y VAST Data . ^[40]

Aceleradores

Comparación de aceleradores utilizados en DGX: ^[41]^[42]^[43]

Véase también

Supermuestreo de aprendizaje profundo
Nvidia Tesla
Supercomputadora
Página sobre computación de alto rendimiento con 4x y 8x A100 por nodo de computadora, que también muestra volcados de topología de conmutación

Referencias

^ "nvidia dgx-1" (PDF) . Consultado el 15 de noviembre de 2023 .
^ "Inside Pascal". 5 de abril de 2016. Arquitectura híbrida de ocho GPU con NVLink
^ "NVIDIA presenta el servidor HPC DGX-1: 8 Teslas, 3U, segundo trimestre de 2016".
^ "supercomputadora de aprendizaje profundo". 5 de abril de 2016.
^ "Sistema de aprendizaje profundo DGX-1" (PDF) . NVIDIA DGX-1 ofrece un entrenamiento 75 veces más rápido... Nota: Prueba comparativa de Caffe con AlexNet, entrenamiento de 1,28 millones de imágenes con 90 épocas
^ "Servidor DGX". Servidor DGX . Nvidia . Consultado el 7 de septiembre de 2017 .
^ Documento técnico sobre la arquitectura Volta nvidia.com
^ Guía de uso nvidia.com
^ ab Oh, Nate. "NVIDIA envía los primeros sistemas DGX basados en Volta". www.anandtech.com . Consultado el 24 de marzo de 2022 .
^ "CompecTA | Sistema de aprendizaje profundo NVIDIA DGX Station". www.compecta.com . Consultado el 24 de marzo de 2022 .
^ "Procesador Intel® Xeon® E5-2698 v4 (caché de 50 M, 2,20 GHz): especificaciones del producto". Intel . Consultado el 19 de agosto de 2023 .
^ Ficha técnica de la supercomputadora nvidia.com
^ ab "Plataforma NVIDIA DGX". NVIDIA . Consultado el 15 de noviembre de 2023 .
^ "Nvidia lanza el DGX-2 con dos petaFLOPS de potencia". 28 de marzo de 2018.
^ "NVIDIA DGX-2 para desafíos complejos de IA". NVIDIA . Consultado el 24 de marzo de 2022 .
^ de Cutress, Ian. "DGX-2 de NVIDIA: dieciséis Tesla V100, 30 TB de NVMe, solo 400 000 dólares". www.anandtech.com . Consultado el 28 de abril de 2022 .
^ "NVIDIA DGX-2 es la primera supercomputadora de servidor único de 2 petaflops del mundo". www.hardwarezone.com.sg . Consultado el 24 de marzo de 2022 .
^ Guía del usuario de DGX2 nvidia.com
^ "Especificaciones del producto". www.intel.com . Consultado el 28 de abril de 2022 .
^ "Especificaciones del producto". www.intel.com . Consultado el 28 de abril de 2022 .
^ por Ryan Smith (14 de mayo de 2020). "NVIDIA Ampere Unleashed: NVIDIA anuncia nueva arquitectura de GPU, GPU A100 y acelerador". AnandTech.
^ Tom Warren; James Vincent (14 de mayo de 2020). "La primera GPU Ampere de Nvidia está diseñada para centros de datos e inteligencia artificial, no para tu PC". The Verge.
^ "Boston Labs da la bienvenida al DGX A100 a nuestra cartera de pruebas remotas". www.boston.co.uk . Consultado el 24 de marzo de 2022 .
^ Mayank Sharma (13 de abril de 2021). "Nvidia te permitirá alquilar sus mini supercomputadoras". TechRadar . Consultado el 31 de marzo de 2022 .
^ Jarred Walton (12 de abril de 2021). "Nvidia actualiza los costosos y potentes DGX Station 320G y DGX Superpod". Tom's Hardware . Consultado el 28 de abril de 2022 .
^ Sala de prensa, NVIDIA. «NVIDIA anuncia los sistemas DGX H100: la infraestructura de inteligencia artificial empresarial más avanzada del mundo». Sala de prensa de NVIDIA Sala de prensa . Consultado el 24 de marzo de 2022 . {{cite web}}: |last=tiene nombre genérico ( ayuda )
^ Albert (24 de marzo de 2022). «NVIDIA H100: descripción general, especificaciones y fecha de lanzamiento | SeiMaxim». www.seimaxim.com . Consultado el 22 de agosto de 2022 .
^ Walton, Jarred (22 de marzo de 2022). "Nvidia revela la GPU Hopper H100 con 80 mil millones de transistores". Tom's Hardware . Consultado el 24 de marzo de 2022 .
^ Sala de prensa, NVIDIA. «NVIDIA anuncia los sistemas DGX H100: la infraestructura de inteligencia artificial empresarial más avanzada del mundo». Sala de prensa de NVIDIA Sala de prensa . Consultado el 19 de abril de 2022 . {{cite web}}: |last=tiene nombre genérico ( ayuda )
^ servethehome (14 de abril de 2022). "Módulos NVIDIA Cedar Fever de 1,6 Tbps utilizados en la DGX H100". ServeTheHome . Consultado el 19 de abril de 2022 .
^ "Ficha técnica de NVIDIA DGX H100" www.nvidia.com . Consultado el 2 de agosto de 2023 .
^ "NVIDIA DGX H100". NVIDIA . Consultado el 24 de marzo de 2022 .
^ Comparación de todos los NVIDIA DGX, eficiencia energética y valor, incluido el último DGX H100. , consultado el 1 de marzo de 2023
^ "NVIDIA DGX GH200". NVIDIA . Consultado el 24 de marzo de 2022 .
^ "Ficha técnica de NVIDIA SuperPOD". NVIDIA . Consultado el 15 de noviembre de 2023 .
^ Jarred Walton (22 de marzo de 2022). «Nvidia revela la GPU Hopper H100 con 80 mil millones de transistores». Tom's Hardware . Consultado el 24 de marzo de 2022 .
^ Vincent, James (22 de marzo de 2022). «Nvidia revela la GPU H100 para IA y adelanta la «supercomputadora de IA más rápida del mundo»». The Verge . Consultado el 16 de mayo de 2022 .
^ Mellor, Chris (31 de marzo de 2022). «La supercomputadora de inteligencia artificial Nvidia Eos necesitará un sistema de almacenamiento monstruoso». Bloques y archivos . Consultado el 21 de mayo de 2022 .
^ Comentario de Sebastian Moss. «Nvidia anuncia Eos, «la supercomputadora de IA más rápida del mundo»». Data Center Dynamics . Consultado el 21 de mayo de 2022 .
^ Mellor, Chris (31 de marzo de 2022). «La supercomputadora de inteligencia artificial Nvidia Eos necesitará un sistema de almacenamiento monstruoso». Bloques y archivos . Consultado el 29 de abril de 2022 .
^ Smith, Ryan (22 de marzo de 2022). "Se anuncia la arquitectura de GPU NVIDIA Hopper y el acelerador H100: trabajo más inteligente y más duro". AnandTech.
^ Smith, Ryan (14 de mayo de 2020). "NVIDIA Ampere Unleashed: NVIDIA anuncia una nueva arquitectura de GPU, la GPU A100 y un acelerador". AnandTech.
^ "NVIDIA Tesla V100 probada: potencia de GPU casi increíble". TweakTown . 17 de septiembre de 2017.