Nvidia DGX representa una serie de servidores y estaciones de trabajo diseñados por Nvidia , orientados principalmente a mejorar las aplicaciones de aprendizaje profundo mediante el uso de computación de propósito general en unidades de procesamiento gráfico (GPGPU). Estos sistemas suelen venir en formato de montaje en bastidor con CPU de servidor x86 de alto rendimiento en la placa base.
La característica principal de un sistema DGX es la inclusión de entre 4 y 8 módulos GPU Nvidia Tesla , que se encuentran alojados en una placa de sistema independiente. Estas GPU se pueden conectar a través de una versión del zócalo SXM o una ranura PCIe x16, lo que facilita una integración flexible dentro de la arquitectura del sistema. Para gestionar la importante salida térmica, las unidades DGX están equipadas con disipadores térmicos y ventiladores diseñados para mantener temperaturas de funcionamiento óptimas.
Este marco hace que las unidades DGX sean adecuadas para tareas computacionales asociadas con modelos de inteligencia artificial y aprendizaje automático. [ ¿según quién? ]
Los servidores DGX-1 cuentan con 8 GPU basadas en las tarjetas hijas Pascal o Volta [1] con 128 GB de memoria HBM2 total, conectadas por una red de malla NVLink . [2] El DGX-1 se anunció el 6 de abril de 2016. [3] Todos los modelos se basan en una configuración de doble zócalo de CPU Intel Xeon E5 y están equipados con las siguientes características.
La línea de productos está destinada a cerrar la brecha entre las GPU y los aceleradores de IA utilizando características específicas para cargas de trabajo de aprendizaje profundo. [4] El DGX-1 inicial basado en Pascal entregó 170 teraflops de procesamiento de media precisión , [5] mientras que la actualización basada en Volta aumentó esto a 960 teraflops . [6]
La DGX-1 estuvo disponible inicialmente solo en la configuración basada en Pascal, con el zócalo SXM de primera generación. La revisión posterior de la DGX-1 ofreció soporte para tarjetas Volta de primera generación a través del zócalo SXM-2. Nvidia ofreció kits de actualización que permitían a los usuarios con una DGX-1 basada en Pascal actualizar a una DGX-1 basada en Volta. [7] [8]
Diseñada como una supercomputadora de inteligencia artificial de escritorio llave en mano , la DGX Station es una computadora de torre que puede funcionar de forma completamente independiente sin la infraestructura típica de un centro de datos, como refrigeración, energía redundante o racks de 19 pulgadas .
La estación DGX estuvo disponible por primera vez con las siguientes especificaciones. [10]
La estación DGX está refrigerada por agua para gestionar mejor el calor de casi 1500 W de los componentes totales del sistema, lo que le permite mantener un rango de ruido por debajo de los 35 dB bajo carga. [12] Esto, entre otras características, hizo que este sistema fuera una compra atractiva para los clientes que no tenían la infraestructura para ejecutar sistemas DGX montados en rack , que pueden ser ruidosos, generar mucho calor y ocupar un área grande. Esta fue la primera incursión de Nvidia en la computación de alto rendimiento para escritorios, que desde entonces ha seguido siendo una estrategia de marketing destacada para Nvidia. [13]
El sucesor del Nvidia DGX-1 es el Nvidia DGX-2, que utiliza dieciséis tarjetas V100 de 32 GB (segunda generación) basadas en Volta en una sola unidad. Se anunció el 27 de marzo de 2018. [14] El DGX-2 ofrece 2 Petaflops con 512 GB de memoria compartida para abordar conjuntos de datos masivos y utiliza NVSwitch para comunicación interna de alto ancho de banda. DGX-2 tiene un total de 512 GB de memoria HBM2 , un total de 1,5 TB de DDR4 . También están presentes ocho tarjetas InfiniBand de 100 Gb/seg y 30,72 TB de almacenamiento SSD, [15] todo ello encerrado dentro de un enorme chasis de montaje en rack de 10U y que consume hasta 10 kW bajo carga máxima. [16] El precio inicial del DGX-2 fue de 399.000 dólares. [17]
El DGX-2 se diferencia de otros modelos DGX en que contiene dos placas secundarias GPU independientes, cada una con ocho GPU. Estas placas están conectadas mediante un sistema NVSwitch que permite una comunicación de ancho de banda completo entre todas las GPU del sistema, sin latencia adicional entre placas. [16]
También se ofreció una variante de mayor rendimiento del DGX-2, el DGX-2H. El DGX-2H reemplazó los dos procesadores Intel Xeon Platinum 8168 del DGX-2 por dos procesadores Intel Xeon Platinum 8174 mejorados. Esta actualización no aumenta el número de núcleos por sistema, ya que ambas CPU tienen 24 núcleos, ni habilita nuevas funciones del sistema, pero sí aumenta la frecuencia base de las CPU de 2,7 GHz a 3,1 GHz. [18] [19] [20]
Anunciado y lanzado el 14 de mayo de 2020. El DGX A100 fue la tercera generación del servidor DGX, que incluye 8 aceleradores A100 basados en Ampere . [21] También se incluyen 15 TB de almacenamiento NVMe PCIe gen 4 , [22] 1 TB de RAM y ocho NIC HDR InfiniBand ConnectX-6 de 200 GB/s con tecnología Mellanox . El DGX A100 se encuentra en un gabinete mucho más pequeño que su predecesor, el DGX-2, y ocupa solo 6 unidades de rack. [23]
El DGX A100 también pasó a tener una CPU AMD EPYC 7742 de 64 núcleos, siendo el primer servidor DGX que no se fabricó con una CPU Intel Xeon . El precio inicial del servidor DGX A100 era de 199.000 dólares. [21]
Como sucesor de la DGX Station original, la DGX Station A100 tiene como objetivo llenar el mismo nicho que la DGX Station al ser una solución de clúster en una caja silenciosa, eficiente y llave en mano que puede ser comprada, arrendada o alquilada por empresas más pequeñas o personas que quieran utilizar el aprendizaje automático. Sigue muchas de las opciones de diseño de la DGX Station original, como la orientación de la torre, la placa base de CPU de un solo zócalo , un nuevo sistema de enfriamiento basado en refrigerante y una cantidad reducida de aceleradores en comparación con el DGX A100 de montaje en rack correspondiente de la misma generación. [13] El precio de la DGX Station A100 320G es de $149,000 y $99,000 para el modelo 160G, Nvidia también ofrece alquiler de Station a ~$9000 USD por mes a través de socios en los EE. UU. (rentacomputer.com) y Europa (iRent IT Systems) para ayudar a reducir los costos de implementación de estos sistemas a pequeña escala. [24] [25]
La DGX Station A100 viene con dos configuraciones diferentes del A100 incorporado.
Anunciado el 22 de marzo de 2022 [26] y planeado para su lanzamiento en el tercer trimestre de 2022, [27] el DGX H100 es la cuarta generación de servidores DGX, construido con 8 aceleradores H100 basados en Hopper , para un total de 32 PFLOP de cómputo de IA FP8 y 640 GB de memoria HBM3, una actualización sobre la memoria HBM2 de 640 GB del DGX A100. Esta actualización también aumenta el ancho de banda de VRAM a 3 TB/s. [28] El DGX H100 aumenta el tamaño del montaje en rack a 8U para acomodar el TDP de 700 W de cada tarjeta H100 SXM. El DGX H100 también tiene dos SSD de 1,92 TB para el almacenamiento del sistema operativo y 30,72 TB de almacenamiento de estado sólido para datos de aplicaciones.
Otra incorporación notable es la presencia de dos DPU Nvidia Bluefield 3 , [29] y la actualización a InfiniBand de 400 Gb/s mediante NIC Mellanox ConnectX-7 , el doble del ancho de banda del DGX A100. El DGX H100 utiliza nuevas tarjetas 'Cedar Fever', cada una con cuatro controladores ConnectX-7 de 400 GB/s y dos tarjetas por sistema. Esto le da al DGX H100 3,2 Tb/s de ancho de banda de red a través de Infiniband. [30]
El DGX H100 tiene dos CPU escalables Xeon Platinum 8480C (nombre en código Sapphire Rapids ) [31] y 2 terabytes de memoria del sistema . [32]
El DGX H100 tenía un precio de £379,000 o ~$482,000 USD en el momento de su lanzamiento. [33]
Anunciado en mayo de 2023, el DGX GH200 conecta 32 superchips Nvidia Hopper en un superchip singular, que consta en total de 256 GPU H100, 32 CPU Grace Neoverse V2 de 72 núcleos, 32 VPI ConnectX-7 de puerto único OSFT con 400 Gb/s InfiniBand y 16 VPI BlueField-3 de puerto dual con 200 Gb/s de Mellanox [1] [2] . Nvidia DGX GH200 está diseñado para manejar modelos de clase terabyte para sistemas de recomendación masivos, IA generativa y análisis de gráficos, ofreciendo 19,5 TB de memoria compartida con escalabilidad lineal para modelos de IA gigantes. [34]
La supercomputadora DGX Helios, anunciada en mayo de 2023, cuenta con 4 sistemas DGX GH200. Cada uno está interconectado con la red Nvidia Quantum-2 InfiniBand para potenciar el rendimiento de los datos para entrenar modelos de IA de gran tamaño. Helios incluye 1024 GPU H100.
Anunciado en marzo de 2024, el GB200 NVL72 conecta 36 CPU Grace Neoverse V2 de 72 núcleos y 72 GPU B100 en un diseño a escala de rack. El GB200 NVL72 es una solución a escala de rack refrigerada por líquido que cuenta con un dominio NVLink de 72 GPU que actúa como una única GPU masiva [3]. Nvidia DGX GB200 ofrece 13,5 TB HBM3e de memoria compartida con escalabilidad lineal para modelos de IA gigantes, menos que su predecesor DGX GH200.
El DGX Superpod es una solución de supercomputadora llave en mano de alto rendimiento proporcionada por Nvidia que utiliza hardware DGX. [35] Este sistema combina nodos de cómputo DGX con almacenamiento rápido y redes de alto ancho de banda para brindar una solución a cargas de trabajo de aprendizaje automático de alta demanda. El superordenador Selene , en el Laboratorio Nacional Argonne , es un ejemplo de un sistema basado en DGX SuperPod.
Selene, construida a partir de 280 nodos DGX A100, ocupó el quinto lugar en la lista Top500 de las supercomputadoras más poderosas en el momento de su finalización, y ha seguido manteniendo un alto rendimiento. Esta misma integración está disponible para cualquier cliente con un mínimo esfuerzo de su parte, y el nuevo SuperPod basado en Hopper puede escalar a 32 nodos DGX H100, para un total de 256 GPU H100 y 64 CPU x86 . Esto le da al SuperPod completo 20 TB de memoria HBM3, 70,4 TB/s de ancho de banda de bisección y hasta 1 ExaFLOP de cómputo de IA FP8 . [36] Estos SuperPods luego se pueden unir para crear supercomputadoras más grandes.
La supercomputadora Eos, diseñada, construida y operada por Nvidia, [37] [38] [39] fue construida con 18 SuperPods basados en H100, totalizando 576 sistemas DGX H100, 500 conmutadores Quantum-2 InfiniBand y 360 conmutadores NVLink , que permiten a Eos entregar 18 EFLOP de cómputo FP8 y 9 EFLOP de cómputo FP16, lo que convierte a Eos en la quinta supercomputadora de IA más rápida del mundo, según TOP500 (edición de noviembre de 2023).
Como Nvidia no produce ningún dispositivo o sistema de almacenamiento, los SuperPods de Nvidia dependen de socios para proporcionar almacenamiento de alto rendimiento. Los socios de almacenamiento actuales para los SuperPods de Nvidia son Dell EMC , DDN , HPE , IBM , NetApp , Pavilion Data y VAST Data . [40]
Comparación de aceleradores utilizados en DGX: [41] [42] [43]
Arquitectura híbrida de ocho GPU con NVLink
NVIDIA DGX-1 ofrece un entrenamiento 75 veces más rápido... Nota: Prueba comparativa de Caffe con AlexNet, entrenamiento de 1,28 millones de imágenes con 90 épocas
{{cite web}}
: |last=
tiene nombre genérico ( ayuda ){{cite web}}
: |last=
tiene nombre genérico ( ayuda )