Enlace NV

NVLink es un enlace de comunicaciones de corto alcance de múltiples carriles en serie basado en cables desarrollado por Nvidia . A diferencia de PCI Express , un dispositivo puede constar de varios NVLinks y los dispositivos utilizan redes en malla para comunicarse en lugar de un concentrador central . El protocolo se anunció por primera vez en marzo de 2014 y utiliza una interconexión de señalización de alta velocidad (NVHS) patentada. ^[1]

Principio

NVLink es un protocolo de comunicaciones basado en cables para comunicaciones de semiconductores de corto alcance desarrollado por Nvidia que se puede utilizar para transferencias de datos y códigos de control en sistemas de procesadores entre CPU y GPU y únicamente entre GPU. NVLink especifica una conexión punto a punto con velocidades de datos de 20, 25 y 50 Gbit/s (v1.0/v2.0/v3.0+ resp.) por par diferencial. Para NVLink 1.0 y 2.0, ocho pares diferenciales forman un "subenlace" y dos "subenlaces", uno para cada dirección, forman un "enlace". A partir de NVlink 3.0, solo cuatro pares diferenciales forman un "subenlace". Para NVLink 2.0 y versiones posteriores, la velocidad total de datos para un subenlace es de 25 GB/s y la velocidad total de datos para un enlace es de 50 GB/s. Cada GPU V100 admite hasta seis enlaces. Por lo tanto, cada GPU es capaz de admitir hasta 300 GB/s de ancho de banda bidireccional total. ^[2]^[3] Los productos NVLink presentados hasta la fecha se centran en el espacio de aplicaciones de alto rendimiento. Anunciado el 14 de mayo de 2020, NVLink 3.0 aumenta la velocidad de datos por par diferencial de 25 Gbit/s a 50 Gbit/s mientras reduce a la mitad el número de pares por NVLink de 8 a 4. Con 12 enlaces para una GPU A100 basada en Ampere, esto lleva el ancho de banda total a 600 GB/s. ^[4] Hopper tiene 18 enlaces NVLink 4.0 que permiten un ancho de banda total de 900 GB/s. ^[5] Por lo tanto, NVLink 2.0, 3.0 y 4.0 tienen 50 GB/s por enlace bidireccional y tienen 6, 12 y 18 enlaces correspondientemente.

Actuación

La siguiente tabla muestra una comparación de métricas básicas según especificaciones estándar:

La siguiente tabla muestra una comparación de los parámetros de bus relevantes para semiconductores del mundo real que ofrecen NVLink como una de sus opciones:

Nota : Las columnas de velocidad de datos se redondearon al aproximarse por la velocidad de transmisión; consulte el párrafo sobre rendimiento en el mundo real.

Ⓐ : valor de muestra; la agrupación de subenlaces NVLink debería ser posible

Ⓑ : valor de muestra; deberían ser posibles otras fracciones para el uso del carril PCIe

Ⓓ : pueden aplicarse varias limitaciones a las combinaciones finalmente posibles debido al multiplexado de pines del chip y al diseño de la placa

dual : la unidad de interfaz se puede configurar como un concentrador raíz o un punto final

Genérico : semiconductor desnudo sin ninguna restricción específica de diseño de placa aplicada.

El rendimiento en el mundo real se puede determinar aplicando diferentes impuestos de encapsulación y tasas de uso. Estos provienen de varias fuentes:

Código de línea 128b/130b (ver, por ejemplo, transmisión de datos PCI Express para versiones 3.0 y superiores)
Caracteres de control de enlace
Encabezado de transacción
Capacidades de almacenamiento en búfer (depende del dispositivo)
Uso de DMA en el lado de la computadora (depende de otro software, generalmente es insignificante en los puntos de referencia)

Esas limitaciones físicas suelen reducir la velocidad de datos a entre el 90 y el 95 % de la velocidad de transferencia. Los puntos de referencia de NVLink muestran una velocidad de transferencia alcanzable de aproximadamente 35,3 Gbit/s (de host a dispositivo) para una conexión NVLink de 40 Gbit/s (enlace ascendente de 2 sublíneas) hacia una GPU P100 en un sistema que funciona con un conjunto de CPU IBM Power8. ^[32]

Uso con placas enchufables

Para las distintas versiones de placas enchufables (existen todavía un pequeño número de placas GPU para juegos y gráficos profesionales de alta gama con esta característica) que exponen conectores adicionales para unirlas en un grupo NVLink, existe un número similar de conectores de interconexión basados en PCB, relativamente compactos y ligeramente variables. Por lo general, solo las placas del mismo tipo se acoplarán entre sí debido a su diseño físico y lógico. Para algunas configuraciones, se deben aplicar dos conectores idénticos para lograr la velocidad de datos completa. A partir de ahora, el conector típico tiene forma de U con un conector de borde de rejilla fina en cada uno de los trazos finales de la forma que mira hacia afuera del espectador. El ancho del conector determina a qué distancia deben colocarse las tarjetas enchufables de la placa principal del sistema informático anfitrión; la distancia para la colocación de la tarjeta generalmente está determinada por el conector correspondiente (los anchos de conector disponibles conocidos son de 3 a 5 ranuras y también dependen del tipo de placa). ^[33]^[34] La interconexión se conoce a menudo como Interfaz de Enlace Escalable (SLI) desde 2004 por su diseño estructural y apariencia, aunque el diseño moderno basado en NVLink es de una naturaleza técnica bastante diferente con diferentes características en sus niveles básicos en comparación con el diseño anterior. Los dispositivos del mundo real reportados son: ^[35]

Quadro GP100 (un par de tarjetas utilizará hasta 2 puentes; ^[36] la configuración realiza 2 o 4 conexiones NVLink con hasta 160 GB/s ^[37] - esto podría parecerse a NVLink 1.0 con 20 GT/s)
Quadro GV100 (un par de tarjetas necesitará hasta 2 puentes y alcanzará hasta 200 GB/s ^[33] - esto podría parecerse a NVLink 2.0 con 25 GT/s y 4 enlaces)
GeForce RTX 2080 basada en TU104 (con puente único "GeForce RTX NVLink-Bridge" ^[38] )
GeForce RTX 2080 Ti basada en TU102 (con puente único "GeForce RTX NVLink-Bridge" ^[34] )
Quadro RTX 5000 ^[39] basado en TU104 ^[40] (con un solo puente "NVLink" de hasta 50 GB/s ^[41] - esto podría parecerse a NVLink 2.0 con 25 GT/s y 1 enlace)
Quadro RTX 6000 ^[39] basado en TU102 ^[40] (con un solo puente "NVLink HB" hasta 100 GB/s ^[41] - esto podría parecerse a NVLink 2.0 con 25 GT/s y 2 enlaces)
Quadro RTX 8000 ^[39] basado en TU102 ^[42] (con un solo puente "NVLink HB" hasta 100 GB/s ^[41] - esto podría parecerse a NVLink 2.0 con 25 GT/s y 2 enlaces)

Software de servicio y programación

Para las líneas de productos Tesla, Quadro y Grid, la NVML-API (Nvidia Management Library API) ofrece un conjunto de funciones para controlar programáticamente algunos aspectos de las interconexiones NVLink en sistemas Windows y Linux, como la evaluación de componentes y versiones junto con la consulta de estado/error y el monitoreo del rendimiento. ^[43] Además, con la provisión de la biblioteca NCCL (Nvidia Collective Communications Library) los desarrolladores en el espacio público estarán habilitados para realizar, por ejemplo, implementaciones poderosas para inteligencia artificial y temas computacionales similares sobre NVLink. ^[44] La página "3D Settings" » "Configure SLI, Surround, PhysX" en el panel de control de Nvidia y la aplicación de muestra CUDA "simpleP2P" usan dichas API para realizar sus servicios con respecto a sus características NVLink. En la plataforma Linux, la aplicación de línea de comandos con el subcomando "nvidia-smi nvlink" proporciona un conjunto similar de información y control avanzados. ^[35]

Historia

El 5 de abril de 2016, Nvidia anunció que NVLink se implementaría en la GPU GP100 basada en la microarquitectura Pascal , como se usa, por ejemplo, en los productos Nvidia Tesla P100. ^[45] Con la introducción de la base de computadora de alto rendimiento DGX-1, fue posible tener hasta ocho módulos P100 en un solo sistema de bastidor conectado a hasta dos CPU host. La placa portadora (...) permite una placa dedicada para enrutar las conexiones NVLink: cada P100 requiere 800 pines, 400 para PCIe + energía y otros 400 para los NVLinks, lo que suma casi 1600 trazas de placa solo para NVLinks (...). ^[46] Cada CPU tiene conexión directa a 4 unidades de P100 a través de PCIe y cada P100 tiene un NVLink cada uno a los otros 3 P100 en el mismo grupo de CPU más un NVLink más a un P100 en el otro grupo de CPU. Cada NVLink (interfaz de enlace) ofrece una velocidad bidireccional de 20 GB/seg de subida y 20 GB/seg de bajada, con 4 enlaces por GPU GP100, para un ancho de banda agregado de 80 GB/seg de subida y otros 80 GB/seg de bajada. ^[47] NVLink admite el enrutamiento de modo que en el diseño DGX-1 para cada P100 un total de 4 de los otros 7 P100 son directamente accesibles y los 3 restantes son accesibles con un solo salto. Según las descripciones en las publicaciones basadas en blogs de Nvidia, a partir de 2014 NVLink permite la agrupación de enlaces individuales para un mayor rendimiento punto a punto de modo que, por ejemplo, un diseño con dos P100 y todos los enlaces establecidos entre las dos unidades permitiría el ancho de banda completo de NVLink de 80 GB/seg entre ellos. ^[48]

En GTC2017, Nvidia presentó su generación Volta de GPU e indicó la integración de una versión revisada 2.0 de NVLink que permitiría velocidades de datos de E/S totales de 300 GB/s para un solo chip para este diseño, y anunció además la opción de pedidos anticipados con promesa de entrega para el tercer trimestre de 2017 de las computadoras de alto rendimiento DGX-1 y DGX-Station que estarán equipadas con módulos GPU de tipo V100 y tendrán NVLink 2.0 realizado en red (dos grupos de cuatro módulos V100 con conectividad entre grupos) o en forma totalmente interconectada de un grupo de cuatro módulos V100.

En 2017-2018, IBM y Nvidia entregaron las supercomputadoras Summit y Sierra para el Departamento de Energía de EE. UU. ^[49] , que combinan la familia de CPU POWER9 de IBM y la arquitectura Volta de Nvidia , utilizando NVLink 2.0 para las interconexiones CPU-GPU y GPU-GPU e InfiniBand EDR para las interconexiones del sistema. ^[50]

En 2020, Nvidia anunció que ya no agregaría nuevos perfiles de controladores SLI en las series RTX 2000 y anteriores a partir del 1 de enero de 2021. ^[51]

Véase también

Referencias

^ Nvidia NVLINK 2.0 llegará a los servidores de IBM el año que viene por Jon Worrel en fudzilla.com el 24 de agosto de 2016
^ "NVIDIA DGX-1 con arquitectura de sistema Tesla V100" (PDF) .
^ "¿Qué es NVLink?". Nvidia. 14 de noviembre de 2014.
^ Ryan Smith (14 de mayo de 2020). "NVIDIA Ampere Unleashed: NVIDIA anuncia nueva arquitectura de GPU, GPU A100 y acelerador". AnandTech.
^ Jacobs, Blair (23 de marzo de 2022). "Nvidia revela la arquitectura de GPU Hopper de próxima generación". Club386 . Consultado el 4 de mayo de 2022 .
^ de "PCIe - PCI Express (1.1 / 2.0 / 3.0 / 4.0 / 5.0)". www.elektronik-kompendium.de .
^ Enero de 2019, Paul Alcorn 17 (17 de enero de 2019). "PCIe 5.0 está listo para su lanzamiento". Tom's Hardware .{{cite web}}: CS1 maint: nombres numéricos: lista de autores ( enlace )
^ "NVLink-Network Switch: el chip conmutador de NVIDIA para SuperPOD con gran ancho de banda de comunicación" (PDF) . HotChips 34 . 23 de agosto de 2022.
^ en línea, heise. "NVIDIA Tesla P100 [SXM2], 16 GB HBM2 (NVTP100-SXM) | heise online Preisvergleich / Deutschland". Geizhals.de .
^ en línea, heise (14 de agosto de 2023). "PNY Tesla P100 [PCIe], 16 GB HBM2 (TCSP100M-16GB-PB/NVTP100-16) por 4990,00 € (2020) | heise online Preisvergleich / Deutschland". Geizhals.de .
^ NVLink lleva la aceleración de la GPU al siguiente nivel por Timothy Prickett Morgan en nextplatform.com el 4 de mayo de 2016
^ "Especificaciones de la NVIDIA Tesla V100 SXM2 de 16 GB". TechPowerUp . 14 de agosto de 2023.
^ en línea, heise (14 de agosto de 2023). "PNY Quadro GV100, 32 GB HBM2, 4x DP (VCQGV100-PB) desde 10199,00 € (2020) | heise online Preisvergleich / Deutschland". Geizhals.de .
^ abc Tegra Xavier - Nvidia en wikichip.org
^ GUÍA DE ADAPTACIÓN Y PUESTA EN FUNCIONAMIENTO DE LA PLATAFORMA JETSON AGX XAVIER "Características del controlador PCIe Tegra194" en la página 14; almacenado en arrow.com
^ ¿ Cómo habilitar la ranura PCIe x2 con Xavier? en devtalk.nvidia.com
^ Presentación del seminario web POWER9 de IBM para Power Systems VUG por Jeff Stuecheli el 26 de enero de 2017
^ ab Morgan, Timothy Prickett (14 de mayo de 2020). "Nvidia unifica la computación de IA con la GPU "Ampere"". La próxima plataforma .
^ ab "Ficha técnica" (PDF) . www.nvidia.com . Consultado el 15 de septiembre de 2020 .
^ ab "Informe técnico sobre la arquitectura de la GPU NVIDIA Ampere GA102" (PDF) . nvidia.com . Consultado el 2 de mayo de 2023 .
^ ab "Tensor Core GPU" (PDF) . nvidia.com . Consultado el 2 de mayo de 2023 .
^ Todos a bordo del bus PCIe para el superordenador Tesla P100 de Nvidia por Chris Williams en theregister.co.uk el 20 de junio de 2016
^ Hicok, Gary (13 de noviembre de 2018). "NVIDIA Xavier alcanza un hito en conducción autónoma segura | Blog de NVIDIA". El blog oficial de NVIDIA .
^ en línea, heise (22 de junio de 2017). "Nvidia Tesla V100: PCIe-Steckkarte con Volta-Grafikchip y 16 GByte Speicher angekündigt". Heise en línea .
^ Diagrama de bloques de GV100 en "GTC17: NVIDIA präsentiert die nächste GPU-Architektur Volta - Tesla V100 mit 5.120 Shadereinheiten und 16 GB HBM2" por Andreas Schilling en hardwareluxx.de el 10 de mayo de 2017
^ Chip GPU NVIDIA Volta GV100 para la supercomputadora Summit: dos veces más rápido que el Pascal P100; se especula que alcanzará los 9,5 TFLOPs Compute FP64 por Hassan Mujtaba en wccftech.com el 20 de diciembre de 2016
^ "Descripción técnica" (PDF) . images.nvidia.com . Consultado el 15 de septiembre de 2020 .
^ ab Angelini, Chris (14 de septiembre de 2018). "Exploración de la arquitectura Turing de Nvidia: dentro de la GeForce RTX 2080". Tom's Hardware . p. 7 . Consultado el 28 de febrero de 2019 . TU102 y TU104 son las primeras GPU de escritorio de Nvidia que incorporan la interconexión NVLink en lugar de una interfaz de entrada/salida múltiple (MIO) para compatibilidad con SLI. La primera ofrece dos enlaces x8, mientras que la segunda está limitada a uno. Cada enlace facilita hasta 50 GB/s de ancho de banda bidireccional. Por lo tanto, la GeForce RTX 2080 Ti es capaz de alcanzar hasta 100 GB/s entre tarjetas y la RTX 2080 puede hacer la mitad de eso.
^ Chelín, Andreas (22 de junio de 2020). "A100 PCIe: NVIDIA GA100-GPU compatible y variante PCI-Express". Hardwareluxx . Consultado el 2 de mayo de 2023 .
^ ab "NVLINK Y NVSWITCH". www.nvidia.com . Consultado el 7 de febrero de 2021 .
^ abcd "Una gran memoria Nvidia GH200 junto a tu escritorio: más cerca de lo que crees". 23 de febrero de 2024.
^ Comparación de NVLink vs PCI-E con GPU NVIDIA Tesla P100 en servidores OpenPOWER por Eliot Eshelman en microway.com el 26 de enero de 2017
^ ab "NVIDIA Quadro NVLink Grafikprozessor-Zusammenschaltung in Hochgeschwindigkeit". NVIDIA .
^ ab "Grafik neu erfunden: NVIDIA GeForce RTX 2080 Ti-Grafikkarte". NVIDIA .
^ ab "NVLink en NVIDIA GeForce RTX 2080 y 2080 Ti en Windows 10". Puget Systems . 5 de octubre de 2018.
^ [1] ^{[ enlace muerto ]}
^ Schilling, Andreas (5 de febrero de 2017). "NVIDIA presenta Quadro GP100 con GP100-GPU y 16 GB HBM2". Hardwareluxx .
^ "Tarjeta gráfica NVIDIA GeForce RTX 2080 Founders Edition". NVIDIA .
^ abc "Tarjetas gráficas NVIDIA Quadro para estaciones de trabajo de diseño profesional". NVIDIA .
^ ab "NVIDIA Quadro RTX 6000 y RTX 5000 listas para pedidos anticipados". 1 de octubre de 2018.
^ abc "NVLink | pny.com". www.pny.com .
^ "Especificaciones de la NVIDIA Quadro RTX 8000". TechPowerUp . 14 de agosto de 2023.
^ "Métodos NvLink". docs.nvidia.com .
^ "Biblioteca de comunicaciones colectivas de NVIDIA (NCCL)". NVIDIA Developer . 10 de mayo de 2017.
^ "Dentro de Pascal: la plataforma informática más nueva de NVIDIA". 5 de abril de 2016.
^ Anandtech.com
^ NVIDIA presenta el servidor HPC DGX-1: 8 Teslas, 3U, segundo trimestre de 2016 por anandtech.com en abril de 2016
^ Cómo NVLink permitirá una computación multi-GPU más rápida y sencilla por Mark Harris el 14 de noviembre de 2014
^ "Libro blanco: Supercomputadoras Summit y Sierra" (PDF) . 2014-11-01.
^ "Nvidia Volta e IBM POWER9 adquieren contratos para nuevas supercomputadoras del gobierno de Estados Unidos". AnandTech . 17 de noviembre de 2014.
^ "RIP: Nvidia pone el último clavo en el ataúd de SLI, no habrá nuevos perfiles después de 2020". PC World . 18 de septiembre de 2020.