Microarquitectura de GPU de AMD
RDNA 3 es una microarquitectura de GPU diseñada por AMD , lanzada con la serie Radeon RX 7000 el 13 de diciembre de 2022. Además de impulsar la serie RX 7000, RDNA 3 también aparece en los SoC diseñados por AMD para las consolas Asus ROG Ally , Lenovo Legion Go y PlayStation 5 Pro .
Fondo
El 9 de junio de 2022, AMD celebró su Día del analista financiero, en el que presentó una hoja de ruta de GPU para clientes que incluía la mención de RDNA 3, que llegaría en 2022, y RDNA 4, que llegaría en 2024. [1] AMD anunció a los inversores su intención de lograr un aumento del rendimiento por vatio de más del 50 % con RDNA 3 y que la próxima arquitectura se construiría utilizando un encapsulado de chiplets en un proceso de 5 nm. [2]
Se incluyó un adelanto de RDNA 3 hacia el final del evento de presentación de Ryzen 7000 de AMD el 29 de agosto de 2022. El adelanto incluía RDNA 3 ejecutando el juego Lies of P , la directora ejecutiva de AMD, Lisa Su, confirmando que se usaría un diseño de chiplet y una mirada parcial al diseño de referencia de AMD para una GPU RDNA 3. [3]
Los detalles completos de la arquitectura RDNA 3 se dieron a conocer el 3 de noviembre de 2022 en un evento en Las Vegas . [4]
Arquitectura
Embalaje de chiplets
Por primera vez en una GPU de consumo, RDNA 3 utiliza chiplets modulares en lugar de un único chip monolítico grande . AMD había tenido anteriormente un gran éxito con el uso de chiplets en sus procesadores de escritorio Ryzen y de servidor Epyc . [5] La decisión de pasar a una microarquitectura de GPU basada en chiplets fue liderada por el vicepresidente sénior de AMD, Sam Naffziger, quien también había liderado la iniciativa de chiplets con Ryzen y Epyc. [6] El desarrollo de la arquitectura de chiplets de RDNA 3 comenzó hacia finales de 2017 con Naffziger liderando el equipo de gráficos de AMD en el esfuerzo. [7] El beneficio de usar chiplets es que los chips se pueden fabricar en diferentes nodos de proceso dependiendo de sus funciones y propósito previsto. Según Naffziger, la memoria caché y la SRAM no escalan tan linealmente como lo hace la lógica en nodos avanzados como N5 en términos de densidad y consumo de energía, por lo que pueden fabricarse en el nodo N6, más económico y maduro. El uso de matrices más pequeñas en lugar de una matriz monolítica grande es beneficioso para maximizar los rendimientos de las obleas, ya que se pueden colocar más matrices en una sola oblea. [7] Alternativamente, una matriz RDNA 3 monolítica grande construida sobre N5 sería más costosa de producir con rendimientos más bajos.
RDNA 3 utiliza dos tipos de chiplets: el chip de cómputo gráfico (GCD) y los chips de caché de memoria (MCD). En los procesadores Ryzen y Epyc, AMD utilizó su protocolo Infinity Fabric basado en PCIe con los chips del paquete conectados a través de trazas en un sustrato orgánico. Este enfoque es fácilmente escalable de manera rentable, pero tiene los inconvenientes de una mayor latencia , un mayor consumo de energía al mover datos entre chips a alrededor de 1,5 picojulios por bit y no puede lograr la densidad de conexión necesaria para GPU de alto ancho de banda. [8] Un paquete orgánico no podría albergar la cantidad de cables que se necesitarían para conectar varios chips en una GPU. [9]
En cambio, los chips de RDNA 3 se conectan mediante la técnica de empaquetado de capa de redistribución de distribución integrada (InFO-RDL) de TSMC, que proporciona un puente de silicio para una comunicación de chip a chip de alta densidad y gran ancho de banda. [ 10] InFO permite conectar chips sin el uso de un intercalador de silicio más costoso , como el que se utiliza en los aceleradores de centros de datos Instinct MI200 y MI300 de AMD. Cada enlace Infinity Fanout tiene un ancho de banda de 9,2 Gbps. Naffziger explica que "la densidad de ancho de banda que logramos es casi 10 veces mayor" con Infinity Fanout en lugar de los cables que utilizan los procesadores Ryzen y Epyc. Las interconexiones de chiplets en RDNA logran un ancho de banda acumulativo de 5,3 TB/s. [10]
Matrices de memoria caché (MCD)
Con 2.050 millones de transistores, cada Memory Cache Die (MCD) contiene 16 MB de caché L3. En teoría, se podría añadir caché L3 adicional a los MCD mediante la tecnología de apilamiento de matrices 3D V-Cache de AMD, ya que los MCD contienen puntos de conexión TSV sin utilizar . [11] [12] También están presentes en cada MCD dos interfaces de memoria GDDR6 físicas de 32 bits para una interfaz combinada de 64 bits por MCD. [13] La Radeon RX 7900 XTX tiene un bus de memoria de 384 bits mediante el uso de seis MCD, mientras que la RX 7900 XT tiene un bus de 320 bits debido a sus cinco MCD.
Matriz de cálculo de gráficos (GCD)
Unidades de cómputo
Las unidades de cómputo (CU) de RDNA 3 para el procesamiento de gráficos están organizadas en procesadores de grupo de trabajo (WGP) de CU duales. En lugar de incluir una gran cantidad de WGP en las GPU de RDNA 3, AMD se concentró en mejorar el rendimiento por WGP. Esto se hace con ALU de sombreado de doble emisión mejoradas con la capacidad de ejecutar dos instrucciones por ciclo. Puede contener hasta 96 unidades de cómputo de gráficos que pueden proporcionar hasta 61 TFLOPS de cómputo. [14]
Si bien RDNA 3 no incluye unidades de ejecución dedicadas para la aceleración de IA como los núcleos Matrix que se encuentran en las arquitecturas CDNA centradas en la computación de AMD, la eficiencia de ejecutar tareas de inferencia en recursos de ejecución FP16 se mejora con instrucciones Wave MMA ( multiplicación-acumulación de matriz ). Esto da como resultado un mayor rendimiento de inferencia en comparación con RDNA 2. [15] [16] WMMA admite los tipos de datos FP16, BF16, INT8 e INT4. [17] Tom's Hardware descubrió que la GPU RDNA 3 más rápida de AMD, la RX 7900 XTX, era capaz de generar 26 imágenes por minuto con Stable Diffusion , en comparación con solo 6,6 imágenes por minuto de la RX 6950 XT, la GPU RDNA 2 más rápida. [18]
Trazado de rayos
RDNA 3 cuenta con aceleradores de trazado de rayos de segunda generación. Cada unidad de cómputo contiene un acelerador de trazado de rayos. La cantidad total de aceleradores de trazado de rayos ha aumentado debido a la mayor cantidad de unidades de cómputo, aunque la cantidad de aceleradores de trazado de rayos por unidad de cómputo no ha aumentado con respecto a RDNA 2.
Velocidades de reloj
RDNA 3 fue diseñado para soportar altas velocidades de reloj. En RDNA 3, las velocidades de reloj se han desacoplado con el front-end operando a una frecuencia de 2,5 GHz mientras que los shaders operan a 2,3 GHz. Los shaders operando a una velocidad de reloj más baja brindan hasta un 25% de ahorro de energía según AMD y la velocidad de reloj del shader de RDNA 3 sigue siendo un 15% más rápida que la de RDNA 2. [19]
Subsistema de memoria y caché
RDNA 3 aumentó la capacidad de las cachés L1 y L2. La caché L1 asociativa de 16 vías compartida a través de una matriz de sombreadores se duplicó en RDNA 3 a 256 KB. La caché L2 aumentó de 4 MB en RDNA 2 a 6 MB en RDNA 3. La caché L3 Infinity se redujo en capacidad de 128 MB a 96 MB y la latencia aumentó ya que está físicamente presente en los MCD en lugar de estar más cerca de los WGP dentro del GCD. [20] La capacidad de la caché Infinity se redujo debido a que RDNA 3 tiene una interfaz de memoria más amplia de hasta 384 bits, mientras que RDNA 2 usaba interfaces de memoria de hasta 256 bits. RDNA 3 tiene una memoria más amplia de 384 bits significa que su tasa de aciertos de caché no tiene que ser tan alta para evitar cuellos de botella de ancho de banda, ya que hay un mayor ancho de banda de memoria. [20] Las GPU RDNA 3 utilizan memoria GDDR6 en lugar de la más rápida GDDR6X debido al mayor consumo de energía de esta última.
RDNA 3 es la primera arquitectura RDNA que cuenta con un motor multimedia dedicado. Está integrado en el GCD y se basa en el núcleo de codificación y decodificación VCN 4.0 . [21] El codificador AMF AV1 de AMD es comparable en calidad al codificador NVENC AV1 de Nvidia, pero puede manejar una mayor cantidad de transmisiones de codificación simultáneas en comparación con el límite de 3 en la serie GeForce RTX 40. [22 ]
Motor de visualización
Las GPU RDNA 3 cuentan con un nuevo motor de visualización llamado "Radiance Display Engine". AMD promocionó su soporte para DisplayPort 2.1 UHBR 13.5, que ofrece un ancho de banda de hasta 54 Gbps para altas frecuencias de actualización en resoluciones de 4K y 8K . [24] Las Radeon Pro W7900 y W7800 admiten el estándar UHBR20 de 80 Gbps. DisplayPort 2.1 puede admitir 4K a 480 Hz y 8K a 165 Hz con Display Stream Compression (DSC). El estándar DisplayPort 1.4 anterior con DSC estaba limitado a 4K a 240 Hz y 8K a 60 Hz.
Eficiencia energética
AMD afirma que RDNA 3 logra un aumento del 54% en el rendimiento por vatio, lo que está en línea con sus afirmaciones anteriores de aumentos del 50% en el rendimiento por vatio tanto para RDNA como para RDNA 2.
Navi 3x muere
Productos
Juego de azar
De oficina
- ^ Tamaño aproximado de todos los dados activos (un GCD y hasta seis MCD ). [34]
- ^ abc Los valores de refuerzo (si están disponibles) se indican debajo del valor base en cursiva .
- ^ La tasa de relleno de textura se calcula como la cantidad de unidades de mapeo de textura multiplicada por la velocidad del reloj del núcleo base (o aumentada).
- ^ La tasa de relleno de píxeles se calcula como la cantidad de unidades de salida de renderizado multiplicada por la velocidad del reloj del núcleo base (o potenciada).
- ^ El rendimiento de precisión se calcula a partir de la velocidad del reloj del núcleo base (o de refuerzo) en función de una operación FMA .
- ^ Sombreadores unificados : Unidades de mapeo de texturas : Unidades de salida de renderizado : Aceleradores de rayos : Aceleradores de IA y unidades de cómputo (CU)
Móvil
- ^ abc Los valores de refuerzo (si están disponibles) se indican debajo del valor base en cursiva .
- ^ La tasa de relleno de textura se calcula como la cantidad de unidades de mapeo de textura multiplicada por la velocidad del reloj del núcleo base (o aumentada).
- ^ La tasa de relleno de píxeles se calcula como la cantidad de unidades de salida de renderizado multiplicada por la velocidad del reloj del núcleo base (o potenciada).
- ^ El rendimiento de precisión se calcula a partir de la velocidad del reloj del núcleo base (o de refuerzo) en función de una operación FMA .
- ^ Las GPU basadas en RDNA 3 tienen procesadores de flujo de doble emisión, de modo que se pueden ejecutar hasta dos instrucciones de sombreado por ciclo de reloj en determinadas condiciones de paralelismo .
- ^ Sombreadores unificados : Unidades de mapeo de texturas : Unidades de salida de renderizado : Aceleradores de rayos : Aceleradores de IA y unidades de cómputo (CU)
Puesto de trabajo
Estación de trabajo de escritorio
- ^ Tamaño aproximado de la matriz de todo el paquete MCM , que consta de un solo GCD (Graphics Compute Die) y seis MCD (Memory Cache Die).
La Radeon Pro W7800 tiene solo cuatro MCD activos, el inactivo es para soporte estructural y disipación de calor. - ^ abc Los valores de refuerzo (si están disponibles) se indican debajo del valor base en cursiva .
- ^ La tasa de relleno de textura se calcula como la cantidad de unidades de mapeo de textura multiplicada por la velocidad del reloj del núcleo base (o aumentada).
- ^ La tasa de relleno de píxeles se calcula como la cantidad de unidades de salida de renderizado multiplicada por la velocidad del reloj del núcleo base (o potenciada).
- ^ El rendimiento de precisión se calcula a partir de la velocidad del reloj del núcleo base (o de refuerzo) en función de una operación FMA .
- ^ Sombreadores unificados : Unidades de mapeo de texturas : Unidades de salida de renderizado : Aceleradores de rayos : Aceleradores de IA y unidades de cómputo (CU)
- ^ Las GPU basadas en RDNA 3 tienen procesadores de flujo de doble emisión , de modo que se pueden ejecutar hasta dos instrucciones de sombreado por ciclo de reloj en determinadas condiciones de paralelismo .
Unidades de procesamiento de gráficos integrados (iGPU)
- ^ abc Los valores de refuerzo (si están disponibles) se indican debajo del valor base en cursiva .
- ^ La tasa de relleno de textura se calcula como la cantidad de unidades de mapeo de textura multiplicada por la velocidad del reloj del núcleo base (o aumentada).
- ^ La tasa de relleno de píxeles se calcula como la cantidad de unidades de salida de renderizado multiplicada por la velocidad del reloj del núcleo base (o potenciada).
- ^ El rendimiento de precisión se calcula a partir de la velocidad del reloj del núcleo base (o de refuerzo) en función de una operación FMA .
- ^ Unidades de cómputo (CU)
Procesadores de flujo : Unidades de mapeo de texturas : Unidades de salida de renderizado : Aceleradores de rayos - ^ Las GPU basadas en RDNA 3 tienen procesadores de flujo de doble emisión , de modo que se pueden ejecutar hasta dos instrucciones de sombreado por ciclo de reloj en determinadas condiciones de paralelismo .
Referencias
- ^ Smith, Ryan (9 de junio de 2022). "Hoja de ruta de GPU para clientes 2022-2024 de AMD: RDNA 3 este año, RDNA 4 llegará en 2024". AnandTech . Consultado el 8 de abril de 2023 .
- ^ Walton, Jarred (9 de junio de 2022). "Hoja de ruta de GPU de AMD: RDNA 3 con chipsets de GPU de 5 nm que llegarán este año". Tom's Hardware . Consultado el 8 de abril de 2023 .
- ^ Wickens, Katie (31 de agosto de 2022). «Lisa Su de AMD confirma la arquitectura de GPU RDNA 3 basada en chiplets». PC Gamer . Consultado el 8 de abril de 2023 .
- ^ "AMD presenta las tarjetas gráficas para juegos más avanzadas del mundo, basadas en la innovadora arquitectura AMD RDNA 3 con diseño de chiplet". AMD (Comunicado de prensa). Las Vegas, NV. 3 de noviembre de 2022. Consultado el 8 de abril de 2023 .
- ^ James, Dave (24 de junio de 2022). «AMD sugiere que un diseño similar al de Ryzen para los chiplets RDNA 3 sería 'una inferencia razonable'». PC Gamer . Consultado el 8 de abril de 2023 .
- ^ Alcorn, Paul; Walton, Jarred (23 de junio de 2022). "Into the GPU Chiplet Era: An Interview With AMD's Sam Naffziger" (Entrando en la era de los chipsets de GPU: una entrevista con Sam Naffziger de AMD). Tom's Hardware . Consultado el 8 de abril de 2023 .
- ^ ab Brosdahl, Peter (22 de noviembre de 2022). "El ingeniero jefe de AMD, Sam Naffziger, explica las ventajas del diseño de chiplet RDNA3". The FPS Review . Consultado el 8 de abril de 2023 .
- ^ Walton, Jarred (5 de junio de 2023). "Análisis profundo de la arquitectura de GPU RDNA 3 de AMD: el momento Ryzen para las GPU". Tom's Hardware . Consultado el 29 de abril de 2024 .
- ^ Ridley, Jacob (14 de noviembre de 2022). «Infinity Links de AMD es el héroe anónimo de RDNA 3 y las GPU para juegos con chiplet». PC Gamer . Consultado el 29 de abril de 2024 .
- ^ ab "AMD explica la economía detrás de los chiplets para GPU". TechPowerUp . 14 de noviembre de 2022 . Consultado el 8 de abril de 2023 .
- ^ Klotz, Aaron (29 de enero de 2023). "La GPU AMD parece dejar espacio para el futuro V-Cache 3D". Tom's Hardware . Consultado el 8 de abril de 2023 .
- ^ Ridley, Jacob (30 de enero de 2023). «Pequeñas manchas en la GPU RDNA 3 de AMD insinúan un potencial de caché masivo». PC Gamer . Consultado el 8 de abril de 2023 .
- ^ ab Walton, Jarred (14 de noviembre de 2022). "Análisis profundo de la arquitectura de GPU RDNA 3 de AMD: el momento Ryzen para las GPU". Tom's Hardware . Consultado el 8 de abril de 2023 .
- ^ Gula, Damien (3 de noviembre de 2022). "Las GPU RDNA 3 de AMD son mucho más económicas que la RTX 4090". Gizmodo . Consultado el 8 de abril de 2023 .
- ^ Walton, Jarred (15 de junio de 2024). «AMD RDNA 3 y GPU de la serie Radeon RX 7000: todo lo que sabemos». Tom's Hardware . Consultado el 20 de julio de 2024 .
- ^ Walton, Jarred; Alcorn, Paul (23 de junio de 2022). "Into the GPU Chiplet Era: An Interview With AMD's Sam Naffziger". Tom's Hardware . Consultado el 20 de julio de 2024 .
Preguntamos si AMD incluiría algún tipo de núcleo tensor o núcleo de matriz en la arquitectura, similar a lo que están haciendo tanto Nvidia como Intel con sus GPU. Respondió que la división entre RDNA y CDNA significa que meter un montón de núcleos de matriz especializados en productos gráficos de consumo realmente no es necesario para el mercado objetivo, además de que el soporte FP16 que ya existe en arquitecturas RDNA anteriores debería resultar suficiente para cargas de trabajo de tipo inferencia.
- ^ Vasishta, Aaryaman (10 de enero de 2023). «Cómo acelerar aplicaciones de IA en RDNA 3 usando WMMA». GPUOpen . Archivado desde el original el 10 de enero de 2023. Consultado el 14 de agosto de 2023 .
- ^ Walton, Jarred (15 de diciembre de 2023). «Puntos de referencia de difusión estable: comparación de 45 GPU de Nvidia, AMD e Intel». Tom's Hardware . Consultado el 20 de julio de 2024 .
- ^ Olšan, Jan (7 de noviembre de 2022). «Detalles de AMD RDNA 3: cambios en la arquitectura, aceleración de IA, DP 2.1». HWCooling . Consultado el 8 de abril de 2023 .
- ^ ab "Microbenchmarking de la arquitectura gráfica RDNA 3 de AMD". Chips and Cheese . 7 de enero de 2023 . Consultado el 29 de abril de 2024 .
- ^ Shilov, Anton (4 de mayo de 2022). "Se revelan los primeros detalles sobre el motor de video de próxima generación de AMD". Tom's Hardware . Consultado el 10 de abril de 2023 .
- ^ Klotz, Aaron (12 de diciembre de 2022). "El codificador Radeon RX 7900 AV1 de AMD está casi a la par con Intel Arc y la serie RTX 40 de Nvidia". TechSpot . Consultado el 8 de abril de 2023 .
- ^ Taylor, Adam (14 de diciembre de 2022). «Probado: con RDNA 3, AMD Radeon finalmente es útil para los creadores de contenido». PCWorld . Consultado el 8 de abril de 2023 .
- ^ Sag, Anshel (14 de noviembre de 2022). "Las nuevas Radeon RX 7900XTX y 7900XT de AMD ponen presión sobre NVIDIA". Forbes . Consultado el 8 de abril de 2023 .
- ^ https://www.tomshardware.com/news/amd-rdna-3-gpu-architecture-deep-dive-the-ryzen-moment-for-gpus
- ^ "Especificaciones de AMD Radeon RX 7600". TechPowerUp . Consultado el 24 de mayo de 2023 .
- ^ "Especificaciones de la AMD Radeon RX 7600 XT". TechPowerUp . Consultado el 8 de enero de 2024 .
- ^ Mujtaba, Hassan (8 de enero de 2024). "Se presentó la GPU AMD Radeon RX 7600 XT de 16 GB: chip RDNA 3 de 2048 núcleos más rápido, el doble de VRAM que la RTX 4060 a $329". Wccftech . Consultado el 8 de enero de 2024 .
- ^ "Especificaciones de la AMD Radeon RX 7700 XT". TechPowerUp . Consultado el 25 de agosto de 2023 .
- ^ "Especificaciones de la AMD Radeon RX 7800 XT". TechPowerUp . Consultado el 25 de agosto de 2023 .
- ^ Walton, Jarred (26 de febrero de 2024). "Revisión de AMD Radeon RX 7900 GRE: la variante Navi 31 con el precio más bajo ya está disponible a nivel mundial, a partir de $549". Tom's Hardware . Consultado el 1 de marzo de 2024 .
- ^ "Especificaciones de la AMD Radeon RX 7900 XT". TechPowerUp . Consultado el 4 de noviembre de 2022 .
- ^ "Especificaciones de la AMD Radeon RX 7900 XTX". TechPowerUp . Consultado el 4 de noviembre de 2022 .
- ^ "AMD presenta las tarjetas gráficas para juegos más avanzadas del mundo, basadas en la revolucionaria arquitectura AMD RDNA 3 con diseño de chiplet". AMD (Comunicado de prensa). 21 de abril de 2023.
- ^ "Especificaciones de la AMD Radeon RX 7600S". TechPowerUp . Consultado el 16 de enero de 2023 .
- ^ "Especificaciones de la AMD Radeon RX 7600M". TechPowerUp . Consultado el 16 de enero de 2023 .
- ^ "Especificaciones de la AMD Radeon RX 7600M XT". TechPowerUp . Consultado el 20 de abril de 2023 .
- ^ "Especificaciones de la AMD Radeon RX 7700S". TechPowerUp . Consultado el 16 de enero de 2023 .
- ^ Discusión, btarunr (11 de septiembre de 2024). "AMD presenta gráficos móviles Radeon RX 7800M basados en silicio "Navi 32"". TechPowerUp . Consultado el 12 de noviembre de 2024 .
- ^ "Especificaciones de la AMD Radeon RX 7900M". TechPowerUp . Consultado el 15 de noviembre de 2023 .
- ^ ab "Las nuevas tarjetas gráficas para estaciones de trabajo AMD Radeon PRO W7000 Series ofrecen tecnologías avanzadas y un rendimiento excepcional para los flujos de trabajo profesionales convencionales" (Comunicado de prensa). AMD. 3 de agosto de 2023. Consultado el 4 de agosto de 2023 .
- ^ "Especificaciones de la AMD Radeon PRO W7500". TechPowerUp . Consultado el 4 de agosto de 2023 .
- ^ "Especificaciones de la AMD Radeon PRO W7600". TechPowerUp . Consultado el 4 de agosto de 2023 .
- ^ ab "AMD presenta las tarjetas gráficas AMD Radeon PRO más potentes, que ofrecen características únicas y un rendimiento de liderazgo para abordar cargas de trabajo profesionales pesadas y extremas" (Comunicado de prensa). AMD. 13 de abril de 2023. Consultado el 13 de abril de 2023 .
- ^ "Especificaciones de la AMD Radeon PRO W7800". TechPowerUp . Consultado el 13 de abril de 2023 .
- ^ "AMD presenta los procesadores Ryzen de próxima generación "Zen 5" para potenciar experiencias de IA avanzadas" (Comunicado de prensa). AMD. 2 de junio de 2024 . Consultado el 3 de junio de 2024 .
- ^ Smith, Ryan (2 de junio de 2024). "AMD reduce la capacidad de procesamiento con la Radeon Pro W7900 de doble ranura para la inferencia de IA". www.anandtech.com . Consultado el 3 de junio de 2024 .
- ^ "Especificaciones de la AMD Radeon PRO W7900". TechPowerUp . Consultado el 13 de abril de 2023 .