Maxwell (microarquitectura)

Maxwell es el nombre en clave de una microarquitectura GPU desarrollada por Nvidia como sucesora de la microarquitectura Kepler . La arquitectura Maxwell se introdujo en modelos posteriores de la serie GeForce 700 y también se utiliza en las series GeForce 800M , GeForce 900 y Quadro Mxxx, así como en algunos productos Jetson .

Los primeros productos basados en Maxwell fueron la GeForce GTX 745 (OEM), la GeForce GTX 750 y la GeForce GTX 750 Ti. Ambos fueron lanzados el 18 de febrero de 2014, ambos con el número de código de chip GM107. Las GPU anteriores de la serie GeForce 700 utilizaban chips Kepler con los números de código GK1xx. Las GPU Maxwell de primera generación (números de código GM10x) también se utilizan en las series GeForce 800M y Quadro Kxxx. El 18 de septiembre de 2014 se presentó una segunda generación de productos basados en Maxwell con GeForce GTX 970 y GeForce GTX 980, seguida por la GeForce GTX 960 el 22 de enero de 2015, la GeForce GTX Titan X el 17 de marzo de 2015 y la GeForce GTX 980 Ti el 1 de junio de 2015. La última y más baja tarjeta Maxwell 2.0 fue la GTX950 lanzada el 20 de agosto de 2015. Estas GPU tienen números de código de chip GM20x.

Maxwell presentó un diseño mejorado de Streaming Multiprocessor (SM) que aumentó la eficiencia energética, ^[1] PureVideo HD de sexta y séptima generación y CUDA Compute Capability 5.2.

La arquitectura lleva el nombre de James Clerk Maxwell , el fundador de la teoría de la radiación electromagnética.

La arquitectura Maxwell se utiliza en el sistema en un chip (SOC), procesador de aplicaciones móviles, Tegra X1 .

Maxwell de primera generación (GM10x)

Las GPU Maxwell de primera generación (GM107/GM108) se lanzaron como GeForce GTX 745, GTX 750/750 Ti, GTX 850M/860M (GM107) y GeForce 830M/840M (GM108). Estos nuevos chips introdujeron pocas características adicionales orientadas al consumidor, ya que Nvidia se centró más en aumentar la eficiencia energética de la GPU. La caché L2 aumentó de 256 KiB en Kepler a 2 MiB en Maxwell, lo que redujo la necesidad de más ancho de banda de memoria. En consecuencia, el bus de memoria se redujo de 192 bits en Kepler (GK106) a 128 bits, reduciendo el área del troquel, el costo y el consumo de energía. ^[2]

El diseño del multiprocesador de transmisión "SMX" de Kepler también fue reestructurado y particionado, pasando a llamarse "SMM" para Maxwell. La estructura del programador warp se heredó de Kepler, con las unidades de textura y los núcleos CUDA FP64 aún compartidos, pero el diseño de la mayoría de las unidades de ejecución se dividió de modo que cada programador warp en un SMM controle un conjunto de 32 núcleos CUDA FP32, un conjunto de 8 unidades de carga/almacenamiento y un conjunto de 8 unidades de funciones especiales. Esto contrasta con Kepler, donde cada SMX tenía 4 programadores que programaban un grupo compartido de unidades de ejecución. ^[3] Este último requirió una barra transversal de SMX que usaba energía innecesaria para permitir que todas las unidades de ejecución fueran compartidas. ^[3] Por el contrario, el diseño más modular de Maxwell permite una asignación de recursos más detallada y más eficiente, ahorrando energía cuando la carga de trabajo no es óptima para los recursos compartidos. Nvidia afirma que un SMM de 128 núcleos CUDA tiene el 90% del rendimiento de un SMX de 192 núcleos CUDA, mientras que la eficiencia aumenta en un factor de 2. ^[2] Además, cada clúster de procesamiento de gráficos, o GPC, contiene hasta 4 unidades SMX en Kepler, y hasta 5 unidades SMM en Maxwell de primera generación. ^[2]

GM107 también admite CUDA Compute Capability 5.0 en comparación con 3.5 en las GPU GK110/GK208 y 3.0 en las GPU GK10x. El paralelismo dinámico y HyperQ, dos funciones de las GPU GK110/GK208, también son compatibles con toda la línea de productos Maxwell. Maxwell también proporciona operaciones atómicas de memoria compartida nativa para enteros de 32 bits y comparación e intercambio (CAS) de memoria compartida nativa de 32 y 64 bits, que se pueden utilizar para implementar otras funciones atómicas.

El codificador de vídeo de Nvidia, NVENC, se actualizó para que sea entre 1,5 y 2 veces más rápido que las GPU basadas en Kepler, lo que significa que puede codificar vídeo a una velocidad de reproducción de seis a ocho veces. ^[2] Nvidia también afirma un aumento de rendimiento de ocho a diez veces en la decodificación de video PureVideo Feature Set E debido al caché del decodificador de video, junto con aumentos en la eficiencia de la memoria. Sin embargo, H.265 no es compatible con la decodificación completa de hardware en las GPU Maxwell de primera generación, ya que depende de una combinación de decodificación de hardware y decodificación de software (decodificación de CPU). ^[2] Al decodificar vídeo, se utiliza un nuevo estado de bajo consumo "GC5" en las GPU Maxwell para conservar energía. ^[2]

Se pensaba que las GPU Maxwell utilizaban renderizado basado en mosaicos , ^[4] pero en realidad utilizan almacenamiento en caché en mosaico. ^[5]

Desde Maxwell de primera generación, el protocolo de salida de gráficos UEFI es totalmente compatible con las GPU NVIDIA.

Papas fritas

GM107
GM108

Maxwell de segunda generación (GM20x)

Las GPU Maxwell de segunda generación introdujeron varias tecnologías nuevas: Superresolución dinámica, ^[6] Compresión de color Delta de tercera generación, ^[7] Muestreo de programación multipíxel, ^{[8] Nvidia VXGI (}Iluminación global de Voxel en tiempo real ), ^[9] VR Direct, ^[9]^[10]^[11] Aceleración de proyección múltiple, ^[7] Anti-Aliasing de muestreo de fotogramas múltiples (MFAA) ^[12] (sin embargo, se eliminó el soporte para Anti-Aliasing de muestreo de cobertura (CSAA)) , ^[13] y API Direct3D12 en el nivel de función 12_1. También se agregó compatibilidad con HDMI 2.0. ^[14]^[15]

La proporción de ROP a controlador de memoria se cambió de 8:1 a 16:1. ^[16] Sin embargo, algunos de los ROP generalmente están inactivos en la GTX 970 porque no hay suficientes SMM habilitados para darles trabajo, lo que reduce su tasa de llenado máxima. ^[17]

El motor Polymorph responsable de la teselación se actualizó a la versión 3.0 en las GPU Maxwell de segunda generación, lo que resultó en un rendimiento de teselación mejorado por unidad/reloj.

Maxwell de segunda generación también tiene hasta 4 unidades SMM por GPC, en comparación con 5 unidades SMM por GPC. ^[dieciséis]

GM204 admite CUDA Compute Capability 5.2 (en comparación con 5.0 en las GPU GM107/GM108, 3.5 en las GPU GK110/GK208 y 3.0 en las GPU GK10x). ^[7]^[16]^[18]

Las GPU GM20x tienen un NVENC actualizado que admite la codificación HEVC y agrega compatibilidad con resoluciones de codificación H.264 a 1440p/60 FPS y 4K/60 FPS (en comparación con NVENC en las GPU GM10x de primera generación de Maxwell que solo admitían la codificación H.264 1080p/60 FPS). ^[11]

Después de las quejas de los consumidores, ^[19] Nvidia reveló que es capaz de desactivar unidades individuales, cada una de las cuales contiene 256 KB de caché L2 y 8 ROP, sin desactivar controladores de memoria completos. ^[20] Esto tiene el costo de dividir el bus de memoria en segmentos de alta y baja velocidad a los que no se puede acceder al mismo tiempo para lecturas, porque la unidad L2/ROP que administra ambos controladores GDDR5 comparte el canal de retorno de lectura y el Escribe el bus de datos entre los controladores GDDR5. Esto hace que sea imposible la lectura simultánea desde ambos controladores GDDR5 o la escritura simultánea en ambos controladores GDDR5. ^[20] Esto se utiliza en la GeForce GTX 970, que por lo tanto puede describirse con 3,5 GB en un segmento de alta velocidad en un bus de 224 bits y 512 MB en un segmento de baja velocidad en un bus de 32 bits. ^[20] La velocidad máxima de una GPU de este tipo aún se puede alcanzar, pero la cifra de velocidad máxima solo se puede alcanzar si un segmento ejecuta una operación de lectura mientras el otro segmento ejecuta una operación de escritura. ^[20]

Papas fritas

GM200
GM204
GM206

Actuación

La potencia teórica de procesamiento de precisión simple de una GPU Maxwell en FLOPS se calcula como 2 (operaciones por instrucción FMA por núcleo CUDA por ciclo) × número de núcleos CUDA × velocidad de reloj del núcleo (en Hz).

La potencia teórica de procesamiento de doble precisión de una GPU Maxwell es 1/32 del rendimiento de precisión simple (que se considera muy bajo en comparación con el Kepler de la generación anterior ). ^[21]

Sucesor

El sucesor de Maxwell lleva el nombre en código Pascal . ^[22] La arquitectura Pascal presenta memoria unificada de mayor ancho de banda y NVLink . ^[22]

Ver también

Referencias

^ "Cinco cosas que debe saber sobre la nueva arquitectura de GPU Maxwell". 2014-02-21.
^ abcdef Smith, Ryan; TS, Ganesh (18 de febrero de 2014). "Revisión de NVIDIA GeForce GTX 750 Ti y GTX 750: Maxwell hace su movimiento". AnandTech . Archivado desde el original el 18 de febrero de 2014 . Consultado el 18 de febrero de 2014 .
^ ab Ryan Smith, Ganesh T S. "Maxwell: diseñado para la eficiencia energética - Revisión de NVIDIA GeForce GTX 750 Ti y GTX 750: Maxwell hace su movimiento".
^ Kanter, David (1 de agosto de 2016). "Rasterización basada en mosaicos en GPU Nvidia". Tecnologías del mundo real . Consultado el 1 de abril de 2016 .
^ "Sobre el renderizado basado en mosaicos de NVIDIA". Encendido tecnológico . 1 de marzo de 2017 . Consultado el 9 de mayo de 2020 .
^ "La súper resolución dinámica mejora tus juegos con gráficos de calidad 4K en monitores HD". www.nvidia.com .
^ abc "Copia archivada" (PDF) . Archivado desde el original (PDF) el 21 de julio de 2017 . Consultado el 19 de septiembre de 2014 .{{cite web}}: Mantenimiento CS1: copia archivada como título ( enlace )
^ "NVIDIA BatteryBoost: deshazte del ladrillo". NVIDIA .
^ ab "Artículos, guías, noticias sobre juegos, historias destacadas de GeForce". www.nvidia.com .
^ "Cómo VR Direct de Maxwell acerca los juegos de realidad virtual a la realidad". El blog oficial de NVIDIA .
^ ab Ryan Smith. "La pantalla importa: HDMI 2.0, HEVC y VR Direct - Revisión de NVIDIA GeForce GTX 980: Maxwell Mark 2".
^ "El antialiasing de muestreo de fotogramas múltiples ofrece un mejor rendimiento a los jugadores de Maxwell". www.nvidia.com .
^ "Los nuevos chips nVidia Maxwell no admiten CSAA rápido".
^ "Portátiles y tarjetas gráficas GeForce RTX serie 20". NVIDIA .
^ Ryan Smith. "Revisión de NVIDIA GeForce GTX 980: Maxwell Mark 2".
^ a B C Ryan Smith. "Arquitectura Maxwell 2: Presentación de GM204 - Revisión de NVIDIA GeForce GTX 980: Maxwell Mark 2".
^ "Aquí hay otra razón por la que la GeForce GTX 970 es más lenta que la GTX 980". El informe técnico .
^ "Maxwell: la GPU CUDA más avanzada jamás creada". Paralelo Forall . 19 de septiembre de 2014.
^ Geoffrey Tim (3 de diciembre de 2015). "La GTX970 de Nvidia tiene un error de asignación de memoria bastante grave". Lazygamer.net .
^ abcd Ryan Smith. "Profundizando más: la barra transversal de memoria de Maxwell 2 y las particiones ROP - GeForce GTX 970: corrección de las especificaciones y exploración de la asignación de memoria".
^ Smith, Ryan (17 de marzo de 2015). "Revisión de NVIDIA GeForce GTX Titan X". AnandTech . pag. 2 . Consultado el 6 de diciembre de 2015 . ...ínfima tasa nativa de FP64 de sólo 1/32
^ ab "NVIDIA actualiza la hoja de ruta de GPU; anuncia Pascal". El blog oficial de NVIDIA .