Maxwell es el nombre en clave de una microarquitectura GPU desarrollada por Nvidia como sucesora de la microarquitectura Kepler . La arquitectura Maxwell se introdujo en modelos posteriores de la serie GeForce 700 y también se utiliza en las series GeForce 800M , GeForce 900 y Quadro Mxxx, así como en algunos productos Jetson .
Los primeros productos basados en Maxwell fueron la GeForce GTX 745 (OEM), la GeForce GTX 750 y la GeForce GTX 750 Ti. Ambos fueron lanzados el 18 de febrero de 2014, ambos con el número de código de chip GM107. Las GPU anteriores de la serie GeForce 700 utilizaban chips Kepler con los números de código GK1xx. Las GPU Maxwell de primera generación (números de código GM10x) también se utilizan en las series GeForce 800M y Quadro Kxxx. El 18 de septiembre de 2014 se presentó una segunda generación de productos basados en Maxwell con GeForce GTX 970 y GeForce GTX 980, seguida por la GeForce GTX 960 el 22 de enero de 2015, la GeForce GTX Titan X el 17 de marzo de 2015 y la GeForce GTX 980 Ti el 1 de junio de 2015. La última y más baja tarjeta Maxwell 2.0 fue la GTX950 lanzada el 20 de agosto de 2015. Estas GPU tienen números de código de chip GM20x.
Maxwell presentó un diseño mejorado de Streaming Multiprocessor (SM) que aumentó la eficiencia energética, [1] PureVideo HD de sexta y séptima generación y CUDA Compute Capability 5.2.
La arquitectura lleva el nombre de James Clerk Maxwell , el fundador de la teoría de la radiación electromagnética.
La arquitectura Maxwell se utiliza en el sistema en un chip (SOC), procesador de aplicaciones móviles, Tegra X1 .
Las GPU Maxwell de primera generación (GM107/GM108) se lanzaron como GeForce GTX 745, GTX 750/750 Ti, GTX 850M/860M (GM107) y GeForce 830M/840M (GM108). Estos nuevos chips introdujeron pocas características adicionales orientadas al consumidor, ya que Nvidia se centró más en aumentar la eficiencia energética de la GPU. La caché L2 aumentó de 256 KiB en Kepler a 2 MiB en Maxwell, lo que redujo la necesidad de más ancho de banda de memoria. En consecuencia, el bus de memoria se redujo de 192 bits en Kepler (GK106) a 128 bits, reduciendo el área del troquel, el costo y el consumo de energía. [2]
El diseño del multiprocesador de transmisión "SMX" de Kepler también fue reestructurado y particionado, pasando a llamarse "SMM" para Maxwell. La estructura del programador warp se heredó de Kepler, con las unidades de textura y los núcleos CUDA FP64 aún compartidos, pero el diseño de la mayoría de las unidades de ejecución se dividió de modo que cada programador warp en un SMM controle un conjunto de 32 núcleos CUDA FP32, un conjunto de 8 unidades de carga/almacenamiento y un conjunto de 8 unidades de funciones especiales. Esto contrasta con Kepler, donde cada SMX tenía 4 programadores que programaban un grupo compartido de unidades de ejecución. [3] Este último requirió una barra transversal de SMX que usaba energía innecesaria para permitir que todas las unidades de ejecución fueran compartidas. [3] Por el contrario, el diseño más modular de Maxwell permite una asignación de recursos más detallada y más eficiente, ahorrando energía cuando la carga de trabajo no es óptima para los recursos compartidos. Nvidia afirma que un SMM de 128 núcleos CUDA tiene el 90% del rendimiento de un SMX de 192 núcleos CUDA, mientras que la eficiencia aumenta en un factor de 2. [2] Además, cada clúster de procesamiento de gráficos, o GPC, contiene hasta 4 unidades SMX en Kepler, y hasta 5 unidades SMM en Maxwell de primera generación. [2]
GM107 también admite CUDA Compute Capability 5.0 en comparación con 3.5 en las GPU GK110/GK208 y 3.0 en las GPU GK10x. El paralelismo dinámico y HyperQ, dos funciones de las GPU GK110/GK208, también son compatibles con toda la línea de productos Maxwell. Maxwell también proporciona operaciones atómicas de memoria compartida nativa para enteros de 32 bits y comparación e intercambio (CAS) de memoria compartida nativa de 32 y 64 bits, que se pueden utilizar para implementar otras funciones atómicas.
El codificador de vídeo de Nvidia, NVENC, se actualizó para que sea entre 1,5 y 2 veces más rápido que las GPU basadas en Kepler, lo que significa que puede codificar vídeo a una velocidad de reproducción de seis a ocho veces. [2] Nvidia también afirma un aumento de rendimiento de ocho a diez veces en la decodificación de video PureVideo Feature Set E debido al caché del decodificador de video, junto con aumentos en la eficiencia de la memoria. Sin embargo, H.265 no es compatible con la decodificación completa de hardware en las GPU Maxwell de primera generación, ya que depende de una combinación de decodificación de hardware y decodificación de software (decodificación de CPU). [2] Al decodificar vídeo, se utiliza un nuevo estado de bajo consumo "GC5" en las GPU Maxwell para conservar energía. [2]
Se pensaba que las GPU Maxwell utilizaban renderizado basado en mosaicos , [4] pero en realidad utilizan almacenamiento en caché en mosaico. [5]
Desde Maxwell de primera generación, el protocolo de salida de gráficos UEFI es totalmente compatible con las GPU NVIDIA.
Las GPU Maxwell de segunda generación introdujeron varias tecnologías nuevas: Superresolución dinámica, [6] Compresión de color Delta de tercera generación, [7] Muestreo de programación multipíxel, [8] Nvidia VXGI ( Iluminación global de Voxel en tiempo real ), [9] VR Direct, [9] [10] [11] Aceleración de proyección múltiple, [7] Anti-Aliasing de muestreo de fotogramas múltiples (MFAA) [12] (sin embargo, se eliminó el soporte para Anti-Aliasing de muestreo de cobertura (CSAA)) , [13] y API Direct3D12 en el nivel de función 12_1. También se agregó compatibilidad con HDMI 2.0. [14] [15]
La proporción de ROP a controlador de memoria se cambió de 8:1 a 16:1. [16] Sin embargo, algunos de los ROP generalmente están inactivos en la GTX 970 porque no hay suficientes SMM habilitados para darles trabajo, lo que reduce su tasa de llenado máxima. [17]
El motor Polymorph responsable de la teselación se actualizó a la versión 3.0 en las GPU Maxwell de segunda generación, lo que resultó en un rendimiento de teselación mejorado por unidad/reloj.
Maxwell de segunda generación también tiene hasta 4 unidades SMM por GPC, en comparación con 5 unidades SMM por GPC. [dieciséis]
GM204 admite CUDA Compute Capability 5.2 (en comparación con 5.0 en las GPU GM107/GM108, 3.5 en las GPU GK110/GK208 y 3.0 en las GPU GK10x). [7] [16] [18]
Las GPU GM20x tienen un NVENC actualizado que admite la codificación HEVC y agrega compatibilidad con resoluciones de codificación H.264 a 1440p/60 FPS y 4K/60 FPS (en comparación con NVENC en las GPU GM10x de primera generación de Maxwell que solo admitían la codificación H.264 1080p/60 FPS). [11]
Después de las quejas de los consumidores, [19] Nvidia reveló que es capaz de desactivar unidades individuales, cada una de las cuales contiene 256 KB de caché L2 y 8 ROP, sin desactivar controladores de memoria completos. [20] Esto tiene el costo de dividir el bus de memoria en segmentos de alta y baja velocidad a los que no se puede acceder al mismo tiempo para lecturas, porque la unidad L2/ROP que administra ambos controladores GDDR5 comparte el canal de retorno de lectura y el Escribe el bus de datos entre los controladores GDDR5. Esto hace que sea imposible la lectura simultánea desde ambos controladores GDDR5 o la escritura simultánea en ambos controladores GDDR5. [20] Esto se utiliza en la GeForce GTX 970, que por lo tanto puede describirse con 3,5 GB en un segmento de alta velocidad en un bus de 224 bits y 512 MB en un segmento de baja velocidad en un bus de 32 bits. [20] La velocidad máxima de una GPU de este tipo aún se puede alcanzar, pero la cifra de velocidad máxima solo se puede alcanzar si un segmento ejecuta una operación de lectura mientras el otro segmento ejecuta una operación de escritura. [20]
La potencia teórica de procesamiento de precisión simple de una GPU Maxwell en FLOPS se calcula como 2 (operaciones por instrucción FMA por núcleo CUDA por ciclo) × número de núcleos CUDA × velocidad de reloj del núcleo (en Hz).
La potencia teórica de procesamiento de doble precisión de una GPU Maxwell es 1/32 del rendimiento de precisión simple (que se considera muy bajo en comparación con el Kepler de la generación anterior ). [21]
El sucesor de Maxwell lleva el nombre en código Pascal . [22] La arquitectura Pascal presenta memoria unificada de mayor ancho de banda y NVLink . [22]
{{cite web}}
: Mantenimiento CS1: copia archivada como título ( enlace )...ínfima tasa nativa de FP64 de sólo 1/32