High Bandwidth Memory ( HBM ) es una interfaz de memoria de computadora para memoria de acceso aleatorio dinámico sincrónico apilado en 3D (SDRAM) inicialmente de Samsung , AMD y SK Hynix . Se utiliza junto con aceleradores de gráficos de alto rendimiento, dispositivos de red, ASIC de IA de centros de datos de alto rendimiento , como caché en paquete en CPU [1] y RAM en paquete en CPU futuras, y FPGA y en algunas supercomputadoras (como NEC SX-Aurora TSUBASA y Fujitsu A64FX ). [2] El primer chip de memoria HBM fue producido por SK Hynix en 2013, [3] y los primeros dispositivos en usar HBM fueron las GPU AMD Fiji en 2015. [4] [5]
HBM fue adoptado por JEDEC como estándar de la industria en octubre de 2013. [6] La segunda generación, HBM2 , fue aceptada por JEDEC en enero de 2016. [7] JEDEC anunció oficialmente el estándar HBM3 el 27 de enero de 2022. [8]
HBM logra un mayor ancho de banda que DDR4 o GDDR5 mientras usa menos energía y en un factor de forma sustancialmente más pequeño. [9] Esto se logra apilando hasta ocho matrices DRAM y una matriz base opcional que puede incluir circuitos de búfer y lógica de prueba. [10] La pila a menudo se conecta al controlador de memoria en una GPU o CPU a través de un sustrato, como un intercalador de silicio . [11] [12] Alternativamente, la matriz de memoria podría apilarse directamente en la CPU o chip de GPU. Dentro de la pila, las matrices están interconectadas verticalmente mediante vías a través de silicio (TSV) y microbumps . La tecnología HBM es similar en principio pero incompatible con la interfaz Hybrid Memory Cube (HMC) desarrollada por Micron Technology . [13]
El bus de memoria HBM es muy amplio en comparación con otras memorias DRAM como DDR4 o GDDR5. Una pila HBM de cuatro chips DRAM (4-Hi) tiene dos canales de 128 bits por chip, lo que da un total de 8 canales y un ancho de 1024 bits en total. Por lo tanto, una tarjeta gráfica/GPU con cuatro pilas HBM de 4-Hi tendría un bus de memoria con un ancho de 4096 bits. En comparación, el ancho de bus de las memorias GDDR es de 32 bits, con 16 canales para una tarjeta gráfica con una interfaz de memoria de 512 bits. [14] HBM admite hasta 4 GB por paquete.
El mayor número de conexiones a la memoria, en relación con DDR4 o GDDR5, requirió un nuevo método para conectar la memoria HBM a la GPU (u otro procesador). [15] AMD y Nvidia han utilizado chips de silicio especialmente diseñados, llamados interposers , para conectar la memoria y la GPU. Este interposer tiene la ventaja adicional de requerir que la memoria y el procesador estén físicamente cerca, lo que disminuye las rutas de memoria. Sin embargo, como la fabricación de dispositivos semiconductores es significativamente más cara que la fabricación de placas de circuito impreso , esto agrega costo al producto final.
La memoria DRAM HBM está estrechamente acoplada a la matriz de cómputo del host con una interfaz distribuida. La interfaz está dividida en canales independientes. Los canales son completamente independientes entre sí y no necesariamente sincrónicos entre sí. La memoria DRAM HBM utiliza una arquitectura de interfaz amplia para lograr un funcionamiento de alta velocidad y bajo consumo. La memoria DRAM HBM utiliza un reloj diferencial de 500 MHz CK_t / CK_c (donde el sufijo "_t" denota el componente "verdadero" o "positivo" del par diferencial, y "_c" representa el "complementario"). Los comandos se registran en el flanco ascendente de CK_t, CK_c. Cada interfaz de canal mantiene un bus de datos de 128 bits que funciona a doble velocidad de datos (DDR). HBM admite velocidades de transferencia de 1 GT/s por pin (transfiriendo 1 bit), lo que produce un ancho de banda de paquete general de 128 GB/s. [16]
La segunda generación de memoria de alto ancho de banda, HBM2, también especifica hasta ocho chips por pila y duplica las tasas de transferencia de pines hasta 2 GT/s . Manteniendo un acceso de 1024 bits de ancho, HBM2 puede alcanzar un ancho de banda de memoria de 256 GB/s por paquete. La especificación HBM2 permite hasta 8 GB por paquete. Se prevé que HBM2 sea especialmente útil para aplicaciones de consumo sensibles al rendimiento, como la realidad virtual . [17]
El 19 de enero de 2016, Samsung anunció la producción en masa temprana de HBM2, con hasta 8 GB por pila. [18] [19] SK Hynix también anunció la disponibilidad de pilas de 4 GB en agosto de 2016. [20]
A fines de 2018, JEDEC anunció una actualización de la especificación HBM2, que ofrece un mayor ancho de banda y capacidades. [21] La especificación oficial ahora admite hasta 307 GB/s por pila (velocidad de datos efectiva de 2,5 Tbit/s), aunque ya había productos que funcionaban a esta velocidad. Además, la actualización agregó compatibilidad con pilas de 12 Hi (12 matrices), lo que hace posible capacidades de hasta 24 GB por pila.
El 20 de marzo de 2019, Samsung anunció su Flashbolt HBM2E, con ocho matrices por pila, una tasa de transferencia de 3,2 GT/s , lo que proporciona un total de 16 GB y 410 GB/s por pila. [22]
El 12 de agosto de 2019, SK Hynix anunció su HBM2E, con ocho matrices por pila, una tasa de transferencia de 3,6 GT/s , lo que proporciona un total de 16 GB y 460 GB/s por pila. [23] [24] El 2 de julio de 2020, SK Hynix anunció que había comenzado la producción en masa. [25]
A finales de 2020, Micron anunció que se actualizaría el estándar HBM2E y, junto con ello, presentó el siguiente estándar, conocido como HBMnext (que más tarde pasó a llamarse HBM3). Se trataba de un gran salto generacional con respecto a HBM2 y el reemplazo de HBM2E. Esta nueva VRAM habría llegado al mercado en el cuarto trimestre de 2022. Probablemente, introduciría una nueva arquitectura, como sugiere el nombre.
Si bien la arquitectura podría haber sido revisada, las filtraciones indican que el rendimiento será similar al del estándar HBM2E actualizado. Es probable que esta RAM se use principalmente en GPU de centros de datos . [26] [27] [28] [29]
A mediados de 2021, SK Hynix dio a conocer algunas especificaciones del estándar HBM3, con velocidades de E/S de 5,2 Gbit/s y un ancho de banda de 665 GB/s por paquete, así como soluciones 2.5D y 3D de hasta 16 niveles. [30] [31]
El 20 de octubre de 2021, antes de que se finalizara el estándar JEDEC para HBM3, SK Hynix fue el primer proveedor de memoria en anunciar que había finalizado el desarrollo de dispositivos de memoria HBM3. Según SK Hynix, la memoria funcionaría a una velocidad de hasta 6,4 Gbps/pin, el doble de la velocidad de datos del estándar JEDEC HBM2E, que formalmente alcanza un máximo de 3,2 Gbps/pin, o un 78 % más rápido que el propio HBM2E de 3,6 Gbps/pin de SK Hynix. Los dispositivos admiten una velocidad de transferencia de datos de 6,4 Gbit/s y, por lo tanto, una sola pila HBM3 puede proporcionar un ancho de banda de hasta 819 GB/s. Los anchos de bus básicos para HBM3 permanecen sin cambios, y una sola pila de memoria tiene un ancho de 1024 bits. SK Hynix ofrecería su memoria en dos capacidades: 16 GB y 24 GB, alineándose con las pilas de 8-Hi y 12-Hi respectivamente. Las pilas constan de 8 o 12 DRAM de 16 Gb, cada una de ellas de 30 μm de espesor e interconectadas mediante vías de silicio (TSV). [32] [33] [34]
Según Ryan Smith de AnandTech , la memoria HBM3 de primera generación de SK Hynix tiene la misma densidad que su memoria HBM2E de última generación, lo que significa que los proveedores de dispositivos que buscan aumentar sus capacidades de memoria total para sus piezas de próxima generación necesitarían usar memoria con 12 matrices/capas, en comparación con las pilas de 8 capas que solían usar hasta entonces. [32] Según Anton Shilov de Tom's Hardware , las GPU o FPGA de cómputo de alto rendimiento suelen utilizar cuatro o seis pilas HBM, por lo que con las pilas HBM3 de 24 GB de SK Hynix obtendrían 3,2 TB/s o 4,9 TB/s de ancho de banda de memoria. También señaló que los chips HBM3 de SK Hynix son cuadrados, no rectangulares como los chips HBM2 y HBM2E. [33] Según Chris Mellor de The Register , dado que JEDEC aún no ha desarrollado su estándar HBM3, podría significar que SK Hynix necesitaría adaptar su diseño a uno futuro y más rápido. [34]
El 27 de enero de 2022, JEDEC anunció oficialmente el estándar HBM3. [8] La cantidad de canales de memoria se duplicó de 8 canales de 128 bits con HBM2e a 16 canales de 64 bits con HBM3. Por lo tanto, la cantidad total de pines de datos de la interfaz sigue siendo 1024. [35]
En junio de 2022, SK Hynix anunció que había iniciado la producción en masa de la primera memoria HBM3 de la industria que se utilizará con la GPU H100 de Nvidia, cuyo lanzamiento está previsto para el tercer trimestre de 2022. La memoria proporcionará a la H100 "hasta 819 GB/s" de ancho de banda de memoria. [36]
En agosto de 2022, Nvidia anunció que su GPU "Hopper" H100 se enviará con cinco sitios HBM3 activos (de los seis a bordo) que ofrecen 80 GB de RAM y 3 TB/s de ancho de banda de memoria (16 GB y 600 GB/s por sitio). [37]
El 30 de mayo de 2023, SK Hynix presentó su memoria HBM3E con una velocidad de procesamiento de datos de 8 Gbps/pin (un 25 % más rápida que HBM3), que entrará en producción en la primera mitad de 2024. [38] A 8 GT/s con un bus de 1024 bits, su ancho de banda por pila aumenta de 819,2 GB/s como en HBM3 a 1 TB/s.
El 26 de julio de 2023, Micron anunció su memoria HBM3E con una velocidad de procesamiento de datos de 9,6 Gbps/pin (un 50 % más rápida que la HBM3). [39] La memoria HBM3E de Micron es una HBM de alto rendimiento que utiliza tecnología de proceso DRAM 1β y un empaquetado avanzado para lograr el mayor rendimiento, capacidad y eficiencia energética de la industria. Puede almacenar 24 GB por cubo de 8 de alto y permite la transferencia de datos a 1,2 TB/s. Habrá un cubo de 12 de alto con una capacidad de 36 GB en 2024.
En agosto de 2023, Nvidia anunció una nueva versión de su superchip GH200 Grace Hopper que utiliza 141 GB (144 GiB físicos) de HBM3e sobre un bus de 6144 bits, lo que proporciona un ancho de banda de memoria un 50 % mayor y una capacidad de memoria un 75 % mayor que la versión HBM3. [40]
En mayo de 2023, Samsung anunció HBM3P con hasta 7,2 Gbps que entrará en producción en 2024. [41]
El 20 de octubre de 2023, Samsung anunció su HBM3E "Shinebolt" con una memoria de hasta 9,8 Gbps. [42]
El 26 de febrero de 2024, Micron anunció la producción en masa de la memoria HBM3E de Micron. [43]
El 18 de marzo de 2024, Nvidia anunció la serie Blackwell de GPU que utilizan memoria HBM3E [44]
El 19 de marzo de 2024, SK Hynix anunció la producción en masa de la memoria HBM3E de SK Hynix. [45]
En febrero de 2021, Samsung anunció el desarrollo de HBM con procesamiento en memoria (PIM). Esta nueva memoria incorpora capacidades de computación de IA dentro de la memoria, para aumentar el procesamiento de datos a gran escala. Un motor de IA optimizado para DRAM se coloca dentro de cada banco de memoria para permitir el procesamiento paralelo y minimizar el movimiento de datos. Samsung afirma que esto ofrecerá el doble de rendimiento del sistema y reducirá el consumo de energía en más del 70%, sin requerir ningún cambio de hardware o software en el resto del sistema. [46]
La memoria apilada en matrices se comercializó inicialmente en la industria de la memoria flash . Toshiba presentó un chip de memoria flash NAND con ocho matrices apiladas en abril de 2007, [47] seguido por Hynix Semiconductor que presentó un chip flash NAND con 24 matrices apiladas en septiembre de 2007. [48]
La memoria de acceso aleatorio (RAM) apilada en 3D que utiliza tecnología a través de silicio (TSV) fue comercializada por Elpida Memory , que desarrolló el primer chip DRAM de 8 GB (apilado con cuatro matrices SDRAM DDR3 ) en septiembre de 2009 y lo lanzó en junio de 2011. En 2011, SK Hynix presentó una memoria DDR3 de 16 GB ( clase de 40 nm ) utilizando tecnología TSV, [3] Samsung Electronics presentó una DDR3 apilada en 3D de 32 GB ( clase de 30 nm ) basada en TSV en septiembre, y luego Samsung y Micron Technology anunciaron la tecnología Hybrid Memory Cube (HMC) basada en TSV en octubre. [49]
En diciembre de 2011, después de varios años de trabajo, JEDEC lanzó por primera vez el estándar JESD229 para memoria Wide IO, [50] el predecesor de HBM con cuatro canales de 128 bits con una frecuencia de reloj de datos única. El primer estándar HBM, JESD235, se publicó en octubre de 2013.
El desarrollo de la memoria de alto ancho de banda comenzó en AMD en 2008 para resolver el problema del uso cada vez mayor de energía y el factor de forma de la memoria de la computadora. Durante los siguientes años, AMD desarrolló procedimientos para resolver problemas de apilamiento de matrices con un equipo dirigido por Bryan Black, miembro senior de AMD. [51] Para ayudar a AMD a hacer realidad su visión de HBM, reclutaron socios de la industria de la memoria, en particular la empresa coreana SK Hynix , [51] que tenía experiencia previa con memoria apilada en 3D, [3] [48] así como socios de la industria de interposers (la empresa taiwanesa UMC ) y la industria del empaquetado ( Amkor Technology y ASE ). [51]
El desarrollo de HBM se completó en 2013, cuando SK Hynix construyó el primer chip de memoria HBM. [3] HBM fue adoptado como estándar industrial JESD235 por JEDEC en octubre de 2013, luego de una propuesta de AMD y SK Hynix en 2010. [6] La fabricación en gran volumen comenzó en una instalación de Hynix en Icheon , Corea del Sur, en 2015.
La primera GPU que utilizó HBM fue la AMD Fiji, que se lanzó en junio de 2015 y que impulsa la AMD Radeon R9 Fury X. [4] [52] [53]
En enero de 2016, Samsung Electronics comenzó la producción en masa temprana de HBM2. [18] [19] El mismo mes, HBM2 fue aceptado por JEDEC como estándar JESD235a. [7] El primer chip GPU que utiliza HBM2 es el Nvidia Tesla P100, que se anunció oficialmente en abril de 2016. [54] [55]
En junio de 2016, Intel lanzó una familia de procesadores Xeon Phi con 8 pilas de HCDRAM, la versión de Micron de HBM. En Hot Chips en agosto de 2016, tanto Samsung como Hynix anunciaron una nueva generación de tecnologías de memoria HBM. [56] [57] Ambas compañías anunciaron productos de alto rendimiento que se espera que tengan mayor densidad, mayor ancho de banda y menor consumo de energía. Samsung también anunció una versión de menor costo de HBM en desarrollo dirigida a los mercados masivos. Quitar el buffer die y disminuir la cantidad de TSV reduce el costo, aunque a expensas de un ancho de banda general reducido (200 GB/s).
Nvidia anunció la GPU Nvidia Hopper H100, la primera GPU del mundo que utiliza HBM3 el 22 de marzo de 2022. [58]
Nvidia adoptará la variante de memoria de alto ancho de banda (HBM) de DRAM apilada que fue desarrollada por AMD y Hynix