AMD Bulldozer Family 15h es una microarquitectura de microprocesador para la línea de procesadores FX y Opteron , desarrollada por AMD para los mercados de escritorio y servidores. [1] [2] Bulldozer es el nombre en clave de esta familia de microarquitecturas. Fue lanzado el 12 de octubre de 2011 como sucesor de la microarquitectura K10 .
Bulldozer está diseñado desde cero, no es un desarrollo de procesadores anteriores. [3] El núcleo está dirigido específicamente a productos informáticos con TDP de 10 a 125 vatios . AMD afirma mejoras espectaculares en la eficiencia del rendimiento por vatio en aplicaciones de informática de alto rendimiento (HPC) con núcleos Bulldozer.
Los núcleos Bulldozer admiten la mayoría de los conjuntos de instrucciones implementados por los procesadores Intel ( Sandy Bridge ) disponibles en su lanzamiento (incluidos SSSE3 , SSE4.1 , SSE4.2 , AES , CLMUL y AVX ), así como los nuevos conjuntos de instrucciones propuestos por AMD; ABM , XOP , FMA4 y F16C . [4] [5] Solo Bulldozer GEN4 ( Excavadora ) admite conjuntos de instrucciones AVX2 .
Según AMD, las CPU basadas en Bulldozer se basan en la tecnología de proceso de silicio sobre aislante (SOI) de 32 nm de GlobalFoundries y reutilizan el enfoque de DEC para el rendimiento de la computadora multitarea con el argumento de que, según notas de prensa, "equilibra la computadora dedicada y compartida recursos para proporcionar un diseño altamente compacto y con un alto número de unidades que se pueda replicar fácilmente en un chip para escalar el rendimiento". [6] En otras palabras, al eliminar algunos de los elementos "redundantes" que naturalmente se introducen en los diseños multinúcleo, AMD esperaba aprovechar mejor sus capacidades de hardware, mientras usaba menos energía.
Las implementaciones basadas en Bulldozer construidas en SOI de 32 nm con HKMG llegaron en octubre de 2011 tanto para servidores como para computadoras de escritorio. El segmento de servidores incluía el procesador Opteron de doble chip (16 núcleos) con nombre en código Interlagos (para Socket G34 ) y el chip único (4, 6 u 8 núcleos) Valencia (para Socket C32 ), mientras que el Zambezi (4, 6 y 8 núcleos) escritorios específicos en Socket AM3+ . [7] [8]
Bulldozer es el primer rediseño importante de la arquitectura del procesador de AMD desde 2003, cuando la empresa lanzó sus procesadores K8, y también presenta dos FPU con capacidad FMA de 128 bits que se pueden combinar en una FPU de 256 bits. Este diseño va acompañado de dos grupos de enteros, cada uno con 4 canales (la etapa de recuperación/decodificación es compartida). Bulldozer también introdujo la caché L2 compartida en la nueva arquitectura. AMD llama a este diseño "Módulo". Un diseño de procesador de 16 núcleos incluiría ocho de estos "módulos", [9] pero el sistema operativo reconocerá cada "módulo" como dos núcleos lógicos.
La arquitectura modular consta de caché L2 compartida multiproceso y FlexFPU, que utiliza subprocesos múltiples simultáneos . Cada núcleo físico entero, dos por módulo, es de un solo subproceso, en contraste con el Hyperthreading de Intel , donde dos subprocesos virtuales simultáneos comparten los recursos de un único núcleo físico. [10] [11]
En una revisión retrospectiva, Jeremy Laird de la revista APC comentó sobre los problemas de Bulldozer, señaló que era más lento que el diseño saliente del Phenom II K10 y que el ecosistema de software para PC aún no había "adoptado" el modelo multiproceso. Según sus observaciones, los problemas provocaron grandes pérdidas para AMD, que la empresa perdió más de mil millones de dólares en 2012 y que algunos observadores de la industria predecían la quiebra a mediados de 2015. Posteriormente, la empresa logró volver a obtener beneficios. Las razones mencionadas para recuperar la rentabilidad fueron la desinversión anterior de la fabricación interna en GlobalFoundries y luego la subcontratación de la fabricación a TSMC y la creación de un nuevo diseño de CPU Ryzen . [12]
Bulldozer hizo uso de "Clustered Multithreading" (CMT), una técnica en la que algunas partes del procesador se comparten entre dos subprocesos y algunas partes son únicas para cada subproceso. Ejemplos anteriores de este enfoque de subprocesos múltiples no convencionales se remontan a la CPU UltraSPARC T1 de Sun Microsystems de 2005 . En términos de complejidad y funcionalidad de hardware, un módulo Bulldozer CMT es igual a un procesador de doble núcleo en sus capacidades de cálculo de números enteros, y a un procesador de un solo núcleo o a un procesador de doble núcleo con desventajas en términos de potencia computacional de punto flotante, dependiendo de si el código está saturado en instrucciones de punto flotante en ambos subprocesos que se ejecutan en el mismo módulo CMT y si la FPU está realizando operaciones de punto flotante de 128 o 256 bits. La razón de esto es que por cada dos núcleos enteros, es decir, dentro de un mismo módulo, existe una única unidad de punto flotante formada por un par de unidades de ejecución FMAC de 128 bits .
CMT es de alguna manera una filosofía de diseño más simple pero similar a SMT ; ambos diseños intentan utilizar unidades de ejecución de manera eficiente; En cualquier método, cuando dos subprocesos compiten por algunos canales de ejecución, hay una pérdida de rendimiento en uno o más de los subprocesos. Debido a los núcleos enteros dedicados, los módulos de la familia Bulldozer funcionaron aproximadamente como un procesador de doble núcleo y doble subproceso durante las secciones de código que eran completamente enteras o una combinación de cálculos de números enteros y de punto flotante; sin embargo, debido al uso SMT de canalizaciones de punto flotante compartidas, el módulo funcionaría de manera similar a un procesador SMT de un solo núcleo y doble subproceso (SMT2) para un par de subprocesos saturados con instrucciones de punto flotante. (Estas dos últimas comparaciones suponen que el procesador posee un núcleo de ejecución igualmente amplio y capaz, en términos de números enteros y de punto flotante, respectivamente).
Tanto CMT como SMT alcanzan su máxima eficacia cuando ejecutan código de punto flotante y entero en un par de subprocesos. CMT mantiene su máxima efectividad mientras trabaja en un par de subprocesos que consisten en código entero, mientras que bajo SMT, uno o ambos subprocesos tendrán un rendimiento inferior debido a la competencia por unidades de ejecución de enteros. La desventaja de CMT es una mayor cantidad de unidades de ejecución de enteros inactivas en un caso de un solo subproceso. En el caso de un solo subproceso, CMT está limitado a utilizar como máximo la mitad de las unidades de ejecución de números enteros en su módulo, mientras que SMT no impone tal límite. Un núcleo SMT grande con circuitos de números enteros tan anchos y rápidos como dos núcleos CMT podría, en teoría, tener momentáneamente hasta el doble de rendimiento de un número entero en un caso de un solo subproceso. (De manera más realista, para el código general en su conjunto, la regla de Pollack estima un factor de aceleración de , o aproximadamente un 40% de aumento en el rendimiento).
Los procesadores CMT y un procesador SMT típico son similares en su uso compartido eficiente de la caché L2 entre un par de subprocesos.
La tubería más larga permitió a la familia de procesadores Bulldozer alcanzar una frecuencia de reloj mucho más alta en comparación con sus predecesores K10. Si bien esto aumentó las frecuencias y el rendimiento, la tubería más larga también aumentó las latencias y aumentó las sanciones por mala predicción de las sucursales .
Los anchos de emisión (y las ejecuciones máximas de instrucciones por ciclo) de un núcleo Jaguar, K10 y Bulldozer son 2, 3 y 4 respectivamente. Esto convirtió al Bulldozer en un diseño más superescalar en comparación con Jaguar/Bobcat. Sin embargo, debido al núcleo algo más ancho del K10 (además de la falta de refinamientos y optimizaciones en un diseño de primera generación), la arquitectura Bulldozer generalmente funcionó con un IPC algo más bajo en comparación con sus predecesores K10. No fue hasta los refinamientos realizados en Piledriver y Steamroller que el IPC de la familia Bulldozer comenzó a superar claramente al de los procesadores K10 como el Phenom II.
Los primeros envíos rentables de procesadores Opteron basados en Bulldozer se anunciaron el 7 de septiembre de 2011. [32] Los FX-4100, FX-6100, FX-8120 y FX-8150 se lanzaron en octubre de 2011; y los procesadores AMD de la serie FX restantes se lanzaron a finales del primer trimestre de 2012.
Fuentes principales: CPU-World [33] y Xbit-Labs [34]
Existen dos series de procesadores para servidores basados en Bulldozer : la serie Opteron 4200 ( Socket C32 , de nombre clave Valencia, con hasta cuatro módulos) y la serie Opteron 6200 ( Socket G34 , de nombre clave Interlagos, con hasta 8 módulos). [35] [36]
En noviembre de 2015, AMD fue demandada en virtud de la Ley de Recursos Legales del Consumidor de California y la Ley de Competencia Desleal por supuestamente tergiversar las especificaciones de los chips Bulldozer. La demanda colectiva, presentada el 26 de octubre en el Tribunal de Distrito de EE. UU. para el Distrito Norte de California, afirma que cada módulo Bulldozer es, de hecho, un único núcleo de CPU con algunas características de doble núcleo, en lugar de un verdadero diseño de doble núcleo. . [37] En agosto de 2019, AMD acordó resolver la demanda por 12,1 millones de dólares. [38] [39]
El 24 de octubre de 2011, las pruebas de primera generación realizadas por Phoronix confirmaron que el rendimiento de la CPU Bulldozer era algo menor de lo esperado. [40] En varias pruebas, la CPU funcionó de manera similar al Phenom 1060T de la generación anterior.
Posteriormente, el rendimiento aumentó sustancialmente, a medida que se publicaron varias optimizaciones del compilador y correcciones del controlador de la CPU. [41] [42]
Las primeras CPU Bulldozer recibieron una respuesta mixta. Se descubrió que el FX-8150 tuvo un desempeño deficiente en pruebas comparativas que no tenían muchos subprocesos, quedando atrás de los procesadores de la serie Intel Core i* de segunda generación y siendo igualado o incluso superado por el propio Phenom II X6 de AMD a velocidades de reloj más bajas. En pruebas de referencia con muchos subprocesos, el FX-8150 funcionó a la par con el Phenom II X6 y el Intel Core i7 2600K , según la prueba de referencia. Dado el rendimiento general más consistente del Intel Core i5 2500K a un precio más bajo, estos resultados dejaron a muchos críticos decepcionados. Se descubrió que el procesador consumía mucha energía bajo carga, especialmente cuando estaba overclockeado, en comparación con el Sandy Bridge de Intel . [43] [44]
El 13 de octubre de 2011, AMD declaró en su blog que "hay algunos en nuestra comunidad que sienten que el rendimiento del producto no cumplió con sus expectativas", pero mostró puntos de referencia en aplicaciones reales en las que superó al Sandy Bridge i7 2600k y al AMD X6 1100T. [45]
En enero de 2012, Microsoft lanzó dos revisiones para Windows 7 y Server 2008 R2 que mejoran marginalmente el rendimiento de las CPU Bulldozer al abordar las preocupaciones sobre la programación de subprocesos que surgieron después del lanzamiento de Bulldozer. [46] [47] [48]
El 6 de marzo de 2012, AMD publicó un artículo en su base de conocimientos que indicaba que había un problema de compatibilidad con los procesadores FX y ciertos juegos en la plataforma de distribución de juegos digitales ampliamente utilizada, Steam . AMD declaró que había proporcionado una actualización de BIOS a varios fabricantes de placas base (a saber: Asus , Gigabyte Technology , MSI y ASRock ) que solucionaría el problema. [49]
En septiembre de 2014, el director ejecutivo de AMD, Rory Read, admitió que el diseño del Bulldozer no había sido una "parte revolucionaria" y que AMD tuvo que vivir con el diseño durante cuatro años. [50]
El 31 de agosto de 2011, AMD y un grupo de overclockers conocidos, incluidos Brian McLachlan, Sami Mäkinen, Aaron Schradin y Simon Solotko, lograron establecer un nuevo récord mundial de frecuencia de CPU utilizando el procesador Bulldozer FX-8150 inédito y overclockeado. Antes de ese día, el récord estaba en 8,309 GHz, pero el Bulldozer combinado con refrigeración por helio líquido alcanzó un nuevo máximo de 8,429 GHz. Desde entonces, Andre Yang superó el récord con 8,58 GHz utilizando nitrógeno líquido . [51] [52] El 22 de agosto de 2014 y utilizando un FX-8370 (Piledriver), The Stilt del equipo de Finlandia alcanzó una frecuencia máxima de CPU de 8,722 GHz. [53]
Los récords de frecuencia de reloj de la CPU establecidos por las CPU Bulldozer overclockeadas solo se batieron casi una década después por los overclocks de las CPU Core Raptor Lake de 13.a generación de Intel en octubre de 2022. [54]
Piledriver es el nombre en clave de AMD para su microarquitectura mejorada de segunda generación basada en Bulldozer .AMD Piledriver se encuentran en las series de APU y CPU basadas en Socket FM2 Trinity y Richland y en la serie de CPU FX basadas enSocket AM3+ Vishera . Piledriver fue la última generación de la familia Bulldozer que estuvo disponible para socket AM3+ y con caché L3. Los procesadores Piledriver disponibles para sockets FM2 (y su variante móvil) no venían con un caché L3, ya que el caché L2 es el caché de último nivel para todos los procesadores FM2/FM2+.
Steamroller es el nombre en clave de AMD para su microarquitectura de tercera generación basada en una versión mejorada de Piledriver . Los núcleos Steamroller se encuentran en laserie de APU y CPU basadas en Socket FM2+ Kaveri .
Excavator es el nombre en clave del núcleo Bulldozer de cuarta generación . [55] Excavator se implementó como APU de la serie A 'Carrizo', APU de la serie A "Bristol Ridge" y CPU Athlon x4. [56]
{{cite web}}
: Mantenimiento CS1: copia archivada como título ( enlace )