Larrabee (microarquitectura)

Larrabee es el nombre en clave de un chip GPGPU cancelado que Intel estaba desarrollando por separado de su línea actual de aceleradores gráficos integrados . Lleva el nombre del monte Larrabee o del parque estatal Larrabee en el estado de Washington. ^[1]^[2] El chip iba a lanzarse en 2010 como el núcleo de una tarjeta gráfica 3D de consumo , pero estos planes se cancelaron debido a retrasos y cifras de rendimiento iniciales decepcionantes. ^[3]^[4] El proyecto para producir un producto minorista GPU directamente del proyecto de investigación Larrabee finalizó en mayo de 2010 ^[5] y su tecnología se pasó al Xeon Phi . La arquitectura multiprocesador Intel MIC anunciada en 2010 heredó muchos elementos de diseño del proyecto Larrabee, pero no funciona como una unidad de procesamiento gráfico; el producto está pensado como un coprocesador para computación de alto rendimiento .

Casi una década después, el 12 de junio de 2018, la idea de una GPU dedicada de Intel revivió nuevamente con el deseo de Intel de crear una GPU discreta para 2020. ^[6] Este proyecto eventualmente se convertiría en las series Intel Xe e Intel Arc , lanzadas en septiembre de 2020 y marzo de 2022, respectivamente, pero ambas no estaban relacionadas con el trabajo en el proyecto Larrabee.

Estado del proyecto

El 4 de diciembre de 2009, Intel anunció oficialmente que la primera generación de Larrabee no se lanzaría como un producto GPU para el consumidor. ^[7] En cambio, se lanzaría como una plataforma de desarrollo para gráficos y computación de alto rendimiento . La razón oficial para el reinicio estratégico se atribuyó a retrasos en el desarrollo de hardware y software. ^[8] El 25 de mayo de 2010, el blog Technology@Intel anunció que Larrabee no se lanzaría como una GPU, sino que se lanzaría como un producto para computación de alto rendimiento que competiría con Nvidia Tesla . ^[9]

El proyecto de producir un producto GPU para la venta al por menor directamente a partir del proyecto de investigación Larrabee finalizó en mayo de 2010. ^[5] La arquitectura multiprocesador Intel MIC anunciada en 2010 heredó muchos elementos de diseño del proyecto Larrabee, pero no funciona como una unidad de procesamiento gráfico; el producto está pensado como un coprocesador para computación de alto rendimiento. La tarjeta prototipo se denominó Knights Ferry , y se planeó que una tarjeta de producción construida con un proceso de 22 nm denominada Knights Corner comenzara a producirse en 2012 o más adelante. ^{[ cita requerida ]}

Comparación con productos de la competencia

Larrabee puede considerarse un híbrido entre una CPU multinúcleo y una GPU , y tiene similitudes con ambas. Su jerarquía de caché coherente y su compatibilidad con la arquitectura x86 son similares a las de una CPU, mientras que sus unidades de vector SIMD amplias y su hardware de muestreo de texturas son similares a las de una GPU.

Como GPU, Larrabee habría admitido gráficos 3D rasterizados tradicionales ( Direct3D y OpenGL ) para juegos. Sin embargo, su hibridación de características de CPU y GPU también debería haber sido adecuada para tareas de procesamiento de flujo o GPU de propósito general (GPGPU) . Por ejemplo, podría haber realizado trazado de rayos o procesamiento de física , ^[10] en tiempo real para juegos o fuera de línea para investigación científica como un componente de una supercomputadora . ^[11]

La presentación temprana de Larrabee generó algunas críticas de los competidores de GPU. En NVISION 08 , un empleado de Nvidia calificó el artículo de SIGGRAPH de Intel sobre Larrabee como "una propaganda publicitaria" y citó a un analista de la industria (Peter Glaskowsky) que especuló que la arquitectura Larrabee era "como una GPU de 2006". ^[12] En junio de 2009, Intel afirmó que los prototipos de Larrabee estaban a la par con la Nvidia GeForce GTX 285. [ ^13] Justin Rattner , director de tecnología de Intel , dio una conferencia magistral en la conferencia Supercomputing 2009 el 17 de noviembre de 2009. Durante su charla, demostró un procesador Larrabee overclockeado que superaba un teraFLOPS en rendimiento. Afirmó que esta era la primera demostración pública de un sistema de un solo chip que superaba un teraFLOPS. Señaló que se trataba de silicio en sus inicios, lo que dejaba abierta la cuestión del rendimiento final de la arquitectura. Debido a que esto era solo una quinta parte de la cantidad de tarjetas gráficas disponibles en la competencia, Larrabee fue cancelada "como producto gráfico discreto independiente" el 4 de diciembre de 2009. ^[3]

Diferencias con las GPU actuales

Larrabee fue diseñada para diferenciarse de las GPU discretas más antiguas, como la serie GeForce 200 y la serie Radeon 4000, en tres aspectos principales:

Se trataba de utilizar el conjunto de instrucciones x86 con extensiones específicas de Larrabee. ^[14]
Debía ofrecer coherencia de caché en todos sus núcleos. ^[14]
Debía incluir muy poco hardware de gráficos especializado y, en su lugar, realizar tareas como almacenamiento en búfer z, recorte y combinación en software, utilizando un enfoque de renderizado basado en mosaicos . ^[14]

Se esperaba que esto hiciera que Larrabee fuera más flexible que las GPU actuales, permitiendo una mayor diferenciación en la apariencia entre juegos u otras aplicaciones 3D. El artículo SIGGRAPH 2008 de Intel mencionó varias características de renderizado que eran difíciles de lograr en las GPU actuales: lectura del objetivo de renderizado, transparencia independiente del orden , mapeo de sombras irregulares y trazado de rayos en tiempo real . ^[14]

Las GPU más recientes, como la Radeon HD 5xxx de ATI y la serie GeForce 400 de Nvidia, cuentan con capacidades informáticas de propósito general cada vez más amplias a través de DirectX11 DirectCompute y OpenCL, así como la tecnología CUDA patentada de Nvidia , lo que les otorga muchas de las capacidades de Larrabee.

Diferencias con las CPU

Los núcleos del procesador x86 de Larrabee se diferenciaban en varios aspectos de los núcleos de las CPU Intel actuales, como el Core 2 Duo o el Core i7 :

Sus núcleos x86 se basaron en el diseño mucho más simple del Pentium P54C , que aún se mantiene para su uso en aplicaciones integradas . ^[15] El núcleo derivado de P54C es superescalar pero no incluye ejecución fuera de orden , aunque se ha actualizado con características modernas como soporte x86-64 , ^[14] similar a la microarquitectura Bonnell utilizada en Atom . La ejecución en orden significa un menor rendimiento para los núcleos individuales, pero como son más pequeños, pueden caber más en un solo chip, lo que aumenta el rendimiento general. La ejecución también es más determinista, por lo que el compilador puede realizar la programación de instrucciones y tareas.
Cada núcleo contenía una unidad de procesamiento vectorial de 512 bits , capaz de procesar 16 números de punto flotante de precisión simple a la vez. Esta unidad es similar, pero cuatro veces más grande, a las unidades SSE de la mayoría de los procesadores x86, con características adicionales como instrucciones de dispersión/recolección y un registro de máscara diseñado para hacer que el uso de la unidad vectorial sea más fácil y eficiente. Larrabee debía obtener la mayor parte de su potencia de procesamiento numérico de estas unidades vectoriales. ^[14]
Incluía una importante característica de hardware gráfico de función fija : unidades de muestreo de texturas . Estas realizan filtrado trilineal y anisotrópico y descompresión de texturas . ^[14]
Tenía un bus de anillo de 1024 bits (512 bits en cada sentido) para la comunicación entre núcleos y hacia la memoria. ^[14] Este bus se puede configurar en dos modos para soportar productos Larrabee con 16 núcleos o más, o menos de 16 núcleos. ^[16]
Incluía instrucciones explícitas de control de caché para reducir el uso de caché durante operaciones de transmisión que solo leen/escriben datos una vez. ^[14] También se admite la precarga explícita en caché L2 o L1.
Cada núcleo admitía multiprocesamiento intercalado de cuatro vías, con cuatro copias de cada registro del procesador . ^[14]

En teoría, los núcleos de procesador x86 de Larrabee habrían podido ejecutar software de PC existente, o incluso sistemas operativos. Una versión diferente del procesador podría ubicarse en los zócalos de CPU de la placa base utilizando QuickPath , ^[17] pero Intel nunca anunció ningún plan para esto. Aunque el compilador C/C++ nativo de Larrabee incluía auto-vectorización y muchas aplicaciones pudieron ejecutarse correctamente después de haber sido recompiladas, se esperaba que la máxima eficiencia requiriera optimización de código utilizando intrínsecos vectoriales de C++ o código ensamblador Larrabee en línea. ^[14] Sin embargo, como en todas las GPGPU, no todo el software se habría beneficiado de la utilización de una unidad de procesamiento vectorial. Un sitio de periodismo tecnológico afirma que las capacidades gráficas de Larrabee estaban planeadas para integrarse en CPU basadas en la microarquitectura Haswell . ^[18]

Comparación con el motor de banda ancha Cell

La filosofía de Larrabee de utilizar muchos núcleos pequeños y simples era similar a las ideas detrás del procesador Cell . Hay algunas otras similitudes, como el uso de un bus de anillo de gran ancho de banda para comunicarse entre núcleos. ^[14] Sin embargo, había muchas diferencias significativas en la implementación que se esperaba que hicieran más sencilla la programación de Larrabee.

El procesador Cell incluye un procesador principal que controla muchos procesadores más pequeños. Además, el procesador principal puede ejecutar un sistema operativo. En cambio, todos los núcleos de Larrabee son iguales y no se esperaba que Larrabee pudiera ejecutar un sistema operativo.
Cada núcleo de computadora en la Celda ( SPE ) tiene un almacenamiento local, para el cual se utilizan operaciones explícitas ( DMA ) para todos los accesos a la DRAM. No se permiten lecturas y escrituras ordinarias en la DRAM. En Larrabee, todas las memorias en el chip y fuera del chip están bajo una jerarquía de caché coherente administrada automáticamente , de modo que sus núcleos comparten virtualmente un espacio de memoria uniforme a través de instrucciones de copia estándar ( MOV ). Cada núcleo Larrabee tenía 256 KB de caché L2 local, y un acceso que llega a otro segmento L2 tarda más en acceder. ^[14]
Debido a la coherencia de caché mencionada anteriormente, cada programa que se ejecutaba en Larrabee tenía virtualmente una gran memoria lineal, al igual que en una CPU de propósito general tradicional; mientras que una aplicación para Cell debería programarse teniendo en cuenta la huella de memoria limitada del almacén local asociado con cada SPE (para obtener más detalles, consulte este artículo ), pero con un ancho de banda teóricamente mayor. Sin embargo, dado que el acceso a L2 local es más rápido, aún se puede obtener una ventaja al utilizar métodos de programación de estilo Cell. ^{[ cita requerida ]}
Cell utiliza DMA para la transferencia de datos hacia y desde memorias locales en chip, lo que permite el mantenimiento explícito de superposiciones almacenadas en la memoria local para acercar la memoria al núcleo y reducir las latencias de acceso, pero requiere un esfuerzo adicional para mantener la coherencia con la memoria principal; mientras que Larrabee utilizó un caché coherente con instrucciones especiales para la manipulación del caché (en particular, sugerencias de desalojo de caché e instrucciones de precarga), lo que mitigó las penalizaciones por errores y desalojos y redujo la contaminación del caché (por ejemplo, para renderizar tuberías y otros cálculos similares a flujos) a costa de tráfico adicional y sobrecarga para mantener la coherencia del caché. ^[14]
Cada núcleo de cómputo de Cell ejecuta solo un subproceso a la vez, en orden. Un núcleo de Larrabee ejecutaba hasta cuatro subprocesos, pero solo uno a la vez. La hiperprocesación de Larrabee ayudó a ocultar las latencias inherentes a la ejecución en orden. ^{[ cita requerida ]}

Comparación con Intel GMA

Intel comenzó a integrar una línea de GPU en placas base bajo la marca Intel GMA en 2004. Al estar integrados en placas base (las versiones más nuevas, como las lanzadas con Sandy Bridge, se incorporan en la misma matriz que la CPU), estos chips no se vendían por separado. Aunque el bajo costo y el consumo de energía de los chips Intel GMA los hacían adecuados para portátiles pequeños y tareas menos exigentes, carecen de la potencia de procesamiento de gráficos 3D para competir con las GPU contemporáneas de Nvidia y AMD/ATI por una parte del mercado de computadoras para juegos de alta gama, el mercado de HPC o un lugar en las consolas de videojuegos populares . Por el contrario, Larrabee se vendería como una GPU discreta, separada de las placas base, y se esperaba que tuviera un rendimiento lo suficientemente bueno como para ser considerado en la próxima generación de consolas de videojuegos. ^[19]^[20]

El equipo que trabajó en Larrabee era independiente del equipo de Intel GMA. El hardware fue diseñado por un equipo recién formado en la planta de Intel en Hillsboro, Oregón , independiente de los que diseñaron Nehalem . El software y los controladores fueron escritos por un equipo recién formado. La pila 3D en particular fue escrita por desarrolladores de RAD Game Tools (incluido Michael Abrash ). ^[21]

El Intel Visual Computing Institute investigó tecnologías básicas y aplicadas que podrían aplicarse a los productos basados en Larrabee. ^[22]

Datos de rendimiento proyectados

El artículo SIGGRAPH 2008 de Intel describe simulaciones precisas de ciclo (se incluyeron limitaciones de memoria, cachés y unidades de textura) del rendimiento proyectado de Larrabee. ^[14] Los gráficos muestran cuántos núcleos Larrabee de 1 GHz se requieren para mantener 60 cuadros por segundo a una resolución de 1600×1200 en varios juegos populares. Se requieren aproximadamente 25 núcleos para Gears of War sin antialiasing, 25 núcleos para FEAR con antialiasing 4× y 10 núcleos para Half-Life 2: Episode Two con antialiasing 4×. Intel afirmó que Larrabee probablemente funcionaría más rápido que 1 GHz, por lo que estos números no representan núcleos reales, sino fragmentos de tiempo virtuales de los mismos. Otro gráfico muestra que el rendimiento en estos juegos escala casi linealmente con el número de núcleos hasta 32 núcleos. Con 48 núcleos, el rendimiento cae al 90% de lo que se esperaría si la relación lineal continuara. ^[23]

Un artículo de PC Watch de junio de 2007 sugería que los primeros chips Larrabee contarían con 32 núcleos de procesador x86 y saldrían al mercado a finales de 2009, fabricados con un proceso de 45 nanómetros . Los chips con algunos núcleos defectuosos debido a problemas de rendimiento se venderían como una versión de 24 núcleos. Más tarde, en 2010, Larrabee se reduciría para un proceso de fabricación de 32 nanómetros para permitir una versión de 48 núcleos. ^[24]

La última declaración de rendimiento se puede calcular (teóricamente, este es el rendimiento máximo posible) de la siguiente manera: 32 núcleos × 16 SIMD de punto flotante de precisión simple/núcleo × 2 FLOP (multiplicación-suma fusionada) × 2 GHz = 2 TFLOPS teóricamente.

Manifestaciones públicas

El 22 de septiembre de 2009, en el Intel Developer Forum de San Francisco, se llevó a cabo una demostración pública de las capacidades de trazado de rayos de Larrabee. Se mostró en tiempo real una versión experimental de Enemy Territory: Quake Wars , titulada Quake Wars: Ray Traced . La escena contenía una superficie de agua trazada por rayos que reflejaba con precisión los objetos circundantes, como un barco y varios vehículos voladores. ^[25]^[26]^[27]

El 17 de noviembre de 2009, durante una conferencia magistral a cargo del director de tecnología de Intel, Justin Rattner , se realizó una segunda demostración en la conferencia SC09 en Portland . Una tarjeta Larrabee logró alcanzar 1006 GFLops en el cálculo SGEMM 4Kx4K.

Linus Sebastian obtuvo y revisó una muestra de ingeniería de una tarjeta Larrabee en un video publicado el 14 de mayo de 2018. Sin embargo, no pudo hacer que la tarjeta emitiera una salida de video, ya que la placa base mostraba el código POST D6. ^[28] En 2022, el YouTuber Roman "der8auer" Hartung demostró otra tarjeta, que funcionó y emitió una señal de pantalla, pero no fue capaz de realizar una aceleración 3D debido a la falta de controladores. ^[29]

Véase también

Referencias

^ Forsyth, Tom (noviembre de 2019). «SMACNI a AVX512: el ciclo de vida de un conjunto de instrucciones» (PDF) . Consultado el 4 de julio de 2024 .
^ Forsyth, Tom (22 de diciembre de 2020). "Tom Forsyth sobre la denominación del conjunto de instrucciones Larrabee". Twitter.com . Archivado desde el original el 22 de diciembre de 2020 . Consultado el 22 de diciembre de 2020 .
^ ab Crothers, Brooke (4 de diciembre de 2009). "Intel: el chip gráfico Larrabee inicial ha sido cancelado". CNET . CBS Interactive .
^ Charlie Demerjian (4 de diciembre de 2009). "Intel elimina el Larrabee de consumo y se centra en futuras variantes - SemiAccurate". SemiAccurate.com . Consultado el 9 de abril de 2017 .
^ ab Smith, Ryan (25 de mayo de 2010). "Intel elimina la GPU Larrabee y no lanzará al mercado un producto con gráficos discretos". AnandTech .
^ Smith, Ryan (13 de junio de 2018). "La primera GPU discreta (moderna) de Intel llegará en 2020". Anandtech . Consultado el 4 de noviembre de 2018 .
^ Stokes, Jon (5 de diciembre de 2009). "La GPU Larrabee de Intel se congela; habrá más novedades en 2010". Ars Technica . Condé Nast .
^ Smith, Ryan. "Intel cancela los productos minoristas de Larrabee, el proyecto Larrabee sigue vivo". AnandTech.com . Consultado el 9 de abril de 2017 .
^ "Blogs@Intel - Blogs de Intel". Intel.com . Consultado el 9 de abril de 2017 .
^ Stokes, Jon (17 de septiembre de 2007). "Intel elige un motor de física para juegos para su próximo producto GPU". Ars Technica . Consultado el 17 de septiembre de 2007 .
^ Stokes, Jon (27 de abril de 2007). "Aclarando la confusión sobre Larrabee de Intel". Ars Technica . Consultado el 1 de junio de 2007 .
^ "La actuación de Larrabee, más allá de la frase". CNet.com . Consultado el 9 de abril de 2017 .
^ "La 'Larrabee' de Intel a la par con la GeForce GTX 285". TomsHardware.com . 2 de junio de 2009 . Consultado el 9 de abril de 2017 .
^ abcdefghijklmno Seiler, L.; Cavin, D.; Espasa, E.; Grochowski, T.; Juan, M.; Hanrahan, P.; Carmean, S.; Sprangle, A.; Forsyth, J.; Abrash, R.; Dubey, R.; Junkins, E.; Lake, T.; Sugerman, P. (agosto de 2008). "Larrabee: una arquitectura x86 de muchos núcleos para la computación visual" (PDF) . ACM Transactions on Graphics . Actas de ACM SIGGRAPH 2008. 27 (3): 18:11. doi :10.1145/1360612.1360617. ISSN 0730-0301. S2CID 52799248. Archivado desde el original (PDF) el 7 de marzo de 2021. Consultado el 6 de agosto de 2008 .
^ "La GPU Larrabee de Intel se basa en tecnología secreta del Pentágono, más o menos [Actualizado]". Ars Technica . 9 de julio de 2008 . Consultado el 6 de agosto de 2008 .
^ Glaskowsky, Peter. "Larrabee de Intel: más y menos de lo que parece". CNET . Consultado el 20 de agosto de 2008 .
^ Stokes, Jon (5 de junio de 2007). "Aclarando la confusión sobre Larrabee de Intel, parte II". Ars Technica . Consultado el 16 de enero de 2008 .
^ "Intel utilizará gráficos Larrabee en las CPU - SemiAccurate". SemiAccurate.com . 19 de agosto de 2009 . Consultado el 9 de abril de 2017 .
^ Chris Leyton (13 de agosto de 2008). «¿La Larrabee de Intel se perfila para las consolas de próxima generación?». Archivado desde el original el 17 de agosto de 2008. Consultado el 24 de agosto de 2008 .
↑ Charlie Demerjian (5 de febrero de 2009). «Intel diseñará una GPU para PlayStation 4». Archivado desde el original el 11 de mayo de 2009. Consultado el 28 de agosto de 2009 .{{cite web}}: CS1 maint: URL no apta ( enlace )
^ Wilson, Anand Lal Shimpi y Derek. "Revelación de la arquitectura Larrabee de Intel: un primer paso calculado". AnandTech.com . Consultado el 9 de abril de 2017 .
^ Ng, Jansen (13 de mayo de 2009). "Intel Visual Computing Institute Opens, Will Spur "Larrabee" Development". DailyTech . Archivado desde el original el 16 de mayo de 2009 . Consultado el 13 de mayo de 2009 .
^ Steve Seguin (20 de agosto de 2008). "Intel's 'Larrabee' to Shakeup [sic] AMD, Nvidia". Tom's Hardware . Consultado el 24 de agosto de 2008 .
^ "Intel está promocionando la CPU de 32 núcleos "Larrabee"" (en japonés). pc.watch.impress.co.jp . Consultado el 6 de agosto de 2008 .traducción
^ Geeks3D (12 de junio de 2008), Ray Traced Quake Wars, archivado del original el 17 de septiembre de 2021 , consultado el 7 de marzo de 2022{{citation}}: CS1 maint: nombres numéricos: lista de autores ( enlace )
^ "Light It Up! Quake Wars* recibe trazado de rayos" (PDF) . Archivado (PDF) del original el 15 de febrero de 2010 . Consultado el 7 de marzo de 2022 .
^ "Quake Wars: Ray Traced". 18 de agosto de 2008. Archivado desde el original el 19 de julio de 2011.
^ Linus Tech Tips (14 de mayo de 2018), ¡¡¡TENEMOS LA TARJETA GRÁFICA PROTOTIPO DE INTEL!!!, archivado del original el 21 de diciembre de 2021 , consultado el 10 de mayo de 2019
^ der8auer ES (2022-12-24), HW-Legends #13: Intel canceló este proyecto: la tarjeta más cara de mi colección (Larrabee), archivado del original el 2023-07-23 , consultado el 2023-07-23{{citation}}: CS1 maint: nombres numéricos: lista de autores ( enlace )

Enlaces externos

Vídeo de un trazador de rayos ejecutándose en una de las primeras tarjetas Larrabee en IDF '09
Documentos técnicos sobre LRBni, simulaciones físicas y más utilizando Larrabee
Rasterización en Larrabee
Un primer vistazo a las nuevas instrucciones de Larrabee (LRBni)
Implementación en C++ de las nuevas instrucciones de Larrabee
Rendimiento de la física del juego en Larrabee
Hoja informativa de Intel sobre Larrabee
Artículo de Intel sobre Larrabee en SIGGRAPH 2008
Techgage.com: analiza en qué se diferencia Larrabee de las GPU normales e incluye una ilustración del diagrama de bloques
La arquitectura Larrabee de Intel: un primer paso calculado