stringtranslate.com

Celda (procesador)

Cell es una microarquitectura de microprocesador multinúcleo de 64 bits que combina un núcleo PowerPC de uso general de rendimiento modesto con elementos de coprocesamiento optimizados [2] que aceleran enormemente las aplicaciones de procesamiento vectorial y multimedia , así como muchas otras formas de computación dedicada. [2]

Fue desarrollado por Sony , Toshiba e IBM , una alianza conocida como "STI". El diseño arquitectónico y la primera implementación se llevaron a cabo en el Centro de Diseño STI en Austin, Texas, durante un período de cuatro años que comenzó en marzo de 2001, con un presupuesto que, según Sony, se acercaba a los 400 millones de dólares . [3] Cell es la abreviatura de Cell Broadband Engine Architecture , comúnmente abreviado CBEA en su totalidad o Cell BE en parte.

La primera aplicación comercial importante de Cell fue en la consola de juegos PlayStation 3 de Sony , lanzada en 2006. En mayo de 2008, la supercomputadora IBM Roadrunner basada en Cell se convirtió en el primer sistema LINPACK 1.0 petaflops sostenido TOP500 . [4] [5] Mercury Computer Systems también desarrolló diseños basados ​​en Cell.

La arquitectura Cell incluye una arquitectura de coherencia de memoria que enfatiza la eficiencia energética, prioriza el ancho de banda sobre la baja latencia y favorece el rendimiento computacional máximo sobre la simplicidad del código del programa . Por estas razones, Cell es ampliamente considerado como un entorno desafiante para el desarrollo de software . [6] IBM proporciona una plataforma de desarrollo basada en Linux para ayudar a los desarrolladores a programar chips Cell. [7]

Historia

Cell BE tal y como aparece en la PS3 en la placa base
Peter Hofstee , uno de los principales arquitectos del microprocesador Cell
Michael Gschwind, uno de los principales arquitectos del microprocesador Cell

A mediados de 2000, Sony Computer Entertainment , Toshiba Corporation e IBM formaron una alianza conocida como "STI" para diseñar y fabricar el procesador. [8]

El Centro de Diseño STI abrió sus puertas en marzo de 2001. [9] La celda fue diseñada durante un período de cuatro años, utilizando versiones mejoradas de las herramientas de diseño para el procesador POWER4 . Más de 400 ingenieros de las tres empresas trabajaron juntos en Austin, con el apoyo fundamental de once de los centros de diseño de IBM. [9] Durante este período, IBM presentó muchas patentes relacionadas con la arquitectura Cell, el proceso de fabricación y el entorno de software. Se demostró que una de las primeras versiones de patente del motor de banda ancha era un paquete de chips que comprendía cuatro "elementos de procesamiento", que era la descripción de la patente para lo que ahora se conoce como elemento de procesamiento de energía (PPE). Cada elemento de procesamiento contendría 8 "elementos de procesamiento sinérgicos" (SPE) en el chip. Se suponía que este paquete de chips funcionaría a una velocidad de reloj de 4 GHz y con 32 SPE que proporcionaban 32  gigaFLOPS cada uno (un cuarto de precisión del FP8), el Broadband Engine debía tener 1 teraFLOPS de potencia informática bruta en teoría.

El diseño con 4 PPE y 32 SPE nunca se realizó. En cambio, Sony e IBM sólo fabricaron un diseño con un EPI y 8 SPE. Este diseño más pequeño, Cell Broadband Engine o Cell/BE, se fabricó mediante un proceso SOI de 90 nm . [10]

En marzo de 2007, IBM anunció que la versión de 65 nm de Cell/BE estaba en producción en su planta (en ese momento, ahora GlobalFoundries) en East Fishkill, Nueva York , [10] [11] con Bandai Namco Entertainment usando Cell /BE para su placa arcade 357 y la posterior 369.

En febrero de 2008, IBM anunció que comenzaría a fabricar procesadores Cell con el proceso de 45 nm . [12]

En mayo de 2008, IBM presentó la versión de punto flotante de doble precisión y alto rendimiento del procesador Cell, el PowerXCell 8i , [13] con un tamaño de característica de 65 nm.

En mayo de 2008, una supercomputadora basada en Opteron y PowerXCell 8i, el sistema IBM Roadrunner , se convirtió en el primer sistema del mundo en alcanzar un petaFLOPS y fue la computadora más rápida del mundo hasta el tercer trimestre de 2009. Las tres supercomputadoras con mayor eficiencia energética del mundo , representados por la lista Green500 , se basan de manera similar en el PowerXCell 8i.

En agosto de 2009, se presentó el procesador Cell de 45 nm junto con la PlayStation 3 Slim de Sony . [14]

En noviembre de 2009, IBM había descontinuado el desarrollo de un procesador Cell con 32 APU [15] [16] pero todavía estaba desarrollando otros productos Cell. [17]

Comercialización

El 17 de mayo de 2005, Sony Computer Entertainment confirmó algunas especificaciones del procesador Cell que se enviaría en la próxima consola PlayStation 3 . [18] [19] [20] Esta configuración de celda tiene un PPE en el núcleo, con ocho SPE físicos en silicio. [20] En PlayStation 3, un SPE se bloquea durante el proceso de prueba, una práctica que ayuda a mejorar los rendimientos de fabricación, y otro se reserva para el sistema operativo, dejando 6 SPE libres para ser utilizados por el código de los juegos. [21] La frecuencia de reloj objetivo en el momento de la introducción es 3,2  GHz . [19] El diseño introductorio se fabrica utilizando un proceso SOI de 90 nm, con una producción en volumen inicial programada para las instalaciones de IBM en East Fishkill, Nueva York . [10]

La relación entre núcleos e hilos es una fuente común de confusión. El núcleo del PPE tiene dos subprocesos y se manifiesta en el software como dos subprocesos de ejecución independientes, mientras que cada SPE activo se manifiesta como un único subproceso. En la configuración de PlayStation 3 descrita por Sony, el procesador Cell proporciona nueve subprocesos de ejecución independientes.

El 28 de junio de 2005, IBM y Mercury Computer Systems anunciaron un acuerdo de asociación para construir sistemas informáticos basados ​​en células para aplicaciones integradas como imágenes médicas , inspección industrial, aeroespacial y de defensa , procesamiento sísmico y telecomunicaciones . [22] Desde entonces, Mercury ha lanzado blades , servidores en rack convencionales y placas aceleradoras PCI Express con procesadores Cell. [22]

En el otoño de 2006, IBM lanzó el módulo blade QS20 que utiliza procesadores BE de doble celda para lograr un rendimiento tremendo en ciertas aplicaciones, alcanzando un pico de 410 gigaFLOPS en un cuarto de precisión del FP8 por módulo. Para la supercomputadora IBM Roadrunner se utilizó el QS22 basado en el procesador PowerXCell 8i . Mercury e IBM utilizan el procesador Cell totalmente utilizado con ocho SPE activos. El 8 de abril de 2008, Fixstars Corporation lanzó una placa aceleradora PCI Express basada en el procesador PowerXCell 8i. [23]

El servidor informático multimedia de alto rendimiento ZEGO de Sony utiliza un procesador Cell/BE de 3,2 GHz.

Descripción general

El Cell Broadband Engine , o Cell como se le conoce más comúnmente, es un microprocesador pensado como un híbrido de procesadores de escritorio convencionales (como las familias Athlon 64 y Core 2 ) y procesadores de alto rendimiento más especializados, como NVIDIA y Procesadores gráficos ATI ( GPU ). El nombre más largo indica su uso previsto, es decir, como componente de sistemas de distribución en línea actuales y futuros; como tal, puede utilizarse en pantallas y equipos de grabación de alta definición, así como en sistemas HDTV . Además, el procesador puede ser adecuado para sistemas de imágenes digitales (médicos, científicos, etc. ) y simulación física ( por ejemplo , modelado científico y de ingeniería estructural ). Tal como se usa en la PlayStation 3 tiene 250 millones de transistores. [24]

En un análisis simple, el procesador Cell se puede dividir en cuatro componentes: estructuras externas de entrada y salida, el procesador principal llamado Power Processing Element (PPE) (un núcleo PowerPC 2.02 multiproceso simultáneo de dos vías ), [25] ocho procesadores completamente coprocesadores funcionales llamados Elementos de Procesamiento Sinérgico , o SPEs, y un bus de datos circular especializado de alto ancho de banda que conecta el PPE, los elementos de entrada/salida y los SPEs, llamado Bus de Interconexión de Elementos o EIB.

Para lograr el alto rendimiento necesario para tareas matemáticamente intensivas, como decodificar/codificar flujos MPEG , generar o transformar datos tridimensionales o realizar análisis de datos de Fourier, el procesador Cell combina los SPE y el PPE a través de EIB para dar acceso, a través de DMA (acceso directo a la memoria) totalmente coherente en caché , tanto para la memoria principal como para otro almacenamiento de datos externo. Para aprovechar al máximo EIB y superponer la computación y la transferencia de datos, cada uno de los nueve elementos de procesamiento (PPE y SPE) está equipado con un motor DMA . Dado que las instrucciones de carga/almacenamiento del SPE solo pueden acceder a su propia memoria reutilizable local , cada SPE depende completamente de los DMA para transferir datos hacia y desde la memoria principal y las memorias locales de otros SPE. Una operación DMA puede transferir un área de bloque único de un tamaño de hasta 16 KB o una lista de 2 a 2048 de dichos bloques. Una de las principales decisiones de diseño en la arquitectura de Cell es el uso de DMA como medio central de transferencia de datos dentro del chip, con miras a permitir la máxima asincronía y concurrencia en el procesamiento de datos dentro de un chip. [26]

El PPE, que es capaz de ejecutar un sistema operativo convencional, tiene control sobre los SPE y puede iniciar, detener, interrumpir y programar procesos que se ejecutan en los SPE. A tal efecto, el PPE dispone de instrucciones adicionales relativas al control de las SPE. A diferencia de los SPEs, el PPE puede leer y escribir la memoria principal y las memorias locales de los SPEs a través de las instrucciones estándar de carga/almacenamiento. A pesar de tener arquitecturas completas de Turing , las SPE no son completamente autónomas y requieren que el PPE las prepare antes de que puedan realizar cualquier trabajo útil. Como la mayor parte de la "potencia" del sistema proviene de los elementos de procesamiento sinérgicos, el uso de DMA como método de transferencia de datos y la limitada huella de memoria local de cada SPE plantean un desafío importante para los desarrolladores de software que desean aprovechar al máximo esta potencia, lo que exige un cuidadoso ajuste manual de los programas para extraer el máximo rendimiento de esta CPU.

La arquitectura de bus y PPE incluye varios modos de operación que brindan diferentes niveles de protección de la memoria , lo que permite proteger áreas de memoria del acceso de procesos específicos que se ejecutan en los SPE o el PPE.

Tanto el PPE como el SPE son arquitecturas RISC con un formato de instrucción de 32 bits de ancho fijo. El PPE contiene un conjunto de registros de propósito general (GPR) de 64 bits , un conjunto de registros de punto flotante (FPR) de 64 bits y un conjunto de registros Altivec de 128 bits . El SPE contiene únicamente registros de 128 bits. Estos se pueden utilizar para tipos de datos escalares que van desde 8 bits a 64 bits de tamaño o para cálculos SIMD en una variedad de formatos de números enteros y de punto flotante. Las direcciones de memoria del sistema tanto para PPE como para SPE se expresan como valores de 64 bits para un rango de direcciones teórico de 2.64 bytes (16 exabytes o 16.777.216 terabytes). En la práctica, no todos estos bits se implementan en hardware. Las direcciones de almacenamiento local internas del procesador SPU (Unidad de procesador sinérgico) se expresan como una palabra de 32 bits. En la documentación relacionada con Cell, siempre se considera que una palabra significa 32 bits, una palabra doble significa 64 bits y una palabra cuádruple significa 128 bits.

PowerXCell 8i

En 2008, IBM anunció una variante revisada del Cell llamada PowerXCell 8i , [27] que está disponible en los servidores Blade QS22 de IBM. El PowerXCell se fabrica en un proceso de 65 nm y agrega soporte para hasta 32 GB de memoria DDR2 ranurada, además de mejorar drásticamente el rendimiento de punto flotante de doble precisión en los SPEs desde un pico de aproximadamente 12,8  GFLOPS a 102,4 GFLOPS en total para ocho SPE, que, casualmente, tiene el mismo rendimiento máximo que el procesador vectorial NEC SX-9 lanzado casi al mismo tiempo. La supercomputadora IBM Roadrunner , la más rápida del mundo durante 2008-2009, constaba de 12.240 procesadores PowerXCell 8i, junto con 6.562 procesadores AMD Opteron . [28] Las supercomputadoras alimentadas por PowerXCell 8i también dominaron los 6 principales sistemas "más ecológicos" en la lista Green500, con las supercomputadoras con la relación MFLOPS/Watt más alta del mundo. [29] Además del QS22 y las supercomputadoras, el procesador PowerXCell también está disponible como acelerador en una tarjeta PCI Express y se utiliza como procesador central en el proyecto QPACE .

Dado que el PowerXCell 8i eliminó la interfaz de memoria RAMBUS y agregó interfaces DDR2 significativamente más grandes y SPEs mejorados, se tuvo que reelaborar el diseño del chip, lo que resultó en un chip y un empaque más grandes. [30]

Arquitectura

Si bien el chip Cell puede tener varias configuraciones diferentes, la configuración básica es un chip multinúcleo compuesto por un "Elemento Procesador de Energía" ("PPE") (a veces llamado "Elemento de Procesamiento" o "PE") y múltiples "Elementos de procesamiento sinérgico" ("SPE"). [31] El PPE y el SPE están conectados entre sí mediante un bus interno de alta velocidad denominado "Bus de interconexión de elementos" ("EIB").

Elemento procesador de energía (PPE)

El PPE [32] [33] [34] es un núcleo de CPU de subprocesos múltiples simultáneos , de dos vías y en orden, basado en PowerPC , con una canalización de 23 etapas que actúa como controlador para los ocho SPE, que manejan la mayoría de los procesos. carga de trabajo computacional. El PPE tiene capacidades limitadas de ejecución fuera de orden; puede realizar cargas fuera de orden y tiene procesos de ejecución retrasados. El PPE funcionará con sistemas operativos convencionales debido a su similitud con otros procesadores PowerPC de 64 bits, mientras que los SPE están diseñados para la ejecución de código de punto flotante vectorizado. El PPE contiene un caché de instrucciones de nivel 1 de 32 KiB , un caché de datos de nivel 1 de 32 KiB y un caché de nivel 2 de 512 KiB. El tamaño de una línea de caché es de 128 bytes en todos los cachés. [27] : 136–137, 141  Además, IBM ha incluido una unidad AltiVec (VMX) [35] que está completamente canalizada para punto flotante de precisión simple (Altivec 1 no admite vectores de punto flotante de doble precisión ), 32 bits Unidad de punto fijo (FXU) con archivo de registro de 64 bits por subproceso, unidad de carga y almacenamiento (LSU) , unidad de punto flotante (FPU) de 64 bits , unidad de sucursal (BRU) y unidad de ejecución de sucursal (BXU). [32] El PPE consta de tres unidades principales: unidad de instrucción (IU), unidad de ejecución (XU) y unidad de ejecución vectorial/escalar (VSU). IU contiene caché de instrucciones L1, hardware de predicción de bifurcaciones, búferes de instrucciones y lógica de verificación de dependencias. XU contiene unidades de ejecución de números enteros (FXU) y unidades de almacenamiento de carga (LSU). VSU contiene todos los recursos de ejecución para FPU y VMX. Cada PPE puede completar dos operaciones de doble precisión por ciclo de reloj utilizando una instrucción escalar de suma-multiplicación fusionada, lo que se traduce en 6,4  GFLOPS a 3,2 GHz; u ocho operaciones de precisión simple por ciclo de reloj con una instrucción de suma, multiplicación y fusión vectorial, lo que se traduce en 25,6 GFLOPS a 3,2 GHz. [36]

Xenón en Xbox 360

El PPE fue diseñado específicamente para el procesador Cell, pero durante el desarrollo, Microsoft se acercó a IBM para solicitar un núcleo de procesador de alto rendimiento para su Xbox 360 . IBM cumplió y fabricó el procesador Xenon de tres núcleos , basado en una versión ligeramente modificada del PPE con extensiones VMX128 agregadas. [37] [38]

Elemento de procesamiento sinérgico (SPE)

Cada SPE es un procesador dual compuesto por una "Unidad de procesamiento sinérgico", [39] SPU y un "Controlador de flujo de memoria", MFC ( DMA , MMU e interfaz de bus ). Las SPE no tienen ningún hardware de predicción de ramas (por lo que supone una gran carga para el compilador). [40] Cada SPE tiene 6 unidades de ejecución divididas entre canales pares e impares en cada SPE: La SPU ejecuta un conjunto de instrucciones (ISA) especialmente desarrollado con organización SIMD de 128 bits [35] [2] [41] para precisión simple y doble instrucciones. Con la generación actual de Cell, cada SPE contiene una  SRAM integrada de 256 KiB para instrucciones y datos, llamada "Almacenamiento local" (que no debe confundirse con "Memoria local" en los documentos de Sony que se refieren a la VRAM) que es visible para el EPI y puede abordarse directamente mediante software. Cada SPE puede admitir hasta 4 GiB de memoria de almacenamiento local. El almacén local no funciona como un caché de CPU convencional , ya que no es transparente para el software ni contiene estructuras de hardware que predicen qué datos cargar. Los SPE contienen un archivo de registro de 128 bits y 128 entradas y miden 14,5 mm 2 en un proceso de 90 nm. Un SPE puede operar con dieciséis enteros de 8 bits, ocho enteros de 16 bits, cuatro enteros de 32 bits o cuatro números de punto flotante de precisión simple en un solo ciclo de reloj, así como una operación de memoria. Tenga en cuenta que la SPU no puede acceder directamente a la memoria del sistema; las direcciones de memoria virtual de 64 bits formadas por la SPU deben pasarse desde la SPU al controlador de flujo de memoria (MFC) SPE para configurar una operación DMA dentro del espacio de direcciones del sistema.

En un escenario de uso típico, el sistema cargará los SPE con pequeños programas (similares a subprocesos ), encadenando los SPE para manejar cada paso de una operación compleja. Por ejemplo, un decodificador podría cargar programas para leer un DVD, decodificar y mostrar video y audio, y los datos se pasarían de SPE a SPE hasta que finalmente terminaran en el televisor. Otra posibilidad es particionar el conjunto de datos de entrada y tener varias SPE realizando el mismo tipo de operación en paralelo. A 3,2 GHz, cada SPE ofrece un rendimiento teórico de precisión simple de 25,6 GFLOPS .

En comparación con sus computadoras personales contemporáneas, el rendimiento general relativamente alto de punto flotante de un procesador Cell aparentemente eclipsa las capacidades de la unidad SIMD en CPU como el Pentium 4 y el Athlon 64 . Sin embargo, comparar únicamente las capacidades de punto flotante de un sistema es una métrica unidimensional y específica de la aplicación. A diferencia de un procesador Cell, estas CPU de escritorio son más adecuadas para el software de uso general que normalmente se ejecuta en las computadoras personales. Además de ejecutar múltiples instrucciones por reloj, los procesadores de Intel y AMD cuentan con predictores de rama . Cell está diseñado para compensar esto con la ayuda del compilador, en el que se crean instrucciones de preparación para la ramificación. Para operaciones de punto flotante de doble precisión, como a veces se usan en computadoras personales y a menudo se usan en computación científica, el rendimiento de la celda cae en un orden de magnitud, pero aún alcanza 20,8 GFLOPS (1,8 GFLOPS por SPE, 6,4 GFLOPS por PPE). La variante PowerXCell 8i, que fue diseñada específicamente para doble precisión, alcanza 102,4 GFLOPS en cálculos de doble precisión. [42]

Las pruebas realizadas por IBM muestran que los SPE pueden alcanzar el 98% de su rendimiento máximo teórico ejecutando una multiplicación de matrices paralela optimizada. [36]

Toshiba ha desarrollado un coprocesador impulsado por cuatro SPEs, pero ningún PPE, llamado SpursEngine , diseñado para acelerar los efectos de películas y 3D en la electrónica de consumo.

Cada SPE tiene una memoria local de 256 KB. [43] En total, los SPE tienen 2 MB de memoria local.

Bus de interconexión de elementos (EIB)

El EIB es un bus de comunicación interno del procesador Cell que conecta los diversos elementos del sistema en el chip: el procesador PPE, el controlador de memoria (MIC), los ocho coprocesadores SPE y dos interfaces de E/S fuera del chip, para un total de 12 participantes en la PS3 (el número de SPU puede variar en aplicaciones industriales). El BEI también incluye una unidad de arbitraje que funciona como un semáforo. En algunos documentos, IBM se refiere a los participantes del BEI como "unidades".

El EIB se implementa actualmente como un anillo circular que consta de cuatro canales unidireccionales de 16 bytes de ancho que giran en pares. Cuando los patrones de tráfico lo permiten, cada canal puede transmitir hasta tres transacciones simultáneamente. Como el EIB funciona a la mitad de la velocidad del reloj del sistema, la velocidad efectiva del canal es de 16 bytes cada dos relojes del sistema. En máxima concurrencia , con tres transacciones activas en cada uno de los cuatro anillos, el ancho de banda EIB instantáneo máximo es de 96 bytes por reloj (12 transacciones simultáneas × 16 bytes de ancho/2 relojes del sistema por transferencia). Si bien esta cifra se cita a menudo en la literatura de IBM, no es realista escalar simplemente este número según la velocidad del reloj del procesador. La unidad de arbitraje impone restricciones adicionales.

El ingeniero senior de IBM, David Krolak, diseñador principal de EIB, explica el modelo de concurrencia:

Un anillo puede iniciar una nueva operación cada tres ciclos. Cada transferencia siempre requiere ocho tiempos. Esa fue una de las simplificaciones que hicimos; está optimizada para transmitir una gran cantidad de datos. Si realiza operaciones pequeñas, no funciona tan bien. Si piensas en trenes de ocho vagones circulando por esta vía, siempre que los trenes no choquen entre sí, pueden coexistir en la vía. [44]

Cada participante del EIB tiene un puerto de lectura de 16 bytes y un puerto de escritura de 16 bytes. El límite para un solo participante es leer y escribir a una velocidad de 16 bytes por reloj EIB (para simplificar, a menudo se considera 8 bytes por reloj del sistema). Cada procesador SPU contiene una cola de administración DMA dedicada capaz de programar largas secuencias de transacciones a varios puntos finales sin interferir con los cálculos en curso de la SPU; Estas colas DMA también se pueden gestionar de forma local o remota, lo que proporciona flexibilidad adicional en el modelo de control.

Los datos fluyen por un canal EIB paso a paso alrededor del anillo. Como hay doce participantes, el número total de pasos alrededor del canal hasta el punto de origen es doce. Seis pasos es la distancia más larga entre cualquier par de participantes. No se permite que un canal EIB transmita datos que requieran más de seis pasos; dichos datos deben tomar la ruta más corta alrededor del círculo en la otra dirección. El número de pasos involucrados en el envío del paquete tiene muy poco impacto en la latencia de transferencia: la velocidad del reloj que impulsa los pasos es muy rápida en relación con otras consideraciones. Sin embargo, las distancias de comunicación más largas son perjudiciales para el desempeño general del BEI, ya que reducen la concurrencia disponible.

A pesar del deseo original de IBM de implementar el EIB como una barra transversal más potente, la configuración circular que adoptaron para ahorrar recursos rara vez representa un factor limitante en el rendimiento del chip Cell en su conjunto. En el peor de los casos, el programador debe tener especial cuidado al programar patrones de comunicación en los que el EIB pueda funcionar a altos niveles de concurrencia.

David Krolak explicó:

Bueno, al principio, en las primeras etapas del proceso de desarrollo, varias personas estaban presionando por un interruptor de barra transversal, y por la forma en que está diseñado el bus, en realidad se podría sacar el EIB y colocar un interruptor de barra transversal si estuviera dispuesto a dedicar más silicio. espacio en el chip para el cableado. Tuvimos que encontrar un equilibrio entre conectividad y área, y simplemente no había suficiente espacio para colocar un interruptor de barra transversal completo. Así que se nos ocurrió esta estructura de anillo que creemos que es muy interesante. Se ajusta a las limitaciones del área y aún tiene un ancho de banda impresionante. [44]

Evaluación de ancho de banda

A 3,2 GHz, cada canal fluye a una velocidad de 25,6 GB/s. Si se considera el EIB de forma aislada de los elementos del sistema que conecta, lograr doce transacciones simultáneas a esta velocidad de flujo equivale a un ancho de banda abstracto del EIB de 307,2 GB/s. Según esta opinión, muchas publicaciones de IBM describen el ancho de banda EIB disponible como "superior a 300 GB/s". Este número refleja el ancho de banda EIB instantáneo máximo escalado por la frecuencia del procesador. [45]

Sin embargo, existen otras restricciones técnicas en el mecanismo de arbitraje de paquetes aceptados en el bus. El grupo IBM Systems Performance explicó:

Cada unidad del EIB puede enviar y recibir simultáneamente 16 bytes de datos en cada ciclo de bus. El ancho de banda de datos máximo de todo el EIB está limitado por la velocidad máxima a la que se espían las direcciones en todas las unidades del sistema, que es una por ciclo de bus. Dado que cada solicitud de dirección espiada puede transferir potencialmente hasta 128 bytes, el ancho de banda de datos máximo teórico en el EIB a 3,2 GHz es 128 Bx1,6 GHz = 204,8 GB/s. [36]

Esta cita aparentemente representa el alcance total de la divulgación pública por parte de IBM de este mecanismo y su impacto. La unidad de arbitraje EIB, el mecanismo de espionaje y la generación de interrupciones en fallas de traducción de segmentos o páginas no están bien descritos en la documentación que IBM aún ha hecho pública. [ cita necesaria ]

En la práctica, el ancho de banda efectivo del BEI también puede verse limitado por los participantes en el anillo involucrados. Si bien cada uno de los nueve núcleos de procesamiento puede soportar 25,6 GB/s de lectura y escritura simultáneamente, el controlador de interfaz de memoria (MIC) está vinculado a un par de canales de memoria XDR que permiten un flujo máximo de 25,6 GB/s para lecturas y escrituras combinadas y la Se ha documentado que dos controladores IO admiten una velocidad de entrada combinada máxima de 25,6 GB/s y una velocidad de salida combinada máxima de 35 GB/s.

Para aumentar aún más la confusión, algunas publicaciones antiguas citan que el ancho de banda EIB supone un reloj del sistema de 4 GHz. Este marco de referencia da como resultado una cifra de ancho de banda EIB instantáneo de 384 GB/s y una cifra de ancho de banda limitada por arbitraje de 256 GB/s.

Considerando todo esto, el número teórico de 204,8 GB/s citado con más frecuencia es el mejor a tener en cuenta. El grupo IBM Systems Performance ha demostrado flujos de datos centrados en SPU que alcanzan 197 GB/s en un procesador Cell que funciona a 3,2 GHz, por lo que este número también es un reflejo justo de la práctica. [36]

Controladores de memoria y E/S

La celda contiene una macro Rambus XIO de doble canal que interactúa con la memoria Rambus XDR . El controlador de interfaz de memoria (MIC) está separado de la macro XIO y está diseñado por IBM. El enlace XIO-XDR funciona a 3,2 Gbit/s por pin. Dos canales de 32 bits pueden proporcionar un máximo teórico de 25,6 GB/s.

La interfaz de E/S, también de diseño Rambus, se conoce como FlexIO. La interfaz FlexIO está organizada en 12 carriles, siendo cada carril una ruta punto a punto unidireccional de 8 bits de ancho. Cinco rutas punto a punto de 8 bits de ancho son carriles de entrada a Cell, mientras que los siete restantes son de salida. Esto proporciona un ancho de banda máximo teórico de 62,4 GB/s (36,4 GB/s salientes, 26 GB/s entrantes) a 2,6 GHz. La interfaz FlexIO se puede sincronizar de forma independiente, típ. a 3,2 GHz. 4 carriles de entrada + 4 de salida apoyan la coherencia de la memoria.

Posibles aplicaciones

Tarjeta de procesamiento de video

Algunas empresas, como Leadtek , han lanzado tarjetas PCI-E basadas en Cell para permitir una transcodificación "más rápida que en tiempo real" de vídeo H.264 , MPEG-2 y MPEG-4 . [46]

Servidor Blade

El 29 de agosto de 2007, IBM anunció el BladeCenter QS21. Genera unas operaciones de punto flotante de 1,05 giga por segundo (gigaFLOPS) por vatio y un rendimiento máximo de aproximadamente 460 GFLOPS, es una de las plataformas informáticas con mayor eficiencia energética hasta la fecha. Un solo chasis BladeCenter puede lograr 6,4 teraFLOPS de operaciones de coma flotante por segundo (teraFLOPS) y más de 25,8 teraFLOPS en un bastidor estándar de 42U. [47]

El 13 de mayo de 2008, IBM anunció el BladeCenter QS22. El QS22 presenta el procesador PowerXCell 8i con cinco veces el rendimiento de punto flotante de doble precisión del QS21 y la capacidad de hasta 32 GB de memoria DDR2 en la hoja. [48]

IBM ha descontinuado la línea de servidores Blade basados ​​en procesadores Cell a partir del 12 de enero de 2012. [49]

placa PCI-Express

Varias empresas ofrecen placas PCI-e que utilizan IBM PowerXCell 8i. El rendimiento se informa como 179,2 GFlops (SP), 89,6 GFlops (DP) a 2,8 GHz. [50] [51]

videojuegos de consola

La consola de videojuegos PlayStation 3 de Sony fue la primera aplicación de producción del procesador Cell, con una frecuencia de 3,2  GHz y que contenía siete de ocho SPE operativos, para permitir a Sony aumentar el rendimiento en la fabricación del procesador. Los desarrolladores solo pueden acceder a seis de los siete SPE, ya que uno está reservado por el sistema operativo. [21]

Cine en casa

Tarjetas B-CAS en un decodificador Toshiba Cell Regza, basado en Cell Broadband Engine

Toshiba ha producido televisores de alta definición utilizando Cell. Presentaron un sistema para decodificar 48 transmisiones MPEG-2 de definición estándar simultáneamente en una pantalla de 1920×1080 . [52] [53] Esto puede permitir que un espectador elija un canal basándose en docenas de videos en miniatura que se muestran simultáneamente en la pantalla.

Supercomputación

La supercomputadora de IBM, IBM Roadrunner , era un híbrido de procesadores Opteron x86-64 de uso general y Cell. Este sistema asumió el puesto número uno en la lista Top 500 de junio de 2008 como la primera supercomputadora que funciona a velocidades de petaFLOPS , habiendo obtenido una velocidad sostenida de 1,026 petaFLOPS utilizando el punto de referencia estándar LINPACK . IBM Roadrunner utilizó la versión PowerXCell 8i del procesador Cell, fabricado con tecnología de 65 nm y SPU mejoradas que pueden manejar cálculos de doble precisión en registros de 128 bits, alcanzando doble precisión de 102 GFLOP por chip. [54] [55]

Computación en clúster

Los clusters de consolas PlayStation 3 son una alternativa atractiva a los sistemas de alta gama basados ​​en Blades Cell. Innovative Computing Laboratory, un grupo dirigido por Jack Dongarra , en el Departamento de Ciencias de la Computación de la Universidad de Tennessee, investigó en profundidad dicha aplicación. [56] Terrasoft Solutions vende clústeres PS3 de 8 y 32 nodos con Yellow Dog Linux preinstalado, una implementación de la investigación de Dongarra.

Como informó por primera vez Wired el 17 de octubre de 2007, [57] el astrofísico Gaurav Khanna , del departamento de Física de la Universidad de Massachusetts Dartmouth , implementó una interesante aplicación de uso de PlayStation 3 en una configuración de clúster, quien reemplazó el tiempo usado en las supercomputadoras con un grupo de ocho PlayStation 3. Posteriormente, la próxima generación de esta máquina, ahora llamada PlayStation 3 Gravity Grid , utiliza una red de 16 máquinas y explota el procesador Cell para la aplicación prevista, que es la coalescencia binaria de agujeros negros utilizando la teoría de perturbaciones . En particular, el cúmulo realiza simulaciones astrofísicas de grandes agujeros negros supermasivos capturando objetos compactos más pequeños y ha generado datos numéricos que se han publicado varias veces en la literatura de investigación científica relevante. [58] La versión del procesador Cell utilizada por PlayStation 3 tiene una CPU principal y 6 SPE disponibles para el usuario, lo que le da a la máquina Gravity Grid una red de 16 procesadores de uso general y 96 procesadores vectoriales. La construcción de la máquina tiene un coste único de 9.000 dólares y es adecuada para simulaciones de agujeros negros que, de otro modo, costarían 6.000 dólares por ejecución en una supercomputadora convencional. Los cálculos de los agujeros negros no requieren mucha memoria y son altamente localizables, por lo que se adaptan bien a esta arquitectura. Khanna afirma que el rendimiento del clúster supera el de un clúster Linux tradicional basado en más de 100 núcleos Intel Xeon en sus simulaciones. PS3 Gravity Grid atrajo una importante atención de los medios durante 2007, [59] 2008, [60] [61] 2009, [62] [63] [64] y 2010. [65] [66]

El laboratorio de Bioquímica y Biofísica computacional de la Universitat Pompeu Fabra , en Barcelona , ​​desplegó en 2007 un sistema BOINC llamado PS3GRID [67] para computación colaborativa basado en el software CellMD, el primero diseñado específicamente para el procesador Cell.

El Laboratorio de Investigación de la Fuerza Aérea de los Estados Unidos ha desplegado un grupo de PlayStation 3 de más de 1.700 unidades, apodado "Condor Cluster", para analizar imágenes satelitales de alta resolución . La Fuerza Aérea afirma que el Cóndor Cluster sería la 33ª supercomputadora más grande del mundo en términos de capacidad. [68] El laboratorio ha abierto la supercomputadora para que la utilicen las universidades con fines de investigación. [69]

Computación distribuída

Con la ayuda de la potencia informática de más de medio millón de consolas PlayStation 3, el proyecto de informática distribuida Folding@home ha sido reconocido por Guinness World Records como la red distribuida más potente del mundo. El primer récord se alcanzó el 16 de septiembre de 2007, cuando el proyecto superó un petaFLOPS , algo que nunca antes había sido alcanzado por una red informática distribuida. Además, los esfuerzos colectivos permitieron que PS3 alcanzara por sí sola la marca de petaFLOPS el 23 de septiembre de 2007. En comparación, el segundo superordenador más potente del mundo en ese momento, el Blue Gene/L de IBM , tuvo un rendimiento de alrededor de 478,2 teraFLOPS, lo que significa que Folding@home la potencia informática es aproximadamente el doble que la de Blue Gene/L (aunque la interconexión de la CPU en Blue Gene/L es más de un millón de veces más rápida que la velocidad media de la red en Folding@home). Al 7 de mayo de 2011, Folding@home funciona a aproximadamente 9,3 x86 petaFLOPS, con 1,6 petaFLOPS generados sólo por 26.000 PS3 activas.

Computadoras centrales

IBM anunció el 25 de abril de 2007 que comenzaría a integrar sus microprocesadores Cell Broadband Engine Architecture en la línea de mainframes System z de la empresa. [70] Esto ha llevado a un gameframe .

Descifrando contraseñas

La arquitectura del procesador lo hace más adecuado para aplicaciones de ataque criptográfico de fuerza bruta asistidas por hardware que los procesadores convencionales. [71]

Ingeniería de software

Debido a la naturaleza flexible de la célula, existen varias posibilidades para la utilización de sus recursos, no limitadas solo a diferentes paradigmas informáticos: [72]

Cola de trabajos

El PPE mantiene una cola de trabajos, programa trabajos en SPE y monitorea el progreso. Cada SPE ejecuta un "mini kernel" cuya función es buscar un trabajo, ejecutarlo y sincronizarlo con el PPE.

Automultitarea de las SPEs

El mini kernel y la programación se distribuyen entre las SPE. Las tareas se sincronizan mediante mutexes o semáforos como en un sistema operativo convencional . Las tareas listas para ejecutar esperan en una cola hasta que un SPE las ejecute. Los SPE utilizan memoria compartida para todas las tareas en esta configuración.

Procesamiento de flujo

Cada SPE ejecuta un programa distinto. Los datos provienen de un flujo de entrada y se envían a SPE. Cuando un SPE ha terminado el procesamiento, los datos de salida se envían a un flujo de salida.

Esto proporciona una arquitectura flexible y potente para el procesamiento de transmisiones y permite una programación explícita para cada SPE por separado. Otros procesadores también pueden realizar tareas de transmisión, pero están limitados por el kernel cargado.

Desarrollo de software de código abierto

En 2005, los desarrolladores de IBM enviaron para su inclusión parches que habilitaban la compatibilidad con Cell en el kernel de Linux. [73] Arnd Bergmann (uno de los desarrolladores de los parches antes mencionados) también describió la arquitectura Cell basada en Linux en LinuxTag 2005. [74] A partir de la versión 2.6.16 (20 de marzo de 2006), el kernel de Linux admite oficialmente Cell procesador. [75]

Tanto el PPE como el SPE son programables en C/C++ utilizando una API común proporcionada por las bibliotecas.

Fixstars Solutions proporciona Yellow Dog Linux para sistemas basados ​​en IBM y Mercury Cell, así como para PlayStation 3. [76] Terra Soft se asoció estratégicamente con Mercury para proporcionar un paquete de soporte de placa Linux para Cell, y soporte y desarrollo de aplicaciones de software en varias otras plataformas Cell, incluidas IBM BladeCenter JS21 y Cell QS20, y soluciones basadas en Mercury Cell. [77] Terra Soft también mantiene la suite de gestión y construcción de clústeres Y-HPC (High Performance Computing) y las herramientas de secuenciación de genes Y-Bio. Y-Bio se basa en el estándar RPM Linux para la gestión de paquetes y ofrece herramientas que ayudan a los investigadores en bioinformática a realizar su trabajo con mayor eficiencia. [78] IBM ha desarrollado un pseudosistema de archivos para Linux denominado "Spufs" que simplifica el acceso y el uso de los recursos SPE. IBM mantiene actualmente un kernel Linux y puertos GDB , mientras que Sony mantiene la cadena de herramientas GNU ( GCC , binutils ). [79]

En noviembre de 2005, IBM lanzó en su sitio web un "Kit de desarrollo de software Cell Broadband Engine (CBE) versión 1.0", que consta de un simulador y una variedad de herramientas. Las versiones de desarrollo del último kernel y herramientas para Fedora Core 4 se mantienen en el sitio web del Barcelona Supercomputing Center . [80]

En agosto de 2007, Mercury Computer Systems lanzó un kit de desarrollo de software para PlayStation 3 para informática de alto rendimiento. [81]

En noviembre de 2007, Fixstars Corporation lanzó el nuevo módulo "CVCell" con el objetivo de acelerar varias API OpenCV importantes para Cell. En una serie de pruebas de cálculo de software, registraron tiempos de ejecución en un procesador Cell de 3,2 GHz que eran entre 6 y 27 veces más rápidos en comparación con el mismo software en un Intel Core 2 Duo de 2,4 GHz. [82]

En octubre de 2009, IBM lanzó un controlador OpenCL para POWER6 y CBE. Esto permite que los programas escritos en la API multiplataforma se ejecuten fácilmente en Cell PSE. [83]

Galería

Ilustraciones de las diferentes generaciones de procesadores Cell/BE y el PowerXCell 8i. Las imágenes no están a escala; Todos los paquetes Cell/BE miden 42,5×42,5 mm y el PowerXCell 8i mide 47,5×47,5 mm.

Ver también

Referencias

  1. ^ "Libro de arquitectura de PowerPC, versión 2.02". IBM . 16 de noviembre de 2005. Archivado desde el original el 29 de noviembre de 2020.
  2. ^ abc Gschwind, Michael; Hofstee, H. Peter; Flachs, Brian; Hopkins, Martín; Watanabe, Yukio; Yamazaki, Takeshi (marzo-abril de 2006). "Procesamiento sinérgico en la arquitectura multinúcleo de Cell" (PDF) . Micro IEEE . 26 (2). IEEE: 10–24. doi :10.1109/MM.2006.41. S2CID  17834015.
  3. ^ "Cell Designer habla sobre PS3 y los procesadores Cell de IBM". Archivado desde el original el 21 de agosto de 2006 . Consultado el 22 de marzo de 2007 .
  4. ^ Gaudin, Sharon (9 de junio de 2008). "El Roadrunner de IBM supera una milla de supercomputación en 4 minutos". Mundo de la informática . Archivado desde el original el 24 de diciembre de 2008 . Consultado el 10 de junio de 2008 .
  5. ^ Fildes, Jonathan (9 de junio de 2008). "La supercomputadora marca el ritmo de los petaflops". Noticias de la BBC . Consultado el 9 de junio de 2008 .
  6. ^ Shankland, Stephen (22 de febrero de 2006). "Octopiler busca armar a los programadores de Cell". CNET . Consultado el 22 de marzo de 2007 .
  7. ^ "Kit de desarrollo de software Cell Broadband Engine versión 1.0". LWN. 10 de noviembre de 2005 . Consultado el 22 de marzo de 2007 .
  8. ^ Krewell, Kevin (14 de febrero de 2005). "Cell se convierte en el centro de atención". Informe del microprocesador .
  9. ^ ab "Introducción al multiprocesador Cell". Revista IBM de investigación y desarrollo. 7 de agosto de 2005. Archivado desde el original el 28 de febrero de 2007 . Consultado el 22 de marzo de 2007 .
  10. ^ abc "IBM produce procesador celular utilizando nueva tecnología de fabricación". Laboratorios X-bit. Archivado desde el original el 15 de marzo de 2007 . Consultado el 12 de marzo de 2007 .
  11. ^ "Comenzó la producción del procesador CELL de 65 nm". Universo PlayStation. 30 de enero de 2007. Archivado desde el original el 2 de febrero de 2007 . Consultado el 18 de mayo de 2007 .
  12. ^ Stokes, Jon (7 de febrero de 2008). "IBM reduce Cell a 45 nm. Le seguirán PS3 más baratas". Arstechnica.com . Consultado el 19 de septiembre de 2012 .
  13. ^ "IBM ofrece informática de mayor rendimiento fuera del laboratorio". IBM . Consultado el 15 de mayo de 2008 .
  14. ^ "Sony responde a nuestras preguntas sobre la nueva PlayStation 3". Ars Técnica . 18 de agosto de 2009 . Consultado el 19 de agosto de 2009 .
  15. ^ "¿Será Roadrunner el último hurra de Cell?". 27 de octubre de 2009. Archivado desde el original el 31 de octubre de 2009.
  16. ^ "SC09: IBM lässt Cell-Prozessor auslaufen". Heise en línea. 20 de noviembre de 2009 . Consultado el 21 de noviembre de 2009 .
  17. ^ "IBM no ha detenido el desarrollo del procesador Cell". DriverHeaven.net. 23 de noviembre de 2009. Archivado desde el original el 25 de noviembre de 2009 . Consultado el 24 de noviembre de 2009 .
  18. ^ Becker, David (7 de febrero de 2005). "El chip de PlayStation 3 tiene doble personalidad". CNET . Consultado el 18 de mayo de 2007 .
  19. ^ ab Thurrott, Paul (17 de mayo de 2005). "Sony sube la apuesta con PlayStation 3". WindowsITPro. Archivado desde el original el 30 de septiembre de 2007 . Consultado el 22 de marzo de 2007 .
  20. ^ ab Roper, Chris (17 de mayo de 2005). "E3 2005: Demostraciones de tecnología de procesador celular". IGN . Consultado el 22 de marzo de 2007 .
  21. ^ ab Martin Linklater. "Optimización del núcleo celular". Revista Game Developer, abril de 2007 . págs. 15-18. Para aumentar los rendimientos de fabricación, Sony envía procesadores PlayStation 3 Cell con sólo siete SPE en funcionamiento. Y de esos siete, el sistema operativo utilizará un SPE para diversas tareas. Esto deja seis SPE y 1 PPE para que los utilicen los programadores de juegos.
  22. ^ ab "Mercury gana el premio IBM PartnerWorld Beacon". Supercomputación en línea. 12 de abril de 2007 . Consultado el 18 de mayo de 2007 .[ enlace muerto ]
  23. ^ "Fixstars lanza una placa aceleradora con PowerXCell 8i". Corporación Fixstars. 8 de abril de 2008. Archivado desde el original el 5 de enero de 2009 . Consultado el 18 de agosto de 2008 .
  24. ^ "Un vistazo al interior del procesador celular". Gamasutra . 13 de julio de 2006 . Consultado el 19 de junio de 2019 .
  25. ^ Koranne, Sandeep (15 de julio de 2009). "Capítulo 2: El elemento de procesamiento de energía (PPE)". Computación práctica en el motor de banda ancha celular. Springer Ciencia + Medios comerciales . pag. 17. doi :10.1007/978-1-4419-0308-2_2. ISBN 978-1-4419-0307-5.
  26. ^ Gschwind, Michael (2006). "El multiprocesamiento de chips y el motor de banda ancha celular". Actas de la 3ª conferencia sobre fronteras de la informática - CF '06 . ACM. págs. 1–8. doi :10.1145/1128022.1128023. ISBN 1595933026. S2CID  14226551 . Consultado el 29 de junio de 2008 .
  27. ^ ab Manual de programación del motor de banda ancha celular que incluye el procesador PowerXCell 8i (PDF) . Versión 1.11. IBM . 12 de mayo de 2008. Archivado desde el original (PDF) el 11 de marzo de 2018 . Consultado el 10 de marzo de 2018 .
  28. ^ "IBM anuncia PowerXCell 8i, servidor blade QS22". Más allá de 3D. Mayo de 2008. Archivado desde el original el 16 de junio de 2008 . Consultado el 10 de junio de 2008 .
  29. ^ "La Lista Green500 - Noviembre de 2009". Archivado desde el original el 23 de febrero de 2011.
  30. ^ "Embalaje del microprocesador del motor de banda ancha celular para aplicaciones de supercomputadoras" (PDF) . Archivado desde el original (PDF) el 4 de enero de 2014 . Consultado el 4 de enero de 2014 .
  31. ^ "Resumen del microprocesador celular". IBM, Sony Computer Entertainment Inc., Toshiba Corp. 7 de febrero de 2005.
  32. ^ ab Kim, Hyesoon (primavera de 2011). «CS4803DGC Diseño y programación de consola de juegos» (PDF) .
  33. ^ Koranne, Sandeep (2009). Computación práctica en el motor de banda ancha celular. Springer Ciencia + Medios comerciales. pag. 19.ISBN 9781441903082.
  34. ^ Hofstee, H. Peter (2005). "Todo sobre el procesador celular" (PDF) . Archivado desde el original (PDF) el 6 de septiembre de 2011.
  35. ^ ab "Diseño de procesador con eficiencia energética y procesador celular" (PDF) . IBM. 16 de febrero de 2005. Archivado desde el original (PDF) el 26 de abril de 2005 . Consultado el 12 de junio de 2005 .
  36. ^ abcd Chen, Thomas; Raghavan, Ram; Dale, Jason; Iwata, Eiji (29 de noviembre de 2005). "Arquitectura de Cell Broadband Engine y su primera implementación". IBM DeveloperWorks . Archivado desde el original el 27 de octubre de 2012 . Consultado el 9 de septiembre de 2012 .
  37. ^ Alejandro, Leigh (16 de enero de 2009). "Procesando la verdad: una entrevista con David Shippy]". Gamasutra .
  38. ^ Por último, Jonathan V. (30 de diciembre de 2008). "Hacerse el tonto". Wall Street Journal .
  39. ^ Especificación de interfaz binaria de la aplicación SPU (PDF) . 18 de julio de 2008. Archivado desde el original (PDF) el 18 de noviembre de 2014 . Consultado el 24 de enero de 2015 .
  40. ^ "Investigación de IBM - Célula". IBM . Archivado desde el original el 14 de junio de 2005 . Consultado el 11 de junio de 2005 .
  41. ^ "Una novedosa arquitectura SIMD para el multiprocesador de chip heterogéneo Cell" (PDF) . Hot Chips 17. 15 de agosto de 2005. Archivado desde el original (PDF) el 9 de julio de 2008 . Consultado el 1 de enero de 2006 .
  42. ^ "Sucesor de celda con modo turbo: PowerXCell 8i". PPCNux. Noviembre de 2007. Archivado desde el original el 10 de enero de 2009 . Consultado el 10 de junio de 2008 .
  43. ^ "Compatibilidad con OpenMP en dispositivos móviles" (PDF) . Investigación de IBM TJ Watson . Archivado desde el original (PDF) el 8 de enero de 2019.
  44. ^ ab "Conozca a los expertos: David Krolak en el autobús EIB de Cell Broadband Engine". IBM. 6 de diciembre de 2005 . Consultado el 18 de marzo de 2007 .
  45. ^ "Red de comunicación celular multiprocesador: diseñada para la velocidad" (PDF) . IEEE. Archivado desde el original (PDF) el 7 de enero de 2007 . Consultado el 22 de marzo de 2007 .
  46. ^ "Tarjeta de transcodificación Leadtek PxVC1100 MPEG-2/H.264". 12 de noviembre de 2009.
  47. ^ "IBM duplica su apuesta por Cell Blade" (Presione soltar). Armonk, Nueva York: IBM . 29 de agosto de 2007 . Consultado el 19 de julio de 2017 .
  48. ^ "IBM ofrece informática de alto rendimiento fuera del laboratorio" (Presione soltar). Armonk, Nueva York: IBM . 13 de mayo de 2008 . Consultado el 19 de julio de 2017 .
  49. ^ Morgan, Timothy Prickett (28 de junio de 2011). "IBM apagará el último servidor Blade Cell". El registro . Consultado el 19 de julio de 2017 .
  50. ^ "Comunicado de prensa de Fixstars". Archivado desde el original el 5 de enero de 2009 . Consultado el 18 de agosto de 2008 .
  51. ^ "La tarjeta de coprocesador basada en células ejecuta Linux". Archivado desde el original el 2 de mayo de 2009.
  52. ^ "Toshiba demuestra un microprocesador celular que decodifica simultáneamente 48 transmisiones MPEG-2". ¡Tecnología encendida!. 25 de abril de 2005.
  53. ^ "Ganador: Monstruo multimedia". Espectro IEEE . 1 de enero de 2006. Archivado desde el original el 18 de enero de 2006 . Consultado el 22 de enero de 2006 .
  54. ^ "Más allá de una sola celda" (PDF) . Laboratorio Nacional de Los Álamos. Archivado desde el original (PDF) el 8 de julio de 2009 . Consultado el 6 de abril de 2017 .
  55. ^ Williams, Samuel; Medio, John; Oliker, Leonid; Maridos, Parry; Kamil, Shoaib; Yelick, Katherine (2005). "El potencial del procesador celular para la informática científica". Fronteras de la informática ACM . Consultado el 6 de abril de 2017 .
  56. ^ "SCOP3: una guía aproximada de la informática científica en PlayStation 3" (PDF) . Departamento de Ciencias de la Computación, Universidad de Tennessee. Archivado desde el original (PDF) el 15 de octubre de 2008 . Consultado el 8 de mayo de 2007 .
  57. ^ Gardiner, Bryan (17 de octubre de 2007). "Un astrofísico reemplaza la supercomputadora con ocho PlayStation 3". Cableado . Consultado el 17 de octubre de 2007 .
  58. ^ "Rejilla de gravedad de PS3". Gaurav Khanna, profesor asociado, Facultad de Ingeniería, Universidad de Massachusetts Dartmouth.
  59. ^ "El clúster de PS3 crea una supercomputadora casera y más barata". 24 de octubre de 2007.
  60. ^ Highfield, Roger (17 de febrero de 2008). "Por qué a los científicos les encantan las consolas de juegos". El Telégrafo diario . Londres. Archivado desde el original el 6 de septiembre de 2009.
  61. ^ Peckham, Matt (23 de diciembre de 2008). "Nada escapa a la atracción de una PlayStation 3, ni siquiera un agujero negro". El Washington Post .
  62. ^ Malik, Tariq (28 de enero de 2009). "Las consolas Playstation 3 abordan las vibraciones de los agujeros negros". Espacio.com .
  63. ^ Lyden, Jacki (21 de febrero de 2009). "Playstation 3: ¿una supercomputadora con descuento?". NPR .
  64. ^ Wallich, Paul (1 de abril de 2009). "La supercomputadora se vuelve personal". Espectro IEEE .
  65. ^ "La supercomputadora con tecnología PlayStation". Noticias de la BBC . 4 de septiembre de 2010.
  66. ^ Farrell, John (12 de noviembre de 2010). "Agujeros negros y bucles cuánticos: más que un simple juego". Forbes .
  67. ^ "PS3GRID.net".
  68. ^ "El Departamento de Defensa analiza la nueva supercomputadora Sony PlayStation". 30 de noviembre de 2010.
  69. ^ "Clústeres de PlayStation 3 que proporcionan supercomputación de bajo costo a las universidades". Archivado desde el original el 14 de mayo de 2013.
  70. ^ "Las computadoras centrales IBM se vuelven 3-D". Semana electrónica . 26 de abril de 2007 . Consultado el 18 de mayo de 2007 .
  71. ^ "PlayStation acelera la investigación de contraseñas". Noticias de la BBC . 30 de noviembre de 2007 . Consultado el 17 de enero de 2011 .
  72. ^ "CELL: una nueva plataforma para entretenimiento digital". Sony Computer Entertainment Inc. 9 de marzo de 2005. Archivado desde el original el 28 de octubre de 2005.
  73. ^ Bergmann, Arnd (21 de junio de 2005). "ppc64: Presentación de la plataforma Cell/BPA, v3" . Consultado el 22 de marzo de 2007 .
  74. ^ "El modelo de programación del procesador celular". Etiqueta de Linux 2005 . Archivado desde el original el 18 de noviembre de 2005 . Consultado el 11 de junio de 2005 .
  75. ^ Shankland, Stephen (21 de marzo de 2006). "Linux obtiene soporte integrado para procesador Cell". CNET . Consultado el 22 de marzo de 2007 .
  76. ^ "Terra Soft proporcionará Linux para PLAYSTATION3". Archivado desde el original el 30 de marzo de 2009.
  77. ^ Terra Soft: Linux para celulares, PlayStation PS3, QS20, QS21, QS22, IBM System p, Mercury Cell y Apple PowerPC Archivado el 23 de febrero de 2007 en Wayback Machine .
  78. ^ "Y-Bio". 31 de agosto de 2007. Archivado desde el original el 2 de septiembre de 2007.
  79. ^ "Arnd Bergmann en el celular". IBM DeveloperWorks. 25 de junio de 2005.
  80. ^ "Sistemas basados ​​en Linux on Cell BE". Centro de Supercomputación de Barcelona. Archivado desde el original el 8 de marzo de 2007 . Consultado el 22 de marzo de 2007 .
  81. ^ "Mercury Computer Systems lanza el kit de desarrollo de software para PLAYSTATION(R)3 para informática de alto rendimiento" (Comunicado de prensa). Sistemas informáticos Mercury . 3 de agosto de 2007. Archivado desde el original el 18 de agosto de 2007.
  82. ^ ""CVCell "- Módulo desarrollado por Fixstars que acelera la biblioteca OpenCV para el procesador Cell/BE". Corporación Fixstars. 28 de noviembre de 2007. Archivado desde el original el 17 de julio de 2010 . Consultado el 12 de diciembre de 2008 .
  83. ^ "IBM lanza controladores OpenCL para POWER6 y Cell/BE" The Khronos Group . 2 de septiembre de 2023.

enlaces externos