stringtranslate.com

Matriz de procesadores masivamente paralelos

Una matriz de procesadores en paralelo masivo , también conocida como matriz de procesadores multipropósito ( MPPA ), es un tipo de circuito integrado que tiene una matriz en paralelo masivo de cientos o miles de CPU y memorias RAM . Estos procesadores se pasan trabajo entre sí a través de una interconexión reconfigurable de canales . Al aprovechar una gran cantidad de procesadores que funcionan en paralelo, un chip MPPA puede realizar tareas más exigentes que los chips convencionales. Los MPPA se basan en un modelo de programación paralela de software para desarrollar aplicaciones de sistemas integrados de alto rendimiento .

Arquitectura

MPPA es una arquitectura MIMD (múltiples secuencias de instrucciones, múltiples datos), con memoria distribuida a la que se accede localmente, no compartida globalmente. Cada procesador está estrictamente encapsulado, y solo tiene acceso a su propio código y memoria. La comunicación punto a punto entre procesadores se realiza directamente en la interconexión configurable. [1]

El paralelismo masivo del MPPA y su arquitectura de memoria distribuida MIMD lo distinguen de las arquitecturas multinúcleo y manycore , que tienen menos procesadores y una arquitectura SMP u otra arquitectura de memoria compartida , principalmente destinada a la computación de propósito general. También se distingue de las GPGPU con arquitecturas SIMD , utilizadas para aplicaciones HPC . [2]

Programación

Una aplicación MPPA se desarrolla expresándola como un diagrama de bloques jerárquico o flujo de trabajo , cuyos objetos básicos se ejecutan en paralelo, cada uno en su propio procesador. Del mismo modo, los objetos de datos grandes se pueden dividir y distribuir en memorias locales con acceso paralelo. Los objetos se comunican a través de una estructura paralela de canales dedicados. El objetivo es maximizar el rendimiento agregado mientras se minimiza la latencia local, optimizando el rendimiento y la eficiencia. El modelo de computación de un MPPA es similar a una red de procesos de Kahn o procesos secuenciales comunicados (CSP). [3]

Aplicaciones

Los MPPA se utilizan en sistemas integrados de alto rendimiento y aceleración de hardware de aplicaciones de servidores y computadoras de escritorio , como compresión de video , [4] [5] procesamiento de imágenes , [6] imágenes médicas , procesamiento de redes , radio definida por software y otras aplicaciones de transmisión de medios con uso intensivo de recursos computacionales, que de otro modo utilizarían chips FPGA , DSP y/o ASIC .

Ejemplos

Los MPPA desarrollados en empresas incluyen los diseñados en: Ambric , PicoChip , Intel , [7] IntellaSys, GreenArrays, ASOCS , Tilera , Kalray , Coherent Logix, Tabula y Adapteva . Aspex (Ericsson) Linedancer se diferencia en que era un arreglo SIMD ancho masivo en lugar de un MPPA. Estrictamente hablando, podría calificar como SIMT debido a que los 4096 de los 3000 núcleos de puerta tienen su propia memoria direccionable por contenido. [8] [9]

Los MPPA fabricados desarrollados en universidades incluyen: matrices de procesadores simples asincrónicos (AsAP) de 36 núcleos [10] y 167 núcleos [11] de la Universidad de California, Davis , RAW de 16 núcleos [12] del MIT y matrices de 16 núcleos [13] y 24 núcleos [14] de la Universidad de Fudan .

El proyecto chino Sunway desarrolló su propio chip multinúcleo SW26010 de 260 núcleos para la supercomputadora TaihuLight , que a partir de 2016 es la supercomputadora más rápida del mundo. [15] [16]

Los procesadores Anton 3, diseñados por DE Shaw Research para simulaciones de dinámica molecular , contienen conjuntos de 576 procesadores dispuestos en una cuadrícula de 12×24 pares de núcleos; una red enrutada vincula estas cuadrículas entre sí y se extiende fuera del chip a otros nodos en un sistema completo. [17] [18]

Véase también

Referencias

  1. ^ Mike Butts, "Sincronización a través de la comunicación en una matriz de procesadores masivamente paralelos", IEEE Micro, vol. 27, núm. 5, septiembre/octubre de 2007, IEEE Computer Society
  2. ^ Mike Butts, "Plataformas multinúcleo y masivamente paralelas y escalabilidad según la Ley de Moore", Actas de la Conferencia sobre sistemas integrados - Silicon Valley, abril de 2008
  3. ^ Mike Butts, Brad Budlong, Paul Wasson, Ed White, "Granjas de trabajo reconfigurables en una matriz de procesadores masivamente paralelos", Actas de FCCM, abril de 2008, IEEE Computer Society
  4. ^ Laurent Bonetto, "Matrices de procesamiento masivamente paralelo (MPPA) para imágenes y video HD integrados (Parte 1)", Video/Imaging DesignLine, 16 de mayo de 2008 http://www.eetimes.com/document.asp?doc_id=1273823
  5. ^ Laurent Bonetto, "Matrices de procesamiento masivamente paralelo (MPPA) para imágenes y video HD integrados (parte 2)", Video/Imaging DesignLine, 18 de julio de 2008 http://www.eetimes.com/document.asp?doc_id=1273830
  6. ^ Paul Chen, "Procesamiento de sensores multimodo utilizando matrices de procesadores masivamente paralelos (MPPA)", Programmable Logic DesignLine, 18 de marzo de 2008 http://www.pldesignline.com/howto/206904379
  7. ^ Vangal, Sriram R., Jason Howard, Gregory Ruhl, Saurabh Dighe, Howard Wilson, James Tschanz, David Finan et al. "Un procesador de teraflops de 80 teselas y sub-100 w en CMOS de 65 nm". Circuitos de estado sólido, IEEE Journal of 43, n.º 1 (2008): 29-41.
  8. ^ Krikelis, A. (1990). "Red neuronal artificial en una arquitectura asociativa masivamente paralela". Conferencia Internacional de Redes Neuronales . p. 673. doi :10.1007/978-94-009-0643-3_39. ISBN 978-0-7923-0831-7.
  9. ^ https://core.ac.uk/download/pdf/25268094.pdf [ URL básica PDF ]
  10. ^ Yu, Zhiyi, Michael Meeuwsen, Ryan Apperson, Omar Sattari, Michael Lai, Jeremy Webb, Eric Work, Tinoosh Mohsenin, Mandeep Singh y Bevan Baas. "Un conjunto asíncrono de procesadores simples para aplicaciones DSP". En Conferencia Internacional de Circuitos de Estado Sólido IEEE, (ISSCC'06), vol. 49, págs. 428-429. 2006
  11. ^ Truong, Dean, Wayne Cheng, Tinoosh Mohsenin, Zhiyi Yu, Toney Jacobson, Gouri Landge, Michael Meeuwsen et al. "Una plataforma computacional de 65 nm con 167 procesadores y escalado dinámico de frecuencia de reloj y voltaje de suministro por procesador". En Simposio sobre circuitos VLSI, págs. 22-23. 2008
  12. ^ Michael Bedford Taylor, Jason Kim, Jason Miller, David Wentzlaff, Fae Ghodrat, Ben Greenwald, Henry Hoffmann, Paul Johnson, Walter Lee, Arvind Saraf, Nathan Shnidman, Volker Strumpen, Saman Amarasinghe y Anant Agarwal, "Un microprocesador de contador de programas múltiples de 16 números con red de operandos escalares punto a punto", Actas de la Conferencia Internacional de Circuitos de Estado Sólido del IEEE, febrero de 2003
  13. ^ Yu, Zhiyi, Kaidi You, Ruijin Xiao, Heng Quan, Peng Ou, Yan Ying, Haofan Yang y Xiaoyang Zeng. "Un procesador de 16 núcleos de 800 MHz y 320 mW con mecanismos de comunicación entre núcleos mediante paso de mensajes y memoria compartida". En Solid-State Circuits Conference Digest of Technical Papers (ISSCC), 2012 IEEE International, págs. 64-66. IEEE, 2012.
  14. ^ Ou, Peng, Jiajie Zhang, Heng Quan, Yi Li, Maofei He, Zheng Yu, Xueqiu Yu et al. "Un procesador de 24 núcleos de 65 nm y 39 GOPS/W con red en chip de doble capa conmutada por circuitos controlada por paquetes de 11 Tb/s/W y matriz de ejecución heterogénea". En Solid-State Circuits Conference Digest of Technical Papers (ISSCC), 2013 IEEE International, págs. 56-57. IEEE, 2013.
  15. ^ Dongarra, Jack (20 de junio de 2016). "Informe sobre el sistema Sunway TaihuLight" (PDF) . www.netlib.org . Consultado el 20 de junio de 2016 .
  16. ^ Fu, Haohuan; Liao, Junfeng; Yang, Jinzhe; et al. (2016). "La supercomputadora Sunway TaihuLight: sistema y aplicaciones". Ciencia. Inf. China. Ciencia . 59 (7). doi : 10.1007/s11432-016-5588-7 .
  17. ^ Shaw, David E.; Adams, Peter J.; Azaria, Asaph; Bank, Joseph A.; Batson, Brannon; Bell, Alistair; Bergdorf, Michael; Bhatt, Jhanvi; Butts, J. Adam; Correia, Timothy; Dirks, Robert M.; Dror, Ron O.; Eastwood, Michael P.; Edwards, Bruce; Even, Amos (14 de noviembre de 2021). "Anton 3". Actas de la Conferencia internacional sobre computación de alto rendimiento, redes, almacenamiento y análisis . San Luis, Misuri: ACM. págs. 1–11. doi : 10.1145/3458817.3487397 . ISBN . 978-1-4503-8442-1.S2CID239036976  .​
  18. ^ Adams, Peter J.; Batson, Brannon; Bell, Alistair; Bhatt, Jhanvi; Butts, J. Adam; Correia, Timothy; Edwards, Bruce; Feldmann, Peter; Fenton, Christopher H.; Forte, Anthony; Gagliardo, Joseph; Gill, Gennette; Gorlatova, Maria; Greskamp, ​​Brian; Grossman, JP (22 de agosto de 2021). "El ASIC ΛNTON 3: un monstruo que escupe fuego para simulaciones de dinámica molecular". Simposio IEEE Hot Chips 33 de 2021 (HCS) . Palo Alto, CA, EE. UU.: IEEE. págs. 1–22. doi :10.1109/HCS52781.2021.9567084. ISBN . 978-1-6654-1397-8.S2CID239039245  .​