stringtranslate.com

Buffer de ráfaga

En el entorno informático de alto rendimiento , el búfer de ráfagas es una capa de almacenamiento intermedio rápido ubicada entre los procesos informáticos front-end y los sistemas de almacenamiento back-end . Cubre la brecha de rendimiento entre la velocidad de procesamiento de los nodos de cómputo y el ancho de banda de entrada/salida (E/S) de los sistemas de almacenamiento. Los búferes de ráfagas suelen construirse a partir de matrices de dispositivos de almacenamiento de alto rendimiento, como NVRAM y SSD . Por lo general, ofrecen un ancho de banda de E/S de uno a dos órdenes de magnitud mayor que los sistemas de almacenamiento back-end.

Casos de uso

Los buffers de ráfagas aceleran el movimiento de datos científicos en supercomputadoras . Por ejemplo, los ciclos de vida de las aplicaciones científicas normalmente alternan entre fases de cómputo y fases de E/S. [1] Es decir, después de cada ronda de cómputo (es decir, fase de cómputo), todos los procesos de cómputo escriben simultáneamente sus datos intermedios en los sistemas de almacenamiento de back-end (es decir, fase de E/S), seguido de otra ronda de operaciones de cómputo y movimiento de datos. Con la implementación de buffers de ráfagas, los procesos pueden escribir rápidamente sus datos en un buffer de ráfagas después de una ronda de cómputo, en lugar de escribir en el lento sistema de almacenamiento basado en disco duro, y proceder inmediatamente a la siguiente ronda de cómputo sin esperar a que los datos se muevan al sistema de almacenamiento de back-end; [2] [3] luego los datos se vacían asincrónicamente desde el buffer de ráfagas al sistema de almacenamiento durante la siguiente ronda de cómputo. De esta manera, el largo tiempo de E/S empleado en mover datos al sistema de almacenamiento queda oculto detrás del tiempo de cómputo. Además, el almacenamiento de datos en un búfer de ráfagas ofrece a las aplicaciones muchas oportunidades para reestructurar el tráfico de datos hacia los sistemas de almacenamiento de back-end para una utilización eficiente del ancho de banda de los sistemas de almacenamiento. [4] [5] En otro caso de uso común, las aplicaciones científicas pueden introducir y sacar sus datos intermedios del búfer de ráfagas sin interactuar con los sistemas de almacenamiento más lentos. Eludir los sistemas de almacenamiento permite a las aplicaciones obtener la mayor parte de los beneficios de rendimiento del búfer de ráfagas. [6]

Arquitecturas representativas de buffer de ráfagas

Existen dos arquitecturas representativas de búfer de ráfagas en el entorno informático de alto rendimiento: búfer de ráfagas local de nodo y búfer de ráfagas compartido remoto. En la arquitectura de búfer de ráfagas local de nodo, el almacenamiento del búfer de ráfagas se encuentra en el nodo de cómputo individual, por lo que el ancho de banda agregado del búfer de ráfagas crece linealmente con el recuento de nodos de cómputo. Este beneficio de escalabilidad ha sido bien documentado en la literatura reciente. [7] [8] [9] [10] También viene con la demanda de una estrategia de gestión de metadatos escalable para mantener un espacio de nombres global para los datos distribuidos en todos los búferes de ráfagas. [11] [12] En la arquitectura de búfer de ráfagas compartido remoto, el almacenamiento del búfer de ráfagas reside en un número menor de nodos de E/S ubicados entre los nodos de cómputo y los sistemas de almacenamiento de back-end. El movimiento de datos entre los nodos de cómputo y el búfer de ráfagas debe pasar por la red. Colocar el búfer de ráfagas en los nodos de E/S facilita el desarrollo, la implementación y el mantenimiento independientes del servicio de búfer de ráfagas. Por lo tanto, se han desarrollado varios productos de software comercializados y conocidos para gestionar este tipo de búfer de ráfagas, como DataWarp e Infinite Memory Engine. A medida que se implementan supercomputadoras con múltiples capas de búfer de ráfagas heterogéneas, como NVRAM en los nodos de cómputo y SSD en los nodos de E/S dedicados, existe la necesidad de mover datos de manera transparente a través de múltiples capas de almacenamiento. [13] [14] [15]

Supercomputadoras implementadas con buffer de ráfaga

Debido a su importancia, el buffer de ráfagas se ha implementado ampliamente en las supercomputadoras de escala de liderazgo. Por ejemplo, el buffer de ráfagas local de nodo se ha instalado en la supercomputadora DASH en el Centro de Supercomputadoras de San Diego , [16] las supercomputadoras Tsubame en el Instituto de Tecnología de Tokio , las supercomputadoras Theta y Aurora en el Laboratorio Nacional Argonne , la supercomputadora Summit en el Laboratorio Nacional Oak Ridge y la supercomputadora Sierra en el Laboratorio Nacional Lawrence Livermore , etc. El buffer de ráfagas compartido remoto ha sido adoptado por la supercomputadora Tianhe-2 en el Centro Nacional de Supercomputadoras en Guangzhou , la supercomputadora Trinity en el Laboratorio Nacional Los Alamos , la supercomputadora Cori en el Laboratorio Nacional Lawrence Berkeley y la supercomputadora ARCHER2 en el Centro de Computación Paralela de Edimburgo .

Referencias

  1. ^ Liu, Zhuo; Lofstead, Jay; Wang, Teng; Yu, Weikuan (septiembre de 2013). "Un caso de gestión de energía de todo el sistema para aplicaciones científicas". Conferencia internacional IEEE de 2013 sobre computación en clúster (CLUSTER) . IEEE. págs. 1–8. doi :10.1109/CLUSTER.2013.6702681. ISBN . 978-1-4799-0898-1.S2CID6156410  .​
  2. ^ Wang, Teng; Oral, Sarp; Wang, Yandong; Settlemyer, Brad; Atchley, Scott; Yu, Weikuan (octubre de 2014). "BurstMem: un sistema de búfer de ráfagas de alto rendimiento para aplicaciones científicas". Conferencia internacional IEEE de 2014 sobre Big Data (Big Data) . IEEE. págs. 71–79. doi :10.1109/BigData.2014.7004215. ISBN . 978-1-4799-5666-1. OSTI  1150929. S2CID  16764901.
  3. ^ Liu, Ning; Cope, Jason; Carns, Philip; Carothers, Christopher; Ross, Robert; Grider, Gary; Crume, Adam; Maltzahn, Carlos (abril de 2012). "Sobre el papel de los búferes de ráfaga en los sistemas de almacenamiento de clase líder". 012 IEEE 28.º Simposio sobre sistemas y tecnologías de almacenamiento masivo (MSST) . IEEE. págs. 1–11. doi :10.1109/MSST.2012.6232369. ISBN . 978-1-4673-1747-4.S2CID 9676920  .
  4. ^ Wang, Teng; Oral, Sarp; Pritchard, Michael; Wang, Bin; Yu, Weikuan (septiembre de 2015). "TRIO: orquestación de E/S basada en búfer de ráfagas". Conferencia internacional IEEE de 2015 sobre computación en clúster . IEEE. págs. 194–203. doi :10.1109/CLUSTER.2015.38. ISBN. 978-1-4673-6598-7. OSTI  1265517. S2CID  12482308.
  5. ^ Kougkas, Anthony; Dorier, Matthieu; Latham, Rob; Ross, Rob; Sun, Xian-He (marzo de 2017). "Aprovechamiento de la coordinación de búfer de ráfagas para prevenir la interferencia de E/S". 2016 IEEE 12th International Conference on e-Science (E-Science) . IEEE. págs. 371–380. doi :10.1109/eScience.2016.7870922. ISBN 978-1-5090-4273-9. OSTI  1366308. S2CID  14514395.
  6. ^ Wang, Teng; Mohror, Kathryn; Moody, Adam; Sato, Kento; Yu, Weikuan (noviembre de 2016). "Un sistema de archivos de búfer de ráfaga efímero para aplicaciones científicas". SC16: Conferencia internacional sobre computación de alto rendimiento, redes, almacenamiento y análisis . IEEE. págs. 807–818. doi :10.1109/SC.2016.68. ISBN. 978-1-4673-8815-3.S2CID260667  .​
  7. ^ "BurstFS: un sistema de archivos de búfer de ráfagas distribuido para aplicaciones científicas" (PDF) . Noviembre de 2015.
  8. ^ Moody, Adam; Bronevetsky, Greg; Mohror, Kathryn; Supinski, Bronis R. de (noviembre de 2010). "Diseño, modelado y evaluación de un sistema escalable de puntos de control multinivel". Conferencia internacional ACM/IEEE de 2010 sobre computación de alto rendimiento, redes, almacenamiento y análisis . ACM. págs. 1–11. doi :10.1109/SC.2010.18. ISBN. 978-1-4244-7557-5.S2CID 7352923  .
  9. ^ Rajachandrasekar, Raghunath; Moody, Adam; Mohror, Kathryn; Panda, Dhabaleswar K. (DK) (junio de 2013). "Un sistema de archivos de 1 PB/s para controlar tres millones de tareas MPI" (PDF) . Actas del 22.º simposio internacional sobre computación paralela y distribuida de alto rendimiento - HPDC '13 . ACM. pág. 143. doi :10.1145/2493123.2462908. ISBN. 9781450319102.
  10. ^ Zhao, Dongfang; Zhang, Zhao; Zhou, Xiaobing; Li, Tonglin; Wang, Ke; Kimpe, Dries; Carns, Philip; Ross, Robert; Raicu, Ioan (octubre de 2014). "FusionFS: Hacia el apoyo a aplicaciones científicas con uso intensivo de datos en sistemas informáticos de alto rendimiento a escala extrema". 2014 IEEE International Conference on Big Data (Big Data) . IEEE. págs. 61–70. doi :10.1109/BigData.2014.7004214. ISBN 978-1-4799-5666-1. Número de identificación del sujeto  5288472.
  11. ^ Wang, Teng; Moody, Adam; Zhu, Yue; Mohror, Kathryn; Sato, Kento; Islam, Tanzima; Yu, Weikuan (mayo de 2017). "MetaKV: un almacén de clave-valor para la gestión de metadatos de búferes de ráfagas distribuidas". Simposio internacional de procesamiento paralelo y distribuido (IPDPS) del IEEE de 2017. IEEE. págs. 1174–1183. doi :10.1109/IPDPS.2017.39. ISBN. 978-1-5386-3914-6.S2CID8148699  .​
  12. ^ Li, Tonglin; Zhou, Xiaobing; Brandstatter, Kevin; Zhao, Dongfang; Wang, Ke; Rajendran, Anupam; Zhang, Zhao; Raicu, Ioan (mayo de 2013). "ZHT: una tabla hash distribuida, escalable, dinámica, persistente, confiable y liviana, de salto cero". 2013 IEEE 27th International Symposium on Parallel and Distributed Processing . IEEE. págs. 775–787. CiteSeerX 10.1.1.365.7329 . doi :10.1109/IPDPS.2013.110. ISBN.  978-1-4673-6066-1.S2CID16614868  .​
  13. ^ Wang, Teng; Byna, Suren; Dong, Bin; Tang, Houjun (septiembre de 2018). "UniviStor: almacenamiento distribuido y jerárquico integrado para HPC". Conferencia internacional IEEE de 2018 sobre computación en clúster (CLUSTER) . IEEE. págs. 134–144. doi :10.1109/CLUSTER.2018.00025. ISBN . 978-1-5386-8319-4.S2CID53235423  .​
  14. ^ "Hermes: un sistema de almacenamiento en búfer de E/S distribuido de múltiples niveles con reconocimiento de heterogeneidad". ACM. Junio ​​de 2018. doi : 10.1145/3208040.3208059 . S2CID  47019714. {{cite journal}}: Requiere citar revista |journal=( ayuda )
  15. ^ Tang, Houjun; Byna, Suren; Tessier, Francois; Wang, Teng; Dong, Bin; Mu, Jingqing; Koziol, Quincey; Soumagne, Jerome; Vishwanath, Venkatram; Liu, Jialin; Warren, Richard (mayo de 2018). "Hacia una gestión de datos escalable y asincrónica centrada en objetos para HPC". 2018 18.° Simposio internacional IEEE/ACM sobre computación en clúster, en la nube y en red (CCGRID). IEEE. págs. 113–122. doi :10.1109/CCGRID.2018.00026. ISBN. 978-1-5386-5815-4. Número de identificación del sujeto  13811397.
  16. ^ He, Jiahua; Jagatheesan, Arun; Gupta, Sandeep; Bennett, Jeffrey; Snavely, Allan (noviembre de 2010). "DASH: una receta para una supercomputadora con uso intensivo de datos basada en Flash" (PDF) . Conferencia internacional ACM/IEEE de 2010 sobre computación de alto rendimiento, redes, almacenamiento y análisis . ACM. págs. 1–11. doi :10.1109/SC.2010.16. ISBN . 978-1-4244-7557-5. Número de identificación del sujeto  7349294.

Enlaces externos