stringtranslate.com

Procesamiento in situ

El procesamiento in situ, también conocido como procesamiento en almacenamiento ( ISP ), es un término informático que se refiere al procesamiento de datos donde residen. In situ significa "situado en el lugar o posición original, natural o existente". Un proceso in situ procesa los datos donde están almacenados, como en unidades de estado sólido (SSD) o dispositivos de memoria como NVDIMM , en lugar de enviar los datos a la unidad central de procesamiento (CPU) de una computadora.

La tecnología utiliza motores de procesamiento integrados dentro de los dispositivos de almacenamiento para que sean capaces de ejecutar aplicaciones de usuario en el lugar, por lo que no es necesario que los datos salgan del dispositivo para ser procesados. La tecnología no es nueva, pero la arquitectura SSD moderna, así como la disponibilidad de potentes procesadores integrados, hacen que sea más atractivo ejecutar aplicaciones de usuario en el lugar. [1] Los SSD ofrecen un mayor rendimiento de datos en comparación con las unidades de disco duro (HDD). Además, a diferencia de los HDD, los SSD pueden manejar múltiples comandos de E/S al mismo tiempo.

Los SSD contienen una cantidad considerable de potencia de procesamiento para administrar la matriz de memoria flash y proporcionar una interfaz de alta velocidad para las máquinas host. Estas capacidades de procesamiento pueden proporcionar un entorno para ejecutar aplicaciones de usuario en el lugar. El término dispositivo de almacenamiento computacional ( CSD ) se refiere a un SSD que es capaz de ejecutar aplicaciones de usuario en el lugar. En una arquitectura CSD eficiente, el subsistema de procesamiento de almacenamiento integrado tiene acceso a los datos almacenados en la matriz de memoria flash a través de un enlace de alta velocidad y bajo consumo de energía. La implementación de dichos CSD en clústeres puede aumentar el rendimiento general y la eficiencia de las aplicaciones de big data y computación de alto rendimiento (HPC). [1]

Reducir los cuellos de botella en la transferencia de datos

Los diseñadores de centros de datos a escala web han estado intentando desarrollar arquitecturas de almacenamiento que favorezcan los hosts de alta capacidad. En la siguiente figura (de [1] ), se muestra un sistema de almacenamiento de este tipo donde se conectan 64 SSD a un host. Para simplificar, solo se muestran los detalles de un SSD. Los SSD modernos suelen contener 16 o más canales de memoria flash que se pueden utilizar simultáneamente para operaciones de E/S de matrices de memoria flash. Considerando un ancho de banda de 512 MB/s por canal, el ancho de banda interno de un SSD con 16 canales de memoria flash es de aproximadamente 8 GB/s. Este enorme ancho de banda se reduce a aproximadamente 1 GB/s debido a la complejidad de la arquitectura del software y del hardware de la interfaz del host. En otras palabras, el ancho de banda acumulado de todos los canales internos de los 64 SSD alcanza la multiplicación del número de SSD, el número de canales por SSD y 512 MB/s (ancho de banda de cada canal), lo que equivale a 512 GB/s. . Mientras que el ancho de banda acumulado de las interfaces externas de los SSD es igual a 64 multiplicado por 1 GB/s (el ancho de banda de la interfaz del host de cada SSD), que es 64 GB/s. Sin embargo, para poder comunicarse con el host, todos los SSD deben estar conectados a un conmutador PCIe. Por lo tanto, el ancho de banda disponible del host está limitado a 32 GB/s.

La arquitectura SSD moderna y el cuello de botella en la transferencia de datos en los servidores de almacenamiento

En general, existe una brecha de 16 veces entre el ancho de banda interno acumulado de todos los SSD y el ancho de banda disponible para el host. En otras palabras, para leer 32 TB de datos, el host necesita 16 minutos, mientras que los componentes internos de los SSD pueden leer la misma cantidad de datos en aproximadamente 1 minuto. Además, en dichos sistemas de almacenamiento, los datos deben moverse continuamente a través de la compleja pila de hardware y software entre los hosts y las unidades de almacenamiento, lo que impone una cantidad considerable de consumo de energía y reduce drásticamente la eficiencia energética de los grandes centros de datos. Por lo tanto, los arquitectos de almacenamiento necesitan desarrollar técnicas para disminuir el movimiento de datos, y se ha introducido la tecnología ISP para superar los desafíos antes mencionados trasladando el proceso a los datos.

Eficiencia y utilización

La tecnología de almacenamiento computacional minimiza los movimientos de datos en un clúster y también aumenta la potencia de procesamiento del clúster al aumentar los motores de procesamiento energéticamente eficientes para todo el sistema. Esta tecnología se puede aplicar potencialmente tanto a HDD como a SSD; sin embargo, la arquitectura SSD moderna proporciona mejores herramientas para desarrollar dichas tecnologías. Los SSD que pueden ejecutar aplicaciones de usuario in situ se denominan dispositivos de almacenamiento computacional (CSD). Estas unidades de almacenamiento son recursos de procesamiento aumentables, lo que significa que no están diseñadas para reemplazar los procesadores de alta gama de los servidores modernos. En cambio, pueden colaborar con la CPU del host y aumentar su potencia de procesamiento eficiente para el sistema. El artículo científico “Almacenamiento computacional: una plataforma eficiente y escalable para big data y aplicaciones HPC” [1] publicado por Springer Publishing bajo una política de acceso abierto (de acceso gratuito para el público) muestra los beneficios de la utilización de CSD en los clústeres.

Se pueden ver ejemplos de procesamiento en almacenamiento en campos como los esfuerzos de visualización, [2] biología [3] y química. Esto muestra cómo esta tecnología permite que las acciones y los resultados se vean de manera más eficiente que a través del movimiento de datos, independientemente de los datos que se muevan. Las siguientes figuras (de [1] ) muestran cómo se pueden utilizar los CSD en un clúster Apache Hadoop y en un entorno distribuido basado en la interfaz de paso de mensajes .

Clúster Hadoop equipado con CSD
Clúster basado en MPI equipado con CSD

Industria

En la industria del almacenamiento, ahora hay disponibles implementaciones de varias empresas, incluidas NGD Systems, [4] ScaleFlux [5] y Eideticom. [6] Otras empresas han intentado hacer un trabajo similar en el pasado, incluidas Micron Technology [7] y Samsung . El enfoque de todos ellos es la misma dirección, gestionando o procesando los datos donde residen.

NGD Systems fue la primera empresa en crear almacenamiento de procesamiento in situ y ha producido dos versiones del dispositivo desde 2017. El Catalina-1 era un SSD independiente que ofrecía 24 TB de memoria flash junto con procesamiento. [4] En 2018 se lanzó un segundo producto llamado Newport que ofrecía hasta 32 TB de memoria flash . [8] [9]

ScaleFlux utiliza un dispositivo NVMe CSS-1000 que utiliza recursos del host y cambios del kernel para abordar el dispositivo y utiliza recursos del host para administrar hasta 6,4 TB de memoria flash en el dispositivo o SSD base. [10] Eideticom utiliza un dispositivo llamado dispositivo NVMe sin carga DRAM solo como acelerador sin almacenamiento flash real para datos persistentes. [11] Micron llamó a su versión 'Scale In' en un evento Flash Memory Summit (FMS) en 2013, pero nunca pudo producirla y se basó en un SSD SATA en producción. [7] Samsung ha trabajado en varias versiones de dispositivos de KV Store y otros. [12]

Referencias

  1. ^ abcde Torabzadehkashi, Mahdi; Rezaei, Siavash; Heydari Gorji, Ali; Bobarshad, Hossein; Alves, Vladimir; Bagherzadeh, Nader (15 de noviembre de 2019). "Almacenamiento computacional: una plataforma eficiente y escalable para aplicaciones de big data y HPC". Revista de Big Data . 6 (100). doi : 10.1186/s40537-019-0265-5 .
  2. ^ Raffin, Bruno (diciembre de 2014). "In-Situ_2014" (PDF) .
  3. ^ "Biología estructural in situ". Universidad de Utrecht . 2016-03-17 . Consultado el 4 de junio de 2018 .
  4. ^ ab "El almacenamiento computacional cobra protagonismo en el nuevo SSD de NGD Systems". Objetivo tecnológico . 2020-02-13 . Consultado el 7 de marzo de 2019 .
  5. ^ "¿Qué pasaría si te dijera que las unidades flash pueden realizar su propio procesamiento?". El registro . 2020-02-13 . Consultado el 13 de febrero de 2018 .
  6. ^ "Innovadores de IDC: almacenamiento computacional, 2019". IDC . 2020-02-13 . Consultado el 1 de agosto de 2019 .
  7. ^ ab Doller, Ed (14 de agosto de 2013). "Escala de micrones en Keynote - 2013 FMS" (PDF) . www.FlashMemorySummit.com .
  8. ^ "NGD Systems lanza el primer SSD computacional U.2 NVMe de 16 TB". Revisión de almacenamiento . 2020-02-13 . Consultado el 31 de octubre de 2018 .
  9. ^ "$ 20 millones para la empresa advenediza de dispositivos de almacenamiento NGD". Diario de negocios del condado de Orange . 2020-02-13 . Consultado el 10 de febrero de 2020 .
  10. ^ "Solución de servidor de almacenamiento computacional basado en datos (solución de aceleración de almacenamiento y computación): Inspur". xeonscalable.inspursystems.com . Consultado el 4 de junio de 2018 .
  11. ^ "Tecnologías de almacenamiento modernas en 2020: lo que necesita saber". Gran paso . 2020-02-13 . Consultado el 10 de enero de 2020 .
  12. ^ Hazlo, Jaeyoung; Kee, Yang-Suk; Patel, Jignesh M.; Parque, Chanik; Parque, Kwanghyun; DeWitt, David J. (22 de junio de 2013). "Procesamiento de consultas en SSD inteligentes". Procesamiento de consultas en SSD inteligentes: oportunidades y desafíos . ACM. págs. 1221-1230. doi :10.1145/2463676.2465295. ISBN 9781450320375. S2CID  12496095.