GPFS ( General Parallel File System , nombre comercial IBM Storage Scale y anteriormente IBM Spectrum Scale ) [1] es un software de sistema de archivos en clúster de alto rendimiento desarrollado por IBM . Se puede implementar en modos paralelos distribuidos de disco compartido o sin nada compartido , o una combinación de estos. Lo utilizan muchas de las empresas comerciales más grandes del mundo, así como algunas de las supercomputadoras de la lista Top 500 . [2] Por ejemplo, es el sistema de archivos de la Cumbre [3] en el Laboratorio Nacional Oak Ridge, que fue la supercomputadora número uno más rápida del mundo en la lista Top 500 de noviembre de 2019. [4] Summit es un sistema de 200 Petaflops compuesto por más de 9.000 procesadores POWER9 y 27.000 GPU NVIDIA Volta . El sistema de archivos de almacenamiento se llama Alpine. [5]
Al igual que los sistemas de archivos de clúster típicos, GPFS proporciona acceso simultáneo a archivos de alta velocidad para aplicaciones que se ejecutan en múltiples nodos de clústeres. Se puede utilizar con clústeres AIX , clústeres de Linux , [6] en Microsoft Windows Server , o un clúster heterogéneo de nodos AIX, Linux y Windows que se ejecutan en arquitecturas de procesador x86 , Power o IBM Z.
GPFS comenzó como el sistema de archivos Tiger Shark , un proyecto de investigación en el Centro de Investigación Almaden de IBM ya en 1993. Tiger Shark fue diseñado inicialmente para soportar aplicaciones multimedia de alto rendimiento. Este diseño resultó ser muy adecuado para la informática científica. [7]
Otro antepasado es el sistema de archivos Vesta de IBM , desarrollado como un proyecto de investigación en el Centro de Investigación Thomas J. Watson de IBM entre 1992 y 1995. [8] Vesta introdujo el concepto de partición de archivos para satisfacer las necesidades de aplicaciones paralelas que se ejecutan en multicomputadoras de alto rendimiento con subsistemas de E/S paralelos . Con la partición, un archivo no es una secuencia de bytes, sino más bien múltiples secuencias separadas a las que se puede acceder en paralelo. La partición es tal que abstrae el número y tipo de nodos de E/S que alojan el sistema de archivos y permite una variedad de vistas de archivos particionadas lógicamente, independientemente de la distribución física de los datos dentro de los nodos de E/S. Las secuencias disjuntas están dispuestas para corresponder a procesos individuales de una aplicación paralela, lo que permite una escalabilidad mejorada. [9] [10]
Vesta se comercializó como el sistema de archivos PIOFS alrededor de 1994, [11] y fue sucedido por GPFS alrededor de 1998. [12] [13] La principal diferencia entre los sistemas de archivos más antiguos y más nuevos fue que GPFS reemplazó la interfaz especializada ofrecida por Vesta/PIOFS con el API estándar de Unix : todas las características para soportar E/S paralelas de alto rendimiento se ocultaron a los usuarios y se implementaron bajo el capó. [7] [13] GPFS también compartió muchos componentes con los productos relacionados IBM Multi-Media Server e IBM Video Charger, razón por la cual muchas utilidades GPFS comienzan con el prefijo mm —multimedia. [14] : xi
En 2010, IBM presentó una versión preliminar de GPFS que incluía una capacidad conocida como GPFS-SNC, donde SNC significa Shared Nothing Cluster. Esto se lanzó oficialmente con GPFS 3.5 en diciembre de 2012 y ahora se conoce como FPO [15] (File Placement Optimizer).
Es un sistema de archivos agrupado . Divide un archivo en bloques de un tamaño configurado, menos de 1 megabyte cada uno, que se distribuyen en varios nodos del clúster.
El sistema almacena datos en volúmenes de almacenamiento en bloque estándar, pero incluye una capa RAID interna que puede virtualizar esos volúmenes para lograr redundancia y acceso paralelo de manera muy similar a un sistema de almacenamiento en bloque RAID. También tiene la capacidad de replicar entre volúmenes en el nivel de archivo superior.
Las características de la arquitectura incluyen
Otras características incluyen alta disponibilidad, capacidad de usarse en un clúster heterogéneo, recuperación ante desastres, seguridad, DMAPI , HSM e ILM .
El sistema de archivos HDFS de Hadoop está diseñado para almacenar cantidades similares o mayores de datos en hardware básico, es decir, centros de datos sin discos RAID y una red de área de almacenamiento (SAN).
Los grupos de almacenamiento permiten agrupar discos dentro de un sistema de archivos. Un administrador puede crear niveles de almacenamiento agrupando discos según las características de rendimiento, localidad o confiabilidad. Por ejemplo, un grupo podría ser discos Fibre Channel de alto rendimiento y otro almacenamiento SATA más económico.
Un conjunto de archivos es un subárbol del espacio de nombres del sistema de archivos y proporciona una forma de dividir el espacio de nombres en unidades más pequeñas y manejables. Los conjuntos de archivos proporcionan un límite administrativo que se puede utilizar para establecer cuotas y especificarse en una política para controlar la ubicación inicial de los datos o la migración de datos. Los datos de un único conjunto de archivos pueden residir en uno o más grupos de almacenamiento. El lugar donde residen los datos del archivo y cómo se migran se basa en un conjunto de reglas en una política definida por el usuario.
Hay dos tipos de políticas definidas por el usuario: ubicación de archivos y administración de archivos. Las políticas de ubicación de archivos dirigen los datos de los archivos a medida que se crean al grupo de almacenamiento adecuado. Las reglas de ubicación de archivos se seleccionan mediante atributos como el nombre del archivo, el nombre de usuario o el conjunto de archivos. Las políticas de administración de archivos permiten mover o replicar los datos del archivo o eliminar archivos. Las políticas de administración de archivos se pueden utilizar para mover datos de un grupo a otro sin cambiar la ubicación del archivo en la estructura del directorio. Las políticas de administración de archivos están determinadas por los atributos del archivo, como la hora del último acceso, el nombre de la ruta o el tamaño del archivo.
El motor de procesamiento de políticas es escalable y se puede ejecutar en muchos nodos a la vez. Esto permite aplicar políticas de administración a un único sistema de archivos con miles de millones de archivos y completarlas en unas pocas horas. [ cita necesaria ]
{{cite journal}}
: CS1 maint: bot: original URL status unknown (link){{cite journal}}
: CS1 maint: bot: original URL status unknown (link){{cite book}}
: CS1 maint: bot: original URL status unknown (link)