FPS

GPFS ( General Parallel File System , nombre comercial IBM Storage Scale y anteriormente IBM Spectrum Scale ) ^[1] es un software de sistema de archivos en clúster de alto rendimiento desarrollado por IBM . Se puede implementar en modos paralelos distribuidos de disco compartido o sin uso compartido , o una combinación de estos. Lo utilizan muchas de las empresas comerciales más grandes del mundo, así como algunas de las supercomputadoras de la lista Top 500. [ ^2] Por ejemplo, es el sistema de archivos de Summit ^[3] en el Laboratorio Nacional de Oak Ridge , que fue la supercomputadora número uno más rápida del mundo en la lista Top 500 de noviembre de 2019. ^[4] Summit es un sistema de 200 petaflops compuesto por más de 9000 procesadores POWER9 y 27 000 GPU NVIDIA Volta . El sistema de archivos de almacenamiento se llama Alpine. ^[5]

Al igual que los sistemas de archivos de clúster típicos, GPFS proporciona acceso simultáneo a archivos de alta velocidad a aplicaciones que se ejecutan en varios nodos de clústeres. Se puede utilizar con clústeres AIX , clústeres Linux , ^[6] en Microsoft Windows Server o un clúster heterogéneo de nodos AIX, Linux y Windows que se ejecutan en arquitecturas de procesador x86 , Power o IBM Z.

Historia

GPFS comenzó como el sistema de archivos Tiger Shark , un proyecto de investigación del Centro de Investigación Almaden de IBM en 1993. Tiger Shark fue diseñado inicialmente para soportar aplicaciones multimedia de alto rendimiento. Este diseño resultó ser muy adecuado para la computación científica. ^[7]

Otro antecesor es el sistema de archivos Vesta de IBM , desarrollado como un proyecto de investigación en el Centro de Investigación Thomas J. Watson de IBM entre 1992 y 1995. ^{[8] Vesta introdujo el concepto de particionamiento de archivos para satisfacer las necesidades de aplicaciones paralelas que se ejecutan en}multicomputadoras de alto rendimiento con subsistemas de E/S paralelos . Con el particionamiento, un archivo no es una secuencia de bytes, sino más bien múltiples secuencias disjuntas a las que se puede acceder en paralelo. El particionamiento es tal que abstrae la cantidad y el tipo de nodos de E/S que alojan el sistema de archivos y permite una variedad de vistas particionadas lógicamente de los archivos, independientemente de la distribución física de los datos dentro de los nodos de E/S. Las secuencias disjuntas se organizan para corresponder a procesos individuales de una aplicación paralela, lo que permite una escalabilidad mejorada. ^[9]^[10]

Vesta se comercializó como el sistema de archivos PIOFS alrededor de 1994, ^[11] y fue sucedido por GPFS alrededor de 1998. ^[12]^[13] La principal diferencia entre los sistemas de archivos más antiguos y los más nuevos fue que GPFS reemplazó la interfaz especializada ofrecida por Vesta/PIOFS con la API estándar de Unix : todas las características para soportar E/S paralelas de alto rendimiento estaban ocultas a los usuarios y se implementaron de forma discreta. ^[7]^[13] GPFS también compartía muchos componentes con los productos relacionados IBM Multi-Media Server e IBM Video Charger, por lo que muchas utilidades GPFS comienzan con el prefijo mm —multi-media. ^[14]^{: xi}

En 2010, IBM presentó una versión preliminar de GPFS que incluía una función conocida como GPFS-SNC, donde SNC significa Shared Nothing Cluster. Esta función se lanzó oficialmente con GPFS 3.5 en diciembre de 2012 y ahora se conoce como FPO ^[15] (File Placement Optimizer).

Arquitectura

Es un sistema de archivos en clúster . Divide un archivo en bloques de un tamaño configurado, de menos de 1 megabyte cada uno, que se distribuyen entre varios nodos del clúster.

El sistema almacena datos en volúmenes de almacenamiento en bloque estándar, pero incluye una capa RAID interna que puede virtualizar esos volúmenes para lograr redundancia y acceso paralelo, de forma muy similar a un sistema de almacenamiento en bloque RAID. También tiene la capacidad de replicarse entre volúmenes en el nivel de archivo superior.

Las características de la arquitectura incluyen:

Metadatos distribuidos, incluido el árbol de directorios. No existe un único "controlador de directorios" o "servidor de índices" a cargo del sistema de archivos.
Indexación eficiente de entradas de directorio para directorios muy grandes.
Bloqueo distribuido. Esto permite la semántica completa del sistema de archivos POSIX , incluido el bloqueo para el acceso exclusivo a archivos.
Particiones conscientes. Una falla de la red puede dividir el sistema de archivos en dos o más grupos de nodos que solo pueden ver los nodos de su grupo. Esto se puede detectar a través de un protocolo de latido y, cuando se produce una partición, el sistema de archivos permanece activo durante la partición más grande que se forma. Esto ofrece una degradación elegante del sistema de archivos: algunas máquinas seguirán funcionando.
El mantenimiento del sistema de archivos se puede realizar en línea. La mayoría de las tareas de mantenimiento del sistema de archivos (agregar nuevos discos, reequilibrar datos entre discos) se pueden realizar mientras el sistema de archivos está activo. Esto maximiza la disponibilidad del sistema de archivos y, por lo tanto, la disponibilidad del propio clúster de supercomputadoras.

Otras características incluyen alta disponibilidad, capacidad de uso en un clúster heterogéneo, recuperación ante desastres, seguridad, DMAPI , HSM e ILM .

En comparación con el sistema de archivos distribuido Hadoop (HDFS)

El sistema de archivos HDFS de Hadoop está diseñado para almacenar cantidades similares o mayores de datos en hardware convencional, es decir, centros de datos sin discos RAID y una red de área de almacenamiento (SAN).

HDFS también divide los archivos en bloques y los almacena en diferentes nodos del sistema de archivos.
GPFS tiene semántica completa del sistema de archivos Posix.
GPFS distribuye sus índices de directorio y otros metadatos a través del sistema de archivos. Hadoop, por el contrario, los mantiene en los nodos de nombres primario y secundario, grandes servidores que deben almacenar toda la información de índices en la RAM.
GPFS divide los archivos en bloques pequeños. A Hadoop HDFS le gustan los bloques de 64 MB o más, ya que esto reduce los requisitos de almacenamiento del Namenode. Los bloques pequeños o muchos archivos pequeños llenan rápidamente los índices de un sistema de archivos, por lo que se debe limitar el tamaño del sistema de archivos.

Gestión del ciclo de vida de la información

Los grupos de almacenamiento permiten agrupar discos dentro de un sistema de archivos. Un administrador puede crear niveles de almacenamiento agrupando discos en función de características de rendimiento, ubicación o confiabilidad. Por ejemplo, un grupo podría estar formado por discos de canal de fibra de alto rendimiento y otro por almacenamiento SATA más económico.

Un conjunto de archivos es un subárbol del espacio de nombres del sistema de archivos y proporciona una forma de dividir el espacio de nombres en unidades más pequeñas y manejables. Los conjuntos de archivos proporcionan un límite administrativo que se puede utilizar para establecer cuotas y especificar en una política para controlar la ubicación inicial de los datos o la migración de los mismos. Los datos de un único conjunto de archivos pueden residir en uno o más grupos de almacenamiento. La ubicación de los datos de los archivos y la forma en que se migran se basan en un conjunto de reglas en una política definida por el usuario.

Existen dos tipos de políticas definidas por el usuario: la ubicación de archivos y la administración de archivos. Las políticas de ubicación de archivos dirigen los datos de los archivos a medida que se crean al grupo de almacenamiento adecuado. Las reglas de ubicación de archivos se seleccionan por atributos como el nombre del archivo, el nombre de usuario o el conjunto de archivos. Las políticas de administración de archivos permiten mover o replicar los datos del archivo o eliminar archivos. Las políticas de administración de archivos se pueden utilizar para mover datos de un grupo a otro sin cambiar la ubicación del archivo en la estructura del directorio. Las políticas de administración de archivos se determinan por atributos de archivo como la hora del último acceso, el nombre de la ruta o el tamaño del archivo.

El motor de procesamiento de políticas es escalable y puede ejecutarse en muchos nodos a la vez. Esto permite que las políticas de administración se apliquen a un solo sistema de archivos con miles de millones de archivos y se completen en unas pocas horas. ^{[ cita requerida ]}

Véase también

Referencias

^ "GPFS (Sistema de archivos paralelos general)". IBM . Consultado el 7 de abril de 2020 .
^ Schmuck, Frank; Roger Haskin (enero de 2002). "GPFS: un sistema de archivos de disco compartido para grandes clústeres informáticos" (PDF) . Actas de la conferencia FAST'02 sobre tecnologías de archivos y almacenamiento . Monterey, California, EE. UU.: USENIX. págs. 231–244. ISBN 1-880446-03-0. Recuperado el 18 de enero de 2008 .
^ "Sistemas de computación de la cumbre". Laboratorio Nacional de Oak Ridge . Consultado el 7 de abril de 2020 .
^ "Lista de los 500 mejores de noviembre de 2019". top500.org. Archivado desde el original el 2020-01-02 . Consultado el 2020-04-07 .
^ "Preguntas frecuentes sobre la cumbre". Laboratorio Nacional de Oak Ridge . Consultado el 7 de abril de 2020 .
^ Wang, Teng; Vasko, Kevin; Liu, Zhuo; Chen, Hui; Yu, Weikuan (noviembre de 2014). "BPAR: un marco de agregación paralela basado en paquetes para la ejecución de E/S desacoplada". Taller internacional de 2014 sobre sistemas informáticos escalables con uso intensivo de datos . IEEE. págs. 25–32. doi :10.1109/DISCS.2014.6. ISBN. 978-1-4673-6750-9. Número de identificación del sujeto 2402391.
^ ab May, John M. (2000). E/S paralela para computación de alto rendimiento. Morgan Kaufmann. pág. 92. ISBN 978-1-55860-664-7. Consultado el 18 de junio de 2008 .
^ Corbett, Peter F.; Feitelson, Dror G.; Prost, J.-P.; Baylor, SJ (1993). "Acceso paralelo a archivos en el sistema de archivos Vesta". Actas de la conferencia ACM/IEEE de 1993 sobre supercomputación - Supercomputing '93 . Portland, Oregon, Estados Unidos: ACM/IEEE. págs. 472–481. doi :10.1145/169627.169786. ISBN 978-0818643408.S2CID46409100 .
^ Corbett, Peter F.; Feitelson, Dror G. (agosto de 1996). "El sistema de archivos paralelos Vesta" (PDF) . ACM Transactions on Computer Systems . 14 (3): 225–264. doi :10.1145/233557.233558. S2CID 11975458. Archivado desde el original el 12 de febrero de 2012 . Consultado el 18 de junio de 2008 .{{cite journal}}: CS1 maint: bot: original URL status unknown (link)
^ Teng Wang; Kevin Vasko; Zhuo Liu; Hui Chen; Weikuan Yu (2016). "Mejorar la entrada/salida paralela con agregación entre paquetes". Revista internacional de aplicaciones informáticas de alto rendimiento . 30 (2): 241–256. doi :10.1177/1094342015618017. S2CID 12067366.
^ Corbett, PF; DG Feitelson; J.-P. Prost; GS Almasi; SJ Baylor; AS Bolmarcich; Y. Hsu; J. Satran; M. Snir; R. Colao; BD Herr; J. Kavaky; TR Morgan; A. Zlotek (1995). "Sistemas de archivos paralelos para los ordenadores IBM SP" (PDF) . IBM Systems Journal . 34 (2): 222–248. CiteSeerX 10.1.1.381.2988 . doi :10.1147/sj.342.0222. Archivado desde el original el 19 de abril de 2004 . Consultado el 18 de junio de 2008 . {{cite journal}}: CS1 maint: bot: original URL status unknown (link)
^ Barris, Marcelo; Terry Jones; Scott Kinnane; Mathis Landzettel Safran Al-Safran; Jerry Stevens; Christopher Stone; Chris Thomas; Ulf Troppens (septiembre de 1999). Dimensionamiento y ajuste de GPFS (PDF) . IBM Redbooks, Organización Internacional de Soporte Técnico. consulte la página 1 ( «GPFS es el sucesor del sistema de archivos PIOFS» ). Archivado desde el original el 14 de diciembre de 2010. Consultado el 6 de diciembre de 2022 .{{cite book}}: CS1 maint: bot: original URL status unknown (link)
^ ab Snir, Marc (junio de 2001). «Sistemas paralelos escalables: Aportes 1990-2000» (PDF) . Seminario HPC, Departamento de Arquitectura de Computadores, Universitat Politècnica de Catalunya . Consultado el 18 de junio de 2008 .
^ Referencia general de programación y administración de sistemas de archivos paralelos Versión 3.1 (PDF) . IBM. Abril de 2006.
^ "IBM GPFS FPO (DCS03038-USEN-00)" (PDF) . IBM Corporation. 2013 . Consultado el 12 de agosto de 2012 .^{[ enlace muerto permanente ]}