Gestión de almacenamiento jerárquico

La gestión de almacenamiento jerárquico ( HSM ), también conocida como almacenamiento por niveles , ^[1] es una técnica de almacenamiento y gestión de datos que mueve automáticamente los datos entre medios de almacenamiento de alto y bajo costo . Los sistemas HSM existen porque los dispositivos de almacenamiento de alta velocidad, como las matrices de unidades de estado sólido , son más caros (por byte almacenado) que los dispositivos más lentos, como las unidades de disco duro , los discos ópticos y las unidades de cinta magnética . Si bien sería ideal tener todos los datos disponibles en dispositivos de alta velocidad todo el tiempo, esto es prohibitivamente caro para muchas organizaciones. En cambio, los sistemas HSM almacenan la mayor parte de los datos de la empresa en dispositivos más lentos y luego copian los datos a unidades de disco más rápidas cuando es necesario. El sistema HSM monitorea la forma en que se utilizan los datos y hace las mejores conjeturas sobre qué datos se pueden mover de manera segura a dispositivos más lentos y qué datos deben permanecer en los dispositivos rápidos.

También se puede utilizar HSM cuando se dispone de un almacenamiento más sólido para archivar a largo plazo, pero el acceso a este es lento. Esto puede ser tan simple como una copia de seguridad externa , para protegerse contra un incendio en el edificio.

El HSM es un concepto que se remonta a los inicios del procesamiento comercial de datos. Sin embargo, las técnicas utilizadas han cambiado significativamente a medida que se dispone de nuevas tecnologías, tanto para el almacenamiento como para la comunicación a larga distancia de grandes conjuntos de datos. La escala de medidas como el "tamaño" y el "tiempo de acceso" ha cambiado drásticamente. A pesar de esto, muchos de los conceptos subyacentes siguen volviendo a ponerse de moda años después, aunque en escalas mucho mayores o más rápidas. ^[1]

Implementación

En un escenario típico de HSM, los datos que se utilizan con frecuencia se almacenan en un dispositivo de almacenamiento en caliente, como un disco de estado sólido (SSD). Los datos a los que se accede con poca frecuencia se migran , después de un tiempo , a un nivel de almacenamiento en frío más lento y de mayor capacidad. Si un usuario accede a los datos que se encuentran en el nivel de almacenamiento en frío, estos se trasladan automáticamente al almacenamiento en caliente. La ventaja es que la cantidad total de datos almacenados puede ser mucho mayor que la capacidad del dispositivo de almacenamiento en caliente, pero como solo los archivos que se utilizan con poca frecuencia se encuentran en el almacenamiento en frío, la mayoría de los usuarios normalmente no notarán ninguna ralentización.

Conceptualmente, HSM es análogo al caché que se encuentra en la mayoría de las CPU de las computadoras , donde se utilizan pequeñas cantidades de memoria SRAM costosa que funciona a velocidades muy altas para almacenar datos utilizados con frecuencia, pero los datos utilizados menos recientemente se expulsan a la memoria DRAM principal, más lenta pero mucho más grande, cuando se deben cargar nuevos datos.

En la práctica, HSM normalmente se realiza mediante software dedicado, como IBM Tivoli Storage Manager o SAM-QFS de Oracle .

La eliminación de archivos de un nivel superior de la jerarquía (por ejemplo, un disco magnético) después de haberlos movido a un nivel inferior (por ejemplo, un medio óptico) a veces se denomina limpieza de archivos . ^[2]

Historia

El primer ^[^{cita requerida}^] implementado por IBM el 31 de marzo de 1978 para MVS fue el Administrador de almacenamiento jerárquico (HSM, luego DFHSM y finalmente DFSMShsm ) para reducir el costo del almacenamiento de datos y simplificar la recuperación de datos de medios más lentos. El usuario no necesitaría saber dónde se almacenaban los datos ni cómo recuperarlos; la computadora recuperaría los datos automáticamente. La única diferencia para el usuario era la velocidad a la que se devolvían los datos. Originalmente, HSM solo podía migrar conjuntos de datos a volúmenes de disco y volúmenes virtuales en un IBM 3850 Mass Storage Facility, pero una versión posterior admitió volúmenes de cinta magnética para el nivel de migración 2 (ML2).

Más tarde, IBM portó HSM a su sistema operativo AIX , y luego a otros sistemas operativos tipo Unix como Solaris , HP-UX y Linux .

La División de Investigación Informática de CSIRO Australia implementó un HSM en su sistema operativo DAD (Drums and Display) con su Document Region en la década de 1960, con copias de documentos escritas en cintas de 7 pistas y recuperación automática al acceder a los documentos.

El HSM también se implementó en los sistemas DEC VAX/VMS y Alpha/VMS. La fecha de la primera implementación se puede determinar fácilmente a partir de los manuales de implementación del sistema VMS o los folletos de descripción del producto VMS.

Más recientemente, el desarrollo de discos Serial ATA (SATA) ha creado un mercado significativo para HSM de tres etapas: los archivos se migran desde dispositivos de red de área de almacenamiento de canal de fibra de alto rendimiento a matrices de discos SATA algo más lentas pero mucho más económicas que suman varios terabytes o más, y luego eventualmente desde los discos SATA a la cinta.

Casos de uso

Los HSM se utilizan a menudo para el almacenamiento de datos en archivos profundos que se conservarán a largo plazo a bajo costo. Los robots de cinta automatizados pueden almacenar grandes cantidades de datos de manera eficiente con un bajo consumo de energía.

Algunos productos de software HSM permiten al usuario colocar partes de archivos de datos en una memoria caché de disco de alta velocidad y el resto en cinta. Esto se utiliza en aplicaciones que transmiten video por Internet: la parte inicial de un video se envía inmediatamente desde el disco mientras un robot encuentra, monta y transmite el resto del archivo al usuario final. Este sistema reduce en gran medida el costo del disco para los grandes sistemas de provisión de contenido.

En la actualidad, el software HSM también se utiliza para la clasificación entre unidades de disco duro y memoria flash ; la memoria flash es 30 veces más rápida que los discos magnéticos, pero los discos son considerablemente más baratos.

Algoritmos

El factor clave detrás de HSM es una política de migración de datos que controla las transferencias de archivos en el sistema. Más precisamente, la política decide en qué nivel se debe almacenar un archivo, de modo que todo el sistema de almacenamiento pueda estar bien organizado y tenga un tiempo de respuesta más corto a las solicitudes. Hay varios algoritmos que realizan este proceso, como el reemplazo por el último utilizado (LRU), ^[3] el reemplazo por tamaño y temperatura (STP), el umbral heurístico (STEP) ^[4] , etc. En las investigaciones de los últimos años, también están surgiendo algunas políticas inteligentes mediante el uso de tecnologías de aprendizaje automático. ^[5]

Nivelación vs. almacenamiento en caché

Si bien las soluciones de niveles y el almacenamiento en caché pueden parecer iguales a primera vista, las diferencias fundamentales radican en la forma en que se utiliza el almacenamiento más rápido y los algoritmos utilizados para detectar y acelerar los datos a los que se accede con frecuencia. ^[6]

El almacenamiento en caché funciona haciendo una copia de los bloques de datos a los que se accede con frecuencia y almacenando la copia en el dispositivo de almacenamiento más rápido y utilizando esta copia en lugar de la fuente de datos original en el almacenamiento de backend más lento y de alta capacidad. Cada vez que se produce una lectura de almacenamiento, el software de almacenamiento en caché busca si ya existe una copia de estos datos en la memoria caché y utiliza esa copia, si está disponible. De lo contrario, los datos se leen desde el almacenamiento más lento y de alta capacidad. ^[6]

Por otra parte, la estratificación funciona de manera muy diferente. En lugar de hacer una copia de los datos a los que se accede con frecuencia en un almacenamiento rápido, la estratificación mueve los datos entre niveles, por ejemplo, reubicando los datos fríos en dispositivos de almacenamiento nearline de alta capacidad y bajo costo. ^[7]^[6] La idea básica es que los datos de misión crítica y de alto acceso o "calientes" se almacenan en un medio costoso como SSD para aprovechar el alto rendimiento de E/S, mientras que los datos nearline o de acceso poco frecuente o "fríos" se almacenan en un medio de almacenamiento nearline como HDD y cintas que son económicos. ^[8] Por lo tanto, la "temperatura de los datos" o los niveles de actividad determinan la jerarquía de almacenamiento principal . ^[9]

Implementaciones

Aluxio
AMASS/DATAMGR de ADIC (estaba disponible en SGI IRIX, Sun y HP-UX)
Instalación de almacenamiento masivo IBM 3850 IBM 3850
IBM DFSMS para z/VM ^[10]
IBM DFSMShsm , originalmente Hierarchical Storage Manager (HSM), 5740-XRB, y posteriormente Data Facility Hierarchical Storage Manager versión 2 (DFHSM), 5665-329 ^[11]
IBM Tivoli Storage Manager para gestión de espacio (HSM disponible en UNIX ( IBM AIX , HP UX , Solaris ) y Linux )
IBM Tivoli Storage Manager HSM para Windows, anteriormente OpenStore for File Servers (OS4FS) (HSM disponible en Microsoft Windows Server )
Colaboración HPSS por HPSS
Infinite Disk , uno de los primeros sistemas de PC (ya no existe)
EMC DiskXtender, anteriormente Legato DiskXtender, anteriormente OTG DiskXtender
Moonwalk para Windows, NetApp, OES Linux
Oracle SAM-QFS (código abierto bajo Opensolaris, ^[12] entonces propietario)
Oracle HSM (propietario, renombrado de SAM-QFS)
Versity Storage Manager para Linux, licencia de modelo de núcleo abierto
Progresión de datos de Dell Compellent
Zarafa Archiver (componente de ZCP, solución de archivado específica para aplicaciones comercializada como una solución "HSM")
Marco de gestión de datos de HPE (DMF, anteriormente SGI Data Migration Facility) para SLES y RHEL
El StorNext de Quantum
Apple Fusion Drive para macOS
Espacios de almacenamiento de Microsoft desde la versión que se incluye con Windows Server 2012 R2 . Un producto anterior de Microsoft era Almacenamiento remoto , incluido con Windows 2000 y Windows 2003. [ ^13]^[14]

Véase también

Referencias

^ por Larry Freeman. "Lo viejo se vuelve nuevo otra vez: niveles de almacenamiento" (PDF) .
^ Patrick M. Dillon; David C. Leonard (1998). Multimedia y la Web de la A a la Z. ABC-CLIO. pág. 116. ISBN 978-1-57356-132-7.
^ O'Neil, Elizabeth J.; O'Neil, Patrick E.; Weikum, Gerhard (1 de junio de 1993). "El algoritmo de reemplazo de páginas LRU-K para el almacenamiento en búfer de disco de bases de datos". ACM SIGMOD Record . 22 (2): 297–306. doi :10.1145/170036.170081. ISSN 0163-5808. S2CID 207177617.
^ Verma, A.; Pease, D.; Sharma, U.; Kaplan, M.; Rubas, J.; Jain, R.; Devarakonda, M.; Beigi, M. (2005). "Una arquitectura para la gestión del ciclo de vida en sistemas de archivos muy grandes". 22.ª Conferencia IEEE/13.ª Conferencia Goddard de la NASA sobre sistemas y tecnologías de almacenamiento masivo (MSST'05) . Monterey, CA, EE. UU.: IEEE. págs. 160–168. doi :10.1109/MSST.2005.4. ISBN. 978-0-7695-2318-7.S2CID 7082285 .
^ Zhang, Tianru; Hellander, Andreas; Toor, Salman (2022). "Gestión eficiente del almacenamiento jerárquico potenciada por el aprendizaje de refuerzo". IEEE Transactions on Knowledge and Data Engineering : 1–1. doi :10.1109/TKDE.2022.3176753. ISSN 1041-4347.
^ abc Brand, Aron (20 de junio de 2022). «Almacenamiento en caliente frente a almacenamiento en frío: cómo elegir el nivel adecuado para sus datos». Medium.com . Consultado el 20 de junio de 2022 .
^ Posey, Brien (8 de noviembre de 2016). «Diferencias entre el almacenamiento en caché SSD y las tecnologías de niveles». TechTarget . Consultado el 21 de junio de 2022 .
^ Winnard y Biondo 2016, pág. 5.
^ Winnard y Biondo 2016, pág. 6.
^ IBM Corporation. "Resumen de la guía de planificación de DFSMS/VM". ibm.com . Consultado el 16 de septiembre de 2021 .
^ Administración de almacenamiento de z/OS 2.5 DFSMShsm (PDF) . IBM. 2022. SC23-6871-50 . Consultado el 24 de febrero de 2022 .
^ [SAM/QFS en OpenSolaris.org [1]
^ Rand Morimoto; Michael Noel; Omar Droubi; Ross Mistry; Chris Amaris (2008). Windows Server 2008 Unleashed. Sams Publishing. pág. 938. ISBN 978-0-13-271563-8.
^ "ITPro Today: Noticias de TI, procedimientos, tendencias, estudios de casos, consejos profesionales y más".

Winnard, Keith; Biondo, Josh (6 de junio de 2016). DFSMS: de las fallas de almacenamiento a los niveles de almacenamiento. IBM Press . ISBN 9780738455372.