stringtranslate.com

Virtualización de almacenamiento

En informática , la virtualización del almacenamiento es "el proceso de presentar una vista lógica de los recursos de almacenamiento físico a" [1] un sistema informático host, "tratando todos los medios de almacenamiento (disco duro, disco óptico, cinta, etc.) de la empresa". como un único grupo de almacenamiento". [2]

Un "sistema de almacenamiento" también se conoce como matriz de almacenamiento, matriz de discos o archivador . Los sistemas de almacenamiento suelen utilizar hardware y software especiales junto con unidades de disco para proporcionar un almacenamiento muy rápido y confiable para la informática y el procesamiento de datos. Los sistemas de almacenamiento son complejos y pueden considerarse como una computadora de propósito especial diseñada para proporcionar capacidad de almacenamiento junto con funciones avanzadas de protección de datos. Las unidades de disco son sólo un elemento dentro de un sistema de almacenamiento, junto con el hardware y el software integrado para fines especiales dentro del sistema.

Los sistemas de almacenamiento pueden proporcionar almacenamiento con acceso en bloque o almacenamiento con acceso a archivos. El acceso a bloques normalmente se entrega a través de Fibre Channel , iSCSI , SAS , FICON u otros protocolos. El acceso a los archivos suele realizarse mediante protocolos NFS o SMB .

Dentro del contexto de un sistema de almacenamiento, existen dos tipos principales de virtualización que pueden ocurrir:

Virtualización de bloques

Reasignación del espacio de direcciones

La virtualización del almacenamiento ayuda a lograr la independencia de la ubicación al abstraer la ubicación física de los datos. El sistema de virtualización presenta al usuario un espacio lógico para el almacenamiento de datos y maneja el proceso de mapearlo a la ubicación física real.

Es posible tener múltiples capas de virtualización o mapeo. Entonces es posible que la salida de una capa de virtualización pueda usarse como entrada para una capa superior de virtualización. La virtualización asigna el espacio entre los recursos de back-end y los recursos de front-end. En este caso, "back-end" se refiere a un número de unidad lógica (LUN) que no se presenta a una computadora o sistema host para uso directo. Un LUN o volumen "frontal" se presenta a un host o sistema informático para su uso.

La forma real del mapeo dependerá de la implementación elegida. Algunas implementaciones pueden limitar la granularidad del mapeo, lo que puede limitar las capacidades del dispositivo. Las granularidades típicas varían desde un único disco físico hasta un pequeño subconjunto (múltiplos de megabytes o gigabytes) del disco físico.

En un entorno de almacenamiento basado en bloques, un único bloque de información se aborda mediante un identificador de LUN y un desplazamiento dentro de ese LUN, conocido como direccionamiento de bloque lógico (LBA).

Metadatos

El software o dispositivo de virtualización es responsable de mantener una vista coherente de toda la información cartográfica del almacenamiento virtualizado. Esta información de mapeo a menudo se denomina metadatos y se almacena como una tabla de mapeo.

El espacio de direcciones puede estar limitado por la capacidad necesaria para mantener la tabla de mapeo. El nivel de granularidad y el espacio total direccionable impactan directamente el tamaño de los metadatos y, por lo tanto, la tabla de mapeo. Por esta razón, es común tener compensaciones entre la cantidad de capacidad direccionable y la granularidad o granularidad de acceso.

Un método común para abordar estos límites es utilizar múltiples niveles de virtualización. En varios sistemas de almacenamiento implementados hoy en día, es común utilizar tres capas de virtualización. [4]

Algunas implementaciones no utilizan una tabla de mapeo y, en cambio, calculan ubicaciones mediante un algoritmo. Estas implementaciones utilizan métodos dinámicos para calcular la ubicación al acceder, en lugar de almacenar la información en una tabla de mapeo.

redirección de E/S

El software o dispositivo de virtualización utiliza los metadatos para redirigir las solicitudes de E/S. Recibirá una solicitud de E/S entrante que contiene información sobre la ubicación de los datos en términos del disco lógico (vdisk) y la traduce en una nueva solicitud de E/S a la ubicación del disco físico.

Por ejemplo, el dispositivo de virtualización puede:

Capacidades

La mayoría de las implementaciones permiten una gestión heterogénea de dispositivos de almacenamiento de múltiples proveedores dentro del alcance de la matriz de soporte de una implementación determinada. Esto significa que las siguientes capacidades no se limitan al dispositivo de un solo proveedor (como ocurre con capacidades similares proporcionadas por controladores de almacenamiento específicos) y, de hecho, son posibles en dispositivos de diferentes proveedores.

Replicación

Las técnicas de replicación de datos no se limitan a dispositivos de virtualización y, como tales, no se describen aquí en detalle. Sin embargo, la mayoría de las implementaciones proporcionarán algunos o todos estos servicios de replicación.

Cuando se virtualiza el almacenamiento, los servicios de replicación deben implementarse por encima del software o dispositivo que realiza la virtualización. Esto es cierto porque sólo por encima de la capa de virtualización se puede copiar una imagen verdadera y consistente del disco lógico (vdisk). Esto limita los servicios que algunas implementaciones pueden implementar, o los hace muy difíciles de implementar. Si la virtualización se implementa en la red o en una superior, esto inutiliza cualquier servicio de replicación proporcionado por los controladores de almacenamiento subyacentes.

Agrupación

Los recursos de almacenamiento físico se agregan en grupos de almacenamiento, a partir de los cuales se crea el almacenamiento lógico. Se pueden agregar más sistemas de almacenamiento, que pueden ser de naturaleza heterogénea, cuando sea necesario, y el espacio de almacenamiento virtual aumentará en la misma cantidad. Este proceso es totalmente transparente para las aplicaciones que utilizan la infraestructura de almacenamiento.

Gestión de discos

El software o dispositivo que proporciona virtualización del almacenamiento se convierte en un administrador de discos común en el entorno virtualizado. Los discos lógicos (vdisks) son creados por el software o dispositivo de virtualización y se asignan (se hacen visibles) al host o servidor requerido, proporcionando así un lugar o forma común para administrar todos los volúmenes en el entorno.

Las funciones mejoradas son fáciles de proporcionar en este entorno:

Beneficios

Migración de datos no disruptiva

Uno de los principales beneficios de abstraer el host o servidor del almacenamiento real es la capacidad de migrar datos mientras se mantiene el acceso de E/S simultáneo.

El host solo conoce el disco lógico (el LUN asignado) y, por lo tanto, cualquier cambio en la asignación de metadatos es transparente para el host. Esto significa que los datos reales se pueden mover o replicar a otra ubicación física sin afectar el funcionamiento de ningún cliente. Cuando los datos se han copiado o movido, los metadatos pueden simplemente actualizarse para que apunten a la nueva ubicación, liberando así el almacenamiento físico en la ubicación anterior.

El proceso de trasladar la ubicación física se conoce como migración de datos . La mayoría de las implementaciones permiten que esto se haga de manera no disruptiva, es decir, simultáneamente mientras el host continúa realizando E/S en el disco lógico (o LUN).

La granularidad del mapeo dicta qué tan rápido se pueden actualizar los metadatos, cuánta capacidad adicional se requiere durante la migración y qué tan rápido se marca la ubicación anterior como libre. Cuanto menor sea la granularidad, más rápida será la actualización, se necesitará menos espacio y más rápido se podrá liberar el almacenamiento antiguo.

Hay muchas tareas diarias que un administrador de almacenamiento debe realizar y que pueden realizarse de forma sencilla y simultánea mediante técnicas de migración de datos.

Utilización mejorada

La utilización se puede aumentar gracias a los servicios de agrupación, migración y aprovisionamiento ligero. Esto permite a los usuarios evitar la compra excesiva y el aprovisionamiento excesivo de soluciones de almacenamiento. En otras palabras, este tipo de utilización a través de un grupo compartido de almacenamiento se puede asignar fácil y rápidamente según sea necesario para evitar restricciones en la capacidad de almacenamiento que a menudo obstaculizan el rendimiento de las aplicaciones. [5]

Cuando se agrupa toda la capacidad de almacenamiento disponible, los administradores del sistema ya no tienen que buscar discos que tengan espacio libre para asignar a un host o servidor en particular. Se puede simplemente asignar un nuevo disco lógico desde el grupo disponible o se puede expandir un disco existente.

La agrupación también significa que potencialmente se puede utilizar toda la capacidad de almacenamiento disponible. En un entorno tradicional, un disco completo se asignaría a un host. Esto puede ser mayor de lo necesario, con lo que se desperdicia espacio. En un entorno virtual, al disco lógico (LUN) se le asigna la capacidad requerida por el host que lo utiliza.

El almacenamiento se puede asignar donde sea necesario en ese momento, lo que reduce la necesidad de adivinar cuánto necesitará un determinado host en el futuro. Al utilizar Thin Provisioning , el administrador puede crear un disco lógico de aprovisionamiento ligero muy grande, por lo que el sistema que lo utiliza piensa que tiene un disco muy grande desde el primer día.

Menos puntos de gestión

Con la virtualización del almacenamiento, varios dispositivos de almacenamiento independientes, incluso si están dispersos en una red, parecen ser un único dispositivo de almacenamiento monolítico y se pueden administrar de forma centralizada.

Sin embargo, todavía se requiere la gestión tradicional del controlador de almacenamiento. Es decir, la creación y mantenimiento de matrices RAID , incluida la gestión de errores y fallas.

Riesgos

Retirar una implementación fallida

Una vez que la capa de abstracción está en su lugar, sólo el virtualizador sabe dónde residen realmente los datos en el medio físico. Por lo tanto, salir de un entorno de almacenamiento virtual requiere la reconstrucción de los discos lógicos como discos contiguos que se pueden utilizar de manera tradicional.

La mayoría de las implementaciones proporcionarán algún tipo de procedimiento de devolución y, con los servicios de migración de datos, al menos es posible, pero requiere mucho tiempo.

Interoperabilidad y soporte de proveedores

La interoperabilidad es un factor clave para cualquier software o dispositivo de virtualización. Se aplica a los controladores de almacenamiento físico reales y a los hosts, sus sistemas operativos, software de rutas múltiples y hardware de conectividad.

Los requisitos de interoperabilidad difieren según la implementación elegida. Por ejemplo, la virtualización implementada dentro de un controlador de almacenamiento no agrega ninguna sobrecarga adicional a la interoperabilidad basada en el host, pero requerirá soporte adicional de otros controladores de almacenamiento si se van a virtualizar con el mismo software.

Es posible que la virtualización basada en conmutadores no requiera interoperabilidad de host específica, si utiliza técnicas de descifrado de paquetes para redirigir las E/S.

Los dispositivos basados ​​en red tienen el nivel más alto de requisitos de interoperabilidad, ya que deben interoperar con todos los dispositivos, almacenamiento y hosts.

Complejidad

La complejidad afecta a varios ámbitos:

Gestión de metadatos

La información es uno de los activos más valiosos en los entornos empresariales actuales. Una vez virtualizados, los metadatos son el pegamento en el medio. Si se pierden los metadatos, también se pierden todos los datos reales, ya que sería prácticamente imposible reconstruir las unidades lógicas sin la información de mapeo.

Cualquier implementación debe garantizar su protección con niveles adecuados de copias de seguridad y réplicas. Es importante poder reconstruir los metadatos en caso de una falla catastrófica.

La gestión de metadatos también tiene implicaciones en el rendimiento. Cualquier software o dispositivo de virtualización debe poder mantener todas las copias de los metadatos atómicas y rápidamente actualizables. Algunas implementaciones restringen la capacidad de proporcionar ciertas funciones de actualización rápida, como copias puntuales y almacenamiento en caché, donde se requieren actualizaciones súper rápidas para garantizar una latencia mínima para la E/S real que se realiza.

Rendimiento y escalabilidad

En algunas implementaciones, el rendimiento del almacenamiento físico puede mejorarse, principalmente gracias al almacenamiento en caché. Sin embargo, el almacenamiento en caché requiere la visibilidad de los datos contenidos en la solicitud de E/S y, por lo tanto, está limitado a dispositivos y software de virtualización simétrica y en banda. Sin embargo, estas implementaciones también influyen directamente en la latencia de una solicitud de E/S (pérdida de caché), debido a que la E/S tiene que fluir a través del software o dispositivo. Suponiendo que el software o dispositivo esté diseñado de manera eficiente, este impacto debería ser mínimo en comparación con la latencia asociada con los accesos al disco físico.

Debido a la naturaleza de la virtualización, el mapeo de lo lógico a lo físico requiere cierta potencia de procesamiento y tablas de búsqueda. Por lo tanto, cada implementación agregará una pequeña cantidad de latencia.

Además de las preocupaciones sobre el tiempo de respuesta, se debe considerar el rendimiento. El ancho de banda que entra y sale del software de búsqueda de metadatos afecta directamente el ancho de banda disponible del sistema. En implementaciones asimétricas, donde la búsqueda de metadatos ocurre antes de leer o escribir la información, el ancho de banda es una preocupación menor ya que los metadatos son una pequeña fracción del tamaño real de E/S. Los diseños de flujo simétrico dentro de banda están directamente limitados por su potencia de procesamiento y anchos de banda de conectividad.

La mayoría de las implementaciones proporcionan algún tipo de modelo de escalamiento horizontal, donde la inclusión de software o instancias de dispositivos adicionales proporciona una mayor escalabilidad y un ancho de banda potencialmente mayor. Las características de rendimiento y escalabilidad están directamente influenciadas por la implementación elegida.

Enfoques de implementación

Basado en host

La virtualización basada en host requiere software adicional que se ejecute en el host, como una tarea o proceso privilegiado. En algunos casos, la gestión de volúmenes está integrada en el sistema operativo y, en otros, se ofrece como un producto independiente. Los volúmenes (LUN) presentados al sistema host son manejados por un controlador de dispositivo físico tradicional. Sin embargo, una capa de software (el administrador de volúmenes) reside encima del controlador del dispositivo de disco, intercepta las solicitudes de E/S y proporciona la búsqueda de metadatos y el mapeo de E/S.

La mayoría de los sistemas operativos modernos tienen incorporada alguna forma de administración de volúmenes lógicos (en Linux se llama Logical Volume Manager o LVM; en Solaris y FreeBSD, la capa zpool de ZFS ; en Windows se llama Logical Disk Manager o LDM), que realiza tareas de virtualización.

Nota: Los administradores de volúmenes basados ​​en host se utilizaban mucho antes de que se acuñara el término virtualización del almacenamiento .

Ventajas
Contras

Ejemplos específicos

Basado en dispositivos de almacenamiento

Al igual que la virtualización basada en host, existen varias categorías desde hace años y sólo recientemente se han clasificado como virtualización. Los dispositivos de almacenamiento de datos simples, como las unidades de disco duro individuales , no proporcionan ninguna virtualización. Pero incluso las matrices de discos más simples proporcionan una abstracción lógica a física, ya que utilizan esquemas RAID para unir múltiples discos en una sola matriz (y posiblemente luego dividir la matriz en volúmenes más pequeños).

Las matrices de discos avanzadas suelen incluir clonación, instantáneas y replicación remota. Generalmente, estos dispositivos no brindan los beneficios de la migración o replicación de datos a través de almacenamiento heterogéneo, ya que cada proveedor tiende a utilizar sus propios protocolos propietarios.

Una nueva generación de controladores de matriz de discos permite la conexión posterior de otros dispositivos de almacenamiento. A los efectos de este artículo, sólo analizaremos el estilo posterior que en realidad virtualiza otros dispositivos de almacenamiento.

Concepto

Un controlador de almacenamiento primario proporciona los servicios y permite la conexión directa de otros controladores de almacenamiento. Dependiendo de la implementación, estos pueden ser del mismo o de diferentes proveedores.

El responsable principal del tratamiento proporcionará los servicios de agrupación y gestión de metadatos. También puede proporcionar servicios de replicación y migración entre los controladores que sea.

Ventajas
Contras

Basado en red

Virtualización de almacenamiento que opera en un dispositivo basado en red (normalmente un servidor estándar o un conmutador inteligente) y utiliza redes de canal de fibra iSCSI o FC para conectarse como SAN . Estos tipos de dispositivos son la forma de virtualización más comúnmente disponible e implementada.

El dispositivo de virtualización se encuentra en la SAN y proporciona la capa de abstracción entre los hosts que realizan las E/S y los controladores de almacenamiento que proporcionan la capacidad de almacenamiento.

Ventajas
Contras
Basado en dispositivos versus basado en conmutadores

Hay dos implementaciones comúnmente disponibles de virtualización de almacenamiento basada en red: basada en dispositivos y basada en conmutadores . Ambos modelos pueden proporcionar los mismos servicios, administración de discos, búsqueda de metadatos, migración y replicación de datos. Ambos modelos también requieren algún hardware de procesamiento para brindar estos servicios.

Los dispositivos basados ​​en dispositivos son dispositivos de hardware dedicados que brindan conectividad SAN de una forma u otra. Estos se encuentran entre los hosts y el almacenamiento y, en el caso de los dispositivos dentro de banda (simétricos), pueden proporcionar todos los beneficios y servicios analizados en este artículo. Las solicitudes de E/S están dirigidas al propio dispositivo, que realiza la asignación de metadatos antes de redirigir las E/S enviando su propia solicitud de E/S al almacenamiento subyacente. El dispositivo dentro de banda también puede proporcionar almacenamiento en caché de datos, y la mayoría de las implementaciones proporcionan algún tipo de agrupación de dispositivos individuales para mantener una vista atómica de los metadatos, así como de los datos en caché.

Los dispositivos basados ​​en conmutadores, como su nombre indica, residen en el hardware del conmutador físico utilizado para conectar los dispositivos SAN. Estos también se encuentran entre los hosts y el almacenamiento, pero pueden utilizar diferentes técnicas para proporcionar el mapeo de metadatos, como el descifrado de paquetes para espiar las solicitudes de E/S entrantes y realizar la redirección de E/S. Es mucho más difícil garantizar actualizaciones atómicas de metadatos en un entorno conmutado y los servicios que requieren actualizaciones rápidas de datos y metadatos pueden estar limitados en implementaciones conmutadas.

Dentro de banda versus fuera de banda

Los dispositivos de virtualización en banda , también conocidos como simétricos , en realidad se ubican en la ruta de datos entre el host y el almacenamiento. Todas las solicitudes de E/S y sus datos pasan a través del dispositivo. Los hosts realizan E/S al dispositivo de virtualización y nunca interactúan con el dispositivo de almacenamiento real. El dispositivo de virtualización, a su vez, realiza E/S al dispositivo de almacenamiento. El almacenamiento en caché de datos, las estadísticas sobre el uso de datos, los servicios de replicación, la migración de datos y el aprovisionamiento ligero se implementan fácilmente en un dispositivo dentro de banda.

Los dispositivos de virtualización fuera de banda , también conocidos como asimétricos , a veces se denominan servidores de metadatos . Estos dispositivos sólo realizan las funciones de mapeo de metadatos. Esto requiere software adicional en el host que sepa solicitar primero la ubicación de los datos reales. Por lo tanto, una solicitud de E/S del host se intercepta antes de que abandone el host, se solicita una búsqueda de metadatos desde el servidor de metadatos (esto puede ser a través de una interfaz distinta a la SAN) que devuelve la ubicación física del datos al host. Luego, la información se recupera a través de una solicitud de E/S real al almacenamiento. El almacenamiento en caché no es posible ya que los datos nunca pasan a través del dispositivo.

Virtualización basada en archivos

La virtualización basada en archivos es un tipo de virtualización de almacenamiento que utiliza archivos como unidad básica de almacenamiento. Esto contrasta con la virtualización de almacenamiento basada en bloques, que utiliza bloques como unidad básica. Es una forma de abstraer los detalles físicos del almacenamiento y permitir que los archivos se almacenen en cualquier tipo de dispositivo de almacenamiento, sin la necesidad de controladores específicos u otra configuración de bajo nivel.

La virtualización basada en archivos se puede utilizar para diversos fines, incluida la consolidación del almacenamiento, la utilización mejorada del almacenamiento y la recuperación ante desastres. Esto puede simplificar la administración del almacenamiento y reducir la cantidad total de dispositivos de almacenamiento que deben administrarse.

La virtualización basada en archivos también puede mejorar la utilización del almacenamiento al permitir que los archivos se almacenen en dispositivos que no se utilizan en su máxima capacidad. Por ejemplo, si un servidor de archivos tiene varios discos duros que sólo están parcialmente llenos, se puede utilizar la virtualización basada en archivos para almacenar archivos en esos discos, aumentando así la utilización de los dispositivos de almacenamiento.

Por último, la virtualización basada en archivos se puede utilizar con fines de recuperación ante desastres. Al replicar archivos en una variedad de dispositivos de almacenamiento, es posible recuperarlos en caso de falla del dispositivo de almacenamiento.

La virtualización basada en archivos se puede utilizar para crear un servidor de archivos virtual (o dispositivo NAS virtual), que es un sistema de almacenamiento que al usuario le parece un servidor de archivos único pero que en realidad se implementa como un conjunto de archivos almacenados en varios Servidores de archivos físicos.

Ver también

Referencias

  1. ^ Servicios educativos de EMC (2010). Almacenamiento y gestión de información. John Wiley e hijos. pag. 210.ISBN​ 978-0-470-29421-5. Consultado el 16 de octubre de 2017 .
  2. ^ Revista PC. "Almacenamiento virtual". Enciclopedia de la revista PC . Consultado el 17 de octubre de 2017 .
  3. ^ Definiciones de SearchStorage.com
  4. ^ Necesita citación
  5. ^ "Deje de sobreaprovisionar con la gestión de recursos de almacenamiento". Dell.com . Consultado el 30 de junio de 2012 .