La virtualización de datos es un enfoque de gestión de datos que permite a una aplicación recuperar y manipular datos sin requerir detalles técnicos sobre los datos, como cómo están formateados en la fuente o dónde están ubicados físicamente, [1] y puede proporcionar una vista única del cliente (o una vista única de cualquier otra entidad) de todos los datos. [2]
A diferencia del proceso tradicional de extracción, transformación y carga ("ETL"), los datos permanecen en su lugar y se proporciona acceso en tiempo real al sistema de origen para los datos. Esto reduce el riesgo de errores de datos, de que la carga de trabajo mueva datos que tal vez nunca se utilicen y no intenta imponer un modelo de datos único sobre los datos (un ejemplo de datos heterogéneos es un sistema de base de datos federado ). La tecnología también admite la escritura de actualizaciones de datos de transacciones en los sistemas de origen. [3] Para resolver las diferencias en los formatos y la semántica de origen y consumidor, se utilizan varias técnicas de abstracción y transformación. Este concepto y software es un subconjunto de la integración de datos y se utiliza comúnmente en inteligencia empresarial , servicios de datos de arquitectura orientada a servicios , computación en la nube , búsqueda empresarial y gestión de datos maestros .
Aplicaciones, ventajas y desventajas
La característica distintiva de la virtualización de datos es que los datos utilizados permanecen en sus ubicaciones originales y se establece un acceso en tiempo real para permitir el análisis de múltiples fuentes. Esto ayuda a resolver algunas dificultades técnicas, como problemas de compatibilidad al combinar datos de varias plataformas, reduciendo el riesgo de error causado por datos defectuosos y garantizando que se utilicen los datos más recientes. Además, evitar la creación de una nueva base de datos que contenga información personal puede facilitar el cumplimiento de las normas de privacidad. Como resultado, la virtualización de datos crea nuevas posibilidades para el uso de los datos. [4]
Partiendo de esta base, el valor real de la virtualización de datos, en particular para los usuarios, es su enfoque declarativo. A diferencia de los métodos tradicionales de integración de datos que requieren especificar cada paso de la integración, este enfoque puede ser menos propenso a errores y más eficiente. Los métodos tradicionales son tediosos, especialmente cuando se adaptan a requisitos cambiantes, que implican cambios en múltiples pasos. La virtualización de datos, en cambio, permite a los usuarios simplemente describir el resultado deseado. Luego, el software genera automáticamente los pasos necesarios para lograr este resultado. Si el resultado deseado cambia, basta con actualizar la descripción y el software ajusta los pasos intermedios en consecuencia. Esta flexibilidad puede acelerar los procesos hasta cinco veces, lo que subraya la principal ventaja de la virtualización de datos. [5]
Sin embargo, con la virtualización de datos, la conexión a todas las fuentes de datos necesarias debe estar operativa, ya que no existe una copia local de los datos, lo que constituye uno de los principales inconvenientes de este enfoque. Los problemas de conexión ocurren con mayor frecuencia en sistemas complejos en los que una o más fuentes cruciales ocasionalmente no estarán disponibles. El almacenamiento inteligente de datos en búfer, como mantener los datos de las solicitudes más recientes en el búfer del sistema de virtualización, puede ayudar a mitigar este problema. [4]
Además, debido a que las soluciones de virtualización de datos pueden utilizar una gran cantidad de conexiones de red para leer los datos originales y las tablas virtualizadas del servidor a otras soluciones a través de la red, la seguridad del sistema requiere una mayor consideración que con los lagos de datos tradicionales. En un sistema de lago de datos convencional, los datos se pueden importar al lago siguiendo procedimientos específicos en un único entorno. Cuando se utiliza un sistema de virtualización, el entorno debe establecer por separado conexiones seguras con cada fuente de datos, que normalmente se encuentra en un entorno diferente del propio sistema de virtualización. [4]
La seguridad de los datos personales y el cumplimiento de las normativas pueden ser un problema importante a la hora de introducir nuevos servicios o intentar combinar varias fuentes de datos. Cuando se entregan datos para su análisis, la virtualización de datos puede ayudar a resolver problemas relacionados con la privacidad. La virtualización permite combinar datos personales de distintas fuentes sin tener que copiarlos físicamente a otra ubicación, al tiempo que limita la visualización a todas las demás variables recopiladas. Sin embargo, la virtualización no elimina el requisito de confirmar la seguridad y la privacidad de los resultados del análisis antes de hacerlos más accesibles. Independientemente del método de integración de datos elegido, todos los resultados basados en datos de nivel personal deben protegerse con los requisitos de privacidad adecuados. [4]
Virtualización de datos y almacenamiento de datos
Algunos entornos empresariales están repletos de fuentes de datos dispares, incluidos múltiples almacenes de datos , depósitos de datos y lagos de datos , aunque un almacén de datos, si se implementa correctamente, debería ser único y una única fuente de información veraz . La virtualización de datos puede unir de manera eficiente los datos entre almacenes de datos, depósitos de datos y lagos de datos sin tener que crear una nueva plataforma de datos física integrada. La infraestructura de datos existente puede seguir realizando sus funciones principales mientras que la capa de virtualización de datos simplemente aprovecha los datos de esas fuentes. Este aspecto de la virtualización de datos la hace complementaria a todas las fuentes de datos existentes y aumenta la disponibilidad y el uso de los datos empresariales. [ cita requerida ]
La virtualización de datos también puede considerarse una alternativa a la extracción, transformación y carga de datos (ETL) y al almacenamiento de datos, pero por cuestiones de rendimiento no se recomienda realmente para un almacén de datos muy grande. La virtualización de datos tiene como objetivo inherente producir información rápida y oportuna de múltiples fuentes sin tener que embarcarse en un gran proyecto de datos con una extracción, transformación y carga de datos extensa. Sin embargo, la virtualización de datos puede extenderse y adaptarse para satisfacer también los requisitos del almacenamiento de datos. Esto requerirá una comprensión de los requisitos de almacenamiento e historial de datos junto con la planificación y el diseño para incorporar el tipo correcto de virtualización de datos, integración y estrategias de almacenamiento, y optimizaciones de infraestructura/rendimiento (por ejemplo, transmisión, en memoria, almacenamiento híbrido). [ cita requerida ]
Ejemplos
- The Phone House (el nombre comercial de las operaciones europeas de la cadena minorista de teléfonos móviles Carphone Warehouse, con sede en el Reino Unido ) implementó la tecnología de virtualización de datos de Denodo entre los sistemas transaccionales de su filial española y los sistemas basados en la Web de los operadores móviles. [3]
- Novartis implementó la herramienta de virtualización de datos de TIBCO para permitir a sus investigadores combinar rápidamente datos de fuentes internas y externas en un almacén de datos virtuales con capacidad de búsqueda. [3]
- Primary Data (que ya no existe y que se reencarnó como Hammerspace), independiente del almacenamiento, era una plataforma de virtualización de datos que permitía a las aplicaciones, servidores y clientes acceder de forma transparente a los datos mientras se migraban entre almacenamiento en nube privado y público, conectado a la red y conectado directamente. [6]
- Los datos vinculados pueden utilizar un único nombre de origen de datos ( DSN ) basado en hipervínculo para proporcionar una conexión a una capa de base de datos virtual que está conectada internamente a una variedad de fuentes de datos de back-end mediante ODBC , JDBC , OLE DB , ADO.NET , servicios de estilo SOA y/o patrones REST . [ cita requerida ]
- La virtualización de bases de datos puede utilizar un único DSN basado en ODBC para proporcionar una conexión a una capa de base de datos virtual similar. [ aclaración necesaria ]
- Alluxio , un sistema de archivos distribuido virtual (VDFS) de código abierto, se inició en el AMPLab de la Universidad de California, Berkeley . El sistema extrae datos de varios sistemas de archivos y almacenes de objetos. [ cita requerida ]
Funcionalidad
El software de virtualización de datos proporciona algunas o todas las siguientes capacidades: [7]
- Abstracción: abstraer los aspectos técnicos de los datos almacenados, como la ubicación, la estructura de almacenamiento, la API, el lenguaje de acceso y la tecnología de almacenamiento.
- Acceso a datos virtualizados: conéctese a diferentes fuentes de datos y hágalas accesibles desde un punto de acceso a datos lógico común.
- Transformación de datos : transformar, mejorar la calidad, reformatear, agregar, etc. datos fuente para uso del consumidor.
- Federación de datos : combine conjuntos de resultados de múltiples sistemas de origen.
- Entrega de datos: publique conjuntos de resultados como vistas y/o servicios de datos ejecutados por la aplicación cliente o los usuarios cuando se lo soliciten.
El software de virtualización de datos puede incluir funciones de desarrollo, operación y/o gestión. [ cita requerida ]
Un motor de metadatos recopila, almacena y analiza información sobre datos y metadatos (datos sobre datos) en uso dentro de un dominio. [8] [ aclaración necesaria ]
Los beneficios incluyen:
- Reducir el riesgo de errores en los datos [ dudoso – discutir ]
- Reducir la carga de trabajo de los sistemas al no mover datos [ dudoso – discutir ]
- Aumentar la velocidad de acceso a los datos en tiempo real
- Permite que el procesamiento de consultas se envíe a la fuente de datos en lugar de al nivel intermedio
- La mayoría de los sistemas permiten la creación de bases de datos virtuales por parte de usuarios finales con acceso a los sistemas de origen.
- Aumentar la gobernanza y reducir el riesgo mediante el uso de políticas [9]
- Reducir el almacenamiento de datos requerido [10]
- Acelerar los procesos hasta cinco veces mediante el enfoque declarativo [5]
Las desventajas incluyen:
- Puede afectar el tiempo de respuesta de los sistemas operativos, en particular si no están dimensionados para hacer frente a consultas de usuarios imprevistas o no se ajustan con anticipación. [11]
- No impone un modelo de datos heterogéneo, lo que significa que el usuario tiene que interpretar los datos, a menos que se combine con la federación de datos y la comprensión empresarial de los datos [12]
- Requiere un enfoque de gobernanza definido para evitar problemas presupuestarios con los servicios compartidos
- No es adecuado para registrar instantáneas históricas de datos. Un almacén de datos es más adecuado para esto [12]
- La gestión de cambios "es una carga enorme, ya que cualquier cambio debe ser aceptado por todas las aplicaciones y usuarios que comparten el mismo kit de virtualización" [12].
- Los diseñadores siempre deben tener en cuenta las consideraciones de rendimiento.
Evitar el uso:
- Para acceder a sistemas de datos operativos (cuestiones de rendimiento e integridad operativa)
- Para federar o centralizar todos los datos de la organización (Temas de seguridad y hacking)
- Para construir un almacén de datos virtual de gran tamaño (problemas de rendimiento)
- Como proceso ETL (cuestiones de gobernanza y rendimiento)
- Si solo tiene una o dos fuentes de datos para virtualizar
Historia
La integración de información empresarial (EII) (acuñado por primera vez por Metamatrix), ahora conocida como Red Hat JBoss Data Virtualization, y los sistemas de bases de datos federadas son términos utilizados por algunos proveedores para describir un elemento central de la virtualización de datos: la capacidad de crear uniones relacionales en una VISTA federada. [ cita necesaria ] [ aclaración necesaria ]
Tecnología
Algunas soluciones y proveedores de virtualización de datos:
- Creador de Analytics [13]
- Virtualización de datos de IBM [14]
- Virtualización de datos de Actifio Copy [15]
- Capsenta Ultrawrap, [16] adquirida por data.world 2019
- Virtualidad de datos [17]
- DataWerks [18]
- Plataforma de virtualización de datos Delphix [19]
- Plataforma de virtualización de datos y Data Fabric de Denodo [20]
- Plataforma de datos Microsoft Gluent [21]
- Querona [22]
- Virtualización de datos de Red Hat JBoss Enterprise Application Platform [23] (descontinuado)
- Plataforma de virtualización de datos Enterprise Enabler de Stone Bond Technologies [24]
- Tejido de datos de IA generativa de Stratio [25]
- Teeid , parte de JBoss Developer Studio [26]
- Virtualización de datos TIBCO
- Sistema de archivos de aprovisionamiento de Veritas [27] / Virtualización de datos Veritas Technologies
- XAware [28]
Gartner elabora otra lista más actualizada con clasificaciones de usuarios. [29]
Véase también
- Integración de datos : combinar datos de diferentes fuentes y proporcionar una vista unificada
- Integración de información empresarial : apoye una vista unificada de datos e información para toda una organización (EII)
- Gestión de datos maestros : práctica para el control de datos corporativos
- Sistema de base de datos federada : tipo de sistema de gestión de metabases de datos que asigna de forma transparente múltiples sistemas de bases de datos autónomos en una única base de datos federada.Páginas que muestran descripciones de wikidata como alternativa
- Sistema dispar : sistema de procesamiento de datos sin interacción con otros sistemas informáticos de procesamiento de datos.
Referencias
- ^ "¿Qué es la virtualización de datos?", Margaret Rouse, TechTarget.com, consultado el 19 de agosto de 2013
- ^ Racionalización de los datos de los clientes
- ^ abc "La virtualización de datos en aumento como alternativa ETL para la integración de datos" Gareth Morgan, Computer Weekly, consultado el 19 de agosto de 2013
- ^ abcd Paiho, Satu; Tuominen, Pekka; Rökman, Jyri; Ylikerälä, Markus; Pajula, Juha; Siikavirta, Hanne (2022). "Oportunidades de los datos urbanos recopilados para ciudades inteligentes". Ciudades inteligentes IET . 4 (4): 275–291. doi : 10.1049/smc2.12044 . S2CID 253467923.
- ^ ab "El verdadero valor de la virtualización de datos: más allá de las palabras de moda del marketing", Nick Golovin, medium.com, consultado el 14 de noviembre de 2023
- ^ "Hammerspace: un verdadero sistema de archivos global". Hammerspace . Consultado el 31 de octubre de 2021 .
- ^ Summan, Jesse; Handmaker, Leslie (20 de diciembre de 2022). "Federación de datos frente a virtualización de datos". StreamSets . Consultado el 8 de febrero de 2024 .
- ^ Kendall, Aaron. "Diseño basado en metadatos: diseño de un motor flexible para la recuperación de datos de API". InfoQ . Consultado el 25 de abril de 2017 .
- ^ "Acceso rápido a datos dispares en distintos proyectos sin necesidad de volver a trabajar" Informatica, consultado el 19 de agosto de 2013
- ^ Virtualización de datos: 6 prácticas recomendadas para ayudar a las empresas a "entenderlo" Joe McKendrick, ZDNet, 27 de octubre de 2011
- ^ |Los profesionales de TI revelan los beneficios y desventajas del software de virtualización de datos" Mark Brunelli, SearchDataManagement, 11 de octubre de 2012
- ^ abc "Los pros y contras de la virtualización de datos" Archivado el 5 de agosto de 2014 en Wayback Machine Loraine Lawson, BusinessEdge, 7 de octubre de 2011
- ^ "Analyticscreator: la caja de herramientas definitiva para ingenieros de datos". www.analyticscreator.com . Consultado el 27 de agosto de 2024 .
- ^ "Virtualización de datos de IBM". www.ibm.com . Consultado el 9 de abril de 2024 .
- ^ https://www.actifio.com/company/blog/post/enterprise-data-service-new-copy-data-virtualization/ [ URL desnuda ]
- ^ "Ultrawrap - Estándares de la Web Semántica". www.w3.org . Consultado el 9 de abril de 2024 .
- ^ "Virtualidad de datos: integre datos para tomar decisiones mejor informadas". Virtualidad de datos . Consultado el 9 de abril de 2024 .
- ^ "Mi blog – Mi blog de WordPress". 2023-09-19 . Consultado el 2024-04-09 .
- ^ "La empresa líder en datos de la industria para DevOps". Delphix . Consultado el 9 de abril de 2024 .
- ^ "Denodo es líder en gestión de datos". Denodo . 2014-09-03 . Consultado el 2024-04-09 .
- ^ https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RWJFdq [ URL desnuda ]
- ^ "Inicio". Querona Data Virtualization . Consultado el 9 de abril de 2024 .
- ^ "Guía de introducción a Red Hat JBoss Data Virtualization 6.4 | Portal del cliente de Red Hat". access.redhat.com . Consultado el 9 de abril de 2024 .
- ^ "Stone Bond Technologies | Solución de plataforma de integración de datos avanzada". Stone Bond Technologies . Consultado el 9 de abril de 2024 .
- ^ "La capa de datos semánticos empresariales de Stratio ofrece una precisión de respuesta del 99 % para los estudiantes de maestría en derecho". Stratio . 2024-01-15 . Consultado el 2024-04-09 .
- ^ "Teiid". teiid.io . Consultado el 9 de abril de 2024 .
- ^ "Administración de los parámetros de configuración del sistema de archivos de aprovisionamiento de Veritas (VPFS) | Administración de servicios de NetBackup desde el shell de deduplicación | Acceso a instancias del servidor de almacenamiento WORM de NetBackup para tareas de administración | Administración de instancias de la aplicación NetBackup | Guía de la aplicación NetBackup™ 10.2.0.1 | Veritas™". www.veritas.com . Consultado el 9 de abril de 2024 .
- ^ "Proyecto de integración de datos de XAware". SourceForge . 2016-04-06 . Consultado el 2024-04-09 .
- ^ "Reseñas de las mejores soluciones de virtualización de datos". Gartner . 2024 . Consultado el 7 de febrero de 2024 .
Lectura adicional
- Judith R. Davis; Robert Eve (2011). Virtualización de datos: más allá de la integración de datos tradicional para lograr agilidad empresarial . Composite Software. ISBN 978-0979930416.
- Rick van der Lans (2012). Virtualización de datos para sistemas de inteligencia empresarial: revolucionando la integración de datos para almacenes de datos . Elsevier. ISBN 9780123944252.
- Anthony Giordano (2010). Modelo y modelado de integración de datos: técnicas para una arquitectura escalable y sostenible . IBM Press. ISBN 9780137085309.