La virtualización de datos es un enfoque para la gestión de datos que permite que una aplicación recupere y manipule datos sin requerir detalles técnicos sobre los datos, como cómo están formateados en origen o dónde están ubicados físicamente, [1] y puede proporcionar un único cliente. vista (o vista única de cualquier otra entidad) de los datos generales. [2]
A diferencia del proceso tradicional de extracción, transformación y carga ("ETL"), los datos permanecen en su lugar y se brinda acceso en tiempo real al sistema de origen de los datos. Esto reduce el riesgo de errores de datos, de que la carga de trabajo mueva datos que tal vez nunca se utilicen, y no intenta imponer un modelo de datos único a los datos (un ejemplo de datos heterogéneos es un sistema de base de datos federado ). La tecnología también admite la escritura de actualizaciones de datos de transacciones en los sistemas de origen. [3] Para resolver las diferencias en los formatos y la semántica de origen y consumidor, se utilizan varias técnicas de abstracción y transformación. Este concepto y software es un subconjunto de la integración de datos y se usa comúnmente en inteligencia empresarial , servicios de datos de arquitectura orientada a servicios , computación en la nube , búsqueda empresarial y gestión de datos maestros .
Aplicaciones, beneficios e inconvenientes
La característica definitoria de la virtualización de datos es que los datos utilizados permanecen en sus ubicaciones originales y se establece acceso en tiempo real para permitir análisis en múltiples fuentes. Esto ayuda a resolver algunas dificultades técnicas, como problemas de compatibilidad al combinar datos de varias plataformas, reducir el riesgo de error causado por datos defectuosos y garantizar que se utilicen los datos más recientes. Además, evitar la creación de una nueva base de datos que contenga información personal puede facilitar el cumplimiento de las normas de privacidad. Como resultado, la virtualización de datos crea nuevas posibilidades para su uso. [4]
Sobre esta base, el valor real de la virtualización de datos, particularmente para los usuarios, es su enfoque declarativo. A diferencia de los métodos tradicionales de integración de datos que requieren especificar cada paso de la integración, este enfoque puede ser menos propenso a errores y más eficiente. Los métodos tradicionales son tediosos, especialmente cuando se adaptan a requisitos cambiantes, lo que implica cambios en múltiples pasos. La virtualización de datos, por el contrario, permite a los usuarios describir simplemente el resultado deseado. Luego, el software genera automáticamente los pasos necesarios para lograr este resultado. Si el resultado deseado cambia, basta con actualizar la descripción y el software ajusta los pasos intermedios en consecuencia. Esta flexibilidad puede acelerar los procesos hasta cinco veces, lo que subraya la principal ventaja de la virtualización de datos. [5]
Sin embargo, con la virtualización de datos, la conexión a todas las fuentes de datos necesarias debe estar operativa, ya que no existe una copia local de los datos, lo cual es uno de los principales inconvenientes de este enfoque. Los problemas de conexión ocurren con mayor frecuencia en sistemas complejos donde una o más fuentes cruciales ocasionalmente no estarán disponibles. El almacenamiento en búfer de datos inteligente, como mantener los datos de las solicitudes más recientes en el búfer del sistema de virtualización, puede ayudar a mitigar este problema. [4]
Además, debido a que las soluciones de virtualización de datos pueden utilizar una gran cantidad de conexiones de red para leer los datos originales y las tablas virtualizadas del servidor a otras soluciones a través de la red, la seguridad del sistema requiere más consideración que con los lagos de datos tradicionales. En un sistema de lago de datos convencional, los datos se pueden importar al lago siguiendo procedimientos específicos en un único entorno. Cuando se utiliza un sistema de virtualización, el entorno debe establecer conexiones seguras por separado con cada fuente de datos, que normalmente se encuentra en un entorno diferente al del propio sistema de virtualización. [4]
La seguridad de los datos personales y el cumplimiento de las regulaciones pueden ser un problema importante al introducir nuevos servicios o intentar combinar varias fuentes de datos. Cuando los datos se entregan para su análisis, la virtualización de datos puede ayudar a resolver problemas relacionados con la privacidad. La virtualización permite combinar datos personales de diferentes fuentes sin copiarlos físicamente en otra ubicación y, al mismo tiempo, limita la vista a todas las demás variables recopiladas. Sin embargo, la virtualización no elimina el requisito de confirmar la seguridad y privacidad de los resultados del análisis antes de que estén disponibles más ampliamente. Independientemente del método de integración de datos elegido, todos los resultados basados en datos de nivel personal deben protegerse con los requisitos de privacidad adecuados. [4]
Virtualización de datos y almacenamiento de datos.
Algunos entornos empresariales están llenos de fuentes de datos dispares, incluidos múltiples almacenes de datos , mercados de datos y/o lagos de datos , aunque un almacén de datos, si se implementa correctamente, debe ser único y una única fuente de verdad . La virtualización de datos puede unir datos de manera eficiente entre almacenes de datos, mercados de datos y lagos de datos sin tener que crear una plataforma de datos física integrada completamente nueva. La infraestructura de datos existente puede continuar realizando sus funciones principales mientras que la capa de virtualización de datos simplemente aprovecha los datos de esas fuentes. Este aspecto de la virtualización de datos la hace complementaria de todas las fuentes de datos existentes y aumenta la disponibilidad y el uso de los datos empresariales. [ cita necesaria ]
La virtualización de datos también se puede considerar como una alternativa a ETL y al almacenamiento de datos, pero por consideraciones de rendimiento no se recomienda realmente para un almacén de datos muy grande. La virtualización de datos tiene como objetivo inherente producir información rápida y oportuna de múltiples fuentes sin tener que embarcarse en un proyecto de datos importante con ETL y almacenamiento de datos extensos. Sin embargo, la virtualización de datos puede ampliarse y adaptarse para satisfacer también los requisitos de almacenamiento de datos. Esto requerirá una comprensión de los requisitos de historial y almacenamiento de datos junto con la planificación y el diseño para incorporar el tipo correcto de virtualización de datos, integración y estrategias de almacenamiento, y optimizaciones de infraestructura/rendimiento (por ejemplo, streaming, en memoria, almacenamiento híbrido). [ cita necesaria ]
Ejemplos
- The Phone House, el nombre comercial de las operaciones europeas de la cadena minorista de telefonía móvil Carphone Warehouse, con sede en el Reino Unido , implementó la tecnología de virtualización de datos de Denodo entre los sistemas transaccionales de su filial española y los sistemas basados en Web de los operadores móviles. [3]
- Novartis implementó la herramienta de virtualización de datos de TIBCO para permitir a sus investigadores combinar rápidamente datos de fuentes internas y externas en un almacén de datos virtual con capacidad de búsqueda. [3]
- Primary Data, independiente del almacenamiento (desaparecida, reencarnada como Hammerspace) era una plataforma de virtualización de datos que permitía a las aplicaciones, servidores y clientes acceder de forma transparente a los datos mientras se migraban entre el almacenamiento en la nube público, privado y conectado directamente a la red. [6]
- Los datos vinculados pueden utilizar un único nombre de fuente de datos ( DSN ) basado en hipervínculo para proporcionar una conexión a una capa de base de datos virtual que está conectada internamente a una variedad de fuentes de datos de back-end mediante ODBC , JDBC , OLE DB , ADO.NET , SOA. -servicios de estilo y/o patrones REST . [ cita necesaria ]
- La virtualización de bases de datos puede utilizar un único DSN basado en ODBC para proporcionar una conexión a una capa de base de datos virtual similar. [ se necesita aclaración ]
- Alluxio , un sistema de archivos distribuido virtual (VDFS) de código abierto, comenzó en el AMPLab de la Universidad de California, Berkeley . El sistema abstrae datos de varios sistemas de archivos y almacenes de objetos. [ cita necesaria ]
Funcionalidad
El software de virtualización de datos proporciona algunas o todas las siguientes capacidades: [7]
- Abstracción: abstraer los aspectos técnicos de los datos almacenados, como la ubicación, la estructura de almacenamiento, la API, el idioma de acceso y la tecnología de almacenamiento.
- Acceso a datos virtualizados: conéctese a diferentes fuentes de datos y hágalas accesibles desde un punto de acceso a datos lógico común.
- Transformación de datos : transformar, mejorar la calidad, reformatear, agregar, etc., datos de origen para uso del consumidor.
- Federación de datos : combine conjuntos de resultados de varios sistemas de origen.
- Entrega de datos: publicar conjuntos de resultados como vistas y/o servicios de datos ejecutados por la aplicación cliente o los usuarios cuando se solicite.
El software de virtualización de datos puede incluir funciones de desarrollo, operación y/o gestión. [ cita necesaria ]
Un motor de metadatos recopila, almacena y analiza información sobre datos y metadatos (datos sobre datos) en uso dentro de un dominio. [8] [ se necesita aclaración ]
Beneficios incluidos:
- Reducir el riesgo de errores de datos [ dudoso – discutir ]
- Reducir la carga de trabajo de los sistemas al no mover datos [ dudoso – discutir ]
- Incrementar la velocidad de acceso a los datos en tiempo real
- Permite el procesamiento de consultas enviado a la fuente de datos en lugar de al nivel medio.
- La mayoría de los sistemas permiten la creación de autoservicio de bases de datos virtuales por parte de usuarios finales con acceso a los sistemas fuente.
- Incrementar la gobernanza y reducir el riesgo mediante el uso de políticas [9]
- Reducir el almacenamiento de datos requerido [10]
- Acelere los procesos hasta cinco veces mediante el enfoque declarativo [5]
Los inconvenientes incluyen:
- Puede afectar el tiempo de respuesta de los sistemas operativos, especialmente si no se escala lo suficiente para hacer frente a consultas imprevistas de los usuarios o no se ajusta desde el principio. [11]
- No impone un modelo de datos heterogéneo, lo que significa que el usuario tiene que interpretar los datos, a menos que se combine con la Federación de datos y la comprensión empresarial de los datos [12]
- Requiere un enfoque de gobernanza definido para evitar problemas presupuestarios con los servicios compartidos.
- No apto para grabar instantáneas históricas de datos. Para esto es mejor un almacén de datos [12]
- La gestión de cambios "es una sobrecarga enorme, ya que cualquier cambio debe ser aceptado por todas las aplicaciones y usuarios que comparten el mismo kit de virtualización" [12]
- Los diseñadores siempre deben tener en cuenta las consideraciones de rendimiento
Evite el uso:
- Para acceder a sistemas de datos operativos (problemas de rendimiento e integridad operativa)
- Para federar o centralizar todos los datos de la organización (Temas de seguridad y hacking)
- Para construir un almacén de datos virtual de gran tamaño (problemas de rendimiento)
- Como proceso ETL (cuestiones de gobernanza y desempeño)
- Si solo tiene una o dos fuentes de datos para virtualizar
Historia
La integración de información empresarial (EII) (acuñada por primera vez por Metamatrix), ahora conocida como Red Hat JBoss Data Virtualization, y los sistemas de bases de datos federados son términos utilizados por algunos proveedores para describir un elemento central de la virtualización de datos: la capacidad de crear JOIN relacionales en un sistema federado. VISTA. [ cita necesaria ] [ aclaración necesaria ]
Tecnología
Algunas soluciones y proveedores de virtualización de datos:
- Virtualización de datos de IBM [13]
- Virtualización de datos de copia Actifio [14]
- Capsenta Ultrawrap, [15] adquirido por data.world 2019
- Virtualidad de datos [16]
- Trabajos de datos [17]
- Plataforma de virtualización de datos Delphix [18]
- Plataforma de virtualización de datos y tejido de datos de Denodo [19]
- Plataforma de datos Microsoft Gluent [20]
- Querona [21]
- Virtualización de datos de Red Hat JBoss Enterprise Application Platform [22] (descontinuado)
- Teeid , parte de JBoss Developer Studio [23]
- Plataforma de virtualización de datos Enterprise Enabler de Stone Bond Technologies [24]
- Virtualización de datos TIBCO
- Sistema de archivos de aprovisionamiento Veritas [25] / Virtualización de datos Tecnologías Veritas
- XConsciente [26]
Gartner compila otra lista más actualizada con clasificaciones de usuarios. [27]
Ver también
- Integración de datos : combinar datos de diferentes fuentes y proporcionar una vista unificada
- Integración de información empresarial : admita una vista unificada de datos e información para toda una organización (EII)
- Gestión de datos maestros – Práctica para el control de datos corporativos
- Sistema de base de datos federado : tipo de sistema de gestión de metabase de datos que asigna de forma transparente múltiples sistemas de bases de datos autónomos en una única base de datos federada.Páginas que muestran descripciones de wikidata como alternativa
- Sistema dispar : sistema de procesamiento de datos sin interacción con otros sistemas informáticos de procesamiento de datos.
Referencias
- ^ "¿Qué es la virtualización de datos?", Margaret Rouse, TechTarget.com, consultado el 19 de agosto de 2013
- ^ Optimización de los datos del cliente
- ^ abc "La virtualización de datos va en aumento como alternativa ETL para la integración de datos" Gareth Morgan, Computer Weekly, consultado el 19 de agosto de 2013
- ^ abcd Paiho, Satu; Tuominen, Pekka; Rökman, Jyri; Ylikerälä, Markus; Pajula, Juha; Siikavirta, Hanne (2022). "Oportunidades de los datos urbanos recopilados para ciudades inteligentes". Ciudades inteligentes IET . 4 (4): 275–291. doi : 10.1049/smc2.12044 . S2CID 253467923.
- ^ ab "El verdadero valor de la virtualización de datos: más allá de las palabras de moda del marketing", Nick Golovin, medium.com, consultado el 14 de noviembre de 2023
- ^ "Hammerspace: un verdadero sistema de archivos global". Espacio de martillo . Consultado el 31 de octubre de 2021 .
- ^ Resumen, Jesse; Handmaker, Leslie (20 de diciembre de 2022). "Federación de datos frente a virtualización de datos". Conjuntos de transmisiones . Consultado el 8 de febrero de 2024 .
- ^ Kendall, Aarón. "Diseño basado en metadatos: diseño de un motor flexible para la recuperación de datos API". InfoQ . Consultado el 25 de abril de 2017 .
- ^ "Acceso rápido a datos dispares en proyectos sin retrabajo" Informatica, consultado el 19 de agosto de 2013
- ^ Virtualización de datos: seis prácticas recomendadas para ayudar a las empresas a "conseguirlo" Joe McKendrick, ZDNet, 27 de octubre de 2011
- ^ |Los profesionales de TI revelan los beneficios y desventajas del software de virtualización de datos "Mark Brunelli, SearchDataManagement, 11 de octubre de 2012
- ^ abc "Los pros y los contras de la virtualización de datos" Archivado el 5 de agosto de 2014 en Wayback Machine Loraine Lawson, BusinessEdge, 7 de octubre de 2011
- ^ https://www.ibm.com/products/watson-query
- ^ https://www.actifio.com/company/blog/post/enterprise-data-service-new-copy-data-virtualization/
- ^ https://www.w3.org/2001/sw/wiki/Data_virtualization/Ultrawrap
- ^ https://datavirtuality.com/en/
- ^ https://datawerks.com/
- ^ https://www.delphix.com/
- ^ https://www.denodo.com/
- ^ https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RWJFdq
- ^ https://www.querona.io/
- ^ https://access.redhat.com/documentation/en-us/red_hat_jboss_data_virtualization/6.4/html-single/getting_started_guide/index
- ^ https://teiid.io/
- ^ https://stonebond.com/
- ^ https://www.veritas.com/support/en_US/doc/141196447-161587232-0/v160534095-161587232
- ^ https://sourceforge.net/projects/xaware/
- ^ "Reseñas de las mejores virtualización de datos". Gartner . 2024 . Consultado el 7 de febrero de 2024 .
Otras lecturas
- Judith R. Davis; Robert Eva (2011). Virtualización de datos: ir más allá de la integración de datos tradicional para lograr agilidad empresarial . ISBN 978-0979930416.
- Rick van der Lans (2012). Virtualización de datos para sistemas de inteligencia empresarial: revolucionando la integración de datos para almacenes de datos . ISBN 9780123944252.
- Antonio Giordano (2010). Modelo y modelo de integración de datos: técnicas para una arquitectura escalable y sostenible . Prensa IBM. ISBN 9780137085309.