La carga de datos , o simplemente carga , es una parte del procesamiento de datos donde los datos se mueven entre dos sistemas para que terminen en un área de almacenamiento en el sistema de destino.
Con el método tradicional de extracción, transformación y carga (ETL), la tarea de carga es el último paso y los datos que se cargan ya se han transformado. Con el método alternativo de extracción, carga y transformación (ELT), la tarea de carga es el paso intermedio y los datos transformados se cargan en su formato original para la transformación de datos en el sistema de destino.
Tradicionalmente, cargar trabajos en sistemas grandes tomaba mucho tiempo y normalmente se ejecutaban durante la noche, fuera del horario de apertura de la empresa.
Los dos objetivos principales de la carga de datos son obtener datos más actualizados en los sistemas después de la carga y que la carga sea rápida para que los datos se puedan actualizar con frecuencia. Para una actualización completa de los datos, se puede lograr una carga más rápida desactivando la integridad referencial , los índices secundarios y el registro , pero esto generalmente no se permite con la actualización incremental o la alimentación gradual.
La carga de datos se puede realizar mediante actualización completa (inmediata), carga y actualización incrementales (inmediatas) o alimentación gradual (diferida). La elección de la técnica puede depender de la cantidad de datos que se actualizan, modifican o agregan, y de cuán actualizados deben estar los datos. El tipo de datos entregados por el sistema de origen y si los datos históricos entregados por el sistema de origen son confiables también son factores importantes.
La actualización completa de datos significa que primero se eliminan los datos existentes en la tabla de destino. Luego, todos los datos de la fuente se cargan en la tabla de destino, se crean nuevos índices en la tabla de destino y se calculan nuevas medidas para la tabla actualizada.
La actualización completa es fácil de implementar, pero implica mover muchos datos, lo que puede llevar mucho tiempo y puede dificultar el mantenimiento de datos históricos. [1]
La actualización incremental o refresco incremental significa que solo se recuperan datos nuevos o actualizados del sistema de origen. [2] [3] Luego, los datos actualizados se agregan a los datos existentes en el sistema de destino, y los datos existentes en el sistema de destino se actualizan. Los índices y las estadísticas se actualizan en consecuencia. La actualización incremental puede acelerar la carga y facilitar el seguimiento del historial, pero puede ser exigente de configurar y mantener. [1]
La alimentación por goteo o carga por goteo significa que cuando se actualiza el sistema de origen, los cambios en el sistema de destino se producirán casi inmediatamente. [4] [5]
Al cargar datos en un sistema que ya está en uso por parte de usuarios u otros sistemas, se debe decidir cuándo se debe actualizar el sistema y qué sucederá con las tablas que se encuentran en uso al mismo tiempo que se actualiza el sistema. Una posible solución es utilizar tablas sombra . [6] [7]
es típicamente una colección de datos históricos diseñados para el soporte de decisiones, por lo que se actualiza periódicamente a partir de las fuentes, principalmente a diario. Sin embargo, las empresas de hoy exigen datos más actualizados. El almacenamiento en tiempo real es una de las tendencias para lograr esto, pero existen varios desafíos para avanzar hacia el verdadero tiempo real. Este documento propone una metodología de "trickle and flip" de múltiples etapas para la actualización del almacén de datos. Se basa en el principio de "trickle and flip" y se extiende para aislar aún más las actividades de carga y consulta, lo que permite que ambas sean más eficientes.