Carga de datos

La carga de datos , o simplemente carga , es una parte del procesamiento de datos donde los datos se mueven entre dos sistemas para que terminen en un área de almacenamiento en el sistema de destino.

Con el método tradicional de extracción, transformación y carga (ETL), la tarea de carga es el último paso y los datos que se cargan ya se han transformado. Con el método alternativo de extracción, carga y transformación (ELT), la tarea de carga es el paso intermedio y los datos transformados se cargan en su formato original para la transformación de datos en el sistema de destino.

Tradicionalmente, cargar trabajos en sistemas grandes tomaba mucho tiempo y normalmente se ejecutaban durante la noche, fuera del horario de apertura de la empresa.

Objetivo

Los dos objetivos principales de la carga de datos son obtener datos más actualizados en los sistemas después de la carga y que la carga sea rápida para que los datos se puedan actualizar con frecuencia. Para una actualización completa de los datos, se puede lograr una carga más rápida desactivando la integridad referencial , los índices secundarios y el registro , pero esto generalmente no se permite con la actualización incremental o la alimentación gradual.

Tipos

La carga de datos se puede realizar mediante actualización completa (inmediata), carga y actualización incrementales (inmediatas) o alimentación gradual (diferida). La elección de la técnica puede depender de la cantidad de datos que se actualizan, modifican o agregan, y de cuán actualizados deben estar los datos. El tipo de datos entregados por el sistema de origen y si los datos históricos entregados por el sistema de origen son confiables también son factores importantes.

Actualización completa

La actualización completa de datos significa que primero se eliminan los datos existentes en la tabla de destino. Luego, todos los datos de la fuente se cargan en la tabla de destino, se crean nuevos índices en la tabla de destino y se calculan nuevas medidas para la tabla actualizada.

La actualización completa es fácil de implementar, pero implica mover muchos datos, lo que puede llevar mucho tiempo y puede dificultar el mantenimiento de datos históricos. ^[1]

Actualización incremental

La actualización incremental o refresco incremental significa que solo se recuperan datos nuevos o actualizados del sistema de origen. ^[2]^[3] Luego, los datos actualizados se agregan a los datos existentes en el sistema de destino, y los datos existentes en el sistema de destino se actualizan. Los índices y las estadísticas se actualizan en consecuencia. La actualización incremental puede acelerar la carga y facilitar el seguimiento del historial, pero puede ser exigente de configurar y mantener. ^[1]

Alimentación triciclo

La alimentación por goteo o carga por goteo significa que cuando se actualiza el sistema de origen, los cambios en el sistema de destino se producirán casi inmediatamente. ^[4]^[5]

Cargando a sistemas que están en uso

Al cargar datos en un sistema que ya está en uso por parte de usuarios u otros sistemas, se debe decidir cuándo se debe actualizar el sistema y qué sucederá con las tablas que se encuentran en uso al mismo tiempo que se actualiza el sistema. Una posible solución es utilizar tablas sombra . ^[6]^[7]

Véase también

Referencias

^ ab "Carga de datos incremental frente a ETL de carga completa: 4 diferencias críticas - Learn | Hevo". 2022-04-14 . Consultado el 2023-02-18 .
^ "Carga incremental" . Consultado el 18 de febrero de 2023 .
^ Mitchell, Tim (23 de julio de 2020). "El qué, el por qué, el cuándo y el cómo de las cargas incrementales" . Consultado el 18 de febrero de 2023 .
^ Zuters, Janis (2011). "Almacenamiento de datos en tiempo casi real con goteo y volteo en varias etapas". En Grabis, Janis; Kirikova, Marite (eds.). Perspectivas en la investigación en informática empresarial . Vol. 90. Springer Berlin Heidelberg. págs. 73–82. doi :10.1007/978-3-642-24511-4_6. ISBN . 978-3-642-24510-7Un almacén de datos es típicamente una colección de datos históricos diseñados para el soporte de decisiones, por lo que se actualiza periódicamente a partir de las fuentes, principalmente a diario. Sin embargo, las empresas de hoy exigen datos más actualizados. El almacenamiento en tiempo real es una de las tendencias para lograr esto, pero existen varios desafíos para avanzar hacia el verdadero tiempo real. Este documento propone una metodología de "trickle and flip" de múltiples etapas para la actualización del almacén de datos. Se basa en el principio de "trickle and flip" y se extiende para aislar aún más las actividades de carga y consulta, lo que permite que ambas sean más eficientes.
^ "Datos de carga lenta" . Consultado el 18 de febrero de 2023 .
^ "Crear tablas de sombras para sincronización - Gestión de datos - Centro de documentación de Alibaba Cloud" . Consultado el 18 de febrero de 2023 .
^ "Mesas de sombras". 10 de agosto de 2015. Consultado el 18 de febrero de 2023 .