Un área de almacenamiento intermedio o zona de aterrizaje es un área de almacenamiento intermedia que se utiliza para el procesamiento de datos durante el proceso de extracción, transformación y carga (ETL) . El área de almacenamiento intermedio de datos se ubica entre las fuentes de datos y los destinos de datos, que suelen ser almacenes de datos , marts de datos u otros repositorios de datos. [1]
Las áreas de almacenamiento temporal de datos suelen ser transitorias por naturaleza, y su contenido se borra antes de ejecutar un proceso ETL o inmediatamente después de que se complete con éxito un proceso ETL. A este tipo de áreas de almacenamiento temporal a veces se las denomina áreas de almacenamiento temporal transitorias (TSA).
Sin embargo, existen arquitecturas de área de almacenamiento temporal que están diseñadas para almacenar datos durante períodos prolongados con fines de archivo o resolución de problemas. Un área de almacenamiento temporal persistente (PSA) es un tipo de área de almacenamiento temporal en un almacén de datos que rastrea todo el historial de cambios de una tabla o consulta de origen. [2]
Las áreas de ensayo pueden implementarse en forma de tablas en bases de datos relacionales, archivos planos basados en texto (o archivos XML) almacenados en sistemas de archivos o archivos binarios con formato propietario almacenados en sistemas de archivos. [3] Las arquitecturas de áreas de ensayo varían en complejidad desde un conjunto de tablas relacionales simples en una base de datos de destino hasta instancias de bases de datos o sistemas de archivos autónomos. [4] Aunque los sistemas de origen y los sistemas de destino compatibles con los procesos ETL suelen ser bases de datos relacionales, las áreas de ensayo que se ubican entre las fuentes de datos y los destinos no necesitan ser también bases de datos relacionales. [5]
Las áreas de ensayo pueden diseñarse para brindar muchos beneficios, pero las motivaciones principales para su uso son aumentar la eficiencia de los procesos ETL, garantizar la integridad de los datos y respaldar las operaciones de calidad de los datos. Las funciones del área de ensayo incluyen lo siguiente:
Una de las principales funciones que desempeña un área de almacenamiento es la consolidación de datos de múltiples sistemas de origen. [3] Al realizar esta función, el área de almacenamiento actúa como un gran "cubo" en el que se pueden colocar temporalmente datos de múltiples sistemas de origen para su posterior procesamiento. Es común etiquetar los datos en el área de almacenamiento con metadatos adicionales que indican la fuente de origen y marcas de tiempo que indican cuándo se colocaron los datos en el área de almacenamiento.
La alineación de datos incluye la estandarización de los datos de referencia en múltiples sistemas de origen y la validación de las relaciones entre los registros y los elementos de datos de diferentes fuentes. [3] La alineación de datos en el área de preparación es una función estrechamente relacionada con las capacidades de gestión de datos maestros y que actúa en apoyo de ellas . [6]
El área de ensayo y los procesos ETL que soporta suelen estar diseñados con el objetivo de minimizar la contención dentro de los sistemas de origen. Copiar los datos necesarios de los sistemas de origen al área de ensayo de una sola vez suele ser más eficiente que recuperar registros individuales (o pequeños conjuntos de registros) de forma puntual. El primer método aprovecha las eficiencias técnicas, como las tecnologías de transmisión de datos, la reducción de la sobrecarga al minimizar la necesidad de interrumpir y restablecer conexiones con los sistemas de origen y la optimización de la gestión de bloqueos de concurrencia en sistemas de origen multiusuario. Al copiar los datos de origen de los sistemas de origen y esperar para realizar un procesamiento y una transformación intensivos en el área de ensayo, el proceso ETL ejerce un alto grado de control sobre los problemas de concurrencia durante el procesamiento.
El área de almacenamiento temporal puede admitir el alojamiento de datos que se procesarán en horarios independientes y datos que se deben dirigir a múltiples destinos. [3] En algunos casos, los datos pueden ingresar al área de almacenamiento temporal en diferentes momentos para almacenarlos y procesarlos todos a la vez. Esta situación puede ocurrir cuando el procesamiento empresarial se realiza en múltiples zonas horarias cada noche, por ejemplo. En otros casos, los datos pueden ingresar al área de almacenamiento temporal para procesarse en diferentes momentos; o el área de almacenamiento temporal puede usarse para enviar datos a múltiples sistemas de destino. Por ejemplo, los datos operativos diarios pueden enviarse a un almacén de datos operativos (ODS) mientras que los mismos datos pueden enviarse en forma agregada mensual a un almacén de datos.
El área de ensayo permite realizar operaciones de detección de cambios eficientes en los sistemas de destino. Esta función es especialmente útil cuando los sistemas de origen no admiten formas fiables de detección de cambios, como el marcado de tiempo impuesto por el sistema, el seguimiento de cambios o la captura de datos de cambios (CDC) .
La limpieza de datos incluye la identificación y eliminación (o actualización) de datos no válidos de los sistemas de origen. El proceso ETL que utiliza el área de ensayo se puede utilizar para implementar la lógica empresarial para identificar y manejar datos "no válidos". Los datos no válidos suelen definirse mediante una combinación de reglas empresariales y limitaciones técnicas. Además, se pueden imponer restricciones técnicas a las estructuras del área de ensayo (como restricciones de tabla en una base de datos relacional) para hacer cumplir las reglas de validez de los datos. [3]
Se pueden realizar cálculos previos de agregados, cálculos complejos y la aplicación de lógica comercial compleja en un área de ensayo para respaldar acuerdos de nivel de servicio (SLA) de gran capacidad de respuesta para informes resumidos en sistemas de destino. [4]
El archivado de datos se puede realizar en un área de almacenamiento temporal o con el apoyo de esta. En este escenario, el área de almacenamiento temporal se puede utilizar para mantener registros históricos durante el proceso de carga o se puede utilizar para introducir datos en una estructura de archivo de destino. Además, los datos se pueden mantener dentro del área de almacenamiento temporal durante períodos prolongados para respaldar la resolución de problemas técnicos del proceso ETL. [4]