stringtranslate.com

Puesta en escena (datos)

Un área de preparación , o zona de aterrizaje , es un área de almacenamiento intermedio que se utiliza para el procesamiento de datos durante el proceso de extracción, transformación y carga (ETL) . El área de preparación de datos se encuentra entre las fuentes de datos y los destinos de datos, que a menudo son almacenes de datos , mercados de datos u otros repositorios de datos. [1]

Las áreas de preparación de datos suelen ser de naturaleza transitoria y su contenido se borra antes de ejecutar un proceso ETL o inmediatamente después de completar con éxito un proceso ETL. Esta área de preparación a veces se denomina área de preparación transitoria (TSA).

Sin embargo, existen arquitecturas de área de preparación que están diseñadas para conservar datos durante períodos prolongados con fines de archivo o resolución de problemas. Un área de preparación persistente (PSA) es un tipo de área de preparación en un almacén de datos que rastrea todo el historial de cambios de una tabla o consulta de origen. [2]

Implementación

Las áreas de preparación se pueden implementar en forma de tablas en bases de datos relacionales, archivos planos basados ​​en texto (o archivos XML) almacenados en sistemas de archivos o archivos binarios con formato propietario almacenados en sistemas de archivos. [3] Las arquitecturas del área de preparación varían en complejidad desde un conjunto de tablas relacionales simples en una base de datos de destino hasta instancias de bases de datos autónomas o sistemas de archivos. [4] Aunque los sistemas de origen y los sistemas de destino respaldados por procesos ETL son a menudo bases de datos relacionales, las áreas de preparación que se encuentran entre las fuentes de datos y los destinos no necesitan ser también bases de datos relacionales. [5]

Funciones

Las áreas de preparación se pueden diseñar para proporcionar muchos beneficios, pero las principales motivaciones para su uso son aumentar la eficiencia de los procesos ETL, garantizar la integridad de los datos y respaldar las operaciones de calidad de los datos. Las funciones del área de preparación incluyen las siguientes:

Consolidación

Una de las funciones principales que realiza un área de preparación es la consolidación de datos de múltiples sistemas de origen. [3] Al realizar esta función, el área de preparación actúa como un gran "depósito" en el que los datos de múltiples sistemas de origen se pueden colocar temporalmente para su posterior procesamiento. Es común etiquetar datos en el área de preparación con metadatos adicionales que indiquen la fuente de origen y marcas de tiempo que indiquen cuándo se colocaron los datos en el área de preparación.

Alineación

La alineación de datos incluye la estandarización de datos de referencia en múltiples sistemas de origen y la validación de relaciones entre registros y elementos de datos de diferentes fuentes. [3] La alineación de datos en el área de preparación es una función estrechamente relacionada con las capacidades de gestión de datos maestros y que actúa en apoyo de ellas . [6]

Minimizar la contención

El área de preparación y los procesos ETL que admite a menudo se diseñan con el objetivo de minimizar la contención dentro de los sistemas fuente. Copiar los datos necesarios de los sistemas de origen al área de preparación de una sola vez suele ser más eficiente que recuperar registros individuales (o pequeños conjuntos de registros) de una sola vez. El primer método aprovecha las eficiencias técnicas, como las tecnologías de transmisión de datos, la reducción de gastos generales al minimizar la necesidad de interrumpir y restablecer conexiones a los sistemas de origen y la optimización de la gestión de bloqueos de concurrencia en sistemas de origen multiusuario. Al copiar los datos de origen de los sistemas de origen y esperar a realizar un procesamiento y una transformación intensivos en el área de preparación, el proceso ETL ejerce un gran grado de control sobre los problemas de concurrencia durante el procesamiento.

Programación independiente/múltiples objetivos

El área de preparación puede admitir el alojamiento de datos que se procesarán en programaciones independientes y datos que deben dirigirse a múltiples objetivos. [3] En algunos casos, los datos pueden ingresar al área de preparación en diferentes momentos para almacenarse y procesarse todos a la vez. Esta situación puede ocurrir cuando el procesamiento empresarial se realiza en varias zonas horarias cada noche, por ejemplo. En otros casos, los datos podrían llevarse al área de preparación para ser procesados ​​en momentos diferentes; o el área de preparación se puede utilizar para enviar datos a múltiples sistemas de destino. Por ejemplo, los datos operativos diarios pueden enviarse a un almacén de datos operativos (ODS), mientras que los mismos datos pueden enviarse en forma agregada mensual a un almacén de datos.

Detección de cambios

El área de preparación respalda operaciones eficientes de detección de cambios en los sistemas de destino. Esta funcionalidad es particularmente útil cuando los sistemas de origen no admiten formas confiables de detección de cambios, como el sellado de tiempo aplicado por el sistema, el seguimiento de cambios o la captura de datos de cambios (CDC) .

Datos de limpieza

La limpieza de datos incluye la identificación y eliminación (o actualización) de datos no válidos de los sistemas de origen. El proceso ETL que utiliza el área de preparación se puede utilizar para implementar lógica empresarial para identificar y manejar datos "no válidos". Los datos no válidos a menudo se definen mediante una combinación de reglas comerciales y limitaciones técnicas. Además, se pueden imponer restricciones técnicas a las estructuras del área de preparación (como restricciones de tablas en una base de datos relacional) para hacer cumplir las reglas de validez de los datos. [3]

Precálculo agregado

El cálculo previo de agregados, los cálculos complejos y la aplicación de lógica empresarial compleja se pueden realizar en un área de preparación para respaldar acuerdos de nivel de servicio (SLA) altamente receptivos para informes resumidos en los sistemas de destino. [4]

Archivado de datos y resolución de problemas

El archivado de datos se puede realizar en un área de preparación o respaldarse en ella. En este escenario, el área de preparación se puede utilizar para mantener registros históricos durante el proceso de carga o se puede utilizar para insertar datos en una estructura de archivo de destino. Además, los datos pueden mantenerse dentro del área de preparación durante períodos prolongados para respaldar la resolución de problemas técnicos del proceso ETL. [4]

Referencias

  1. ^ Guía de almacenamiento de datos de Oracle 9i, Conceptos de almacenamiento de datos, Oracle Corp.
  2. ^ "Puesta en escena persistente". Automatización del almacén de datos - Soluciones Dimodelo . Consultado el 22 de abril de 2023 .
  3. ^ abcde Fundamentos del almacenamiento de datos: una guía completa para profesionales de TI, p. 137-138, Paulraj Ponniah, 2001.
  4. ^ abc BI Experts: Big Data y el área de preparación de datos de su almacén de datos, The Data Warehousing Institute, Phillip Russom, 2012.
  5. ^ ¿Es relacional la puesta en escena de datos? Archivado el 26 de diciembre de 2013 en Wayback Machine , Ralph Kimball, 1998.
  6. ^ Gestión de datos maestros en la práctica: lograr un verdadero cliente MDM, Dalton Cervo y Mark Allen, 2011.