Extract, transform and load

[1] La primera parte del proceso ETL consiste en extraer todos los datos desde los sistemas de origen.

Cada sistema separado puede usar una organización diferente de los datos o formatos distintos.

La extracción convierte los datos a un formato preparado para iniciar el proceso de transformación.

Si los datos a extraer son muchos, el sistema de origen se podría ralentizar e incluso colapsar, provocando que este no pueda utilizarse con normalidad para su uso cotidiano.

Hay 3 tipos principales de paralelismos que se pueden implementar en las aplicaciones ETL: Estos tres tipos de paralelismo no son excluyentes, sino que pueden ser combinados para realizar una misma operación ETL.

Normalmente los data warehouse son alimentados de manera asíncrona desde distintas fuentes, que sirven a propósitos muy diferentes.

El proceso ETL es clave para lograr que los datos extraídos asíncronamente de orígenes heterogéneos se integren finalmente en un entorno homogéneo.