La combinación de datos es un proceso mediante el cual grandes cantidades de datos de múltiples fuentes [1] se fusionan en un único almacén de datos o conjunto de datos . [2]
La combinación de datos permite a los analistas de negocios hacer frente a la expansión de los datos que necesitan para tomar decisiones comerciales críticas basadas en inteligencia empresarial de buena calidad . [3] La combinación de datos se ha descrito como diferente de la integración de datos debido a los requisitos de los analistas de datos para fusionar fuentes muy rápidamente, demasiado rápido para cualquier intervención práctica por parte de los científicos de datos . [4] Un estudio realizado por Forrester Consulting en 2015 encontró que el 52 por ciento de las empresas están combinando 50 o más fuentes de datos y el 12 por ciento están combinando más de 1,000 fuentes. [5]
La combinación de datos es similar a la extracción, transformación y carga (ETL). Tanto la ETL como la combinación de datos toman datos de varias fuentes y los combinan. Sin embargo, la ETL se utiliza para fusionar y estructurar datos en una base de datos de destino, [6] a menudo un almacén de datos . La combinación de datos difiere ligeramente, ya que se trata de unir datos para un caso de uso específico en un momento específico. [7] Con algunos programas, los datos no se escriben en una base de datos, lo que es muy diferente a la ETL. Por ejemplo, con Google Data Studio. [8]
Como reflejo de la creciente demanda de analistas que combinen fuentes de datos, varias empresas de software han experimentado un gran crecimiento y han recaudado millones de dólares [9] , y algunas de las primeras empresas que entraron en el mercado ahora son empresas públicas. [10] Algunos ejemplos son AWS , Alteryx , Microsoft Power Query [ 11] e Incorta [12] , que permiten combinar datos de muchas fuentes de datos diferentes, por ejemplo, archivos de texto, bases de datos, XML, JSON y muchas otras formas de datos estructurados y semiestructurados. [13] [14] [15] [16]
En el software Tableau, la combinación de datos es una técnica para combinar datos de múltiples fuentes de datos en la visualización de datos . [17] Un diferenciador clave es la granularidad de la unión de datos. Al combinar datos en un único conjunto de datos, se utilizaría una unión de base de datos SQL , que normalmente se uniría en el nivel más granular, utilizando un campo de identificación cuando sea posible. [18] Una combinación de datos en Tableau debe ocurrir en el nivel menos granular. [19]
En Looker Studio de Google, las fuentes de datos se combinan uniendo los registros de una fuente de datos con los registros de hasta otras cuatro fuentes de datos. De manera similar a Tableau, la combinación de datos solo se produce en la capa de informes. Los datos combinados nunca se almacenan como una fuente de datos combinada independiente. [20]
La pregunta más común sobre metadatos personalizados es: "¿Cómo puede este conjunto de datos combinarse (unirse o unirse) con mis otros conjuntos de datos?" [21]