stringtranslate.com

Combinación de datos

La combinación de datos es un proceso mediante el cual grandes cantidades de datos de múltiples fuentes [1] se fusionan en un único almacén de datos o conjunto de datos . [2]

La combinación de datos permite a los analistas de negocios hacer frente a la expansión de los datos que necesitan para tomar decisiones comerciales críticas basadas en inteligencia empresarial de buena calidad . [3] La combinación de datos se ha descrito como diferente de la integración de datos debido a los requisitos de los analistas de datos para fusionar fuentes muy rápidamente, demasiado rápido para cualquier intervención práctica por parte de los científicos de datos . [4] Un estudio realizado por Forrester Consulting en 2015 encontró que el 52 por ciento de las empresas están combinando 50 o más fuentes de datos y el 12 por ciento están combinando más de 1,000 fuentes. [5]

Extraer, transformar, cargar

La combinación de datos es similar a la extracción, transformación y carga (ETL). Tanto la ETL como la combinación de datos toman datos de varias fuentes y los combinan. Sin embargo, la ETL se utiliza para fusionar y estructurar datos en una base de datos de destino, [6] a menudo un almacén de datos . La combinación de datos difiere ligeramente, ya que se trata de unir datos para un caso de uso específico en un momento específico. [7] Con algunos programas, los datos no se escriben en una base de datos, lo que es muy diferente a la ETL. Por ejemplo, con Google Data Studio. [8]

Productos de software

Como reflejo de la creciente demanda de analistas que combinen fuentes de datos, varias empresas de software han experimentado un gran crecimiento y han recaudado millones de dólares [9] , y algunas de las primeras empresas que entraron en el mercado ahora son empresas públicas. [10] Algunos ejemplos son AWS , Alteryx , Microsoft Power Query [ 11] e Incorta [12] , que permiten combinar datos de muchas fuentes de datos diferentes, por ejemplo, archivos de texto, bases de datos, XML, JSON y muchas otras formas de datos estructurados y semiestructurados. [13] [14] [15] [16]

Cuadro

En el software Tableau, la combinación de datos es una técnica para combinar datos de múltiples fuentes de datos en la visualización de datos . [17] Un diferenciador clave es la granularidad de la unión de datos. Al combinar datos en un único conjunto de datos, se utilizaría una unión de base de datos SQL , que normalmente se uniría en el nivel más granular, utilizando un campo de identificación cuando sea posible. [18] Una combinación de datos en Tableau debe ocurrir en el nivel menos granular. [19]

Estudio Looker

En Looker Studio de Google, las fuentes de datos se combinan uniendo los registros de una fuente de datos con los registros de hasta otras cuatro fuentes de datos. De manera similar a Tableau, la combinación de datos solo se produce en la capa de informes. Los datos combinados nunca se almacenan como una fuente de datos combinada independiente. [20]

Desafíos de la combinación de datos

La pregunta más común sobre metadatos personalizados es: "¿Cómo puede este conjunto de datos combinarse (unirse o unirse) con mis otros conjuntos de datos?" [21]

Véase también

Referencias

  1. ^ Alteryx Analytics lleva el poder de la predicción y el big data al mercado
  2. ^ La combinación de datos es el proceso de combinar datos de múltiples fuentes en un conjunto de datos funcional.
  3. ^ "Combinación de datos". Trifacta.com. 24 de agosto de 2017.
  4. ^ ¿Qué es la combinación de datos y qué herramientas la facilitan?
  5. ^ "Combinaciones de datos para análisis". Pentaho.
  6. ^ "Cómo funciona ETL" (en alemán). Databricks . Consultado el 27 de febrero de 2021 .
  7. ^ "¿Qué es la combinación de datos y qué herramientas la facilitan?". Software Advice. 2016-08-25 . Consultado el 2021-02-27 .
  8. ^ "Descripción general de Google Data Studio". datastudio.google.com . Consultado el 27 de febrero de 2021 .
  9. ^ "Incorta recauda $30 millones en Serie C para una solución de procesamiento de datos sin ETL". TechCrunch . Consultado el 27 de febrero de 2021 .
  10. ^ "Alteryx anuncia el precio de la oferta pública inicial". Alteryx . Consultado el 27 de febrero de 2021 .
  11. ^ Corporation, Microsoft. "Microsoft Power Query". powerquery.microsoft.com . Consultado el 27 de febrero de 2021 .
  12. ^ "Software de análisis de datos directos". Incorta . Consultado el 27 de febrero de 2021 .
  13. ^ "Fuentes de datos". docs.incorta.com . Consultado el 27 de febrero de 2021 .
  14. ^ davidiseminger. "Dar forma y combinar datos de múltiples fuentes con Power Query". docs.microsoft.com . Consultado el 27 de febrero de 2021 .
  15. ^ "Fuentes de datos admitidas: Amazon QuickSight". docs.aws.amazon.com . Consultado el 27 de febrero de 2021 .
  16. ^ "Fuentes de datos". Ayuda de Alteryx . Consultado el 27 de febrero de 2021 .
  17. ^ "Combine sus datos". help.tableau.com . Consultado el 27 de febrero de 2021 .
  18. ^ "Explicación de las uniones SQL". Explicación de las uniones SQL . Consultado el 27 de febrero de 2021 .
  19. ^ TAR Solutions (20 de enero de 2021). "Combinación de datos en Tableau". TAR Solutions . Consultado el 27 de febrero de 2021 .
  20. ^ "Acerca de la combinación de datos - Ayuda de Data Studio". support.google.com . Consultado el 27 de febrero de 2021 .
  21. ^ Heer, Jeffrey; Hellerstein, Joseph; Kandel, Sean; Rattenbury, Tye (julio de 2017). Principios de la manipulación de datos . O'Reilly Media.