Google Cloud Dataflow es un servicio totalmente administrado para ejecutar pipelines de Apache Beam dentro del ecosistema de Google Cloud Platform . Dataflow proporciona un servicio totalmente administrado para ejecutar pipelines de Apache Beam, que ofrece funciones como escalado automático, reequilibrio dinámico del trabajo y un entorno de ejecución administrado. [1]
Dataflow es adecuado para trabajos de procesamiento de datos continuos y a gran escala, y es uno de los principales componentes de la arquitectura de big data de Google en Google Cloud Platform. [2]
Google Cloud Dataflow se anunció en junio de 2014 [3] y se lanzó al público general como una versión beta abierta en abril de 2015. [4] En enero de 2016, Google donó el SDK subyacente , la implementación de un ejecutor local y un conjunto de IO ( conectores de datos ) para acceder a los servicios de datos de Google Cloud Platform a la Apache Software Foundation . [5] El código donado formó la base original de Apache Beam .
En agosto de 2022, se produjo un incidente en el que se interrumpieron los temporizadores de los usuarios de determinadas canalizaciones de transmisión de Dataflow en varias regiones, que luego se resolvió. [6] A lo largo de 2023 y 2024, hubo varias otras actualizaciones e incidentes que afectaron a Google Cloud Dataflow, como se documenta en las notas de la versión y el historial de estado del servicio. [7]