开发速度更快,管理更方便
Cloud Dataflow 是一项完全托管式的服务,可用于以流式(实时)和批量(历史)模式对数据进行转换并丰富数据内容,同时保持相当的可靠性和表现力,而无需更复杂的解决方案或折衷方案。通过其无服务器资源预配和管理方法,您可以获得几乎无限的容量来解决最大的数据处理难题,但只需为所用的资源付费。
Cloud Dataflow 为各行各业的客户带来全新可能,助其实现各种革新式的使用情形,包括:
- check 零售行业的点击流、销售终端和市场细分分析
- check 金融服务行业的欺诈检测
- check 游戏行业的个性化用户体验
- check 制造、医疗保健和物流行业的物联网分析

加速批处理和流处理的开发
Cloud Dataflow 支持使用 Apache Beam SDK 中表现力出色的 Java 和 Python API 实现简单快速的流水线开发。该 SDK 提供了一组丰富的数据选取和会话分析基本功能,以及一个包含众多源连接器与接收器连接器的生态系统。此外,得益于 Beam 独特而统一的开发模型,您可以跨流处理流水线和批处理流水线复用更多代码。

简化运营和管理
GCP 的无服务器方案减免了运营开销,同时可自动处理性能、规模、可用性、安全性和合规性,因此用户可专注于编程,而不用去管理服务器集群。借助与 Stackdriver(GCP 的统一日志记录和监控解决方案)的集成,您可以在流水线运行时对其进行监控和问题排查。丰富的可视化、日志记录和高级提醒功能可帮助您发现和处理潜在的问题。

为机器学习夯实基础
将 Cloud Dataflow 用作一个方便的集成点,通过向数据处理流水线添加基于 TensorFlow 的 Cloud Machine Learning 模型和 API,面向欺诈检测、实时个性化和类似的使用情形进行预测分析。

使用您喜爱和熟悉的工具
Cloud Dataflow 与 GCP 服务无缝集成,可实现流式事件提取 (Cloud Pub/Sub)、数据仓储 (BigQuery)、机器学习 (Cloud Machine Learning) 等。借助其基于 Beam 的 SDK,开发者还可构建自定义扩展功能,甚至选择使用 Apache Spark(运行在 Cloud Dataproc 或本地机器上)等替代执行引擎。Apache Kafka 用户可使用 Cloud Dataflow 连接器轻松与 GCP 集成。

使用 Cloud Dataflow 进行数据转换


CLOUD DATAFLOW 特性
- 自动化资源管理
- Cloud Dataflow 可自动预配和管理数据处理资源,以尽可能降低延迟并提高利用率;无需再手动启动实例或保留实例。
- 动态工作负载再平衡
- 自动化且经过优化的工作负载划分功能可动态再平衡进度滞后的工作。您无需再苦苦寻找“热键”或对输入数据进行预处理。
- 可靠且一致的一次性处理
- 内置了对容错执行机制的支持,无论数据规模、集群规模、处理模式或流水线复杂性如何,都可确保执行作业的一致性和正确性。
- 横向自动扩缩
- 横向自动调节工作器资源规模以实现最佳的吞吐量,从而获得更好的整体性价比。
- 统一编程模型
- Apache Beam SDK 为流式数据和批量数据提供同样丰富的类似 MapReduce 的操作、强大的数据选取功能,以及精细的正确性控制功能。
- 由社区推动的创新
- 想要扩展 Cloud Dataflow 编程模型的开发者可以克隆 (fork) Apache Beam 和/或帮助其改进。
Cloud Dataflow 与 Cloud Dataproc:您应使用哪一个?
Cloud Dataproc
Cloud Dataproc 适合那些依赖 Apache 大数据生态系统特定组件的环境:
- check工具/软件包
- check流水线
- check现有资源的技能组合
Cloud Dataflow
Cloud Dataflow 通常是全新环境的最佳选择:
- check运营开销更低
- check以统一的方式开发批处理流水线和流处理流水线
- check使用 Apache Beam
- check支持在 Cloud Dataflow、Apache Spark 和 Apache Flink 这些运行时环境之间移植流水线
推荐的工作负载
工作负载 | CLOUD DATAPROC | CLOUD DATAFLOW |
---|---|---|
流处理 (ETL) | check | |
批处理 (ETL) | check | check |
迭代处理和笔记本 | check | |
使用 Spark ML 进行机器学习 | check | |
为机器学习进行预处理 | check(使用 Cloud ML Engine) |
合作伙伴与集成
Google Cloud Platform 合作伙伴与第三方开发者开发了很多与 Dataflow 集成的方案,让您可以轻松快捷地实现功能强大的数据处理任务(不论规模有多大)。
ClearStory
Cloudera
DataArtisans
Sales Force
SpringML
tamr
“在 Cloud Dataflow 上运行流水线后,我们得以专注于编程,而无需在运行代码时担心实例部署和维护问题(这是 GCP 的一个总体特点)。”
- Jibran Saithi Qubit 首席架构师

亲民的价格
Cloud Dataflow 根据实际使用的 Cloud Dataflow 批处理或流处理工作器,对每个作业按秒计费。使用其他 GCP 资源(例如 Cloud Storage 或 Cloud Pub/Sub)的作业按相应服务的价格分别收费。
Cloud Dataflow 工作器类型 | vCPU $/小时 |
内存 $ GB/小时 |
存储 - 标准永久性磁盘 $ GB/小时 |
存储 - SSD 永久性磁盘 $ GB/小时 |
处理的数据量3、4 $ GB5 |
---|---|---|---|---|---|
批处理 1 | |||||
流处理 2 |
1 批处理工作器默认配置:1 个 vCPU、3.75GB 内存、250GB 永久性磁盘
2 流处理工作器默认配置:4 个 vCPU、15GB 内存、420GB 永久性磁盘
3 Cloud Dataflow Shuffle 目前仅可在 us-central1(爱荷华)和 europe-west1(比利时)区域用于批处理流水线。此服务未来也会在其他区域提供。
4 Cloud Dataflow Streaming Engine 使用“处理的流式数据量”作为价格单位。Streaming Engine 目前为测试版,仅可在 us-central1(爱荷华)和 europe-west1(比利时)区域用于流处理流水线。此服务未来也会在其他区域提供。
5 如需详细了解“处理的数据量”,请参阅 Cloud Dataflow 价格。