Cloud Dataflow

简化了流式数据处理和批量数据处理,同时保持相当的可靠性和表现力

免费试用

开发速度更快,管理更方便

Cloud Dataflow 是一项完全托管的服务,可用于以流式(实时)和批量(历史)模式对数据进行转换并丰富数据内容,同时保持相当的可靠性和表现力,而无需更复杂的解决方案或折衷方案。通过其无服务器资源配置和管理方法,您可以获得几乎无限的容量来解决最大的数据处理难题,但只需为所用的资源付费。

Cloud Dataflow 为各行各业的客户带来全新可能,助其实现各种革新式的使用情形,包括:

  • check 零售行业的点击流、销售终端和市场细分分析
  • check 金融服务行业的欺诈检测
  • check 游戏行业的个性化用户体验
  • check 制造、医疗保健和物流行业的 IoT 分析
faster-development-easier-management

加速批处理和流处理的开发

Cloud Dataflow 支持使用 Apache Beam SDK 中表现力出色的 Java 和 Python API 实现简单快速的流水线开发。该 SDK 提供了一组丰富的数据选取和会话分析基本功能,以及一个包含众多源连接器与接收器连接器的生态系统。此外,得益于 Beam 独特而统一的开发模型,您可以跨流处理流水线和批处理流水线复用更多代码。

accelerate-development-with-no-compromises

简化运营和管理

GCP 的无服务器方案减免了运营开销,同时可自动处理性能、规模、可用性、安全性和合规性,因此用户可专注于编程,而不用去管理服务器集群。借助与 Stackdriver(GCP 的统一日志记录和监控解决方案)的集成,您可以在流水线运行时对其进行监控和问题排查。丰富的可视化、日志记录和高级提醒功能可帮助您发现和处理潜在的问题。

simplify-operations-and-management

构建于机器学习的基础之上

将 Cloud Dataflow 用作一个方便的集成点,通过向数据处理流水线添加基于 TensorFlow 的 Cloud Machine Learning 模型和 API,对欺诈检测、实时个性化和类似的使用情形进行预测分析。

build-on-a-foundation-for-machine-learning

使用您喜爱和熟悉的工具

Cloud Dataflow 与 GCP 服务无缝集成,可实现流式事件提取 (Cloud Pub/Sub)、数据仓储 (BigQuery)、机器学习 (Cloud Machine Learning) 等。借助其基于 Beam 的 SDK,开发者还可构建自定义扩展功能,甚至选择使用 Apache Spark(运行在 Cloud Dataproc 或本地机器上)等替代执行引擎。Apache Kafka 用户可使用 Cloud Dataflow 连接器轻松与 GCP 集成

use-your-favorite-and-familiar-tools

使用 Cloud Dataflow 进行数据转换

diagram-dataflow

CLOUD DATAFLOW 特性

自动化资源管理
Cloud Dataflow 可自动配置和管理数据处理资源,以尽可能降低延迟并提高利用率;无需再手动启动实例或保留实例。
动态工作负载再平衡
自动化且经过优化的工作负载划分功能可动态再平衡进度滞后的工作。您无需再苦苦寻找“热键”或对输入数据进行预处理。
可靠且一致的一次性处理
内置了对容错执行机制的支持,无论数据规模、集群规模、处理模式或流水线复杂性如何,都可确保执行作业的一致性和正确性。
横向自动规模调节
横向自动调节工作器资源规模以实现最佳的吞吐量,从而获得更好的整体性价比。
统一编程模型
Apache Beam SDK 为流式数据和批量数据提供同样丰富的类似 MapReduce 的操作、强大的数据选取功能,以及精细的正确性控制功能。
由社区推动的创新
想要扩展 Cloud Dataflow 编程模型的开发者可以克隆 (fork) Apache Beam 和/或帮助其改进。

Cloud Dataflow 与 Cloud Dataproc:您应使用哪一个?

Cloud Dataproc 和 Cloud Dataflow 均可用于数据处理,两者的批处理和流处理功能存在重叠的部分。您该如何确定哪种产品更适合您的环境?
Dataproc 与 Dataflow

Cloud Dataproc

Cloud Dataproc 适合那些依赖 Apache 大数据生态系统特定组件的环境:

  • check 工具/软件包
  • check 流水线
  • check 现有资源的技能状况

Cloud Dataflow

Cloud Dataflow 通常是全新环境的最佳选择:

  • check 更低的运营开销
  • check 以统一的方式开发批处理流水线或流处理流水线
  • check 使用 Apache Beam
  • check 支持跨 Cloud Dataflow、Apache Spark 和 Apache Flink 这些运行时环境移植流水线

推荐的工作负载

工作负载 CLOUD DATAPROC CLOUD DATAFLOW
流处理 (ETL) check
批处理 (ETL) check check
迭代处理和笔记本 check
使用 Spark ML 进行机器学习 check
为机器学习进行预处理 check(使用 Cloud ML Engine)

合作伙伴与集成

Google Cloud Platform 合作伙伴与第三方开发者开发了很多与 Dataflow 集成的方案,让您可以轻松快捷地实现功能强大的数据处理任务(不论规模有多大)。

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

“在 Cloud Dataflow 上运行流水线后,我们得以专注于编程,而无需在运行代码时担心实例部署和维护问题(这是 GCP 的一个总体特点)。”

- Jibran Saithi Qubit 首席架构师

亲民的价格

Cloud Dataflow 根据实际使用的 Cloud Dataflow 批处理或流处理工作器,对每个作业按秒计费。使用其他 GCP 资源(例如 Cloud Storage 或 Cloud Pub/Sub)的作业按相应服务的价格分别收费。

爱荷华 俄勒冈 北弗吉尼亚 南卡罗来纳 蒙特利尔 圣保罗 比利时 芬兰 法兰克福 伦敦 荷兰 孟买 新加坡 悉尼 台湾 东京
Cloud Dataflow 工作器类型 vCPU
$/小时
内存
$ GB/小时
存储 - 标准 Persistent Disk
$ GB/小时
存储 - SSD Persistent Disk
$ GB/小时
处理的数据3,4
$ GB5
批处理 1
流处理 2
如果您使用非美元货币付费,则请参阅在 Cloud Platform SKU 上以您的币种列出的价格。

1 批处理工作器默认配置:1 个 vCPU、3.75GB 内存、250GB Persistent Disk

2 流处理工作器默认配置:4 个 vCPU、15GB 内存、420GB Persistent Disk

3 Cloud Dataflow Shuffle 目前推出的是测试版,仅可在 us-central1(爱荷华)和 europe-west1(比利时)区域用于批处理流水线。此服务未来也会在其他区域提供。

4 Cloud Dataflow Streaming Engine 以处理的流式传输数据为价格单位。Streaming Engine 目前为测试版,仅可在 us-central1(爱荷华)和 europe-west1(比利时)区域用于流处理流水线。此服务未来也会在其他区域提供。

5 如需详细了解处理的数据,请参阅 Cloud Dataflow 价格