Cloud Dataflow

简化了流式数据处理和批量数据处理,同时保持相当的可靠性和表现力

免费试用

开发速度更快,管理更方便

Cloud Dataflow 是一项完全托管的服务,可用于以流式(实时)和批量(历史)模式对数据进行转换并丰富数据内容,同时保持相当的可靠性和表现力,而无需更复杂的解决方案或折衷方案。通过其无服务器资源配置和管理方法,您可以获得几乎无限的容量来解决最大的数据处理难题,但只需为所用的资源付费。

Cloud Dataflow 解锁了不同行业的转换使用情形,包括:

  • check 零售行业的点击流、销售终端和市场细分分析
  • check 金融服务行业的欺诈检测
  • check 游戏行业的个性化用户体验
  • check 制造、医疗保健和物流行业的 IoT 分析
faster-development-easier-management

加速批量处理和流式处理的开发

Cloud Dataflow 支持通过 Apache Beam SDK 中具有表现力的 Java 和 Python API 实现简单快速的管道开发,该 SDK 提供一组丰富的数据选取和会话分析基本功能以及一个包含源连接器与接收器连接器的生态环境。此外,通过 Beam 的独特且统一的开发模型,您可以跨流式处理管道和批量处理管道重复使用更多代码。

accelerate-development-with-no-compromises

简化操作和管理

GCP 的无服务器方法免去了运营开销,同时可自动处理性能、扩展、可用性、安全和合规性,因此用户可以专注于编程,而不用去管理服务器集群。通过与 Stackdriver(GCP 的统一日志记录和监控解决方案)集成,您可以在管道运行时对管道进行监控和问题排查。丰富的可视化、日志记录和高级提醒功能可帮助您识别和响应潜在的问题。

simplify-operations-and-management

构建于机器学习的基础之上

使用 Cloud Dataflow 作为一个方便的集成点,通过向数据处理管道添加基于 TensorFlow 的 Cloud Machine Learning 模型和 API,对欺诈检测、实时个性化和类似的使用情形进行预测分析。

build-on-a-foundation-for-machine-learning

使用您喜爱和熟悉的工具

Cloud Dataflow 与 GCP 服务无缝集成,以便流式处理事件获取 (Cloud Pub/Sub)、数据仓库 (BigQuery)、机器学习 (Cloud Machine Learning) 等。借助其基于 Beam 的 SDK,开发者还可以通过 Cloud Dataproc 或内部部署构建自定义扩展功能,甚至选择替代执行引擎(例如 Apache Spark)。对于 Apache Kafka 用户,使用 Cloud Dataflow 连接器可以方便地与 GCP 集成

use-your-favorite-and-familiar-tools

使用 Cloud Dataflow 进行数据转换

diagram-dataflow

CLOUD DATAFLOW 特性

自动化资源管理
Cloud Dataflow 可自动配置和管理对资源的处理,以尽可能减少延迟并提高利用率;无需再手动启动实例或保留实例。
动态工作再平衡
自动化且经过优化的工作划分可动态再平衡进度滞后的工作。您无需再苦苦寻找“快捷键”或是预处理输入数据。
可靠且一致的一次性处理
内置了对容错执行的支持,无论数据规模、集群规模、处理模式或管道复杂性如何,都可确保执行的一致性和正确性。
横向自动调节
横向自动调节工作器资源以实现最佳的吞吐量,从而获得更好的整体性价比。
统一编程模型
Apache Beam SDK 为流式数据和批量数据提供同样丰富的类似 MapReduce 的操作、强大的数据选取功能,以及精细的正确性控制功能。
由社区推动的创新
想要扩展 Cloud Dataflow 编程模型的开发者可以克隆 (fork) Apache Beam 和/或帮助其改进。

合作伙伴与集成

Google Cloud Platform 合作伙伴与第三方开发者开发了很多与 Dataflow 集成的方案,让您可以轻松快捷地实现功能强大的数据处理任务(不论规模有多大)。

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

“在 Cloud Dataflow 上运行管道后,我们可以专注于编程,而无需在运行代码时担心实例部署和维护问题(GCP 总体特点)。”

- Jibran Saithi Qubit 首席架构师

亲民的价格

Cloud Dataflow 根据实际使用的 Cloud Dataflow 批量处理或流式处理工作器,按分钟对每个作业收费。使用其他 GCP 资源(例如 Cloud Storage 或 Cloud Pub/Sub)的作业按相应服务的价格分别收费。

爱荷华 俄勒冈 北弗吉尼亚 南卡罗来纳 圣保罗 比利时 伦敦 法兰克福 新加坡 悉尼 台湾 东京
Dataflow 工作器类型 vCPU
$/小时
内存
$ GB/小时
本地存储空间 - 永久性磁盘
$ GB/小时
本地存储空间 - SSD
$ GB/小时
Dataflow Shuffle 3
$ GB/小时
批量处理1
流式处理2
如果您使用非美元货币支付,则请参阅在 Cloud Platform SKU 上以您的币种列出的价格。

1 批量处理工作器默认配置:1 个 vCPU、3.75GB 内存、250GB 永久性磁盘。

2 流式处理工作器默认配置:4 个 vCPU、15GB 内存、420GB 永久性磁盘。

3 基于服务的 Dataflow Shuffle 目前为测试版,仅可在 us-central1(爱荷华)区域用于批量处理管道。此服务未来也会在其他区域提供。