Dataflow

无服务器、快速且经济高效的统一流式数据处理和批量数据处理。

免费试用 Dataflow
  • action/check_circle_24px 使用 Sketch 创建。

    全代管式数据处理服务

  • action/check_circle_24px 使用 Sketch 创建。

    自动预配和管理处理资源

  • action/check_circle_24px 使用 Sketch 创建。

    横向自动扩缩工作器资源以最大化资源利用率

  • action/check_circle_24px 使用 Sketch 创建。

    使用 Apache Beam SDK 实现 OSS 社区驱动的创新

  • action/check_circle_24px 使用 Sketch 创建。

    可靠且一致的一次性处理

快速进行流式数据分析

Dataflow 可实现快速、简化的流式数据流水线开发,且数据延迟时间更短。

简化运营和管理

Dataflow 的无服务器方法消除了数据工程工作负载的运营开销,让团队可以专注于编程,而不必管理服务器集群。

降低总体拥有成本

资源自动扩缩功能搭配费用优化的批处理功能,使得 Dataflow 可提供几乎无限的容量来管理季节性和峰值工作负载,而不会让您过度开支。

主要特性

自动化资源管理和动态工作负载再平衡

Dataflow 自动执行处理资源的预配和管理,最大限度地缩短延迟时间并提高利用率,因而您无需再手动启动或预留实例。工作分区也是自动执行的,并且经过了优化以便动态再平衡进度滞后的工作。您无需再苦苦寻找“热点键”或对输入数据进行预处理。

横向自动扩缩

横向自动扩缩工作器资源规模以达到最佳的吞吐量,从而实现了更高的整体性价比。

面向批处理的灵活资源调度价格

对于调度时间较为灵活的处理作业(例如夜间作业),采用 Flexible Resource Scheduling (FlexRS) 进行批处理可以享受更低的价格。系统会将这些灵活作业放入队列中,并保证在六小时内检索并执行这些作业。

查看所有特性

客户

Dow Jones
Dow Jones 借助 Dataflow 使关键历史事件数据集变得生动有趣。
阅读案例

案例亮点

  • 综合了 30 多年的新闻数据,以评估业务影响

  • 揭示隐藏的数据关系和洞见

  • 在 10 个星期的时间内轻松交付了原型知识图谱

合作伙伴

文档

快速入门
Dataflow 快速入门(使用 Python)

设置您的 Google Cloud 项目和 Python 开发环境、获取 Apache Beam SDK 并在 Dataflow 服务上运行和修改 WordCount 示例。

教程
使用 Dataflow SQL

创建 SQL 查询并部署一个 Dataflow 作业,从 Dataflow SQL 界面运行 SQL 查询。

教程
安装 Apache Beam SDK

安装 Apache Beam SDK 以便在 Dataflow 服务上运行流水线。

教程
使用 Apache Beam 和 TensorFlow 进行机器学习

使用 Apache Beam、Dataflow 和 TensorFlow 进行数据预处理,训练分子能量机器学习模型并用其执行预测。

教程
Qwiklab:Google Cloud 大数据与机器学习基础知识

此为持续一周的点播课程,将介绍 Google Cloud 的数据分析和机器学习功能,包括如何使用 Dataflow 创建流水线。

Google Cloud 基础知识
Dataflow 资源

了解价格、资源配额、常见问题解答等信息。

教程
探索可在 Google Cloud 上构建什么样的产品

查看与 Dataflow 相关的 Google Cloud 技术资源指南。

使用场景

使用场景
流式分析

Google 的流式分析使数据更有条理、更加有用,并从其生成的一刻起就可访问。我们的流式解决方案基于 Dataflow 以及 Pub/Sub 和 BigQuery 构建,可预配所需的资源来提取、处理和分析数量不断波动的实时数据,以便提供实时业务数据洞见。这种抽象化的预配降低了复杂性,使数据分析师和数据工程师都能进行流式分析。

Dataflow 流式分析图示
使用场景
实时 AI

Dataflow 将流式事件引入 Google Cloud 的 AI PlatformTensorFlow Extended (TFX),以实现预测式分析、欺诈检测、实时个性化设置和其他高级分析使用场景。TFX 使用 Dataflow 和 Apache Beam 作为分布式数据处理引擎来支持机器学习生命周期中的多个方面,所有这些均通过 Kubeflow 流水线中适用于机器学习的持续集成/持续交付提供支持。

使用场景
传感器和日志数据处理

借助智能的 IoT 平台,从您的全球设备网络中发掘业务数据洞见。

所有特性

Streaming Engine Streaming Engine 将计算与状态存储分离,并将流水线执行的某些部分从工作器虚拟机移至 Dataflow 服务后端,因而显著提高了自动扩缩能力,缩短了延迟时间。
自动扩缩 自动扩缩功能使 Dataflow 服务能够根据运行作业的需要自动选择适当数量的工作器实例。在运行期间,Dataflow 服务还可以根据您的作业特征进行动态再分配,增加或减少工作器数量。
Dataflow Shuffle 基于服务的 Dataflow Shuffle 将重排操作(用于分组和联接数据)从工作器虚拟机移至用于批处理流水线的 Dataflow 服务后端。批处理流水线可无缝地扩容至数百 TB,无需任何人工调整。
Dataflow SQL Dataflow SQL 让您可以直接在 BigQuery 网页界面中利用 SQL 知识开发流式 Dataflow 流水线。您可以将 Pub/Sub 中的流式数据与 Cloud Storage 中的文件或 BigQuery 中的表联接,将结果写入 BigQuery,以及使用 Google 表格或其他 BI 工具构建实时信息中心。
Flexible Resource Scheduling (FlexRS) Dataflow FlexRS 使用高级调度技术、Dataflow Shuffle 服务并结合使用抢占式虚拟机 (VM) 实例和常规虚拟机,来降低批处理的费用。
Dataflow 模板 利用 Dataflow 模板,您可以与团队成员或在整个组织中轻松共享您的流水线,或利用 Google 提供的众多模板来实现简单实用的数据处理任务。利用 Flex 模板,您可以基于任意的 Dataflow 流水线创建模板。
Notebooks 集成 通过 AI Platform Notebooks 以迭代方式从头开始构建流水线,并使用 Dataflow 运行程序进行部署。通过在“读取-求值-输出”循环 (REPL) 工作流中检查流水线图,分步编写 Apache Beam 流水线。借助 Google AI Platform 中的 Notebooks,您可以使用最新的数据科学和机器学习框架在直观的环境中编写流水线。
内嵌监控 利用 Dataflow 内嵌监控功能,您可以直接访问作业指标,以便排查批处理和流式处理流水线的问题。您可以查看精确到步骤级别和工作器级别的监控图,并针对过时数据和高系统延迟等条件设置提醒。
客户管理的加密密钥 (CMEK) 您可以创建由 CMEK 保护的批处理或流式处理流水线,或访问来源和接收器中由 CMEK 保护的数据。
Dataflow VPC Service Controls Dataflow 与 VPC Service Controls 集成,使您能够降低数据渗漏的风险,为数据处理环境提供额外的安全防护。
专用 IP 关闭公共 IP 地址可以更好地保护数据处理基础架构。Dataflow 工作器不使用公共 IP 地址,还可以减少 Google Cloud 项目配额中使用的公共 IP 地址数量。

价格

Dataflow 根据实际的 Dataflow 批处理或流式处理工作器用量,对每个作业按秒计费。其他资源(例如 Cloud Storage 或 Pub/Sub)按相应服务的价格分别收费。

合作伙伴

Google Cloud 合作伙伴开发了很多与 Dataflow 集成的方案,提供强大的处理功能,让您可以轻松快捷地完成任何规模的数据处理任务。