可扩缩的高性能虚拟机
快速、统一的流式数据处理和批量数据处理

Dataflow 是一项完全托管的流式分析服务,可通过自动扩缩和批处理来最大限度地减少延迟、缩短处理时间和降低费用。得益于其无服务器的资源预配与管理方法,您可以获得几乎无限的容量来解决最大的数据处理挑战,而只需为所用的资源付费。

  • 自动预配和管理处理资源
  • 横向自动扩缩工作器资源以最大化资源利用率
  • 统一的流式处理和批处理编程模型
  • 使用 Apache Beam SDK 实现 OSS 社区驱动的创新
  • 可靠且一致的一次性处理

快速的流式数据分析

Dataflow 可实现快速简化的流式数据流水线开发,且数据延迟时间更短。

简化运营和管理

Dataflow 的无服务器方法消除了数据工程工作负载的运营开销,让团队可以专注于编程,而不必管理服务器集群。

降低总体拥有成本

资源自动扩缩功能搭配费用优化的批处理功能,使得 Dataflow 可提供几乎无限的容量来管理季节性和峰值工作负载,而不会花费过多。

主要功能

自动化资源管理和动态工作负载再平衡

Dataflow 自动执行处理资源的预配和管理,最大限度地缩短延迟时间并提高利用率,因而您无需再手动启动或预留实例。工作分区也是自动执行的,并且经过了优化以便动态再平衡进度滞后的工作。您无需再苦苦寻找“热点键”或对输入数据进行预处理。

横向自动扩缩

横向自动扩缩工作器资源规模以达到最佳的吞吐量,从而实现了更高的整体性价比。

面向批处理的灵活资源调度价格

对于调度时间较为灵活的处理作业(例如夜间作业),采用灵活资源调度 (FlexRS) 方式进行批处理可以享受更低的价格。系统会将这些灵活作业放入队列中,并保证在六小时内检索并执行这些作业。

查看所有功能

客户案例

亮点

  • 综合了 30 多年的非结构化新闻数据,以评估关键事件的定性业务影响

  • 定义了复杂的网络研究工作,以揭示隐藏的关系和洞见

  • 在 10 个星期的时间内轻松交付了原型知识图谱

合作伙伴

查看更多客户

新变化

文档

教程
Dataflow 快速入门(使用 Python)

设置您的 Google Cloud 项目和 Python 开发环境、获取 Apache Beam SDK 并在 Dataflow 服务上运行和修改 WordCount 示例。

教程
使用 Dataflow SQL

创建 SQL 查询并部署一个 Dataflow 作业,从 Dataflow SQL 界面运行 SQL 查询。

教程
安装 Apache Beam SDK

安装 Apache Beam SDK 以便在 Dataflow 服务上运行流水线。

教程
使用 Apache Beam 和 TensorFlow 进行机器学习

使用 Apache Beam、Dataflow 和 TensorFlow 进行数据预处理,训练分子能机器学习模型并用其执行预测。

常见用例

流式分析

Google Cloud 提供的流式分析使数据更有条理、更加有用,并从其生成的一刻起就可访问。我们的流式解决方案以 Dataflow 的自动扩缩基础架构以及 Pub/Sub 和 BigQuery 为基础而构建,可预配所需的资源来提取、处理和分析数量不断波动的实时数据,提供实时业务数据洞察。这种抽象化的预配降低了复杂性,使数据分析师和数据工程师都能进行流式分析。

显示流式分析的架构TriggerAnalyzeActivateData StudioThird-party BlCreation FlowConfigure source to push event message to Pub/Sub Topic Create Pub/Sub Topic and Subscription Deploy streaming or batch Dataflow job using templates, CLI, or notebooksCreate dataset, tables, and models to receive streamBuild real-time dashboards and call external APIs IngestEnrichAnalyzeActivateEdgeMobileWebData StoreIoTPub/SubBigQueryAl PlatformBigtable Cloud FunctionsDataflow StreamingApache Beam (SDK)Dataflow BatchBackfill/ReprocessArchitecture
传感器和日志数据处理

借助智能的 IoT 平台,从您的全球设备网络中发掘业务数据洞见。

实时 AI

Dataflow 将流式事件引入 Google Cloud 的 AI PlatformTensorFlow Extended (TFX),以实现预测式分析、欺诈检测、实时个性化设置和其他高级分析用例。TFX 使用 Dataflow 和 Apache Beam 作为分布式数据处理引擎来支持机器学习生命周期中的多个方面,所有这些均通过 Kubeflow 流水线由适用于机器学习的持续集成/持续交付支持。

所有功能

自动扩缩 自动扩缩功能使 Dataflow 服务能够根据运行作业的需要自动选择适当数量的工作器实例。在运行期间,Dataflow 服务还可以根据您的作业特征进行动态再分配,增加或减少工作器数量。
Streaming Engine Streaming Engine 将计算与状态存储分离,并将流水线执行的某些部分从工作器虚拟机移至 Dataflow 服务后端,因而显著提高了自动扩缩能力,缩短了延迟时间。
Dataflow Shuffle 基于服务的 Dataflow Shuffle 将重排操作(用于分组和联接数据)从工作器虚拟机移至用于批处理流水线的 Dataflow 服务后端。批处理流水线可无缝地扩容(无需任何人工调整)至数百 TB。
Dataflow SQL Dataflow SQL 允许您直接在 BigQuery 网页界面中利用 SQL 知识开发流式 Dataflow 流水线。您可以将 Pub/Sub 中的流式数据与 Cloud Storage 中的文件或 BigQuery 中的表联接,将结果写入 BigQuery,以及使用 Google 表单或其他 BI 工具构建实时信息中心。
Flexible Resource Scheduling (FlexRS) Dataflow FlexRS 通过使用高级安排功能、Dataflow Shuffle 服务并结合使用抢占式虚拟机 (VM) 实例和常规虚拟机,来降低批处理的费用。
Dataflow 模板 利用 Dataflow 模板,您可以与团队成员或在整个组织中轻松共享您的流水线,或利用 Google 提供的众多模板来实现简单实用的数据处理任务。
内嵌监控 利用 Dataflow 内嵌监控,您可以与作业交互并直接访问作业指标。您还可以为过时数据和高系统延迟等条件设置提醒。
客户管理的加密密钥 (CMEK) 您还可以创建由 CMEK 保护的批处理或流式流水线,或访问来源和接收器中由 CMEK 保护的数据。
Dataflow VPC Service Controls Dataflow 与 VPC Service Controls 集成,使您能够降低数据渗漏的风险,为数据处理环境提供额外的安全防护。
专用 IP 关闭公共 IP 地址可以更好地保护数据处理基础架构。Dataflow 工作器不使用公共 IP 地址,还可以减少 Google Cloud 项目配额中使用的公共 IP 地址数量。

价格

Dataflow 根据实际的 Dataflow 批处理或流处理工作器用量,对每个作业按秒计费。使用其他 Google Cloud 资源(例如 Cloud Storage 或 Pub/Sub)的作业按相应服务的价格收费。

查看价格详情

合作伙伴

Google Cloud 合作伙伴与第三方开发者开发了很多与 Dataflow 集成的方案,让您可以轻松快捷地完成功能强大、任何规模的数据处理任务。