在 2023 年的《Forrester Wave:流数据平台》报告中,Google Cloud 被评为业界领导者。了解详情
跳转到
Dataflow

Dataflow

无服务器、快速且经济高效的统一流式数据处理和批量数据处理。

新客户将获得 $300 赠金,可用于抵扣在 Dataflow 上的支出。

  • 通过数据流式传输和机器学习技术进行实时数据分析和激活

  • 全代管式数据处理服务

  • 自动预配和管理处理资源

  • 横向和纵向自动扩缩工作器资源以最大化资源利用率

  • 使用 Apache Beam SDK 实现 OSS 社区驱动的创新

优势

快速进行流式数据分析

Dataflow 可实现快速、简化的流式数据流水线开发,且数据延迟时间更短。

简化运营和管理

Dataflow 的无服务器方法消除了数据工程工作负载的运营开销,让团队可以专注于编程,而不必管理服务器集群。

降低总体拥有成本

资源自动扩缩功能搭配费用优化的批处理功能,使得 Dataflow 可提供几乎无限的容量来管理季节性和峰值工作负载,而不会让您过度开支。

主要特性

主要特性

现成可用的实时 AI

Dataflow 的实时 AI 功能是通过开箱即用的机器学习功能(包括 NVIDIA GPU 和现成模式)实现的,能够以接近人类的智能实时地对海量事件做出响应。

客户可以构建各种智能解决方案,从预测分析和异常检测,到实时个性化设置及其他高级分析使用场景。

训练、部署和管理完整的机器学习 (ML) 流水线,包括使用批处理和流处理流水线进行本地和远程推断。

资源自动扩缩和动态工作负载再平衡

借助数据感知资源自动扩缩功能,最大限度地缩短流水线延迟时间,将资源利用率最大化,并降低每条数据记录的处理费用。系统会自动对输入数据进行分区并不断进行重新平衡,以使工作器资源利用率实现均衡化并降低“热键”对流水线性能的影响。

监控和可观测性

观察 Dataflow 流水线中每个步骤的数据。使用实际数据样本诊断问题并有效排查问题。比较作业的不同运行情况,以便轻松发现问题。

查看所有功能

文档

文档

教程

使用 Dataflow 进行无服务器数据处理:基础知识

Dataflow 的基础知识培训。
教程

Dataflow 快速入门(使用 Python)

设置您的 Google Cloud 项目和 Python 开发环境、获取 Apache Beam Python SDK 并在 Dataflow 服务上运行和修改 WordCount 示例。
教程

使用 Dataflow SQL

在 Dataflow SQL 界面创建 SQL 查询并部署 Dataflow 作业运行您的查询。
教程

安装 Apache Beam SDK

安装 Apache Beam SDK 以便在 Dataflow 服务上运行流水线。
教程

使用 Apache Beam 和 TensorFlow 进行机器学习

使用 Apache Beam、Dataflow 和 TensorFlow 进行数据预处理,训练分子能量机器学习模型并用其执行预测。
教程

Java 版 Dataflow 字数统计教程

在本教程中,您将通过使用 Apache Beam Java SDK 运行一个简单的示例流水线,了解 Cloud Dataflow 服务的基础知识。
教程

实操实验:使用 Google Cloud Dataflow 处理数据

了解如何使用 Python 和 Dataflow 处理基于文本的实时数据集,然后将其存储在 BigQuery 中。
教程

实操实验:使用 Pub/Sub 和 Dataflow 进行流处理

了解如何使用 Dataflow 读取发布到 Pub/Sub 主题的消息,按时间戳确定消息的窗口时间,以及向 Cloud Storage 写入消息。
Google Cloud 基础知识

Dataflow 资源

了解价格、资源配额、常见问题解答等信息。

没有看到您需要的内容?

使用场景

使用场景

使用场景
流式分析

Google 的流式分析使数据更有条理、更加有用,并从其生成的一刻起就可访问。我们的流式解决方案基于 Dataflow 以及 Pub/Sub 和 BigQuery 构建,可预配所需的资源来提取、处理和分析数量不断波动的实时数据,以便提供实时的业务数据洞见。这种抽象化的预配降低了复杂性,使数据分析师和数据工程师都能进行流式分析。

跨 5 列,从“触发”到“提取”、“强化”、“分析”和“激活”。每列都有上半部分和下半部分。在“触发”列顶部是边缘设备(移动设备、Web、数据存储和物联网),这些设备流到“提取”列中的 Pub/Sub,然后流到“强化”列和 Apache Beam/Dataflow 流处理,接着流到“分析”和“激活”框,最后流回到第 1 列中的边缘设备。从第 3 列中的 Apache Beam 来回流入“分析”列,进入 BigQuery、AI Platform 和 Bigtable:流向这 3 者的方式都是回填/重新处理 - 数据流批量。流从 BigQuery 转到“激活”列,进入“数据洞察”、第三方 BI 和 Cloud Functions,后者又流回到第 1 列中的边缘设备。在列的底部,显示“创建流程”:触发器显示“配置源以将事件消息推送到 Pub/Sub 主题”、提取“创建 Pub/Sub 主题和订阅”的流程、强化“使用模板、CLI 或笔记本部署流式或批处理 Dataflow 作业”的流程、分析“创建数据集、表和模型以接收流”的流程、激活“构建实时信息中心并调用外部 API”的流程。
使用场景
实时 AI

Dataflow 将流式事件引入 Google Cloud 的 Vertex AITensorFlow Extended (TFX),以实现预测分析、欺诈检测、实时个性化和其他高级分析使用场景。TFX 使用 Dataflow 和 Apache Beam 作为分布式数据处理引擎来支持机器学习生命周期中的多个方面,所有这些均通过 Kubeflow 流水线中适用于机器学习的持续集成/持续交付提供支持。

使用场景
传感器和日志数据处理

借助智能的 IoT 平台,从您的全球设备网络中发掘业务数据洞见。

所有特性

所有特性

Dataflow 机器学习
轻松部署和管理机器学习 (ML) 流水线。使用机器学习模型通过批处理和流处理流水线进行本地和远程推断。使用数据处理工具为模型训练准备数据并处理模型的结果。
Dataflow GPU
针对性能和 GPU 使用费用进行了优化的数据处理系统。支持各种 NVIDIA GPU。
纵向自动扩缩
根据利用率动态调整分配给每个工作器的计算容量。纵向自动扩缩与横向自动扩缩配合运行,可无缝扩缩工作器以最好地满足流水线的需求。
横向自动扩缩
横向自动扩缩功能使 Dataflow 服务能够根据运行作业的需要自动选择适当数量的工作器实例。在运行期间,Dataflow 服务还可以根据您的作业特征进行动态再分配,增减工作器数量。
适配
合适的解决方案会创建特定于阶段的资源池,系统会针对每个阶段优化这些资源以减少资源浪费。
智能诊断
一系列功能,包括 1) 基于 SLO 的数据流水线管理;2) 作业可视化功能,让用户能够直观地查看作业图表并识别瓶颈,3) 自动提供建议以识别并调整性能和可用性问题。
Streaming Engine
Streaming Engine 将计算与状态存储分离,并将流水线执行的某些部分从工作器虚拟机移至 Dataflow 服务后端,因而显著提高了自动扩缩能力,缩短了延迟时间。
Dataflow Shuffle
基于服务的 Dataflow Shuffle 将重排操作(用于分组和联接数据)从工作器虚拟机移至用于批处理流水线的 Dataflow 服务后端。批处理流水线可无缝地扩容至数百 TB,无需任何人工调整。
Dataflow SQL
Dataflow SQL 让您可以直接在 BigQuery 网页界面中利用 SQL 知识开发流式 Dataflow 流水线。您可以将 Pub/Sub 中的流式数据与 Cloud Storage 中的文件或 BigQuery 中的表联接,将结果写入 BigQuery,以及使用 Google 表格或其他 BI 工具构建实时信息中心。
Flexible Resource Scheduling (FlexRS)
Dataflow FlexRS 使用高级调度技术、Dataflow Shuffle 服务并结合使用抢占式虚拟机 (VM) 实例和常规虚拟机,来降低批处理的费用。
Dataflow 模板
利用 Dataflow 模板,您可以与团队成员或在整个组织中轻松共享您的流水线,或利用 Google 提供的众多模板来实现简单实用的数据处理任务。其中包括用于流式分析使用场景的 Change Data Capture 模板。利用 Flex 模板,您可以基于任意的 Dataflow 流水线创建模板。
Notebooks 集成
通过 Vertex AI 以迭代方式从头开始构建流水线,并使用 Dataflow 运行程序进行部署。通过在“读取-求值-输出”循环 (REPL) 工作流中检查流水线图,分步编写 Apache Beam 流水线。借助 Google Vertex AI 中的 Notebooks,您可以使用最新的数据科学和机器学习框架在直观的环境中编写流水线。
实时变更数据捕获
跨异构数据源,以可靠且延迟极低的方式同步或复制数据,为流式分析提供支持。可扩展的 Dataflow 模板Datastream 集成,将数据从 Cloud Storage 复制到 BigQuery、PostgreSQL 或 Spanner。Apache Beam 的 Debezium 连接器提供了一个开源选项,可用于注入来自 MySQL、PostgreSQL、SQL Server、和 Db2 的数据更改。
内嵌监控
利用 Dataflow 内嵌监控功能,您可以直接访问作业指标,以便排查批处理和流式处理流水线的问题。您可以查看精确到步骤级别和工作器级别的监控图,并针对过时数据和高系统延迟等条件设置提醒。
客户管理的加密密钥 (CMEK)
您可以创建由 CMEK 保护的批处理或流式处理流水线,或访问来源和接收器中由 CMEK 保护的数据。
Dataflow VPC Service Controls
Dataflow 与 VPC Service Controls 集成,使您能够降低数据渗漏的风险,为数据处理环境提供额外的安全防护。
专用 IP
关闭公共 IP 地址可以更好地保护数据处理基础架构。Dataflow 工作器不使用公共 IP 地址,还可以减少 Google Cloud 项目配额中使用的公共 IP 地址数量。

价格

价格

Dataflow 根据实际的 Dataflow 批处理或流式处理工作器用量,对每个作业按秒计费。其他资源(例如 Cloud Storage 或 Pub/Sub)按相应服务的价格分别收费。

合作伙伴

探索合作伙伴解决方案

Google Cloud 合作伙伴开发了很多与 Dataflow 集成的方案,提供强大的处理功能,让您可以轻松快捷地完成任何规模的数据处理任务。


Cloud AI 产品遵循我们的服务等级协议 (SLA) 政策。这些产品在延迟时间或可用性方面的保证可能与其他 Google Cloud 服务有所不同。

更进一步

获享 $300 赠金以及 20 多种提供“始终免费”用量的产品,开始在 Google Cloud 上构建项目。

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
控制台
  • 利用我们透明的定价方法节省资金
  • Google Cloud 的随用随付价格方案会根据预付费资源的每月用量和折扣费率自动为您节省费用。请立即联系我们,获取报价。
Google Cloud