Dataflow

在 2023 年的《Forrester Wave：流数据平台》报告中，Google Cloud 被评为业界领导者。了解详情。

跳转到

Dataflow

无服务器、快速且经济高效的统一流式数据处理和批量数据处理。

新客户将获得 $300 赠金，可用于抵扣在 Dataflow 上的支出。

免费试用 Dataflow 与销售人员联系

通过数据流式传输和机器学习技术进行实时数据分析和激活
全代管式数据处理服务
自动预配和管理处理资源
横向和纵向自动扩缩工作器资源以最大化资源利用率
使用 Apache Beam SDK 实现 OSS 社区驱动的创新

缩略图，带有 Datflow 图标的大型建筑，右侧的男性在抛接杂耍 Pub/Sub、Cloud Storage 和 Cloud AutoML 图标

视频

一分钟了解 Dataflow，包括其工作原理和常见用例。

1:48

优势

快速进行流式数据分析

Dataflow 可实现快速、简化的流式数据流水线开发，且数据延迟时间更短。

简化运营和管理

Dataflow 的无服务器方法消除了数据工程工作负载的运营开销，让团队可以专注于编程，而不必管理服务器集群。

降低总体拥有成本

资源自动扩缩功能搭配费用优化的批处理功能，使得 Dataflow 可提供几乎无限的容量来管理季节性和峰值工作负载，而不会让您过度开支。

主要特性

现成可用的实时 AI

Dataflow 的实时 AI 功能是通过开箱即用的机器学习功能（包括 NVIDIA GPU 和现成模式）实现的，能够以接近人类的智能实时地对海量事件做出响应。

客户可以构建各种智能解决方案，从预测分析和异常检测，到实时个性化设置及其他高级分析使用场景。

训练、部署和管理完整的机器学习 (ML) 流水线，包括使用批处理和流处理流水线进行本地和远程推断。

资源自动扩缩和动态工作负载再平衡

借助数据感知资源自动扩缩功能，最大限度地缩短流水线延迟时间，将资源利用率最大化，并降低每条数据记录的处理费用。系统会自动对输入数据进行分区并不断进行重新平衡，以使工作器资源利用率实现均衡化并降低“热键”对流水线性能的影响。

监控和可观测性

观察 Dataflow 流水线中每个步骤的数据。使用实际数据样本诊断问题并有效排查问题。比较作业的不同运行情况，以便轻松发现问题。

查看所有功能

视频

通过实时个性化产品和服务改善在线零售体验：演示

7:18

客户

向使用 Dataflow 的客户学习经验

Blog post

Renault 如何使用 Dataflow 和 BigQuery 解决扩缩和费用难题。

阅读用时：5 分钟

Case study

Dow Jones 借助 Dataflow 使关键历史事件数据集变得生动有趣。

阅读用时：5 分钟

Case study

Sky 更新其大数据平台以满足新一代产品的需求。

阅读用时：5 分钟

Case study

Unity 利用 Dataflow 将数据转换为洞见、决策和产品。

46:29

查看所有客户

使用 Dataflow 进行无服务器数据处理：基础知识

Dataflow 的基础知识培训。

了解详情

Tutorial

Dataflow 快速入门（使用 Python）

设置您的 Google Cloud 项目和 Python 开发环境、获取 Apache Beam Python SDK 并在 Dataflow 服务上运行和修改 WordCount 示例。

了解详情

Tutorial

使用 Dataflow SQL

在 Dataflow SQL 界面创建 SQL 查询并部署 Dataflow 作业运行您的查询。

了解详情

Tutorial

安装 Apache Beam SDK

安装 Apache Beam SDK 以便在 Dataflow 服务上运行流水线。

了解详情

Tutorial

使用 Apache Beam 和 TensorFlow 进行机器学习

使用 Apache Beam、Dataflow 和 TensorFlow 进行数据预处理，训练分子能量机器学习模型并用其执行预测。

了解详情

Tutorial

Java 版 Dataflow 字数统计教程

在本教程中，您将通过使用 Apache Beam Java SDK 运行一个简单的示例流水线，了解 Cloud Dataflow 服务的基础知识。

了解详情

Tutorial

实操实验：使用 Google Cloud Dataflow 处理数据

了解如何使用 Python 和 Dataflow 处理基于文本的实时数据集，然后将其存储在 BigQuery 中。

了解详情

Tutorial

实操实验：使用 Pub/Sub 和 Dataflow 进行流处理

了解如何使用 Dataflow 读取发布到 Pub/Sub 主题的消息，按时间戳确定消息的窗口时间，以及向 Cloud Storage 写入消息。

了解详情

Google Cloud Basics

Dataflow 资源

了解价格、资源配额、常见问题解答等信息。

了解详情

没有看到您需要的内容？

查看所有产品文档

版本说明

了解 Dataflow 的最新版本

使用场景

流式分析

Google 的流式分析使数据更有条理、更加有用，并从其生成的一刻起就可访问。我们的流式解决方案基于 Dataflow 以及 Pub/Sub 和 BigQuery 构建，可预配所需的资源来提取、处理和分析数量不断波动的实时数据，以便提供实时的业务数据洞见。这种抽象化的预配降低了复杂性，使数据分析师和数据工程师都能进行流式分析。

跨 5 列，从“触发”到“提取”、“强化”、“分析”和“激活”。每列都有上半部分和下半部分。在“触发”列顶部是边缘设备（移动设备、Web、数据存储和物联网），这些设备流到“提取”列中的 Pub/Sub，然后流到“强化”列和 Apache Beam/Dataflow 流处理，接着流到“分析”和“激活”框，最后流回到第 1 列中的边缘设备。从第 3 列中的 Apache Beam 来回流入“分析”列，进入 BigQuery、AI Platform 和 Bigtable：流向这 3 者的方式都是回填/重新处理 - 数据流批量。流从 BigQuery 转到“激活”列，进入“数据洞察”、第三方 BI 和 Cloud Functions，后者又流回到第 1 列中的边缘设备。在列的底部，显示“创建流程”：触发器显示“配置源以将事件消息推送到 Pub/Sub 主题”、提取“创建 Pub/Sub 主题和订阅”的流程、强化“使用模板、CLI 或笔记本部署流式或批处理 Dataflow 作业”的流程、分析“创建数据集、表和模型以接收流”的流程、激活“构建实时信息中心并调用外部 API”的流程。

使用场景

实时 AI

Dataflow 将流式事件引入 Google Cloud 的 Vertex AI 和 TensorFlow Extended (TFX)，以实现预测分析、欺诈检测、实时个性化和其他高级分析使用场景。TFX 使用 Dataflow 和 Apache Beam 作为分布式数据处理引擎来支持机器学习生命周期中的多个方面，所有这些均通过 Kubeflow 流水线中适用于机器学习的持续集成/持续交付提供支持。

Pattern

异常检测

通过离群值检测实时发现并解决恶意软件、帐号活动和金融交易等方面的问题。

了解详情

Pattern

模式识别

借助适用于图片、视频和数据的模式检测功能，简化运营，带来更流畅的客户体验。

了解详情

Pattern

预测

预测与用户活动和设备运行状况等有关的时间序列数据流，以便主动地解决问题。

了解详情

使用场景

传感器和日志数据处理

借助智能的 IoT 平台，从您的全球设备网络中发掘业务数据洞见。

查看所有技术指南

所有特性

Dataflow 机器学习	轻松部署和管理机器学习 (ML) 流水线。使用机器学习模型通过批处理和流处理流水线进行本地和远程推断。使用数据处理工具为模型训练准备数据并处理模型的结果。
Dataflow GPU	针对性能和 GPU 使用费用进行了优化的数据处理系统。支持各种 NVIDIA GPU。
纵向自动扩缩	根据利用率动态调整分配给每个工作器的计算容量。纵向自动扩缩与横向自动扩缩配合运行，可无缝扩缩工作器以最好地满足流水线的需求。
横向自动扩缩	横向自动扩缩功能使 Dataflow 服务能够根据运行作业的需要自动选择适当数量的工作器实例。在运行期间，Dataflow 服务还可以根据您的作业特征进行动态再分配，增减工作器数量。
适配	合适的解决方案会创建特定于阶段的资源池，系统会针对每个阶段优化这些资源以减少资源浪费。
智能诊断	一系列功能，包括 1) 基于 SLO 的数据流水线管理；2) 作业可视化功能，让用户能够直观地查看作业图表并识别瓶颈，3) 自动提供建议以识别并调整性能和可用性问题。
Streaming Engine	Streaming Engine 将计算与状态存储分离，并将流水线执行的某些部分从工作器虚拟机移至 Dataflow 服务后端，因而显著提高了自动扩缩能力，缩短了延迟时间。
Dataflow Shuffle	基于服务的 Dataflow Shuffle 将重排操作（用于分组和联接数据）从工作器虚拟机移至用于批处理流水线的 Dataflow 服务后端。批处理流水线可无缝地扩容至数百 TB，无需任何人工调整。
Dataflow SQL	Dataflow SQL 让您可以直接在 BigQuery 网页界面中利用 SQL 知识开发流式 Dataflow 流水线。您可以将 Pub/Sub 中的流式数据与 Cloud Storage 中的文件或 BigQuery 中的表联接，将结果写入 BigQuery，以及使用 Google 表格或其他 BI 工具构建实时信息中心。
Flexible Resource Scheduling (FlexRS)	Dataflow FlexRS 使用高级调度技术、Dataflow Shuffle 服务并结合使用抢占式虚拟机 (VM) 实例和常规虚拟机，来降低批处理的费用。
Dataflow 模板	利用 Dataflow 模板，您可以与团队成员或在整个组织中轻松共享您的流水线，或利用 Google 提供的众多模板来实现简单实用的数据处理任务。其中包括用于流式分析使用场景的 Change Data Capture 模板。利用 Flex 模板，您可以基于任意的 Dataflow 流水线创建模板。
Notebooks 集成	通过 Vertex AI 以迭代方式从头开始构建流水线，并使用 Dataflow 运行程序进行部署。通过在“读取-求值-输出”循环 (REPL) 工作流中检查流水线图，分步编写 Apache Beam 流水线。借助 Google Vertex AI 中的 Notebooks，您可以使用最新的数据科学和机器学习框架在直观的环境中编写流水线。
实时变更数据捕获	跨异构数据源，以可靠且延迟极低的方式同步或复制数据，为流式分析提供支持。可扩展的 Dataflow 模板与 Datastream 集成，将数据从 Cloud Storage 复制到 BigQuery、PostgreSQL 或 Spanner。Apache Beam 的 Debezium 连接器提供了一个开源选项，可用于注入来自 MySQL、PostgreSQL、SQL Server、和 Db2 的数据更改。
内嵌监控	利用 Dataflow 内嵌监控功能，您可以直接访问作业指标，以便排查批处理和流式处理流水线的问题。您可以查看精确到步骤级别和工作器级别的监控图，并针对过时数据和高系统延迟等条件设置提醒。
客户管理的加密密钥 (CMEK)	您可以创建由 CMEK 保护的批处理或流式处理流水线，或访问来源和接收器中由 CMEK 保护的数据。
Dataflow VPC Service Controls	Dataflow 与 VPC Service Controls 集成，使您能够降低数据渗漏的风险，为数据处理环境提供额外的安全防护。
专用 IP	关闭公共 IP 地址可以更好地保护数据处理基础架构。Dataflow 工作器不使用公共 IP 地址，还可以减少 Google Cloud 项目配额中使用的公共 IP 地址数量。

价格

Dataflow 根据实际的 Dataflow 批处理或流式处理工作器用量，对每个作业按秒计费。其他资源（例如 Cloud Storage 或 Pub/Sub）按相应服务的价格分别收费。

查看价格详情

合作伙伴

探索合作伙伴解决方案

Google Cloud 合作伙伴开发了很多与 Dataflow 集成的方案，提供强大的处理功能，让您可以轻松快捷地完成任何规模的数据处理任务。

查看所有合作伙伴

Cloud AI 产品遵循我们的服务等级协议 (SLA) 政策。这些产品在延迟时间或可用性方面的保证可能与其他 Google Cloud 服务有所不同。

更进一步

获享 $300 赠金以及 20 多种提供“始终免费”用量的产品，开始在 Google Cloud 上构建项目。

免费试用 Dataflow

不知从何入手，需要一点帮助？
与销售人员联系
与值得信赖的合作伙伴携手
寻找合作伙伴
继续浏览
查看所有产品

快速进行流式数据分析

简化运营和管理

降低总体拥有成本

主要特性

现成可用的实时 AI

资源自动扩缩和动态工作负载再平衡

监控和可观测性

向使用 Dataflow 的客户学习经验

最新资讯

文档

使用 Dataflow 进行无服务器数据处理：基础知识

Dataflow 快速入门（使用 Python）

使用 Dataflow SQL

安装 Apache Beam SDK

使用 Apache Beam 和 TensorFlow 进行机器学习

Java 版 Dataflow 字数统计教程

实操实验：使用 Google Cloud Dataflow 处理数据

实操实验：使用 Pub/Sub 和 Dataflow 进行流处理

Dataflow 资源

没有看到您需要的内容？

浏览更多文档

使用场景

流式分析

实时 AI

传感器和日志数据处理

所有特性

价格

探索合作伙伴解决方案

更进一步

不知从何入手，需要一点帮助？

与值得信赖的合作伙伴携手

继续浏览