Dataflow
无服务器、快速且经济高效的统一流式数据处理和批量数据处理。
新客户将获得 $300 赠金,可用于抵扣在 Dataflow 上的支出。
-
全代管式数据处理服务
-
自动预配和管理处理资源
-
横向自动扩缩工作器资源以最大化资源利用率
-
使用 Apache Beam SDK 实现 OSS 社区驱动的创新
-
可靠且一致的一次性处理
优势
快速进行流式数据分析
Dataflow 可实现快速、简化的流式数据流水线开发,且数据延迟时间更短。
简化运营和管理
Dataflow 的无服务器方法消除了数据工程工作负载的运营开销,让团队可以专注于编程,而不必管理服务器集群。
降低总体拥有成本
资源自动扩缩功能搭配费用优化的批处理功能,使得 Dataflow 可提供几乎无限的容量来管理季节性和峰值工作负载,而不会让您过度开支。
主要特性
主要特性
资源自动扩缩和动态工作负载再平衡
借助数据感知资源自动扩缩功能,最大限度地缩短流水线延迟时间,将资源利用率最大化,并降低每条数据记录的处理费用。系统会自动对输入数据进行分区并不断进行重新平衡,以使工作器资源利用率实现均衡化并降低“热键”对流水线性能的影响。
面向批处理的灵活调度和价格
对于调度时间较为灵活的处理作业(例如夜间作业),采用 Flexible Resource Scheduling (FlexRS) 进行批处理可以享受更低的价格。系统会将这些灵活作业放入队列中,并保证在六小时内检索并执行这些作业。
现成可用的实时 AI 模式
Dataflow 的实时 AI 功能具有现成可用的模式,能够以近乎人类的智能实时地对海量事件做出响应。客户可以构建各种智能解决方案,从预测分析和异常检测,到实时个性化设置及其他高级分析使用场景。
文档
文档
使用 Dataflow 进行无服务器数据处理:基础知识
Dataflow 的基础知识培训。
Dataflow 快速入门(使用 Python)
设置您的 Google Cloud 项目和 Python 开发环境、获取 Apache Beam Python SDK 并在 Dataflow 服务上运行和修改 WordCount 示例。
使用 Dataflow SQL
在 Dataflow SQL 界面创建 SQL 查询并部署 Dataflow 作业运行您的查询。
安装 Apache Beam SDK
安装 Apache Beam SDK 以便在 Dataflow 服务上运行流水线。
使用 Apache Beam 和 TensorFlow 进行机器学习
使用 Apache Beam、Dataflow 和 TensorFlow 进行数据预处理,训练分子能量机器学习模型并用其执行预测。
Java 版 Dataflow 字数统计教程
在本教程中,您将通过使用 Apache Beam Java SDK 运行一个简单的示例流水线,了解 Cloud Dataflow 服务的基础知识。
实操实验:使用 Google Cloud Dataflow 处理数据
了解如何使用 Python 和 Dataflow 处理基于文本的实时数据集,然后将其存储在 BigQuery 中。
实操实验:使用 Pub/Sub 和 Dataflow 进行流处理
了解如何使用 Dataflow 读取发布到 Pub/Sub 主题的消息,按时间戳确定消息的窗口时间,以及向 Cloud Storage 写入消息。
Dataflow 资源
了解价格、资源配额、常见问题解答等信息。
使用场景
使用场景
Google 的流式分析使数据更有条理、更加有用,并从其生成的一刻起就可访问。我们的流式解决方案基于 Dataflow 以及 Pub/Sub 和 BigQuery 构建,可预配所需的资源来提取、处理和分析数量不断波动的实时数据,以便提供实时的业务数据洞见。这种抽象化的预配降低了复杂性,使数据分析师和数据工程师都能进行流式分析。
Dataflow 将流式事件引入 Google Cloud 的 Vertex AI 和 TensorFlow Extended (TFX),以实现预测分析、欺诈检测、实时个性化和其他高级分析使用场景。TFX 使用 Dataflow 和 Apache Beam 作为分布式数据处理引擎来支持机器学习生命周期中的多个方面,所有这些均通过 Kubeflow 流水线中适用于机器学习的持续集成/持续交付提供支持。
所有特性
所有特性
垂直自动扩缩 - Dataflow Prime | 根据利用率动态调整分配给每个工作器的计算容量。纵向自动扩缩与横向自动扩缩配合运行,可无缝扩缩工作器以最好地满足流水线的需求。 |
合适的解决方案 - Dataflow Prime 的新功能 | 合适的解决方案会创建特定于阶段的资源池,系统会针对每个阶段优化这些资源以减少资源浪费。 |
智能诊断 - Dataflow Prime | 一系列功能,包括 1) 基于 SLO 的数据流水线管理;2) 作业可视化功能,让用户能够直观地查看作业图表并识别瓶颈,3) 自动提供建议以识别并调整性能和可用性问题。 |
Streaming Engine | Streaming Engine 将计算与状态存储分离,并将流水线执行的某些部分从工作器虚拟机移至 Dataflow 服务后端,因而显著提高了自动扩缩能力,缩短了延迟时间。 |
横向自动扩缩 | 横向自动扩缩功能使 Dataflow 服务能够根据运行作业的需要自动选择适当数量的工作器实例。在运行期间,Dataflow 服务还可以根据您的作业特征进行动态再分配,增减工作器数量。 |
Dataflow Shuffle | 基于服务的 Dataflow Shuffle 将重排操作(用于分组和联接数据)从工作器虚拟机移至用于批处理流水线的 Dataflow 服务后端。批处理流水线可无缝地扩容至数百 TB,无需任何人工调整。 |
Dataflow SQL | Dataflow SQL 让您可以直接在 BigQuery 网页界面中利用 SQL 知识开发流式 Dataflow 流水线。您可以将 Pub/Sub 中的流式数据与 Cloud Storage 中的文件或 BigQuery 中的表联接,将结果写入 BigQuery,以及使用 Google 表格或其他 BI 工具构建实时信息中心。 |
Flexible Resource Scheduling (FlexRS) | Dataflow FlexRS 使用高级调度技术、Dataflow Shuffle 服务并结合使用抢占式虚拟机 (VM) 实例和常规虚拟机,来降低批处理的费用。 |
Dataflow 模板 | 利用 Dataflow 模板,您可以与团队成员或在整个组织中轻松共享您的流水线,或利用 Google 提供的众多模板来实现简单实用的数据处理任务。其中包括用于流式分析使用场景的 Change Data Capture 模板。利用 Flex 模板,您可以基于任意的 Dataflow 流水线创建模板。 |
Notebooks 集成 | 通过 Vertex AI 以迭代方式从头开始构建流水线,并使用 Dataflow 运行程序进行部署。通过在“读取-求值-输出”循环 (REPL) 工作流中检查流水线图,分步编写 Apache Beam 流水线。借助 Google Vertex AI 中的 Notebooks,您可以使用最新的数据科学和机器学习框架在直观的环境中编写流水线。 |
实时变更数据捕获 | 跨异构数据源以可靠的方式同步或复制数据,为流式分析提供支持。可扩展的 Dataflow 模板与 Datastream 集成,将数据从 Cloud Storage 复制到 BigQuery、PostgreSQL 或 Cloud Spanner。Apache Beam 的 Debezium 连接器提供了一个开源选项,可用于注入来自 MySQL、PostgreSQL、SQL Server、和 Db2 的数据更改。 |
内嵌监控 | 利用 Dataflow 内嵌监控功能,您可以直接访问作业指标,以便排查批处理和流式处理流水线的问题。您可以查看精确到步骤级别和工作器级别的监控图,并针对过时数据和高系统延迟等条件设置提醒。 |
客户管理的加密密钥 (CMEK) | 您可以创建由 CMEK 保护的批处理或流式处理流水线,或访问来源和接收器中由 CMEK 保护的数据。 |
Dataflow VPC Service Controls | Dataflow 与 VPC Service Controls 集成,使您能够降低数据渗漏的风险,为数据处理环境提供额外的安全防护。 |
专用 IP | 关闭公共 IP 地址可以更好地保护数据处理基础架构。Dataflow 工作器不使用公共 IP 地址,还可以减少 Google Cloud 项目配额中使用的公共 IP 地址数量。 |
价格
价格
Dataflow 根据实际的 Dataflow 批处理或流式处理工作器用量,对每个作业按秒计费。其他资源(例如 Cloud Storage 或 Pub/Sub)按相应服务的价格分别收费。
Cloud AI 产品遵循我们的服务等级协议 (SLA) 政策。这些产品在延迟时间或可用性方面的保证可能与其他 Google Cloud 服务有所不同。