Dataflow 服务运行由 Apache Beam SDK 定义的流水线。不过对于许多应用场景,您无需使用 SDK 编写代码,因为 Dataflow 提供了多种无代码和低代码选项。
模板。Dataflow 提供预构建的模板,用于将数据从一个产品迁移到另一个产品。例如,您可以使用模板将数据从 Pub/Sub 转移到 BigQuery。
作业构建器。作业构建器是一个直观的界面,可用于在Google Cloud 控制台中构建 Dataflow 流水线。它支持部分 Apache Beam 源和接收器,以及联接、Python 函数和 SQL 查询等转换。对于数据迁移等简单使用情形,我们建议使用作业构建器。
适用于机器学习的一站式转换。对于机器学习 (ML) 流水线,Dataflow 提供一站式转换,只需最少的代码即可进行配置。首先,在 Google Colab 中运行一个机器学习笔记本示例。如需了解详情,请参阅 Dataflow 机器学习概览。
Apache Beam SDK。如需充分发挥 Apache Beam 的强大功能,请使用该 SDK 以 Python、Java 或 Go 编写自定义流水线。
为了帮助您做出决策,下表列出了一些常见示例。
我想要… | 建议的方法 |
---|---|
将数据从来源转移到接收器,无需自定义逻辑。 |
我们建议您先使用作业构建器。如果作业构建器不支持您的使用情形,请查看是否有相应的模板。 |
将数据从来源转移到接收器,并使用 Python 函数或 SQL 应用自定义逻辑。 | 作业构建器 |
在流水线中使用机器学习模型,或准备数据以进行训练或推理。 | Dataflow 机器学习一站式转换 |
编写需要使用更高级的 Apache Beam 功能的流水线。 | 适用于 Java、Python 或 Go 的 Apache Beam SDK |
后续步骤
- 从特定的 Dataflow 应用场景和方法入手:
- 查看更多 Dataflow 应用场景。
- 详细了解如何构建流水线。