Dataflow 服务运行由 Apache Beam SDK 定义的流水线。不过对于许多应用场景,您无需使用 SDK 编写代码,因为 Dataflow 提供了多种无代码和低代码选项。
对于将数据从一个产品转移到另一个产品,Dataflow 提供了预构建模板,您可以从 Google Cloud 控制台或命令行运行这些模板。例如,您可以使用模板将数据从 Pub/Sub 转移到 BigQuery。
对于简单的应用场景,如果没有适合您应用场景的模板,或者您想进行少量自定义,我们建议使用作业构建器。作业构建器是一个直观的界面,可用于在Google Cloud 控制台中构建 Dataflow 流水线。选择来源和接收器,并添加联接、Python 函数和 SQL 转换等转换。请注意,作业构建器支持部分来源和接收器。如果您的来源或接收器不受支持,请使用 Apache Beam SDK。
对于机器学习 (ML) 流水线,Dataflow 提供一站式转换,只需最少的代码即可进行配置。首先,在 Google Colab 中运行一个机器学习笔记本示例。如需了解详情,请参阅 Dataflow 机器学习概览。
如需充分发挥 Apache Beam 的强大功能,请使用该 SDK 以 Python、Java 或 Go 编写自定义流水线。
为了帮助您做出决策,下表列出了一些常见示例。
我想要… | 建议的方法 |
---|---|
将数据从来源转移到接收器,并使用 Python 函数或 SQL 应用自定义逻辑。 如果您目前没有此应用场景,但将来可能会有,我们建议您使用此项。 |
作业构建器 |
将数据从来源转移到接收器,无需自定义逻辑。 | 模板 |
我想在流水线中使用机器学习模型,或者准备数据以进行训练或推理。 | Dataflow 机器学习一站式转换 |
使用 Java、Python 或 Go 编写需要更高级的 Apache Beam 功能的流水线。 | Apache Beam SDK |
后续步骤
- 从特定的 Dataflow 应用场景和方法入手:
- 查看更多 Dataflow 应用场景。