开始使用 Dataflow

Dataflow 服务运行由 Apache Beam SDK 定义的流水线。不过对于许多应用场景,您无需使用 SDK 编写代码,因为 Dataflow 提供了多种无代码和低代码选项。

  • 对于将数据从一个产品转移到另一个产品,Dataflow 提供了预构建模板,您可以从 Google Cloud 控制台或命令行运行这些模板。例如,您可以使用模板将数据从 Pub/Sub 转移到 BigQuery

  • 对于简单的应用场景,如果没有适合您应用场景的模板,或者您想进行少量自定义,我们建议使用作业构建器。作业构建器是一个直观的界面,可用于在Google Cloud 控制台中构建 Dataflow 流水线。选择来源和接收器,并添加联接、Python 函数和 SQL 转换等转换。请注意,作业构建器支持部分来源和接收器。如果您的来源或接收器不受支持,请使用 Apache Beam SDK。

  • 对于机器学习 (ML) 流水线,Dataflow 提供一站式转换,只需最少的代码即可进行配置。首先,在 Google Colab 中运行一个机器学习笔记本示例。如需了解详情,请参阅 Dataflow 机器学习概览

  • 如需充分发挥 Apache Beam 的强大功能,请使用该 SDK 以 Python、Java 或 Go 编写自定义流水线。

为了帮助您做出决策,下表列出了一些常见示例。

我想要… 建议的方法

将数据从来源转移到接收器,并使用 Python 函数或 SQL 应用自定义逻辑。

如果您目前没有此应用场景,但将来可能会有,我们建议您使用此项。

作业构建器
将数据从来源转移到接收器,无需自定义逻辑。 模板
我想在流水线中使用机器学习模型,或者准备数据以进行训练或推理。 Dataflow 机器学习一站式转换
使用 Java、Python 或 Go 编写需要更高级的 Apache Beam 功能的流水线。 Apache Beam SDK

后续步骤