Dataflow 基于开源 Apache Beam 项目构建。您可以使用 Apache Beam SDK 为 Dataflow 构建流水线。本文档列出了一些 Apache Beam 编程入门的资源。
开始使用
安装 Apache Beam SDK:介绍如何安装 Apache Beam SDK,以便在 Dataflow 中运行流水线。
创建 Java 流水线:介绍如何使用 Apache Beam Java SDK 创建流水线,并在 Dataflow 中运行该流水线。
创建 Python 流水线:介绍如何使用 Apache Beam Python SDK 创建流水线,并在 Dataflow 中运行该流水线。
创建 Go 流水线:介绍如何使用 Apache Beam Go SDK 创建流水线,并在 Dataflow 中运行该流水线。
了解 Apache Beam
您可以使用 Apache Beam 网站上的以下页面来了解 Apache Beam 编程。
Apache Beam 编程指南:提供有关使用 Apache Beam SDK 类构建和测试流水线的指导。
Apache Beam 导览:可用于熟悉 Apache Beam 的学习指南。学习单元随附代码示例,您可以运行和修改。
Apache Beam 园地:一个交互式环境,用于试用 Apache Beam 转换和示例,而无需在您的环境中安装 Apache Beam。
创建流水线:介绍了 Apache Beam SDK 中的类的使用机制以及构建流水线所需的必要步骤。
开发流水线
代码示例
您可以使用 Apache Beam GitHub 中的以下示例开始构建流式流水线:
- 流式单词提取 (Java)
- 流式字词计数(Python),以及
streaming_wordcap
(Go)。