Dataflow 基于开源 Apache Beam 项目构建。您可以使用 Apache Beam SDK 为 Dataflow 构建流水线。本文档列出了一些 Apache Beam 编程入门的资源。
安装 Apache Beam SDK:介绍如何安装 Apache Beam SDK,以便在 Dataflow 服务上运行流水线。
Apache Beam 编程指南:提供有关使用 Apache Beam SDK 类构建和测试流水线的指导。
Apache Beam 导览:可用于熟悉 Apache Beam 的学习指南。学习单元随附代码示例,您可以运行和修改。
Apache Beam 园地:一个交互式环境,用于试用 Apache Beam 转换和示例,而无需在您的环境中安装 Apache Beam。
在 Apache Beam 网站上,您还可以找到有关如何设计、创建和测试流水线的信息:
设计流水线:介绍了如何确定流水线结构、如何选择要应用于数据的转换,以及如何确定输入和输出方法。
创建流水线:介绍了 Apache Beam SDK 中的类的使用机制以及构建流水线所需的必要步骤。
测试流水线:介绍了测试流水线的最佳实践。
您可以使用 Apache Beam GitHub 中的以下示例开始构建流处理流水线:
- 流式单词提取 (Java)
- 流式字词计数(Python),以及
streaming_wordcap
(Go)。