使用 Apache Beam 构建流水线

Dataflow 基于开源 Apache Beam 项目构建。您可以使用 Apache Beam SDK 为 Dataflow 构建流水线。本文档列出了一些 Apache Beam 编程入门的资源。

  • 安装 Apache Beam SDK:介绍如何安装 Apache Beam SDK,以便在 Dataflow 服务上运行流水线。

  • Apache Beam 编程指南:提供有关使用 Apache Beam SDK 类构建和测试流水线的指导。

  • Apache Beam 导览:可用于熟悉 Apache Beam 的学习指南。学习单元随附代码示例,您可以运行和修改。

  • Apache Beam 园地:一个交互式环境,用于试用 Apache Beam 转换和示例,而无需在您的环境中安装 Apache Beam。

在 Apache Beam 网站上,您还可以找到有关如何设计、创建和测试流水线的信息:

  • 设计流水线:介绍了如何确定流水线结构、如何选择要应用于数据的转换,以及如何确定输入和输出方法。

  • 创建流水线:介绍了 Apache Beam SDK 中的类的使用机制以及构建流水线所需的必要步骤。

  • 测试流水线:介绍了测试流水线的最佳实践。

您可以使用 Apache Beam GitHub 中的以下示例开始构建流处理流水线: