Apache Beam SDK 的流水线基础知识

Apache Beam 是一种统一的开源模型,用于定义批量数据和流式数据的并行处理流水线。在开始使用 Dataflow 之前,请先了解如何设计、创建和测试 Apache Beam 流水线。

Apache Beam 资源

在 Apache Beam 网站上,您可以找到有关以下内容的文档:

  • 如何设计流水线:介绍了如何确定流水线结构、如何选择要应用到数据的转换,以及如何确定输入和输出方法。

  • 如何创建流水线:介绍了 Beam SDK 中的类的使用机制以及构建流水线所需的必要步骤。

  • 如何测试流水线:介绍了测试流水线的最佳做法。