安装 Apache Beam SDK

本页介绍如何安装 Apache Beam SDK,以便您可以在 Dataflow 服务上运行流水线。

Dataflow SDK 弃用通知:Dataflow SDK 2.5.0 是最后一个与 Apache Beam SDK 版本分开的 Dataflow SDK 版本。Dataflow 服务完全支持 Apache Beam SDK 正式版本。如需了解各种 SDK 的支持状态,请参阅 Dataflow 支持页面

安装 SDK 版本

Apache Beam SDK 是一个用于数据流水线的开源编程模型。您可使用 Apache Beam 程序定义这些流水线,还可以选择 Dataflow 等运行程序来执行流水线。如需了解如何设置 Google Cloud 项目和开发环境以使用 Dataflow,请按照相应的快速入门操作。

Java

Java 版 Apache Beam SDK 的最新发布版本为 2.24.0。如需了解该版本中包含的更改,请参阅版本公告

要使用 Maven 获取 Java 版 Apache Beam SDK,请使用 Maven 中央代码库中已发布的一个工件。

如下所示,在 pom.xml 文件中添加一个依赖项,并指定 SDK 工件的版本范围

  <dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-core</artifactId>
  <version>[2.24.0, 2.99)</version>
  </dependency>
  

Python

Python 版 Apache Beam SDK 的最新发布版本为 2.24.0。如需了解该版本中包含的更改,请参阅版本公告

从 2020 年 10 月 7 日起,Dataflow 将不再支持使用 Python 2 的流水线。如需了解详情,请访问 Google Cloud 上的 Python 2 支持页面。

要获取 Python 版 Apache Beam SDK,请使用 Python 软件包索引中已发布的一个软件包。

在虚拟环境中运行以下命令,以安装 Python 版 Apache Beam SDK 的最新版本:

pip install apache-beam[gcp]

要升级已经安装的 apache-beam,请使用 --upgrade 标志:

pip install --upgrade apache-beam[gcp]

源代码和示例

GitHub 上的 Apache Beam 代码库中提供了 Apache Beam 源代码。

Java

GitHub 上的 Apache Beam 示例代码库中提供了代码示例。

Python

GitHub 上的 Apache Beam 示例代码库中提供了代码示例。

其他工具

Java

Dataflow 与 Cloud SDK 的 gcloud 命令行工具集成。如需了解如何安装 Dataflow 命令行界面,请参阅使用 Dataflow 命令行界面

Python

Dataflow 与 Cloud SDK 的 gcloud 命令行工具集成。如需了解如何安装 Dataflow 命令行界面,请参阅使用 Dataflow 命令行界面