安装 Apache Beam SDK

本页面介绍如何安装 Apache Beam SDK,以便您可以在 Dataflow 服务上运行流水线。

安装 SDK 版本

Apache Beam SDK 是一个用于数据流水线的开源编程模型。您可使用 Apache Beam 程序定义这些流水线,还可以选择 Dataflow 等运行程序来执行流水线。如需了解如何设置 Google Cloud 项目和开发环境以使用 Dataflow,请按照相应的快速入门操作。

Java

Java 版 Apache Beam SDK 的最新发布版本为 2.32.0。如需了解该版本中包含的更改,请参阅版本公告

要使用 Maven 获取 Java 版 Apache Beam SDK,请使用 Maven 中央代码库中已发布的一个工件。

请在 pom.xml 文件中为 SDK 工件添加依赖项,如下所示:

<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-core</artifactId>
  <version>2.32.0</version>
</dependency>
<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-runners-google-cloud-dataflow-java</artifactId>
  <version>2.32.0</version>
</dependency>
<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-io-google-cloud-platform</artifactId>
  <version>2.32.0</version>
</dependency>

Python

Python 版 Apache Beam SDK 的最新发布版本为 2.32.0。如需了解该版本中包含的更改,请参阅版本公告

要获取 Python 版 Apache Beam SDK,请使用 Python 软件包索引中已发布的一个软件包。

通过运行以下命令安装 Python wheel:

pip install wheel

在虚拟环境中运行以下命令,以安装 Python 版 Apache Beam SDK 的最新版本:

pip install 'apache-beam[gcp]'

根据连接情况,安装可能需要一些时间。

要升级已经安装的 apache-beam,请使用 --upgrade 标志:

pip install --upgrade 'apache-beam[gcp]'

源代码和示例

GitHub 上的 Apache Beam 代码库中提供了 Apache Beam 源代码。

Java

GitHub 上的 Apache Beam 示例代码库中提供了代码示例。

Python

GitHub 上的 Apache Beam 示例代码库中提供了代码示例。

其他工具

Dataflow 与 Cloud SDK 的 gcloud 命令行工具集成。如需了解如何安装 Dataflow 命令行界面,请参阅使用 Dataflow 命令行界面