安装 Apache Beam SDK

本页面介绍如何安装 Apache Beam SDK,以便您可以在 Dataflow 服务上运行流水线。

安装 SDK 版本

Apache Beam SDK 是一个用于数据流水线的开源编程模型。您可以使用 Apache Beam 程序定义这些流水线,并且可以选择运行程序(如 Dataflow)来执行流水线。

Java

Java 版 Apache Beam SDK 的最新发布版本为 2.55.1。如需了解该版本中包含的更改,请参阅版本公告

要使用 Maven 获取 Java 版 Apache Beam SDK,请使用 Maven 中央代码库中已发布的一个工件。

将依赖项和依赖项管理工具添加到 SDK 工件的 pom.xml 文件中。如需了解详情,请参阅在 Dataflow 中管理流水线依赖项

如需详细了解 Java 版 Apache Beam SDK 依赖项,请参阅 Apache Beam 文档中的 Java 版 Apache Beam SDK 依赖项管理 Java 版 Beam 依赖项

Python

Python 版 Apache Beam SDK 的最新发布版本为 2.55.1。如需了解该版本中包含的更改,请参阅版本公告

要获取 Python 版 Apache Beam SDK,请使用 Python 软件包索引中已发布的一个软件包。

通过运行以下命令安装 Python wheel:

pip install wheel

在虚拟环境中运行以下命令,以安装 Python 版 Apache Beam SDK 的最新版本:

pip install 'apache-beam[gcp]'

根据连接情况,安装可能需要一些时间。

要升级已经安装的 apache-beam,请使用 --upgrade 标志:

pip install --upgrade 'apache-beam[gcp]'

Go

Go 版 Apache Beam SDK 的最新发布版本为 2.55.1。如需了解该版本中包含的更改,请参阅版本公告

如需安装 Go 版 Apache Beam SDK 的最新版本,请运行以下命令:

go get -u github.com/apache/beam/sdks/v2/go/pkg/beam

设置开发环境

如需了解如何设置 Google Cloud 项目和开发环境以使用 Dataflow,请按照相应的快速入门操作:

源代码和示例

GitHub 上的 Apache Beam 代码库中提供了 Apache Beam 源代码。

Java

GitHub 上的 Apache Beam 示例目录中提供了代码示例。

Python

GitHub 上的 Apache Beam 示例目录中提供了代码示例。

Go

GitHub 上的 Apache Beam 示例目录中提供了代码示例。

查找 Dataflow SDK 版本

安装细节取决于您的开发环境。如果您使用的是 Maven,您可以在一个或多个本地 Maven 代码库中“安装”多个版本的 Dataflow SDK。

Java

如需确定指定流水线正在运行的 Dataflow SDK 版本,您可以在使用 DataflowPipelineRunnerBlockingDataflowPipelineRunner 运行时查看控制台输出。控制台将显示如下消息,其中包含 Dataflow SDK 的版本信息:

Python

如需确定指定流水线正在运行的 Dataflow SDK 版本,您可以在使用 DataflowRunner 运行时查看控制台输出。控制台将显示如下消息,其中包含 Dataflow SDK 的版本信息:

Go

如需确定指定流水线正在运行的 Dataflow SDK 版本,您可以在使用 DataflowRunner 运行时查看控制台输出。控制台将显示如下消息,其中包含 Dataflow SDK 的版本信息:

  INFO: Executing pipeline on the Dataflow Service, ...
  Dataflow SDK version: <version>

后续步骤