本页面介绍如何安装 Apache Beam SDK,以便您可以在 Dataflow 服务上运行流水线。
安装 SDK 版本
Apache Beam SDK 是一个用于数据流水线的开源编程模型。您可使用 Apache Beam 程序定义这些流水线,还可以选择 Dataflow 等运行程序来执行流水线。如需了解如何设置 Google Cloud 项目和开发环境以使用 Dataflow,请按照相应的快速入门操作。
Java
Java 版 Apache Beam SDK 的最新发布版本为 2.40.0。如需了解该版本中包含的更改,请参阅版本公告。
要使用 Maven 获取 Java 版 Apache Beam SDK,请使用 Maven 中央代码库中已发布的一个工件。
请在 pom.xml
文件中为 SDK 工件添加依赖项,如下所示:
<dependency> <groupId>org.apache.beam</groupId> <artifactId>beam-sdks-java-core</artifactId> <version>2.40.0</version> </dependency> <dependency> <groupId>org.apache.beam</groupId> <artifactId>beam-runners-google-cloud-dataflow-java</artifactId> <version>2.40.0</version> </dependency> <dependency> <groupId>org.apache.beam</groupId> <artifactId>beam-sdks-java-io-google-cloud-platform</artifactId> <version>2.40.0</version> </dependency>
Python
Python 版 Apache Beam SDK 的最新发布版本为 2.40.0。如需了解该版本中包含的更改,请参阅版本公告。
要获取 Python 版 Apache Beam SDK,请使用 Python 软件包索引中已发布的一个软件包。
通过运行以下命令安装 Python wheel:
pip install wheel
在虚拟环境中运行以下命令,以安装 Python 版 Apache Beam SDK 的最新版本:
pip install 'apache-beam[gcp]'
根据连接情况,安装可能需要一些时间。
要升级已经安装的 apache-beam,请使用 --upgrade
标志:
pip install --upgrade 'apache-beam[gcp]'
Go
Go 版 Apache Beam SDK 的最新发布版本为 2.40.0。如需了解该版本中包含的更改,请参阅版本公告。
如需安装 Go 版 Apache Beam SDK 的最新版本,请运行以下命令:
go get -u github.com/apache/beam/sdks/v2/go/pkg/beam
源代码和示例
GitHub 上的 Apache Beam 代码库中提供了 Apache Beam 源代码。
Java
GitHub 上的 Apache Beam 示例目录中提供了代码示例。
Python
GitHub 上的 Apache Beam 示例目录中提供了代码示例。
Go
GitHub 上的 Apache Beam 示例目录中提供了代码示例。
其他工具
Dataflow 与 Google Cloud CLI 的 Google Cloud CLI 集成。如需了解如何安装 Dataflow 命令行界面,请参阅使用 Dataflow 命令行界面。