安装 Apache Beam SDK

本页面介绍如何安装 Apache Beam SDK,以便您可以在 Cloud Dataflow 服务上运行流水线。

Cloud Dataflow SDK 弃用通知:Cloud Dataflow SDK 2.5.0 是最后一个与 Apache Beam SDK 版本分开的 Cloud Dataflow SDK 版本。Cloud Dataflow 服务完全支持 Apache Beam SDK 正式版本。Cloud Dataflow 服务还支持以前发布的 Apache Beam SDK 2.0.0 及更高版本。如需了解各种 SDK 的支持状态,请参阅 Cloud Dataflow 支持页面

安装 SDK 版本

Apache Beam SDK 是一个用于数据流水线的开源编程模型。您可以使用 Apache Beam 程序定义这些流水线,并且可以选择运行程序(如 Cloud Dataflow)来执行流水线。

Java

Java 版 Apache Beam SDK 的最新发布版本为 2.16.0。如需了解该版本中包含的更改,请参阅版本公告

要使用 Maven 获取 Java 版 Apache Beam SDK,请使用 Maven 中央代码库中已发布的一个工件。

如下所示,在 pom.xml 文件中添加一个依赖项,并指定 SDK 工件的版本范围

  <dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-core</artifactId>
  <version>[2.16.0, 2.99)</version>
  </dependency>
  

注意beam-sdks-java-core 工件仅包含核心 SDK。其他依赖项(如 IO 或运行程序)也需要明确添加到依赖项列表中。

Python

Python 版 Apache Beam SDK 的最新发布版本为 2.16.0。如需了解该版本中包含的更改,请参阅版本公告

要获取 Python 版 Apache Beam SDK,请使用 Python 软件包索引中已发布的一个软件包。

在虚拟环境中运行以下命令,以安装 Python 版 Apache Beam SDK 的最新版本:

pip install apache-beam[gcp]

要升级已经安装的 apache-beam,请使用 --upgrade 标志:

pip install --upgrade apache-beam[gcp]

注意:版本号使用“major.minor.incremental”这一形式表示,并按如下方式递增:“major”版本表示不兼容的 API 更改,“minor”版本表示以向后兼容方式增加了新功能,“incremental”版本表示向前兼容的 Bug 修复。标记为“实验性”的 API 可能会随时更改。

源代码和示例

GitHub 上的 Apache Beam 代码库中提供了 Apache Beam 源代码。

Java

GitHub 上的 Apache Beam 示例代码库中提供了代码示例。

Python

GitHub 上的 Apache Beam 示例代码库中提供了代码示例。

其他工具

Java

Cloud Dataflow 与 Cloud SDK 的 gcloud 命令行工具集成。如需了解如何安装 Cloud Dataflow 命令行界面,请参阅使用 Cloud Dataflow 命令行界面

Cloud Tools for Eclipse 提供的插件可帮助您使用 Eclipse IDE 创建 Cloud Dataflow 项目和流水线。如需了解如何安装 Cloud Tools for Eclipse 插件,请参阅《快速入门:使用 Java 和 Eclipse》注意:Cloud Tools for Eclipse 仅适用于 Cloud Dataflow SDK 发行版 2.0.0 到 2.5.0。Cloud Tools for Eclipse 插件不适用于 Apache Beam SDK 发行版。

Python

Cloud Dataflow 与 Cloud SDK 的 gcloud 命令行工具集成。如需了解如何安装 Cloud Dataflow 命令行界面,请参阅使用 Cloud Dataflow 命令行界面

此页内容是否有用?请给出您的反馈和评价:

发送以下问题的反馈:

此网页
Cloud Dataflow
需要帮助?请访问我们的支持页面