在 Eclipse 中设置 Cloud Dataflow

本页面介绍了如何创建 Dataflow 项目以及从 Eclipse 中运行示例流水线。

Dataflow Eclipse 插件仅适用于 Dataflow SDK 分发版 2.0.0 到 2.5.0,Dataflow Eclipse 插件不适用于 Apache Beam SDK 发行版。

准备工作

  1. 登录您的 Google Cloud 帐号。如果您是 Google Cloud 新手,请创建一个帐号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. 在 Google Cloud Console 的项目选择器页面上,选择或创建一个 Google Cloud 项目。

    转到“项目选择器”

  3. 确保您的 Cloud 项目已启用结算功能。 了解如何确认您的项目是否已启用结算功能

  4. 启用 Cloud Dataflow, Compute Engine, Stackdriver Logging, Cloud Storage, Cloud Storage JSON, BigQuery, Cloud Pub/Sub, Cloud Datastore, and Cloud Resource Manager API。

    启用 API

  5. 安装并初始化 Cloud SDK
  6. 在 Google Cloud Console 的项目选择器页面上,选择或创建一个 Google Cloud 项目。

    转到“项目选择器”

  7. 确保您的 Cloud 项目已启用结算功能。 了解如何确认您的项目是否已启用结算功能

  8. 启用 Cloud Dataflow, Compute Engine, Stackdriver Logging, Cloud Storage, Cloud Storage JSON, BigQuery, Cloud Pub/Sub, Cloud Datastore, and Cloud Resource Manager API。

    启用 API

  9. 安装并初始化 Cloud SDK
  10. 确保已安装 Eclipse IDE 4.7 或更高版本。
  11. 确保已安装 Java Development Kit (JDK) 1.8 或更高版本。
  12. 确保已安装最新版本的 Cloud Tools for Eclipse 插件。
    1. 如果尚未安装,请按照 Cloud Tools for Eclipse 快速入门中的说明安装此插件。
    2. 或者,依次选择帮助 > 检查更新以将该插件更新到最新版本。

在 Eclipse 中创建 Dataflow 项目

要创建项目,请使用新建项目向导生成一个模板应用,您可基于该模板应用创建自己的应用。

如果您尚无应用,则可运行 WordCount 示例应用来完成其余步骤。

  1. 选择文件 (File) -> 新建 (New) -> 项目 (Project)。
  2. Google Cloud Platform 目录中,选择 Cloud Dataflow Java Project
  3. 用于选择要创建的项目类型的向导。系统提供了 General、Eclipse Modeling Framework、EJB、Java 和 Java EE 目录;此外,还提供了一个展开的 Google Cloud 目录,其中显示 App Engine Flexible Java Project、App Engine Standard Java Project 和 Dataflow Java Project 创建选项。
  4. 输入群组 ID
  5. 输入软件工件 ID (Artifact ID)。
  6. 选择 Project Template。对于 WordCount 示例,请选择 Example pipelines
  7. 选择 Project Dataflow Version。对于 WordCount 示例,请选择 2.5.0
  8. 输入 Package 名称。对于 WordCount 示例,请输入 com.google.cloud.dataflow.examples
  9. 用于创建 Dataflow 项目的向导。系统提供了用于输入群组 ID、工件 ID、项目模板、Dataflow 版本、软件包名称、工作区位置和名称模板的字段;此外还提供了各种操作按钮(包括返回、移动到下一个、取消操作和完成按钮)。
  10. 点击下一步

配置执行选项

现在,您应会看到设置 Cloud Tools for Eclipse 默认运行选项 (Set Default Cloud Tools for Eclipse Run Options) 对话框。

  1. 选择与您的 Google Cloud 项目关联的帐号或添加新帐号。如要添加新帐号,请执行以下操作:
    1. 帐号下拉菜单中选择添加新帐号...
    2. 系统将打开一个新的浏览器窗口,供您完成登录过程。
  2. 输入您的 Google Cloud Platform 项目 ID
  3. 选择 Cloud Storage 暂存位置或创建暂存位置。如需创建暂存位置,请执行以下操作:
    1. Cloud Storage 暂存位置输入独一无二的名称。位置名称必须包含存储分区名称和文件夹。 系统会在您的 Cloud Storage 存储分区的指定文件夹内创建对象。 请勿在存储分区名称中加入敏感信息,因为存储分区命名空间是全局性的,并会公开显示。
    2. 点击创建存储分区 (Create Bucket)。
    3. 用于输入 Google Cloud 帐号,Google Cloud Platform ID 和 Cloud Storage 暂存位置的对话框。通过“创建”按钮,您可以创建暂存位置。系统提供了各种操作按钮(包括返回、前进到下一个窗口、取消操作或完成操作按钮)。
  4. 点击浏览 (Browse),导航到您的服务帐号密钥。
  5. 点击完成

在 Dataflow 服务上运行 WordCount 示例流水线

创建 Cloud Tools for Eclipse 项目之后,您可以创建在 Dataflow 服务上运行的流水线。例如,您可以运行 WordCount 示例流水线。

  1. 选择运行 (Run) -> 运行配置 (Run Configurations)。
  2. 在左侧菜单中,选择 Dataflow 管道 (Dataflow Pipeline)。
  3. 点击 New Launch Configuration
  4. 用于选择 Dataflow 流水线运行配置的对话框。选项包括 Apache Tomcat、App Engine Local Server、Dataflow Pipeline、Eclipse Application 和 Eclipse Data Tools。将鼠标指针悬停在“New Launch Configuration”按钮上,即会显示该按钮的“New launch configuration”提示。
  5. 点击主要 (Main) 标签。
  6. 点击浏览以选择您的 Dataflow 项目。
  7. 点击搜寻...,然后针对主要类型选择 WordCount
  8. 点击 Pipeline Arguments 标签页。
  9. 选择 DataflowRunner 运行程序。
  10. 点击参数 (Arguments) 标签页。
  11. Program arguments 字段中,将 output 设置为您的 Cloud Storage Staging Location。暂存位置必须是文件夹;您无法在存储分区的根目录中暂存流水线作业。
  12. 一个对话框(已选中“Arguments”标签页)。在“程序参数”字段中,--output 选项被设置为可写入的暂存位置。
  13. 点击运行
  14. 当作业完成时,除了其他输出之外,您还应在 Eclipse 控制台中看到以下行:
    Submitted job: <job_id>

清理

为避免因本页中使用的资源导致您的 Google Cloud 帐号产生费用,请按照以下步骤操作。

  1. 在 Google Cloud Console 中打开 Cloud Storage 浏览器
  2. 选中所创建存储分区旁边的复选框。
  3. 点击删除
  4. 点击删除以确认您要永久删除存储分区及其内容。

后续步骤