Dataflow - 创建作业任务

借助 Dataflow - 创建作业任务,您可以在 Cloud Dataflow 中创建作业,以运行使用一个 Apache Beam SDK 构建的数据流水线。

Cloud Dataflow 是一项全代管式 Google Cloud 服务,用于运行流式数据处理和批量数据处理的流水线。

准备工作

在配置 Dataflow - 创建作业任务之前,请确保在您的 Google Cloud 项目中执行以下任务:

  1. 启用 Dataflow API (dataflow.googleapis.com)。

    启用 Dataflow API

  2. 创建身份验证配置文件。Apigee Integration 会使用身份验证配置文件连接到身份验证端点以完成 Dataflow - 创建作业任务。

    如需了解如何向服务账号授予其他角色或权限,请参阅授予、更改和撤消访问权限

配置 Dataflow - 创建作业任务

  1. Apigee 界面中,选择您的 Apigee 组织
  2. 点击开发 > 集成
  3. 选择现有集成,或通过点击创建集成来创建新集成。

    要创建新的集成,请执行以下操作:

    1. 创建 Integrations对话框中输入名称和说明。
    2. 从支持的区域列表中选择集成的区域
    3. 点击创建

    这将在集成设计器中打开集成。

  4. 集成设计器导航栏中,点击 + 添加任务/触发器 > 任务以查看可用任务列表。
  5. 点击 Dataflow - Create Job(Dataflow - 创建作业)元素,并将其放置到集成设计器中。
  6. 点击设计器上的 Dataflow - Create Job(Dataflow - 创建作业)元素以查看 Dataflow - Create Job(Dataflow - 创建作业)任务配置窗格。
  7. 前往身份验证,然后选择您要使用的现有身份验证配置文件。

    可选。如果您在配置此任务之前未创建身份验证配置文件,请点击 + New authentication profile(+ 新建身份验证配置文件),然后按照创建新的身份验证配置文件中所述的步骤操作。

  8. 前往 Task Input(任务输入),然后使用以下任务输入参数表配置显示的输入字段。

    系统会自动保存对输入字段的更改。

任务输入参数

下表介绍了 Dataflow - 创建作业任务的输入参数:

属性 数据类型 说明
区域 字符串 作业的 Cloud Dataflow 位置。
ProjectsId 字符串 您的 Google Cloud 项目 ID。
位置 字符串 包含作业的区域端点
请求 JSON 请参阅请求 JSON 结构

任务输出

Dataflow - 创建作业任务会返回新创建的作业实例。

错误处理策略

任务的错误处理策略指定当任务因暂时性错误而失败时要执行的操作。如需了解如何使用错误处理策略,以及了解不同类型的错误处理策略,请参阅错误处理策略

后续步骤

  1. 添加边缘和边缘条件
  2. 测试并发布您的集成。
  3. 配置触发器
  4. 添加数据映射任务
  5. 查看 Google Cloud 服务的所有任务