使用作业构建器创建流水线

作业构建器是一个直观的界面,可用于在 Google Cloud 控制台中构建和运行 Dataflow 流水线,而无需编写代码。

下图显示了作业构建器界面中的详细信息。在此图片中,用户正在创建一个流水线,以便从 Pub/Sub 读取数据并将其写入 BigQuery:

作业构建器界面的屏幕截图

概览

作业构建器支持读取和写入以下类型的数据:

  • Pub/Sub 消息
  • BigQuery 表数据
  • Cloud Storage 中的 CSV 文件、JSON 文件和文本文件

作业构建器支持流水线转换,包括过滤、联接、映射、分组依据和分解(数组展平)。

作业构建器还可以将流水线保存为 Apache Beam YAML 文件。借助此功能,您可以在作业构建器中设计流水线,然后将 YAML 文件存储在 Cloud Storage 或源代码控制库中以供重复使用。

在以下应用场景中,请考虑使用作业构建器:

  • 您希望在不编写代码的情况下快速构建流水线。
  • 您想将流水线保存为 YAML 以供重复使用。
  • 您可以使用支持的来源、接收器和转换来表示流水线。
  • 没有 Google 提供的模板与您的应用场景相匹配。

创建新流水线

如需在作业构建工具中创建新流水线,请按以下步骤操作:

  1. 前往 Google Cloud 控制台中的作业页面。

    转到作业

  2. 点击 基于构建器创建作业

  3. 作业名称字段中,输入作业的名称。

  4. 选择批处理流式处理

  5. 如果选择流式处理,请选择窗口模式。然后,输入窗口的规范,如下所示:

    • 固定窗口:输入窗口大小(以秒为单位)。
    • 滑动窗口:输入窗口大小和窗口周期(以秒为单位)。
    • 会话时段:输入会话间隔(以秒为单位)。

    如需详细了解窗口,请参阅窗口和窗口函数

接下来,将来源、转换和接收器添加到流水线,如以下部分所述。

向流水线添加来源

流水线必须至少有一个来源。最初,作业构建器会填充空来源。如需配置来源,请执行以下步骤:

  1. 来源名称框中,输入来源的名称,或使用默认名称。当您运行作业时,该名称会显示在作业图表中。

  2. 来源类型列表中,选择数据源的类型。

  3. 根据来源类型,提供其他配置信息。例如,如果您选择 BigQuery,请指定要从中读取数据的表。

    如果您选择 Pub/Sub,请指定消息架构。输入您要从 Pub/Sub 消息中读取的每个字段的名称和数据类型。该流水线会丢弃架构中未指定的任何字段。

  4. 可选:对于某些来源类型,您可以点击预览来源数据以预览来源数据。

如需向渠道添加其他来源,请点击添加来源。如需组合来自多个来源的数据,请向流水线添加 Join 转换。

向流水线添加转换

(可选)向流水线添加一个或多个转换。如需添加转换,请执行以下操作:

  1. 点击添加转换

  2. 转换名称框中,输入转换的名称,或使用默认名称。当您运行作业时,该名称会显示在作业图表中。

  3. 转换类型列表中,选择转换类型。

  4. 根据转换类型,提供其他配置信息。例如,如果您选择 Filter (Python),请输入要用作过滤条件的 Python 表达式。

  5. 选择转换的输入步骤。输入步骤是来源或转换,其输出提供此转换的输入。

向流水线添加接收器

流水线必须至少有一个接收器。最初,作业构建器会填充空接收器。如需配置接收器,请执行以下步骤:

  1. 接收器名称框中,输入接收器的名称,或使用默认名称。当您运行作业时,该名称会显示在作业图表中。

  2. 接收器类型列表中,选择接收器类型。

  3. 根据接收器类型提供其他配置信息。例如,如果您选择 BigQuery 接收器,请选择要将数据写入的 BigQuery 表。

  4. 选择接收器的输入步骤。输入步骤是来源或转换,其输出提供此转换的输入。

  5. 如需向流水线添加其他接收器,请点击添加接收器

运行流水线

如需通过作业构建器运行流水线,请执行以下步骤:

  1. 可选:设置 Dataflow 作业选项。如需展开“Dataflow 选项”部分,请点击 展开箭头。

  2. 点击运行作业。 作业构建器会转到已提交作业的作业图。您可以使用作业图监控作业的状态。

保存流水线

如需将流水线保存为 Beam YAML,请执行以下操作:

  1. 点击保存,打开 Save YAML 窗口。

  2. 执行以下操作之一:

    • 如需将 YAML 复制到剪贴板,请点击 Copy(复制)。
    • 如需保存到 Cloud Storage,请输入 Cloud Storage 路径,然后点击保存
    • 如需下载本地文件,请点击下载

加载流水线

将流水线保存为 Beam YAML 后,您可以将其重新加载到作业构建器中。然后,您可以使用作业构建器修改或运行流水线。

您可以从 Cloud Storage 或文本加载 Beam YAML。

从 Cloud Storage 加载数据流

如需从 Cloud Storage 加载流水线,请执行以下操作:

  1. 点击加载
  2. 点击从 Cloud Storage 加载
  3. YAML 文件位置框中,输入 YAML 文件的 Cloud Storage 位置,或点击浏览以选择该文件。
  4. 点击加载

从文本加载流水线

如需从文本加载流水线,请执行以下操作:

  1. 点击加载
  2. 点击从文本加载
  3. 将 YAML 粘贴到该窗口中。
  4. 点击加载

后续步骤