针对现有 Dataproc 集群运行流水线

本页面介绍了如何针对现有 Dataproc 集群在 Cloud Data Fusion 中运行流水线。

默认情况下,Cloud Data Fusion 会为每个流水线创建临时集群:它会在流水线开始运行时创建集群,然后在流水线运行完成后将其删除。虽然此行为可确保只在需要时创建资源,从而节省费用,但可能在这种情况下并不需要以下默认行为:

  • 如果为每个流水线创建新集群所需的时间对您的使用场景来说过多。

  • 如果您的组织需要集中管理集群创建;例如,当您希望对所有 Dataproc 集群实施特定政策时。

针对这些场景,您需要按照以下步骤在现有集群上运行流水线。

准备工作

您需要具备以下几项:

连接到现有集群

在 Cloud Data Fusion 6.2.1 版及更高版本中,您可以在创建新的 Compute Engine 配置文件时连接到现有 Dataproc 集群。

  1. 前往您的实例:

    1. 在 Google Cloud 控制台中,前往 Cloud Data Fusion 页面。

    2. 如需在 Cloud Data Fusion Studio 中打开实例,请点击实例,然后点击查看实例

      转到实例

  2. 点击系统管理员

  3. 点击配置标签页。

  4. 依次点击 System compute profiles(系统计算配置文件)。

  5. 点击创建新的付款资料。系统随即会打开预配工具页面。

  6. 点击现有 Dataproc (Existing Dataproc)。

  7. 输入配置文件、集群和监控信息。

  8. 点击创建

配置流水线以使用自定义配置文件

  1. 前往您的实例:

    1. 在 Google Cloud 控制台中,前往 Cloud Data Fusion 页面。

    2. 如需在 Cloud Data Fusion Studio 中打开实例,请点击实例,然后点击查看实例

      转到实例

  2. Studio 页面上前往您的流水线。

  3. 点击配置

  4. 点击计算配置 (Compute config)。

  5. 点击您创建的配置文件。

    使用自定义配置文件。
    图 1:点击自定义配置文件
  6. 运行流水线。它会针对现有 Dataproc 集群运行。

后续步骤