针对现有 Dataproc 集群运行流水线

本页面介绍了如何针对现有 Dataproc 集群在 Cloud Data Fusion 中运行流水线。

默认情况下,Cloud Data Fusion 会为每个流水线创建临时集群:它会在流水线开始运行时创建集群,然后在流水线运行完成后将其删除。虽然此行为可确保只在需要时创建资源,从而节省费用,但可能在这种情况下并不需要以下默认行为:

  • 如果为每个流水线创建新集群所需的时间对您的使用场景来说过多。

  • 如果您的组织需要集中管理集群创建;例如,当您希望对所有 Dataproc 集群实施特定政策时。

在这些情况下,您可以按照以下步骤针对现有集群运行流水线。

准备工作

您需要具备以下几项:

连接到现有集群

在 Cloud Data Fusion 6.2.1 版及更高版本中,您可以在创建新的 Compute Engine 配置文件时连接到现有 Dataproc 集群。

  1. 转到您的实例:

    1. 在 Google Cloud 控制台中,转到 Cloud Data Fusion 页面。

    2. 如需在 Cloud Data Fusion Studio 中打开该实例,请执行以下操作: 点击实例,然后点击查看实例

      转到实例

  2. 点击系统管理员

  3. 点击配置标签页。

  4. 点击 系统计算配置文件

  5. 点击创建新的付款资料。系统随即会打开预配工具页面。

  6. 点击现有 Dataproc (Existing Dataproc)。

  7. 输入配置文件、集群和监控信息。

  8. 点击创建

将流水线配置为使用自定义配置文件

  1. 转到您的实例:

    1. 在 Google Cloud 控制台中,转到 Cloud Data Fusion 页面。

    2. 如需在 Cloud Data Fusion Studio 中打开该实例,请执行以下操作: 点击实例,然后点击查看实例

      转到实例

  2. 工作室页面上,进入您的流水线。

  3. 点击配置

  4. 点击计算配置 (Compute config)。

  5. 点击您创建的配置文件。

    使用自定义档案。
    图 1:点击自定义配置文件
  6. 运行流水线。它针对现有的 Dataproc 集群运行。

后续步骤