重复使用集群

本页面介绍了如何在 Cloud Data Fusion 中为流水线运行重复使用 Dataproc 集群。如需了解详情,请参阅何时重复使用集群针对现有 Dataproc 集群运行流水线

准备工作

  • 您必须拥有 6.5.0 或更高版本的 Cloud Data Fusion 实例。

启用集群重复使用功能

您可以在新的计算配置文件中或在已部署的流水线中使用的集群重复使用集群。

在新配置文件中启用集群重复使用功能

  1. 转到您的实例:

    1. 在 Google Cloud 控制台中,转到 Cloud Data Fusion 页面。

    2. 如需在 Cloud Data Fusion Studio 中打开实例,请点击实例,然后点击查看实例

      转到实例

  2. 依次点击系统管理员 > 配置 > 系统计算配置文件

  3. 点击创建新的付款资料

  4. 选择 Dataproc 预配工具。

  5. 为 Dataproc 创建配置文件窗口中,输入有关您的集群的详细信息:

    1. 配置文件标签配置文件名称字段中,输入用于标识配置文件的名称,例如 execution_compute-profile
    2. 说明字段中,描述配置文件的用途,例如 Profile used for pipeline execution
    3. 最长空闲时间字段中,输入一个值。如需了解详情,请参阅设置最大空闲时间
    4. 跳过集群删除字段设置为 True。如需了解详情,请参阅何时重复使用集群
    5. 可选:配置其他可选字段。
    6. 点击创建

在已部署的流水线中启用集群重复使用功能

  1. 转到您的实例:

    1. 在 Google Cloud 控制台中,转到 Cloud Data Fusion 页面。

    2. 如需在 Cloud Data Fusion Studio 中打开实例,请点击实例,然后点击查看实例

      转到实例

  2. 点击列表

  3. 点击已部署标签页,然后点击流水线名称。已部署的流水线会在 Cloud Data Fusion 网页界面的 Studio 页面上打开。

  4. 点击配置

  5. 计算配置窗口中,转到所选的配置文件,然后点击自定义

  6. 在打开的窗口中,输入以下值:

    1. Max Idle Time(最长空闲时间)字段中,输入一个值。如需了解详情,请参阅设置最大空闲时间
    2. 跳过集群删除设置为 True。如需了解详情,请参阅何时重复使用集群
  7. 点击完成

后续步骤