重复使用集群

本页介绍了如何在 Cloud Data Fusion 中重复使用 Dataproc 集群来运行流水线。如需了解详情,请参阅何时重复使用集群针对现有 Dataproc 集群运行流水线

准备工作

  • 您必须使用 Cloud Data Fusion 实例 6.5.0 或更高版本。

启用集群重复使用

您可以在新的计算配置文件中重复使用集群,也可以在已部署的流水线中使用的计算配置文件中重复使用集群。

在新配置文件中启用集群重复使用

  1. 前往您的实例:

    1. 在 Google Cloud 控制台中,前往 Cloud Data Fusion 页面。

    2. 如需在 Cloud Data Fusion Studio 中打开实例,请点击实例,然后点击查看实例

      转到实例

  2. 依次点击系统管理 > 配置 > 系统计算配置文件

  3. 点击创建新的付款资料

  4. 选择 Dataproc 预配程序。

  5. 为 Dataproc 创建配置文件窗口中,输入集群的详细信息:

    1. 配置文件标签配置文件名称字段中,输入用于标识配置文件的名称,例如 execution_compute-profile
    2. 说明字段中,说明配置文件的用途,例如 Profile used for pipeline execution
    3. 最大空闲时间字段中,输入一个值。如需了解详情,请参阅设置最大空闲时间
    4. 跳过集群删除字段设置为 True。如需了解详情,请参阅何时重复使用集群
    5. 可选:配置其他可选字段。
    6. 点击创建

在已部署的流水线中启用集群重复使用

  1. 前往您的实例:

    1. 在 Google Cloud 控制台中,前往 Cloud Data Fusion 页面。

    2. 如需在 Cloud Data Fusion Studio 中打开实例,请点击实例,然后点击查看实例

      转到实例

  2. 点击列表

  3. 点击已部署标签页,然后点击流水线名称。部署的流水线会在 Cloud Data Fusion 网页界面的 Studio 页面上打开。

  4. 点击配置

  5. Compute config 窗口中,前往所选配置文件,然后点击自定义

  6. 在随即打开的窗口中,输入以下值:

    1. 最大空闲时间字段中,输入一个值。如需了解详情,请参阅设置最大空闲时间
    2. 跳过集群删除设置为 True。如需了解详情,请参阅何时重复使用集群
  7. 点击完成

后续步骤