排查删除集群时出现的问题

本页介绍了如何解决在 Cloud Data Fusion 中删除临时 Dataproc 集群时遇到的问题。

当 Cloud Data Fusion 在流水线运行预配期间创建临时 Dataproc 集群时,该集群会在流水线运行完成后被删除。在极少数情况下,集群删除会失败。

强烈建议:升级到最新的 Cloud Data Fusion 版本,以确保正确维护集群。

设置空闲时间上限

如需解决此问题,请配置最大空闲时间值。这样,即使对流水线完成的显式调用失败,Dataproc 也会自动删除集群。

Max Idle Time 可在 Cloud Data Fusion 6.4 及更高版本中使用。

在 Cloud Data Fusion 6.6 及更高版本中,最大空闲时间默认设置为 4 小时。

如需替换默认计算配置文件中的默认时间,请按以下步骤操作:

  1. 在 Cloud Data Fusion 网页界面中打开实例。
  2. 依次点击系统管理 > 配置 > 系统偏好设置
  3. 点击修改系统偏好设置,然后添加键 system.profile.properties.idleTTL 和值(采用 IntegerUnit 格式,例如 30m)。

建议:对于 6.6 之前的版本,请将 Max Idle Time 手动设置为 30 分钟或更长时间。

手动删除集群

如果您无法升级版本或配置 Max Idle Time 选项,请改为手动删除过时集群:

  1. 获取创建集群的每个项目 ID:

    1. 在流水线的运行时参数中,检查是否为运行自定义了 Dataproc 项目 ID。

      检查是否为运行作业自定义了 Dataproc 项目 ID

    2. 如果未明确指定 Dataproc 项目 ID,请确定使用的是哪个预配程序,然后检查项目 ID:

      1. 在流水线运行时参数中,检查 system.profile.name 值。

        在运行时参数中获取预配程序名称

      2. 打开预配程序设置,检查是否已设置 Dataproc 项目 ID。如果未设置此设置或此字段为空,则系统会使用 Cloud Data Fusion 实例所运行的项目。

  2. 对于每个项目:

    1. 在 Google Cloud 控制台中打开该项目,然后前往 Dataproc 集群页面。

      转到集群

    2. 按创建日期对集群进行排序,从旧到新。

    3. 如果信息面板处于隐藏状态,请点击显示信息面板,然后前往标签标签页。

    4. 对于每个闲置的集群(例如,已超过一天的时间),请检查其是否具有 Cloud Data Fusion 版本标签。这表示该数据集是由 Cloud Data Fusion 创建的。

    5. 选中集群名称旁边的复选框,然后点击删除

跳过集群删除

出于调试目的,您可以停止自动删除暂时性集群。

如需停止删除,请将 Skip Cluster Deletion 属性设置为 True。调试完成后,您必须手动删除集群。