集群配置

本页面介绍何时在 Cloud Data Fusion 中使用静态 Dataproc 集群、兼容的版本以及建议的集群配置。

何时重复使用集群

从 Cloud Data Fusion 6.5.0 开始,您可以在两次运行之间重复使用 Dataproc 集群以缩短处理时间。当您有多个作业接连执行时,您可以重复使用集群,以减少启动作业所需的时间。如需了解详情,请参阅重复使用 Dataproc 集群

何时使用静态集群

建议:在尝试使用静态集群之前,请尝试重复使用集群以缩短启动时间。

默认情况下,Cloud Data Fusion 会为每个流水线创建临时集群。它会在流水线运行开始时创建集群,然后在流水线运行完成后将其删除。

在以下场景中,请使用默认值。请改用静态集群:

  • 需要为每个流水线创建新集群所需的时间使您的用例受到限制时。

  • 组织需要集中管理集群创建时。例如,当您希望对所有 Dataproc 集群实施特定政策时。

如需使用静态集群,您必须在 Dataproc 集群上设置以下属性

dataproc:dataproc.conscrypt.provider.enable=false

如需了解详情,请参阅针对现有 Dataproc 集群运行流水线

何时使用自动扩缩

推荐做法:使用预定义的 Cloud Data Fusion 自动扩缩或您自己的自动扩缩政策,可以自动执行集群资源管理,以便在批处理流水线中进行处理。

不建议采用自动伸缩进行纵向缩容。如需了解如何在低活动期间降低费用,请参阅以下文档:

如果使用默认计算配置文件执行大型流水线,则流水线可能无法以最佳性能运行。如果您不确定流水线的正确集群大小要求,则此选项也很有用。

在 Cloud Data Fusion 6.6 版及更高版本中,您可以使用 Cloud Data Fusion 的预定义自动扩缩功能来自动管理集群资源。开箱即用的自动扩缩计算配置文件可能足以满足您的流水线的需求,但如果您需要更多控制,可以定义自己的自动扩缩政策。

在任何受支持的版本中,您可以创建自己的自动扩缩政策,以设置工作器数量上限。从 Cloud Data Fusion 6.10.0 版开始,实例默认对临时集群使用自动扩缩 Dataproc 配置文件。如需详细了解如何创建自动扩缩政策,请参阅自动扩缩集群

在 Cloud Data Fusion 中使用预定义自动扩缩

在版本 6.6 及更高版本中,您可以使用预定义的自动扩缩功能来根据流水线的工作负载增加工作器节点。预定义自动扩缩仅适用于批处理流水线。

方法 1:使用 Cloud Data Fusion 的自动扩缩配置文件

在运行于 6.6.0 及更高版本版本的 Cloud Data Fusion 实例中,您的实例具有一个名为自动扩缩 Dataproc 的配置文件,该配置文件是开箱即用的 Dataproc 配置文件,其中已启用预定义的自动扩缩。它与选项 3 中预先创建的配置文件类似,但在 6.6.0 和从 6.6.0 升级的实例中,工作器机器类型为 n2

  1. 在 Google Cloud 控制台中,转到 Cloud Data Fusion 实例页面。
  2. 点击查看实例以在 Cloud Data Fusion 网页界面中打开实例。
  3. 点击列表 > 已部署,转到已部署的流水线页面。
  4. 依次点击配置 > 计算
  5. 选择名为 自动扩缩 Dataproc 的配置文件。

方法 2:通过自定义配置文件启用预定义的自动扩缩政策

如需为默认配置文件启用预定义的自动扩缩,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,转到 Cloud Data Fusion 实例页面。
  2. 点击查看实例以在 Cloud Data Fusion 网页界面中打开实例。
  3. 点击列表 > 已部署,转到已部署的流水线页面。
  4. 点击配置
  5. 点击所选个人资料上的自定义
  6. 展开集群工作器数量部分。
  7. 点击使用预定义的自动扩缩切换开关。
  8. 依次点击完成保存

当您的流水线下次运行时,Dataproc 作业将使用 Cloud Data Fusion 中预定义的自动扩缩政策。

启用预定义的自动扩缩后

  • 不考虑 Number of primary workersNumber of secondary workersAutoscaling policy 属性。
  • 工作器机器类型配置与所选配置文件的相同。
  • 关闭使用预定义的自动扩缩切换开关会停用预定义的自动扩缩功能,然后运行配置文件的原始行为。

运行时参数

可通过在运行时参数中输入以下 KeyValue 来实现所描述的行为:

system.profile.properties.enablePredefinedAutoScaling = true

方法 3:在新的计算配置文件中启用预定义的自动扩缩政策

创建新的 Dataproc 预配工具配置文件时,您可以点击使用预定义的自动扩缩切换开关。然后,您可以在不同的流水线中使用此配置文件,并更好地控制工作器机器类型和其他属性。

  1. 在 Google Cloud 控制台中,转到 Cloud Data Fusion 实例页面。
  2. 点击查看实例以在 Cloud Data Fusion 界面中打开一个实例。
  3. 您可以从系统范围或用户范围内创建配置文件:

    1. (可选)对于系统范围:依次点击系统管理员 > 配置 > 系统计算配置文件 > 创建新的配置文件
    2. (可选)对于用户范围:依次点击 菜单 > 命名空间管理员 > 创建配置文件

    系统随即会打开预配工具页面。

  4. 点击 Dataproc

  5. 展开集群工作器数量部分。

  6. 点击使用预定义的自动扩缩切换开关。

  7. 输入其他详细信息,然后点击创建

您可以将此配置文件应用于您的流水线,方法是在 Studio 页面上打开流水线,点击配置 > 计算,然后选择该配置文件。您可以将该配置文件设置为默认值。

其他详情

计算配置页面上,您可以看到配置文件列表,有一个核心总数列,其中包含配置文件可以纵向扩容到的最大 vCPU 数量,例如 Up to 84

版本兼容性

问题:Cloud Data Fusion 环境的版本可能与 Dataproc 集群的版本不兼容。

建议:升级到最新的 Cloud Data Fusion 版本,并使用某个受支持的 Dataproc 版本

早期版本的 Cloud Data Fusion 仅与不受支持的 Dataproc 版本兼容。Dataproc 不会为使用这些版本创建的集群提供更新和支持。虽然您可以继续运行使用不受支持的版本创建的集群,但我们建议将其替换为使用受支持的版本创建的集群。

Cloud Data Fusion 版本 Dataproc 版本
6.10 及更高版本 2.1、2.0 *
6.9 2.1、2.0、1.5 *
6.7-6.8 2.0、1.5 *
6.4-6.6 2.0 *、1.3 **
6.1-6.3 1.3**

* Cloud Data Fusion 6.4 及更高版本与 受支持的 Dataproc 版本兼容。除非需要特定的操作系统功能,否则建议指定 major.minor 映像版本
如需指定 Dataproc 集群中使用的操作系统版本,操作系统版本必须与上表中 Cloud Data Fusion 支持的 Dataproc 版本之一兼容。

** Cloud Data Fusion 版本 6.1 到 6.6 与 不受支持的 Dataproc 1.3 版本兼容。

最佳实践

推荐:为流水线创建静态集群时,请使用以下配置。

参数
yarn.nodemanager.delete.debug-delay-sec 保留 YARN 日志。
推荐值:86400(相当于一天)
yarn.nodemanager.pmem-check-enabled 启用 YARN 以检查物理内存限制,并在容器超出物理内存时终止容器。
推荐值:false
yarn.nodemanager.vmem-check-enabled 启用 YARN 以检查虚拟内存限制,并在容器超出物理内存时终止容器。
推荐值:false