Dataproc 集群配置

在 Cloud Data Fusion 中,集群配置是指定义在 Dataproc 上运行 Spark 作业时,数据处理流水线会如何利用计算资源。本页面介绍了集群配置的主要方法。

默认临时集群(推荐)

对于 Cloud Data Fusion 流水线,建议使用默认集群。

  • Cloud Data Fusion 会自动为每个流水线执行预配和管理临时 Dataproc 集群。它会在流水线运行开始时创建一个集群,然后在流水线运行完成后将其删除。
  • 临时集群的优势如下:
    • 简单:您无需手动配置或管理集群。
    • 成本效益:您只需为流水线执行期间使用的资源付费。

如需调整集群和调整性能,请参阅集群大小调整

静态集群(适用于特定场景)

在以下情况下,您可以使用静态集群:

  • 长时间运行的流水线:对于连续运行或长时间运行的流水线,与重复创建和拆解临时集群相比,静态集群更经济实惠。
  • 集中式集群管理:如果您的组织需要集中控制集群创建和管理政策,则可以将静态集群与 Terraform 等工具搭配使用。
  • 集群创建时间:对于您的用例,为每个流水线创建新集群所需的时间过高。

但是,静态集群需要更多手动配置,并涉及自行管理集群生命周期。

如需使用静态集群,您必须在 Dataproc 集群上设置以下属性

dataproc:dataproc.conscrypt.provider.enable=false

静态集群的集群配置选项

如果您选择使用静态集群,Cloud Data Fusion 会提供以下方面的配置选项:

  • 工作器机器类型:指定集群中的工作器节点的虚拟机类型。这决定了每个工作器可用的 vCPU 和内存。
  • 工作器数量:定义集群中的初始工作器节点数量。Dataproc 可能仍会根据工作负载自动扩缩此数量。
  • 可用区:选择集群的 Google Cloud 可用区。位置可能会影响数据位置和网络性能。
  • 其他配置:您可以为静态集群配置高级选项,例如抢占设置、网络设置和初始化操作。

最佳实践

为流水线创建静态集群时,请使用以下配置。

参数 说明
yarn.nodemanager.delete.debug-delay-sec 保留 YARN 日志。
建议值:86400(相当于一天)
yarn.nodemanager.pmem-check-enabled 使 YARN 能够检查物理内存限制,并在容器超出物理内存限制时终止容器。
建议值:false
yarn.nodemanager.vmem-check-enabled 使 YARN 能够检查虚拟内存限制,并在容器超出物理内存限制时终止容器。
推荐值:false

如需了解详情,请参阅针对现有 Dataproc 集群运行流水线

重复使用集群

您可以在两次运行之间重复使用 Dataproc 集群,从而缩短处理时间。集群重用是在类似于连接池或线程池的模型中实现的。运行完成后,任何集群都会保持正常运行指定的时间。新运行开始后,它将尝试查找与计算配置文件配置匹配的可用空闲集群。如果存在集群,则系统会使用该集群,否则将启动新集群。

重复使用集群的注意事项

  • 集群未共享。与常规的临时集群预配模型类似,集群一次运行一个流水线。只有在集群处于空闲状态时,系统才会重复使用该集群.
  • 如果为所有运行启用集群重用,则系统将根据需要创建处理所有运行所需的集群数量。与临时 Dataproc 预配工具类似,系统无法直接控制创建的集群数量。您仍然可以使用 Google Cloud 报价来管理资源。例如,如果您运行 100 次运行,其中最多并行运行 7 次,则在给定时间点最多可以有 7 个集群。
  • 只要不同的流水线使用同一配置文件并共享相同的配置文件设置,这些集群就会立即在这些流水线之间重复使用。如果使用配置文件自定义,系统仍会重复使用集群,但前提是自定义设置完全相同(包括集群标签等所有集群设置)。

  • 启用集群重用后,有两个主要的费用注意事项:

    • 用于集群启动和初始化的资源较少。
    • 使用更多资源供集群在流水线运行之间和上次流水线运行之后处于空闲状态。

虽然很难预测集群重复使用的成本影响,但您可以采用策略来最大限度地节省费用。策略是确定链式流水线的关键路径,并为该关键路径实现集群重用。这样可以确保集群立即被重用,不会浪费空闲时间,并实现最大的性能优势。

启用集群重用

在已部署流水线配置的“计算配置”部分中,或在创建新的计算配置文件时,执行以下操作:

  • 启用跳过集群删除
  • 最大空闲时间是指集群等待下一个流水线重用它的时间。默认最长空闲时间为 30 分钟。对于最长空闲时间,请考虑重复使用的费用与集群可用性。最大空闲时间的值越大,处于空闲状态且准备运行的集群就越多。

问题排查:版本兼容性

问题:Cloud Data Fusion 环境的版本可能与 Dataproc 集群的版本不兼容。

建议:升级到最新的 Cloud Data Fusion 版本,并使用某个受支持的 Dataproc 版本

早期版本的 Cloud Data Fusion 仅与不受支持的 Dataproc 版本兼容。Dataproc 不会为使用这些版本创建的集群提供更新和支持。虽然您可以继续运行使用不受支持的版本创建的集群,但我们建议将其替换为使用受支持的版本创建的集群。

Cloud Data Fusion 版本 Dataproc 版本
6.10 及更高版本 2.1、2.0*
6.9 2.1、2.0、1.5*
6.7-6.8 2.0、1.5*
6.4-6.6 2.0 *、1.3 **
6.1-6.3 1.3**

* Cloud Data Fusion 6.4 版及更高版本与 受支持的 Dataproc 版本兼容。除非需要特定的操作系统功能,否则建议的做法是指定 major.minor 映像版本
如需指定 Dataproc 集群中使用的操作系统版本,操作系统版本必须与上表中您的 Cloud Data Fusion 支持的某个 Dataproc 版本兼容。

** Cloud Data Fusion 6.1 至 6.6 版与 不受支持的 Dataproc 1.3 版本兼容。

后续步骤