Dataproc 集群配置

在 Cloud Data Fusion 中,集群配置是指定义数据处理流水线在 Dataproc 上运行 Spark 作业时如何利用计算资源。本页介绍了集群配置的主要方法。

默认的临时集群(推荐)

对于 Cloud Data Fusion 流水线,建议使用默认集群。

  • Cloud Data Fusion 自动预配和管理临时存储 Dataproc 集群。它会创建一个 集群,然后在流水线运行完成之后将其删除, 流水线运行完成。
  • 暂时性集群的优势:
    • 简单易用:您无需手动配置或管理 集群。
    • 高性价比:您只需为在运行期间使用的资源付费 流水线执行。

如需调整集群和优化性能,请参阅调整集群大小

静态集群(适用于特定场景)

在以下情况下,您可以使用静态集群:

  • 长时间运行的流水线:适用于连续运行的流水线或 因此静态集群的成本效益可能高于 需要反复创建和拆除临时集群
  • 集中式集群管理:如果您的组织需要 集中控制集群创建和管理政策、静态 可与 Terraform 等工具搭配使用
  • 集群创建时间:需要为每个流水线创建新集群所需的时间使您的用例受到限制时。

但是,静态集群需要更多的手动配置,并且涉及 管理集群生命周期

如需使用静态集群,您必须设置以下内容 媒体资源 在 Dataproc 集群上执行下列操作:

dataproc:dataproc.conscrypt.provider.enable=false

静态集群的集群配置选项

如果您选择使用静态集群,Cloud Data Fusion 会针对以下方面提供配置选项:

  • 工作器机器类型:指定工作器的虚拟机类型 节点这决定了每个工作器的可用 vCPU 和内存。
  • 工作器数量:定义您的 集群。Dataproc 可能仍会根据情况自动扩缩此数量, 工作负载
  • 区域:选择集群的 Google Cloud 区域。位置可能会影响数据本地性和网络性能。
  • 其他配置:您可以为自己的设备配置高级选项, 例如抢占设置、网络设置 初始化操作。

最佳做法

为流水线创建静态集群时,请使用以下配置。

参数 说明
yarn.nodemanager.delete.debug-delay-sec 保留 YARN 日志。
建议值:86400(相当于一天)
yarn.nodemanager.pmem-check-enabled 启用 YARN,以检查物理内存限制,并在容器超出物理内存时终止容器。
推荐值:false
yarn.nodemanager.vmem-check-enabled 启用 YARN 以检查虚拟内存限制,并在出现以下情况时终止容器: 不局限于物理内存
推荐值:false

如需了解详情,请参阅针对现有 Dataproc 集群运行流水线

重复使用集群

您可以在运行作业之间重复使用 Dataproc 集群,以缩短处理时间。集群重用是在类似于连接的模型中实现的 即线程池化任何集群都会按指定的时间间隔 。新运行开始后,它会尝试找到 与计算配置文件的配置匹配的可用集群。 如果存在,系统会使用该集群;否则,系统会启动一个新集群。

重复使用集群的注意事项

  • 集群不会共享。类似于常规临时集群 预配模型,则集群一次运行一条流水线。答 只有当集群处于空闲状态时,系统才会重复使用该集群
  • 如果为所有运行启用集群重用 将根据需要创建用来处理所有运行作业的集群与临时性 Dataproc 预配程序类似,您无法直接控制创建的集群数量。您仍然可以使用 Google Cloud 报价 来管理资源例如,如果您运行 100 次,最多 7 次 因此在给定时间点最多可以有 7 个集群。
  • 在这些流水线之间,集群会立即在不同流水线之间重复使用 使用相同的配置文件并共享相同的配置文件设置。如果使用了配置文件自定义,系统仍会重复使用集群,但前提是自定义设置完全相同,包括集群标签等所有集群设置。

  • 启用集群重用后,有两个主要的费用注意事项:

    • 用于集群启动和初始化的资源较少。
    • 集群会使用更多资源在流水线之间空闲 和上次流水线运行之后的状态。

虽然很难预测集群重复使用的成本影响,但您可以使用 以最大限度地提高成本节省。该策略是识别链式流水线的关键路径,并为此关键路径启用集群重复使用。这会 确保集群会立即被重用,不会浪费任何空闲时间, 性能优势

启用集群重复使用

在已部署流水线配置的“计算配置”部分或创建新的计算配置文件时:

  • 启用跳过集群删除
  • 最大空闲时间是指集群等待下一个流水线重复使用它的时间上限。默认最长空闲时间为 30 分钟。对于“最大空闲时间”,请考虑费用与可重复使用的集群可用性。“空闲时间上限”值越高,处于空闲状态且准备运行的集群就越多。

问题排查:版本兼容性

问题:您的 Cloud Data Fusion 环境版本可能 与您的 Dataproc 集群版本不兼容。

建议:升级到最新的 Cloud Data Fusion 版本,并使用受支持的 Dataproc 版本之一。

较低版本的 Cloud Data Fusion 仅与不受支持的 Dataproc 版本兼容。Dataproc 不会为使用这些版本创建的集群提供更新和支持。虽然你可以继续运行 使用不受支持的版本创建,建议您将其替换为 使用 支持的版本

Cloud Data Fusion 版本 Dataproc 版本
6.10.1.1 2.2、2.1、2.0*
6.10 2.1、2.0*
6.9 2.1、2.0、1.5*
6.7-6.8 2.0、1.5*
6.4-6.6 2.0 *、1.3 **
6.1-6.3 1.3**

* Cloud Data Fusion 6.4 版及更高版本 与 兼容 受支持的 Dataproc 版本。除非有特定的操作系统功能 但建议的做法是指定 major.minor 映像版本
要指定 Dataproc 集群中使用的操作系统版本,操作系统 版本必须与某个受支持的 Dataproc Cloud Data Fusion 的 Cloud Data Fusion 版本。

** Cloud Data Fusion 6.1 版到 6.6 版与不受支持的 Dataproc 1.3 版兼容。

问题排查:容器退出并返回非零退出代码 3

问题:未使用自动扩缩政策,并且静态 Dataproc 集群遇到内存压力,导致日志中显示内存不足异常:Container exited with a non-zero exit code 3

建议:增加执行器内存。

通过向流水线添加 task.executor.system.resources.memory 运行时参数来增加内存。以下示例运行时参数用于设置 至 4096 MB:

"task.executor.system.resources.memory": 4096

如需了解详情,请参阅调整集群大小

后续步骤