流水线性能

本页面介绍了您可以调整的流水线设置以及这些设置对性能的影响。

流水线的性能取决于以下因素:

  • 数据的大小和特征
  • 流水线的结构
  • 集群大小调整
  • Cloud Data Fusion 流水线使用的插件

集群大小调整

主节点使用与集群上运行的流水线或其他应用的数量成比例的资源。如果您是在临时集群上运行流水线,请为主节点使用 2 个 CPU 和 8 GB 内存。如果您使用的是永久性集群,则可能需要更大的主节点来适应工作流。如需了解是否需要更大的主节点,您可以监控节点上的内存和 CPU 使用情况。我们建议调整工作器节点的大小,使其至少包含 2 个 CPU 和 8 GB 内存。如果您已将流水线配置为使用更大的内存量,则必须使用更大的工作器。

为了最大限度地减少执行时间,请确保您的集群具有足够的节点,以尽可能减少并行处理。

详细了解集群大小调整

资源

通过流水线,您可以指定要分配给 Spark 驱动程序和每个 Spark 执行程序的 CPU 数量和内存量。驱动程序不需要执行太多工作。因此,默认值 1 个 CPU 和 2 GB 内存足以运行大多数流水线。您可能需要为包含许多阶段或大型架构的流水线增加内存。分配给执行程序的 CPU 数量决定了执行程序可以并行运行的任务数量。

详细了解资源

执行引擎调整

在 Cloud Data Fusion 6.4 及更高版本中,Cloud Data Fusion 会自动配置执行引擎,以使临时 Dataproc 集群实现最佳性能。对于静态 Dataproc 集群,请配置执行引擎

了解详情

如需详细了解此处介绍的概念,请参阅 CDAP 数据流水线性能调整指南