流水线性能

流水线性能取决于数据的大小和特性、流水线结构、集群大小调整以及 Cloud Data Fusion 流水线使用的插件。本页面介绍了您可以调整的流水线设置,以及这些设置对性能的影响。

集群大小调整

主节点使用与集群上运行的流水线或其他应用的数量成比例的资源。如果您是在临时集群上运行流水线,请为主节点使用 2 个 CPU 和 8 GB 内存。如果您使用的是永久性集群,则可能需要更大的主节点才能跟上工作流。您可以监控节点上的内存和 CPU 使用情况,以了解是否需要更大的主节点。我们建议调整工作器节点的大小,使其至少配备 2 个 CPU 和 8 GB 内存。如果您已将流水线配置为使用更大的内存,则需要使用更大的工作器。

为了最大限度地减少执行时间,请确保您的集群具有足够的节点,以尽可能减少并行处理。

详细了解集群大小调整

资源

借助流水线,您可以指定分配给 Spark 驱动程序和每个 Spark 执行程序的 CPU 数和内存量。由于驱动程序无法执行很多工作,因此通常配备 1 个 CPU 和 2 GB 内存,这足以运行大多数流水线。对于包含多个阶段或大型架构的流水线,您可能需要增加内存。分配给执行程序的 CPU 数量决定了执行程序可以并行运行的任务数量。

详细了解资源

执行引擎调整

在 Cloud Data Fusion 6.4 及更高版本中,Cloud Data Fusion 会自动配置执行引擎,以便为临时 Dataproc 集群获得最佳性能。对于静态 Dataproc 集群,请配置执行引擎

了解详情

如需详细了解此处介绍的概念,请参阅 CDAP 数据流水线性能调整指南