流水线性能概览

本页面介绍了 Cloud Data Fusion 中流水线处理的基本术语和概念。

流水线性能取决于以下几个方面:

  • 数据的大小和特征
  • 流水线的结构
  • 集群大小调整
  • Cloud Data Fusion 流水线使用的插件

Cloud Data Fusion 中的流水线处理术语

以下术语适用于 Cloud Data Fusion 中的流水线处理。

机器类型
使用的虚拟机 (VM) 的类型(CPU、内存)。
集群
协同处理大规模数据处理任务的一组虚拟机。
主节点和工作器节点
可以执行处理的物理虚拟机或虚拟机。主节点通常会协调工作。工作器节点运行执行器来处理数据。它们具有机器特征(进程可用的内存量和 vCore 数量)。
vCore、核心或 CPU
用于执行计算的资源。通常,节点会提供一定数量的核心,而执行器会请求一个或多个 CPU。请平衡此负载与内存,否则可能导致集群利用率过低。
驱动器
充当整个集群的中央协调器的单个虚拟机。它可以管理任务、跨工作器节点调度工作,以及监控作业进度。
执行器
按照驱动程序的指示,执行实际数据处理任务的多个虚拟机。您的数据会进行分区并分布到这些执行器中,以便进行并行处理。如需使用所有执行器,您必须有足够的分块。
分块或分区
数据集会被拆分为多个分片(其他名称分区),以并行处理数据。如果没有足够的分屏,则无法使用整个集群。

性能调整概览

流水线可在机器集群中执行。当您选择在 Dataproc 集群(推荐的预配工具)上运行 Cloud Data Fusion 流水线时,它会在后台使用 YARN(另一个 Resource Negotiator)。Dataproc 利用 YARN 在集群内进行资源管理。当您将 Cloud Data Fusion 流水线提交到 Dataproc 集群时,底层 Apache Spark 作业会利用 YARN 进行资源分配和任务调度。

集群由主节点和工作器节点组成。主节点通常负责协调工作,而工作器节点则执行实际工作。集群通常只有少量主节点(1 个或 3 个)和大量工作器。YARN 用作工作协调系统。YARN 会在主节点上运行一项 Resource Manager 服务,并在每个工作器节点上运行一项 Node Manager 服务。Resource Manager 在所有节点管理器之间进行协调,以确定在集群上创建和执行容器的位置。

YARN Resource Manager 和 Node Manager

在每个工作器节点上,节点管理器会预留一部分可用的机器内存和 CPU 用于运行 YARN 容器。例如,在 Dataproc 集群上,如果您的工作器节点是 n1-standard-4 虚拟机(4 个 CPU、15 GB 内存),则每个节点管理器将预留 4 个 CPU 和 12 GB 内存用于运行 YARN 容器。剩余的 3 GB 内存可以留给节点上运行的其他 Hadoop 服务。

在 YARN 上运行流水线时,它会在 Dataproc 中启动流水线工作流驱动程序、Spark 驱动程序和许多 Spark 执行程序。

驱动程序和执行器

工作流驱动程序负责启动构成流水线的一个或多个 Spark 程序。工作流驱动程序通常不会执行很多工作。每个 Spark 程序都运行单个 Spark 驱动程序和多个 Spark 执行器。驱动程序在执行器之间协调工作,但通常不执行任何实际工作。大多数实际工作由 Spark 执行器执行。

后续步骤