流水线性能概览

本页介绍了 Google Cloud 中流水线处理的基本术语和概念, Cloud Data Fusion。

流水线性能取决于以下几个方面:

  • 数据的大小和特征
  • 流水线的结构
  • 集群大小调整
  • Cloud Data Fusion 流水线使用的插件

Cloud Data Fusion 中的流水线处理术语

以下术语适用于 Cloud Data Fusion。

机器类型
使用的虚拟机 (VM) 类型(CPU、内存)。
集群
协同处理大规模数据处理任务的一组虚拟机。
主节点和工作器节点
可以执行处理的物理虚拟机或虚拟机。通常,主节点 协调工作。工作器节点运行执行器来处理数据。它们具有 机器特征(适用于 进程)。
vCore、核心或 CPU
用于执行计算的资源。通常,您的节点会提供一定数量的 核心和您的执行器请求一个或多个 CPU。请平衡 否则可能导致集群利用率过低。
驱动器
充当整个集群的中央协调器的单个虚拟机。它 管理任务、跨工作器节点调度工作以及监控作业进度。
执行器
按照 您的数据会进行分区并分布到这些执行器中, 并行处理要使用所有执行器,您必须拥有足够的执行器 分块。
分块或分区
数据集会被拆分为多个分块(其他名称分区),以处理数据 并行运行。如果没有足够的分组,则无法利用整个分组 集群。

性能调整概览

流水线可在机器集群中执行。当您选择 Dataproc 集群上的 Cloud Data Fusion 流水线 则使用 YARN(另一项资源协商器) 场景。Dataproc 利用 YARN 集群。将 Cloud Data Fusion 流水线提交到 Dataproc 集群,底层 Apache Spark 作业利用 YARN 用于资源分配和任务调度。

集群由主节点和工作器节点组成。主节点通常是 负责协调工作,而工作器节点则负责实际工作。 集群通常只有少量主节点(1 个或 3 个), 大量工作器。YARN 用作工作协调系统。YARN 运行 主节点上分别设置了一项 Resource Manager 服务,并在各节点上分别设置了一项 Node Manager 服务 工作器节点。Resource Manager 在所有节点管理器之间进行协调, 确定在集群上创建和执行容器的位置。

YARN Resource Manager 和 Node Manager

在每个工作器节点上,节点管理器会预留一部分 以及用于运行 YARN 容器的 CPU。例如,在 Dataproc 集群(如果您的工作器节点是 n1-standard-4 虚拟机) (4 个 CPU,15 GB 内存),每个节点管理器将预留 4 个 CPU 并 12 GB 内存,用于运行 YARN 容器。剩余的 3 GB 内存 留给节点上运行的其他 Hadoop 服务。

在 YARN 上运行流水线时,它会启动流水线工作流驱动程序, Spark 驱动程序和 Dataproc 中的许多 Spark 执行器。

驱动程序和执行器

工作流驱动程序负责启动一个或多个 Spark 程序 组成流水线工作流驱动程序通常不会执行很多工作。每个 Spark 程序运行单个 Spark 驱动程序和多个 Spark 执行器。通过 驱动程序坐标在执行器之间工作,但通常不执行任何 实际工作。大多数实际工作由 Spark 执行器执行。

后续步骤