流水线性能概览

本页介绍了 Google Cloud 中流水线处理的基本术语和概念, Cloud Data Fusion。

流水线性能取决于以下几个方面:

  • 数据的大小和特征
  • 流水线的结构
  • 集群大小调整
  • Cloud Data Fusion 流水线使用的插件

Cloud Data Fusion 中的流水线处理术语

以下术语适用于 Cloud Data Fusion。

机器类型
使用的虚拟机 (VM) 类型(CPU、内存)。
集群
协同处理大规模数据处理任务的一组虚拟机。
主节点和工作器节点
可以执行处理的实体或虚拟机。通常,主节点 协调工作。工作器节点运行用于处理数据的执行器。它们具有机器特性(可供进程使用的内存量和 vCore 数量)。
vCore、核心或 CPU
用于执行计算的资源。通常,您的节点会提供一定数量的 核心和您的执行器请求一个或多个 CPU。请平衡 否则可能导致集群利用率过低。
驱动器
充当整个集群的中央协调器的单个虚拟机。它负责管理任务、跨工作器节点调度工作,以及监控作业进度。
执行器
多个虚拟机,根据驱动程序的指示执行实际的数据处理任务。您的数据会被分区并分布到这些执行器中,以进行并行处理。要使用所有执行器,您必须拥有足够的执行器 分块。
分块或分区
数据集会被拆分为多个分块(其他名称分区),以处理数据 并行运行。如果分块不足,您将无法利用整个集群。

性能调整概览

流水线可在机器集群中执行。当您选择 Dataproc 集群上的 Cloud Data Fusion 流水线 则使用 YARN(另一项资源协商器) 场景。Dataproc 利用 YARN 集群。将 Cloud Data Fusion 流水线提交到 Dataproc 集群,底层 Apache Spark 作业利用 YARN 用于资源分配和任务调度。

集群由主节点和工作器节点组成。主节点通常是 负责协调工作,而工作器节点则负责实际工作。 集群通常具有少量主节点(一个或三个)和大量工作器。YARN 用作工作协调系统。YARN 在主节点上运行资源管理器服务,而在每个工作器节点上运行节点管理器服务。Resource Manager 在所有节点管理器之间进行协调, 确定在集群上创建和执行容器的位置。

YARN Resource Manager 和 Node Manager

在每个工作器节点上,节点管理器会预留一部分 以及用于运行 YARN 容器的 CPU。例如,在 Dataproc 集群中,如果您的工作器节点是 n1-standard-4 虚拟机(4 个 CPU、15 GB 内存),则每个节点管理器都会为运行 YARN 容器预留 4 个 CPU 和 12 GB 内存。剩余的 3 GB 内存 留给节点上运行的其他 Hadoop 服务。

在 YARN 上运行流水线时,它会启动流水线工作流驱动程序, Spark 驱动程序和 Dataproc 中的许多 Spark 执行器。

驱动程序和执行器

工作流驱动程序负责启动一个或多个 Spark 程序 组成流水线工作流驱动程序通常不会执行很多工作。每个 Spark 程序运行单个 Spark 驱动程序和多个 Spark 执行器。通过 驱动程序坐标在执行器之间工作,但通常不执行任何 实际工作。大多数实际工作由 Spark 执行器执行。

后续步骤