此页面由 Cloud Translation API 翻译。

流水线性能概览

本页介绍了 Google Cloud 中流水线处理的基本术语和概念， Cloud Data Fusion。

流水线性能取决于以下几个方面：

数据的大小和特征
流水线的结构
集群大小调整
Cloud Data Fusion 流水线使用的插件

Cloud Data Fusion 中的流水线处理术语

以下术语适用于 Cloud Data Fusion。

机器类型: 使用的虚拟机 (VM) 类型（CPU、内存）。
集群: 协同处理大规模数据处理任务的一组虚拟机。
主节点和工作器节点: 可以执行处理的实体或虚拟机。通常，主节点协调工作。工作器节点运行用于处理数据的执行器。它们具有机器特性（可供进程使用的内存量和 vCore 数量）。
vCore、核心或 CPU: 用于执行计算的资源。通常，您的节点会提供一定数量的核心和您的执行器请求一个或多个 CPU。请平衡否则可能导致集群利用率过低。
驱动器: 充当整个集群的中央协调器的单个虚拟机。它负责管理任务、跨工作器节点调度工作，以及监控作业进度。
执行器: 多个虚拟机，根据驱动程序的指示执行实际的数据处理任务。您的数据会被分区并分布到这些执行器中，以进行并行处理。要使用所有执行器，您必须拥有足够的执行器分块。
分块或分区: 数据集会被拆分为多个分块（其他名称分区），以处理数据并行运行。如果分块不足，您将无法利用整个集群。

性能调整概览

流水线可在机器集群中执行。当您选择 Dataproc 集群上的 Cloud Data Fusion 流水线则使用 YARN（另一项资源协商器）场景。Dataproc 利用 YARN 集群。将 Cloud Data Fusion 流水线提交到 Dataproc 集群，底层 Apache Spark 作业利用 YARN 用于资源分配和任务调度。

集群由主节点和工作器节点组成。主节点通常是负责协调工作，而工作器节点则负责实际工作。集群通常具有少量主节点（一个或三个）和大量工作器。YARN 用作工作协调系统。YARN 在主节点上运行资源管理器服务，而在每个工作器节点上运行节点管理器服务。Resource Manager 在所有节点管理器之间进行协调，确定在集群上创建和执行容器的位置。

YARN Resource Manager 和 Node Manager

在每个工作器节点上，节点管理器会预留一部分以及用于运行 YARN 容器的 CPU。例如，在 Dataproc 集群中，如果您的工作器节点是 n1-standard-4 虚拟机（4 个 CPU、15 GB 内存），则每个节点管理器都会为运行 YARN 容器预留 4 个 CPU 和 12 GB 内存。剩余的 3 GB 内存留给节点上运行的其他 Hadoop 服务。

在 YARN 上运行流水线时，它会启动流水线工作流驱动程序， Spark 驱动程序和 Dataproc 中的许多 Spark 执行器。

驱动程序和执行器

工作流驱动程序负责启动一个或多个 Spark 程序组成流水线工作流驱动程序通常不会执行很多工作。每个 Spark 程序运行单个 Spark 驱动程序和多个 Spark 执行器。通过驱动程序坐标在执行器之间工作，但通常不执行任何实际工作。大多数实际工作由 Spark 执行器执行。

后续步骤

了解 Cloud Data Fusion 中的并行处理。