此页面由 Cloud Translation API 翻译。

流水线性能概览

本页介绍了 Cloud Data Fusion 中流水线处理的基本术语和概念。

流水线性能取决于以下方面：

数据的大小和特征
流水线的结构
集群大小调整
Cloud Data Fusion 流水线使用的插件

Cloud Data Fusion 中的流水线处理术语

以下术语适用于 Cloud Data Fusion 中的流水线处理。

机器类型: 使用的虚拟机 (VM) 类型（CPU、内存）。
集群: 一组协同处理大规模数据处理任务的虚拟机。
主节点和工作器节点: 可执行处理的物理机器或虚拟机。主节点通常负责协调工作。工作器节点运行用于处理数据的执行器。它们具有机器特性（可供进程使用的内存量和 vCore 数量）。
vCore、Core 或 CPU: 用于执行计算的资源。通常，您的节点会提供一定数量的核心，而您的执行器会请求一个或几个 CPU。请同时考虑这一点和内存，否则可能会导致集群未充分利用。
驱动器: 一个虚拟机，充当整个集群的中央协调者。它负责管理任务、跨工作器节点调度工作，以及监控作业进度。
执行器: 多个虚拟机，按照驱动程序的指示执行实际的数据处理任务。您的数据会被分区并分布到这些执行器中，以进行并行处理。如需利用所有执行器，您必须有足够的分块。
分屏或分区: 数据集会拆分为分块（也称为分区），以并行处理数据。如果分块不足，您将无法使用整个集群。

性能优化概览

流水线可在机器集群中执行。当您选择在 Dataproc 集群上运行 Cloud Data Fusion 流水线（这是推荐的预配程序）时，系统会在后台使用 YARN（Yet Another Resource Negotiator）。Dataproc 利用 YARN 在集群中进行资源管理。当您将 Cloud Data Fusion 流水线提交到 Dataproc 集群时，底层 Apache Spark 作业会利用 YARN 进行资源分配和任务调度。

集群由主节点和工作器节点组成。主节点通常负责协调工作，而工作器节点执行实际工作。集群通常具有少量主节点（一个或三个）和大量工作器。YARN 用作工作协调系统。YARN 在主节点上运行资源管理器服务，而在每个工作器节点上运行节点管理器服务。资源管理器会与所有节点管理器协调，以确定在集群上的哪个位置创建和执行容器。

YARN 资源管理器和节点管理器

在每个工作器节点上，NodeManager 会预留一部分可用机器内存和 CPU 来运行 YARN 容器。例如，在 Dataproc 集群中，如果您的工作器节点是 n1-standard-4 虚拟机（4 个 CPU、15 GB 内存），则每个节点管理器都会为运行 YARN 容器预留 4 个 CPU 和 12 GB 内存。剩余的 3 GB 内存留给节点上运行的其他 Hadoop 服务。

在 YARN 上运行流水线时，系统会在 Dataproc 中启动流水线工作流驱动程序、Spark 驱动程序和许多 Spark 执行器。

驱动程序和执行器

工作流驱动程序负责启动构成流水线的一个或多个 Spark 程序。工作流驱动程序通常不会执行太多工作。每个 Spark 程序都会运行一个 Spark 驱动程序和多个 Spark 执行器。驱动程序会协调执行器之间的工作，但通常不会执行任何实际工作。大部分实际工作由 Spark 执行器执行。

后续步骤

了解 Cloud Data Fusion 中的并行处理。

流水线性能概览 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

Cloud Data Fusion 中的流水线处理术语

性能优化概览

后续步骤

流水线性能概览