本頁面說明 Cloud Data Fusion 中管道處理作業的基本術語和概念。
管道效能取決於下列因素:
- 資料的大小和特性
- 管道的結構
- 叢集大小
- Cloud Data Fusion 管道使用的外掛程式
Cloud Data Fusion 中的管道處理用語
以下術語適用於 Cloud Data Fusion 中的管道處理作業。
- 機型
- 使用的虛擬機器類型 (CPU、記憶體)。
- 叢集
- 一組 VM 共同處理大規模資料處理工作。
- 主要節點和工作站節點
- 可進行處理的實體或虛擬機器。主節點通常會協調工作。工作站節點會執行處理資料的執行程序。這些執行個體具有機器特性 (可用於處理程序的記憶體容量和 vCore 數量)。
- vCore、Core 或 CPU
- 執行運算的資源。通常,節點會提供一定數量的核心,而執行緒會要求一或多個 CPU。請平衡這項設定和記憶體,否則可能會讓叢集未充分發揮效益。
- 驅動程式
- 單一 VM,可做為整個叢集的中央協調器。用於管理工作、在 worker 節點間排定工作,以及監控工作進度。
- 執行器
- 多個 VM 依驅動程式指示執行實際的資料處理工作。系統會將您的資料分割並分散到這些執行緒,以便進行平行處理。如要使用所有執行緒,您必須有足夠的分割。
- 分割或分區
- 資料集會分割成分割 (又稱分區),以便並行處理資料。如果分割數量不足,就無法使用整個叢集。
效能調整總覽
管道會在機器叢集中執行。當您選擇在 Dataproc 叢集上執行 Cloud Data Fusion 管道 (這是建議的佈建工具) 時,系統會在幕後使用 YARN (Yet Another Resource Negotiator)。Dataproc 會利用 YARN 管理叢集中的資源。將 Cloud Data Fusion 管道提交至 Dataproc 叢集時,基礎 Apache Spark 工作會利用 YARN 進行資源分配和工作排程。
叢集由主要和工作站節點組成。主要節點通常負責協調工作,而工作節點則執行實際工作。叢集通常會有少數主要節點 (一或三個) 和大量工作站。YARN 用於工作協調系統。YARN 會在主要節點上執行 Resource Manager 服務,並在每個工作節點上執行 Node Manager 服務。資源管理工具會在所有節點管理工具之間協調,以決定在叢集中建立及執行容器的位置。
在每個工作站節點上,Node Manager 會保留部分可用的機器記憶體和 CPU,用於執行 YARN 容器。舉例來說,在 Dataproc 叢集中,如果工作站節點是 n1-standard-4 虛擬機器 (4 個 CPU、15 GB 記憶體),每個節點管理員都會為執行 YARN 容器而保留 4 個 CPU 和 12 GB 記憶體。剩餘的 3 GB 記憶體則留給在節點上執行的其他 Hadoop 服務。
在 YARN 上執行管道時,會在 Dataproc 中啟動管道工作流程驅動程式、Spark 驅動程式和許多 Spark 執行程式。
工作流程驅動程式負責啟動一或多個組成管道的 Spark 程式。工作流程驅動程式通常不會執行太多工作。每個 Spark 程式都會執行單一 Spark 驅動程式和多個 Spark 執行程式。驅動程式會在執行緒之間協調工作,但通常不會執行任何實際工作。大部分實際工作都是由 Spark 執行緒執行。
後續步驟
- 瞭解 Cloud Data Fusion 中的平行處理。