單一節點叢集是指只有一個節點的 Dataproc 叢集,此單一節點可做為 Dataproc 叢集的主要節點和工作站節點使用。雖然單一節點叢集只有一個節點,大部分的 Dataproc 概念與功能都仍適用,但底下所列的項目除外。
以下是單一節點 Dataproc 叢集適用的數種情況,包括:
- 試用新版 Spark 和 Hadoop 或是其他開放原始碼元件
- 建構概念驗證 (PoC) 示範
- 輕量級數據資料學
- 小規模一般資料處理
- 與 Spark 和 Hadoop 生態系統相關的教育
單一節點叢集語意
下列語意適用於單一節點 Dataproc 叢集:
- 單一節點叢集套用與多節點 Dataproc 叢集相同的設定,並加入 HDFS 和 YARN 等服務。
- 單一節點叢集會回報為初始化動作的主要節點。
- 由於單一節點同時做為主要節點和工作站節點,因此單一節點叢集顯示為 0 個工作站。
- 系統會提供單一節點叢集採用
clustername-m
模式的主機名稱。 您可以使用這個主機名稱,透過 SSH 登入或連線至節點上的網路 UI。 - 單一節點叢集無法升級到多節點叢集。建立後,單一節點叢集就僅限於一個節點。同樣地,多節點叢集也無法縮減為單一節點叢集。
限制
不建議採用單一節點叢集進行大規模平行資料處理。如果超出單一節點叢集上的資源,建議您採用多節點 Dataproc 叢集。
由於叢集中只有一個節點,因此高可用性不適用於單一節點叢集。
單一節點叢集無法使用先佔 VM。
建立單一節點叢集
gcloud 指令
您可以使用 gcloud
指令列工具建立單一節點 Dataproc 叢集。如要建立單一節點叢集,請將 --single-node
標記傳送至 gcloud dataproc clusters create
指令。
gcloud dataproc clusters create cluster-name \ --region=region \ --single-node \ ... other args
REST API
您可以透過 Dataproc REST API 使用 clusters.create 要求來建立單一節點叢集。提出這項要求時,請務必:
- 將屬性
"dataproc:dataproc.allow.zero.workers":"true"
新增至叢集要求的 SoftwareConfig。 - 請不要提交
workerConfig
和secondaryWorkerConfig
的值 (請參閱 ClusterConfig 頁面)。
控制台
如要建立單一節點叢集,請在 Dataproc「Create a cluster」(建立叢集) 頁面的「Set up cluster」(設定叢集) 面板中,選取「Single Node (1 master, 0 workers)」(單一節點 (1 個主要節點,0 個工作站))。