Cloud Dataproc 本機 SSD

為彌補開機磁碟的不足,您可以將本機固態硬碟 (本機 SSD) 連接到叢集中的主要執行個體、主要工作站,以及次要工作站節點。本機 SSD 可提供比永久磁碟更快的讀取與寫入速度。每個本機 SSD 的大小都是固定的,但您可以連接數個本機 SSD,藉此提高 SSD 的儲存空間 (請參閱新增本機 SSD)。每個本機 SSD 都會掛接到 Cloud Dataproc 叢集節點中的 /mnt/<id>。根據預設,本機 SSD 會用來寫入及讀取 Apache Hadoop 與 Apache Spark 暫存檔案 (例如 Shuffle 輸出)。

使用本機 SSD

gcloud 指令

使用 gcloud dataproc clusters create 指令搭配 ‑‑num-master-local-ssds‑‑num-workers-local-ssds--num-preemptible-worker-local-ssds 標記,將本機 SSD 分別連接到叢集的主要執行個體、主要工作站和次要 (先佔) 工作站節點。

範例:

gcloud dataproc clusters create cluster-name \
    ‑‑num-master-local-ssds=1 \
    ‑‑num-worker-local-ssds=1  \
    --num-preemptible-worker-local-ssds=1 \
    ... other args ...

REST API

設定 cluster.create API 請求中 masterConfigworkerConfigsecondaryWorkerConfig InstanceGroupConfig 中的 numLocalSsds 欄位,以便將本機 SSD 分別連接到叢集的主要執行個體、主要工作站和次要 (先占) 工作站節點。

主控台

在 Google Cloud Platform 主控台的 Cloud Dataproc [Create a cluster] (建立叢集) 頁面建立一個叢集,並連結本機 SSD 至主要工作者節點。