Dataproc 本機 SSD

如要補充開機磁碟,您可以將本機固態硬碟 (本機 SSD) 附加至叢集中的主要執行個體、主要工作站和次要工作站節點。如果叢集提供本機 SSD,HDFS 和暫存資料 (例如 Shuffle 輸出) 都會使用本機 SSD,而非開機永久磁碟。

  • 比起永久磁碟,本機 SSD 可提供更快速的讀取和寫入時間 (請參閱「本機 SSD 效能」)。
  • 每個本機 SSD 的大小固定為 375 GB,但您可以連接多個本機 SSD 來增加 SSD 儲存空間 (請參閱「關於本機 SSD」)。
  • 每個本機 SSD 都會掛接至 Dataproc 叢集節點中的 /mnt/<id>
  • 本機 SSD 預設使用 ext4 做為檔案系統。

使用本機 SSD

gcloud 指令

使用 gcloud dataproc clusters create 指令搭配 --num-master-local-ssds--num-workers-local-ssds--num-secondary-worker-local-ssds 標記,將本機 SSD 附加至叢集的主要執行個體、主要和次要工作站節點。

您可以使用 SCSI (小型電腦系統介面) 或 NVME (非揮發性記憶體高速) 介面,將本機 SSD 連接至 Dataproc VM (請參閱本機 SSD 效能)。預設的 Dataproc 叢集 VM 本機 SSD 介面是 SCSI 介面。使用 gcloud dataproc clusters create 指令搭配 --master-local-ssd-interface--worker-local-ssd-interface--secondary-worker-local-ssd-interface 標記,為主要、主要和次要工作站節點指定本機 SSD 介面。

範例:

gcloud dataproc clusters create cluster-name \
    --region=region \
    --num-master-local-ssds=1 \
    --num-worker-local-ssds=1 \
    --num-secondary-worker-local-ssds=1 \
    --master-local-ssd-interface=NVME \
    --worker-local-ssd-interface=NVME \
    --secondary-worker-local-ssd-interface=NVME \
    ... other args ...

REST API

masterConfigworkerConfigsecondaryWorkerConfig InstanceGroupConfig 中,於 cluster.create API 請求中設定 numLocalSsds 欄位,即可將本機 SSD 附加至叢集的主節點、主要工作站節點和次要工作站節點。

您可以使用 SCSI (小型電腦系統介面) 或 NVME (非揮發性記憶體高速) 介面,將本機 SSD 連接至 Dataproc VM (請參閱本機 SSD 效能)。預設的 Dataproc 叢集 VM 本機 SSD 介面是 SCSI 介面。在 cluster.create API 要求中,於 masterConfigworkerConfigsecondaryWorkerConfig InstanceGroupConfig 中設定 localSsdInterface 欄位,指定要將本機 SSD 連接至叢集主要、主要工作站和次要工作站節點的「SCSI」或「NVME」介面。

控制台

在 Google Cloud 主控台的 Dataproc「建立叢集」頁面中,建立叢集並從「設定節點」面板將本機 SSD 連接至主要、主要和次要工作站節點。