如要補充開機磁碟,您可以將本機固態硬碟 (本機 SSD) 附加至叢集中的主要執行個體、主要工作站和次要工作站節點。如果叢集提供本機 SSD,HDFS 和暫存資料 (例如 Shuffle 輸出) 都會使用本機 SSD,而非開機永久磁碟。
- 比起永久磁碟,本機 SSD 可提供更快速的讀取和寫入時間 (請參閱「本機 SSD 效能」)。
- 每個本機 SSD 的大小固定為 375 GB,但您可以連接多個本機 SSD 來增加 SSD 儲存空間 (請參閱「關於本機 SSD」)。
- 每個本機 SSD 都會掛接至 Dataproc 叢集節點中的
/mnt/<id>
。 - 本機 SSD 預設使用
ext4
做為檔案系統。
使用本機 SSD
gcloud 指令
使用 gcloud dataproc clusters create
指令搭配 --num-master-local-ssds
、--num-workers-local-ssds
和 --num-secondary-worker-local-ssds
標記,將本機 SSD 附加至叢集的主要執行個體、主要和次要工作站節點。
您可以使用 SCSI (小型電腦系統介面) 或 NVME (非揮發性記憶體高速) 介面,將本機 SSD 連接至 Dataproc VM (請參閱本機 SSD 效能)。預設的 Dataproc 叢集 VM 本機 SSD 介面是 SCSI 介面。使用 gcloud dataproc clusters create 指令搭配 --master-local-ssd-interface
、--worker-local-ssd-interface
和 --secondary-worker-local-ssd-interface
標記,為主要、主要和次要工作站節點指定本機 SSD 介面。
範例:
gcloud dataproc clusters create cluster-name \ --region=region \ --num-master-local-ssds=1 \ --num-worker-local-ssds=1 \ --num-secondary-worker-local-ssds=1 \ --master-local-ssd-interface=NVME \ --worker-local-ssd-interface=NVME \ --secondary-worker-local-ssd-interface=NVME \ ... other args ...
REST API
在 masterConfig
、workerConfig
和 secondaryWorkerConfig
InstanceGroupConfig 中,於 cluster.create API 請求中設定 numLocalSsds 欄位,即可將本機 SSD 附加至叢集的主節點、主要工作站節點和次要工作站節點。
您可以使用 SCSI (小型電腦系統介面) 或 NVME (非揮發性記憶體高速) 介面,將本機 SSD 連接至 Dataproc VM (請參閱本機 SSD 效能)。預設的 Dataproc 叢集 VM 本機 SSD 介面是 SCSI 介面。在 cluster.create API 要求中,於 masterConfig
、workerConfig
和 secondaryWorkerConfig
InstanceGroupConfig 中設定 localSsdInterface 欄位,指定要將本機 SSD 連接至叢集主要、主要工作站和次要工作站節點的「SCSI」或「NVME」介面。
控制台
在 Google Cloud 主控台的 Dataproc「建立叢集」頁面中,建立叢集並從「設定節點」面板將本機 SSD 連接至主要、主要和次要工作站節點。