叢集快取

啟用 Dataproc 叢集快取後,叢集會快取 Spark 工作經常存取的 Cloud Storage 資料。

優點

  • 提升效能:快取可減少從儲存空間擷取資料所花費的時間,進而提升工作效能。
  • 降低儲存空間費用:由於熱資料會快取在本機磁碟上,因此擷取資料時,傳送至儲存空間的 API 呼叫次數會減少。
  • Spark 工作適用性:在叢集上啟用叢集快取後,無論是提交至 Dataproc 服務,還是獨立在叢集上執行,叢集上執行的所有 Spark 工作都會套用這項功能。

限制與需求

啟用叢集快取

使用 Google Cloud 控制台、Google Cloud CLI 或 Dataproc API 建立 Dataproc 叢集時,可以啟用叢集快取。

Google Cloud 控制台

  • 在 Google Cloud 控制台中,開啟 Dataproc 的「Create a cluster on Compute Engine」(在 Compute Engine 上建立叢集) 頁面。
  • 系統會選取「設定叢集」面板。在「Spark performance enhancements」(Spark 效能提升) 區段中,選取「Enable Google Cloud Storage caching」(啟用 Google Cloud Storage 快取)
  • 在叢集建立面板中確認並指定叢集詳細資料後,按一下「建立」

gcloud CLI

在本機的終端機視窗或 Cloud Shell 中,使用 dataproc:dataproc.cluster.caching.enabled=true cluster 屬性執行 gcloud dataproc clusters create 指令。

範例:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

REST API

SoftwareConfig.properties 設為包含 "dataproc:dataproc.cluster.caching.enabled": "true" 叢集屬性,做為 clusters.create 要求的一部分。