Penyimpanan dalam cache cluster

Saat Anda mengaktifkan cache cluster Dataproc, cluster akan menyimpan data Cloud Storage yang sering diakses oleh tugas Spark Anda ke dalam cache.

Manfaat

  • Peningkatan performa: Menyimpan ke cache dapat meningkatkan performa tugas dengan mengurangi jumlah waktu yang dihabiskan untuk mengambil data dari penyimpanan.
  • Pengurangan biaya penyimpanan: Karena data panas disimpan dalam cache di disk lokal, lebih sedikit panggilan API yang dilakukan ke penyimpanan untuk mengambil data.

Batasan dan persyaratan

Mengaktifkan cache cluster

Anda dapat mengaktifkan cache cluster saat membuat cluster Dataproc menggunakan Google Cloud CLI atau Dataproc API.

Konsol

Saat ini, mengaktifkan cache cluster dari konsol Google Cloud tidak didukung.

gcloud CLI

Jalankan perintah gcloud dataproc Cluster create secara lokal di jendela terminal atau di Cloud Shell menggunakan dataproc:dataproc.cluster.caching=true properti cluster.

Contoh:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

REST API

Tetapkan SoftwareConfig.properties untuk menyertakan properti cluster "dataproc:dataproc.cluster.caching": "true" sebagai bagian dari permintaan clusters.create.