Saat Anda mengaktifkan cache cluster Dataproc, cluster akan menyimpan data Cloud Storage yang sering diakses oleh tugas Spark Anda ke dalam cache.
Manfaat
- Peningkatan performa: Menyimpan ke cache dapat meningkatkan performa tugas dengan mengurangi jumlah waktu yang dihabiskan untuk mengambil data dari penyimpanan.
- Pengurangan biaya penyimpanan: Karena data panas disimpan dalam cache di disk lokal, lebih sedikit panggilan API yang dilakukan ke penyimpanan untuk mengambil data.
Batasan dan persyaratan
- Caching hanya berlaku untuk tugas Dataproc Spark.
- Hanya data Cloud Storage yang di-cache.
- Menyimpan ke cache hanya berlaku untuk cluster yang memenuhi persyaratan berikut:
- Cluster memiliki satu pekerja master dan
n
(Ketersediaan Tinggi (HA) dan cluster node tunggal tidak didukung). - Fitur ini tersedia di Dataproc pada versi gambar Compute Engine
2.0.72+ or 2.1.20+
. - Setiap node cluster harus memiliki SSD lokal yang terhubung dengan antarmuka NVME (Non-Volatile Memory Express) (Persistent Disk (PD) tidak didukung). Data hanya di-cache di SSD lokal NVME.
- Cluster menggunakan akun layanan VM default untuk autentikasi. Akun layanan VM kustom tidak didukung.
- Cluster memiliki satu pekerja master dan
Mengaktifkan cache cluster
Anda dapat mengaktifkan cache cluster saat membuat cluster Dataproc menggunakan Google Cloud CLI atau Dataproc API.
Konsol
Saat ini, mengaktifkan cache cluster dari konsol Google Cloud tidak didukung.
gcloud CLI
Jalankan perintah gcloud dataproc Cluster create
secara lokal di jendela terminal atau di
Cloud Shell
menggunakan dataproc:dataproc.cluster.caching=true
properti cluster.
Contoh:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties dataproc:dataproc.cluster.caching.enabled=true \ --num-master-local-ssds=2 \ --master-local-ssd-interface=NVME \ --num-worker-local-ssds=2 \ --worker-local-ssd-interface=NVME \ other args ...
REST API
Tetapkan SoftwareConfig.properties untuk menyertakan properti cluster "dataproc:dataproc.cluster.caching": "true"
sebagai bagian dari permintaan clusters.create.