Saat Anda mengaktifkan cache cluster Dataproc, cluster akan meng-cache data Cloud Storage yang sering diakses oleh tugas Spark Anda.
Manfaat
- Performa yang lebih baik: Penyimpanan dalam cache dapat meningkatkan performa tugas dengan mengurangi jumlah waktu yang dihabiskan untuk mengambil data dari penyimpanan.
- Biaya penyimpanan yang lebih rendah: Karena data panas di-cache di disk lokal, panggilan API yang dilakukan ke penyimpanan untuk mengambil data akan lebih sedikit.
Batasan dan persyaratan
- Penyimpanan dalam cache hanya berlaku untuk tugas Spark Dataproc.
- Hanya data Cloud Storage yang di-cache.
- Penyimpanan dalam cache hanya berlaku untuk cluster yang memenuhi persyaratan berikut:
- Cluster memiliki satu master dan
n
pekerja (cluster Ketersediaan Tinggi (HA) dan node tunggal tidak didukung). - Fitur ini tersedia di Dataproc di Compute Engine
versi image
2.0.72+ or 2.1.20+
. - Setiap node cluster harus memiliki SSD lokal yang terpasang dengan antarmuka NVME (Non-Volatile Memory Express) (Persistent Disk (PD) tidak didukung). Data hanya di-cache di SSD lokal NVME.
- Cluster menggunakan akun layanan VM default untuk autentikasi. Akun layanan VM kustom tidak didukung.
- Cluster memiliki satu master dan
Mengaktifkan penyimpanan ke dalam cache cluster
Anda dapat mengaktifkan penyimpanan dalam cache cluster saat membuat cluster Dataproc menggunakan konsol Google Cloud, Google Cloud CLI, atau Dataproc API.
Konsol Google Cloud
- Buka halaman Buat cluster di Compute Engine Dataproc di konsol Google Cloud.
- Panel Siapkan cluster dipilih. Di bagian Spark performance enhancements, pilih Enable Google Cloud Storage caching.
- Setelah mengonfirmasi dan menentukan detail cluster di panel pembuatan cluster, klik Create.
gcloud CLI
Jalankan perintah gcloud dataproc clusters create secara lokal di jendela terminal atau di Cloud Shell menggunakan properti cluster dataproc:dataproc.cluster.caching.enabled=true
.
Contoh:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties dataproc:dataproc.cluster.caching.enabled=true \ --num-master-local-ssds=2 \ --master-local-ssd-interface=NVME \ --num-worker-local-ssds=2 \ --worker-local-ssd-interface=NVME \ other args ...
REST API
Tetapkan SoftwareConfig.properties
untuk menyertakan properti cluster
"dataproc:dataproc.cluster.caching.enabled": "true"
sebagai bagian dari permintaan
clusters.create.