Halaman ini diterjemahkan oleh Cloud Translation API.

Penyimpanan cache cluster

Saat Anda mengaktifkan penyiapan cache cluster Dataproc, cluster akan menyimpan data Cloud Storage yang sering diakses oleh tugas Spark Anda.

Manfaat

Peningkatan performa: Caching dapat meningkatkan performa tugas dengan mengurangi jumlah waktu yang dihabiskan untuk mengambil data dari penyimpanan.
Biaya penyimpanan yang lebih rendah: Karena data aktif di-cache di disk lokal, lebih sedikit panggilan API yang dilakukan ke penyimpanan untuk mengambil data.
Penerapan tugas Spark: Jika caching cluster diaktifkan di cluster, caching ini berlaku untuk semua tugas Spark yang dijalankan di cluster, baik yang dikirimkan ke layanan Dataproc maupun yang dijalankan secara independen di cluster.

Batasan dan persyaratan

Caching hanya berlaku untuk tugas Spark Dataproc.
Hanya data Cloud Storage yang di-cache.
Caching hanya berlaku untuk cluster yang memenuhi persyaratan berikut:
- Cluster memiliki satu master dan n pekerja (cluster Ketersediaan Tinggi (HA) dan node tunggal tidak didukung).
- Fitur ini tersedia di Dataproc di Compute Engine versi image 2.0.72+, 2.1.20+, dan 2.2.0+.
- Setiap node cluster harus memiliki SSD lokal yang terpasang dengan antarmuka NVME (Non-Volatile Memory Express) (Persistent Disk (PD) tidak didukung). Data di-cache hanya di SSD lokal NVME.
- Cluster menggunakan akun layanan VM default untuk autentikasi. Akun layanan VM kustom tidak didukung.

Mengaktifkan caching cluster

Anda dapat mengaktifkan caching cluster saat membuat cluster Dataproc menggunakan konsol Google Cloud , Google Cloud CLI, atau Dataproc API.

Google Cloud console

Buka halaman Dataproc Create a cluster on Compute Engine di konsol Google Cloud .
Panel Set up cluster dipilih. Di bagian Peningkatan performa Spark, pilih Aktifkan caching Google Cloud Storage.
Setelah mengonfirmasi dan menentukan detail cluster di panel pembuatan cluster, klik Create.

gcloud CLI

Jalankan perintah gcloud dataproc clusters create secara lokal di jendela terminal atau di Cloud Shell menggunakan dataproc:dataproc.cluster.caching.enabled=true properti cluster.

Contoh:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...

REST API

Tetapkan SoftwareConfig.properties untuk menyertakan "dataproc:dataproc.cluster.caching.enabled": "true" properti cluster sebagai bagian dari permintaan clusters.create.