Untuk menskalakan Dataproc di cluster GKE, perbarui konfigurasi autoscaler node pool yang terkait dengan peran eksekutor Spark atau driver Spark. Anda menentukan node pool Dataproc di GKE dan peran terkaitnya saat membuat cluster Dataproc di GKE.
Menetapkan penskalaan otomatis node pool
Anda dapat menetapkan batas untuk penskalaan otomatis node pool Dataproc di GKE saat membuat cluster virtual Dataproc di GKE. Jika tidak ditentukan, node pool Dataproc di GKE akan diskalakan secara otomatis dengan nilai default (pada rilis GA Dataproc di GKE, nilai default ditetapkan ke minimum = 1 dan maksimum = 10, yang dapat berubah sewaktu-waktu). Untuk mendapatkan nilai penskalaan otomatis node pool minimum dan maksimum tertentu, tetapkan nilai tersebut saat membuat Dataproc di cluster virtual GKE.
Memperbarui penskalaan otomatis node pool
Gunakan perintah gcloud container node-pools update
GKE berikut untuk mengubah konfigurasi penskalaan otomatis Dataproc di kumpulan node GKE.
gcloud container node-pools update NODE_POOL_NAME \ --cluster=GKE_CLUSTER_NAME \ --region=region \ --enable-autoscaling \ --min-nodes=min nodes (must be <= max-nodes) \ --max-nodes=max nodes (must be >= min-nodes) \
Cara kerja penskalaan otomatis Spark
- Saat tugas dikirim, pod pengemudi dijadwalkan untuk berjalan di node pool yang terkait dengan peran pengemudi Spark.
- Pod driver memanggil penjadwal GKE untuk membuat pod eksekutor.
- Pod eksekutor dijadwalkan di node pool yang terkait dengan peran eksekutor Spark.
- Jika node pool memiliki kapasitas untuk pod, pod akan segera mulai berjalan. Jika kapasitas tidak memadai, autoscaler cluster GKE akan menskalakan node pool untuk menyediakan resource yang diminta, hingga batas yang ditentukan pengguna. Jika node pool memiliki kapasitas berlebih, autoscaler cluster GKE akan menskalakan node pool ke batas yang ditentukan pengguna.