Untuk menskalakan Dataproc di cluster GKE, perbarui konfigurasi penskalaan otomatis dari kumpulan node yang terkait dengan peran driver Spark atau eksekutor Spark. Anda menentukan Dataproc di kumpulan node beserta perannya yang terkait saat membuat Dataproc di cluster GKE.
Menetapkan penskalaan otomatis kumpulan node
Anda dapat menetapkan batas untuk Dataproc pada penskalaan otomatis kumpulan node GKE saat membuat Dataproc di cluster virtual GKE. Jika tidak ditentukan, Dataproc pada kumpulan node GKE akan diskalakan otomatis dengan nilai default (di Dataproc pada rilis GKE GA, default disetel ke minimum = 1 dan maksimum = 10, yang dapat berubah sewaktu-waktu). Untuk mendapatkan nilai penskalaan otomatis minimum dan maksimum kumpulan node minimum dan maksimum yang spesifik, tetapkan nilai tersebut saat Anda membuat Dataproc di cluster virtual GKE.
Mengupdate penskalaan otomatis kumpulan node
Gunakan perintah GKE gcloud container node-pools update
berikut untuk mengubah konfigurasi penskalaan otomatis Dataproc pada kumpulan node GKE.
gcloud container node-pools update NODE_POOL_NAME \ --cluster=GKE_CLUSTER_NAME \ --region=region \ --enable-autoscaling \ --min-nodes=min nodes (must be <= max-nodes) \ --max-nodes=max nodes (must be >= min-nodes) \
Cara kerja penskalaan otomatis Spark
- Saat tugas dikirim, pod driver dijadwalkan untuk berjalan di kumpulan node yang terkait dengan peran driver Spark.
- Pod driver memanggil penjadwal GKE untuk membuat pod eksekutor.
- Pod Executor dijadwalkan di kumpulan node yang terkait dengan peran eksekutor Spark.
- Jika kumpulan node memiliki kapasitas untuk pod, pod akan segera mulai berjalan. Jika kapasitas tidak mencukupi, penskala otomatis cluster GKE akan meningkatkan skala kumpulan node untuk menyediakan resource yang diminta, hingga batas yang ditentukan pengguna. Jika kumpulan node memiliki kapasitas berlebih, penskala otomatis cluster GKE akan menurunkan skala kumpulan node hingga batas yang ditentukan pengguna.