Menskalakan Dataproc di cluster GKE

Untuk menskalakan cluster Dataproc di GKE, perbarui konfigurasi autoscaler node pool yang terkait dengan peran driver Spark atau eksekutor Spark. Anda menentukan node pool dan peran terkaitnya Dataproc di GKE saat Anda membuat cluster Dataproc di GKE.

Menetapkan penskalaan otomatis node pool

Anda dapat menetapkan batas untuk penskalaan otomatis node pool Dataproc di GKE saat Anda membuat cluster virtual Dataproc di GKE. Jika tidak ditentukan, node pool Dataproc di GKE akan diskalakan otomatis dengan nilai default (pada rilis GA Dataproc di GKE, default ditetapkan ke minimum = 1 dan maksimum = 10, yang dapat berubah). Untuk mendapatkan nilai penskalaan otomatis node pool minimum dan maksimum tertentu, tetapkan nilai tersebut saat Anda membuat cluster virtual Dataproc di GKE.

Memperbarui penskalaan otomatis node pool

Gunakan perintah GKE gcloud container node-pools update berikut untuk mengubah konfigurasi penskalaan otomatis kumpulan node Dataproc di GKE.

gcloud container node-pools update NODE_POOL_NAME \
    --cluster=GKE_CLUSTER_NAME \
    --region=region \
    --enable-autoscaling \
    --min-nodes=min nodes (must be <= max-nodes) \
    --max-nodes=max nodes (must be >= min-nodes) \

Cara kerja penskalaan otomatis Spark

  1. Saat tugas dikirimkan, pod driver dijadwalkan untuk berjalan di node pool yang terkait dengan peran driver Spark.
  2. Pod driver memanggil penjadwal GKE untuk membuat pod eksekutor.
  3. Pod eksekutor dijadwalkan di node pool yang terkait dengan peran eksekutor Spark.
  4. Jika node pool memiliki kapasitas untuk pod, pod akan segera mulai berjalan. Jika kapasitas tidak mencukupi, autoscaler cluster GKE akan meningkatkan skala node pool untuk menyediakan resource yang diminta, hingga batas yang ditentukan pengguna. Jika node pool memiliki kapasitas berlebih, autoscaler cluster GKE akan menurunkan skala node pool ke batas yang ditentukan pengguna.