Dataproc di node pool GKE

Saat membuat atau mengupdate Dataproc di cluster virtual GKE, Anda menentukan satu atau beberapa node pool yang akan digunakan cluster virtual untuk menjalankan tugas (cluster ini disebut sebagai cluster "digunakan oleh" atau "terkait" dengan kumpulan node yang ditentukan). Jika kumpulan node yang ditentukan tidak ada di cluster GKE Anda, Dataproc di GKE akan membuat kumpulan node pada cluster GKE dengan setelan yang Anda tentukan. Jika kumpulan node ada dan dibuat oleh Dataproc, kumpulan node tersebut akan divalidasi untuk mengonfirmasi bahwa setelannya sesuai dengan setelan yang ditentukan.

Dataproc pada setelan node pool GKE

Anda dapat menentukan setelan berikut pada node pool yang digunakan oleh Dataproc Anda di cluster virtual GKE (setelan ini merupakan bagian dari setelan node pool GKE):

  • accelerators
  • acceleratorCount
  • acceleratorType
  • gpuPartitionSize*
  • localSsdCount
  • machineType
  • minCpuPlatform
  • minNodeCount
  • maxNodeCount
  • preemptible
  • spot*

Catatan:

Penghapusan kumpulan node

Jika Dataproc pada cluster GKE dihapus, node pool yang digunakan oleh cluster tersebut tidak akan dihapus. Lihat Menghapus kumpulan node untuk menghapus kumpulan node yang tidak lagi digunakan oleh Dataproc di cluster GKE.

Lokasi kumpulan node

Anda dapat menentukan lokasi zona kumpulan node yang terkait dengan Dataproc Anda di cluster virtual GKE saat membuat atau mengupdate cluster virtual. Zona kumpulan node harus berada di region cluster virtual terkait.

Peran pada pemetaan kumpulan node

Peran kumpulan node ditentukan untuk tugas driver dan eksekutor Spark, dengan peran default yang ditetapkan untuk semua jenis tugas menurut kumpulan node. Dataproc di cluster GKE harus memiliki minimal satu kumpulan node yang diberi peran default. Menetapkan peran lain bersifat opsional.

Rekomendasi: Buat kumpulan node terpisah untuk setiap jenis peran, dengan jenis dan ukuran node berdasarkan persyaratan peran.

Contoh pembuatan cluster virtual gcloud CLI:

gcloud dataproc clusters gke create "${DP_CLUSTER}" \
  --region=${REGION} \
  --gke-cluster=${GKE_CLUSTER} \
  --spark-engine-version=latest \
  --staging-bucket=${BUCKET} \
  --pools="name=${DP_POOLNAME},roles=default \
  --setup-workload-identity
  --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \
  --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \
  --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"