Saat membuat atau mengupdate Dataproc di cluster virtual GKE, Anda menentukan satu atau beberapa node pool yang akan digunakan cluster virtual untuk menjalankan tugas (cluster ini disebut sebagai cluster "digunakan oleh" atau "terkait" dengan kumpulan node yang ditentukan). Jika kumpulan node yang ditentukan tidak ada di cluster GKE Anda, Dataproc di GKE akan membuat kumpulan node pada cluster GKE dengan setelan yang Anda tentukan. Jika kumpulan node ada dan dibuat oleh Dataproc, kumpulan node tersebut akan divalidasi untuk mengonfirmasi bahwa setelannya sesuai dengan setelan yang ditentukan.
Dataproc pada setelan node pool GKE
Anda dapat menentukan setelan berikut pada node pool yang digunakan oleh Dataproc Anda di cluster virtual GKE (setelan ini merupakan bagian dari setelan node pool GKE):
accelerators
acceleratorCount
acceleratorType
gpuPartitionSize
*localSsdCount
machineType
minCpuPlatform
minNodeCount
maxNodeCount
preemptible
spot
*
Catatan:
gpuPartitionSize
dapat ditetapkan di Dataproc APIGkeNodePoolAcceleratorConfig
.spot
dapat ditetapkan di GkeNodeConfig Dataproc API.
Penghapusan kumpulan node
Jika Dataproc pada cluster GKE dihapus, node pool yang digunakan oleh cluster tersebut tidak akan dihapus. Lihat Menghapus kumpulan node untuk menghapus kumpulan node yang tidak lagi digunakan oleh Dataproc di cluster GKE.
Lokasi kumpulan node
Anda dapat menentukan lokasi zona kumpulan node yang terkait dengan Dataproc Anda di cluster virtual GKE saat membuat atau mengupdate cluster virtual. Zona kumpulan node harus berada di region cluster virtual terkait.
Peran pada pemetaan kumpulan node
Peran kumpulan node ditentukan untuk tugas driver dan eksekutor Spark, dengan peran default yang ditetapkan untuk semua jenis tugas menurut kumpulan node. Dataproc di cluster GKE harus memiliki minimal satu kumpulan node yang diberi peran default
.
Menetapkan peran lain bersifat opsional.
Rekomendasi: Buat kumpulan node terpisah untuk setiap jenis peran, dengan jenis dan ukuran node berdasarkan persyaratan peran.
Contoh pembuatan cluster virtual gcloud CLI:
gcloud dataproc clusters gke create "${DP_CLUSTER}" \ --region=${REGION} \ --gke-cluster=${GKE_CLUSTER} \ --spark-engine-version=latest \ --staging-bucket=${BUCKET} \ --pools="name=${DP_POOLNAME},roles=default \ --setup-workload-identity --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \ --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \ --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"