Pool di nodi Dataproc su GKE

Quando create o aggiorna in un cluster virtuale Dataproc su GKE, devi specificare uno o più pool di nodi che che il cluster virtuale utilizzerà per eseguire i job (questo cluster è definito cluster "utilizzato da" o "associati" con i pool di nodi specificati). Se un pool di nodi specificato non esiste sul tuo cluster GKE, Dataproc su GKE. crea il pool di nodi sul cluster GKE con le impostazioni da te specificato. Se il pool di nodi esiste ed è stato creato da Dataproc, verrà convalidato per confermare che le sue impostazioni corrispondono a quelle specificate.

Impostazioni del pool di nodi Dataproc su GKE

Puoi specificare le seguenti impostazioni nei pool di nodi utilizzati dai cluster virtuali Dataproc su GKE (queste impostazioni sono un sottoinsieme di impostazioni del pool di nodi GKE):

  • accelerators
  • acceleratorCount
  • acceleratorType
  • gpuPartitionSize*
  • localSsdCount
  • machineType
  • minCpuPlatform
  • minNodeCount
  • maxNodeCount
  • preemptible
  • spot*

Note:

Eliminazione del pool di nodi

Quando un cluster Dataproc su GKE viene eliminato, i pool di nodi utilizzati dal cluster non vengono eliminati. Consulta Eliminare un pool di nodi per eliminare i pool di nodi non più utilizzati da Dataproc su cluster GKE.

Località pool di nodi

Puoi specificare la posizione della zona del pool di nodi associato al tuo cluster virtuale Dataproc on GKE quando crei o aggiorni il cluster virtuale. Le zone del pool di nodi devono essere che si trova nella regione del cluster virtuale associato.

Mappatura del ruolo al pool di nodi

I ruoli del pool di nodi sono definiti per il lavoro del driver e dell'executor di Spark, con un ruolo predefinito definito per tutti i tipi di lavoro da un pool di nodi. I cluster Dataproc su GKE devono avere almeno un pool di nodi a cui è assegnato il ruolo default. L'assegnazione di altri ruoli è facoltativa.

Suggerimento: crea pool di nodi separati per ogni tipo di ruolo, con il tipo di nodo e dimensioni in base ai requisiti dei ruoli.

Esempio di creazione del cluster virtuale gcloud CLI:

gcloud dataproc clusters gke create "${DP_CLUSTER}" \
  --region=${REGION} \
  --gke-cluster=${GKE_CLUSTER} \
  --spark-engine-version=latest \
  --staging-bucket=${BUCKET} \
  --pools="name=${DP_POOLNAME},roles=default \
  --setup-workload-identity
  --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \
  --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \
  --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"