Dataproc su pool di nodi GKE

Quando crei o aggiorni un cluster virtuale Dataproc su GKE, specifichi uno o più pool di nodi che il cluster virtuale utilizzerà per eseguire i job (questo cluster è denominato cluster "utilizzato da" o "associato" ai pool di nodi specificati). Se nel tuo cluster GKE non esiste un pool di nodi specificato, Dataproc su GKE crea il pool di nodi nel cluster GKE con le impostazioni da te specificate. Se il pool di nodi esiste ed è stato creato da Dataproc, verrà convalidato per confermare che le impostazioni corrispondano a quelle specificate.

Impostazioni del pool di nodi Dataproc su GKE

Puoi specificare le seguenti impostazioni sui pool di nodi utilizzati dai cluster virtuali di Dataproc su GKE (queste impostazioni sono un sottoinsieme delle impostazioni dei pool di nodi GKE):

  • accelerators
  • acceleratorCount
  • acceleratorType
  • gpuPartitionSize*
  • localSsdCount
  • machineType
  • minCpuPlatform
  • minNodeCount
  • maxNodeCount
  • preemptible
  • spot*

Note:

Eliminazione del pool di nodi

Quando viene eliminato un cluster Dataproc su GKE, i pool di nodi utilizzati dal cluster non vengono eliminati. Consulta Eliminare un pool di nodi per eliminare i pool di nodi non più utilizzati da Dataproc sui cluster GKE.

Località del pool di nodi

Puoi specificare la zona dei pool di nodi associati al cluster virtuale Dataproc su GKE quando crei o aggiorni il cluster virtuale. Le zone del pool di nodi devono essere trovate nella regione del cluster virtuale associato.

Mappatura del ruolo al pool di nodi

I ruoli dei pool di nodi sono definiti per il lavoro di driver ed esecutore Spark, con un ruolo predefinito definito per tutti i tipi di lavoro da un pool di nodi. I cluster Dataproc su GKE devono avere almeno un pool di nodi a cui è assegnato il ruolo default. L'assegnazione di altri ruoli è facoltativa.

Suggerimento: crea pool di nodi separati per ogni tipo di ruolo, con tipo di nodo e dimensioni basati sui requisiti del ruolo.

Esempio di creazione del cluster virtuale gcloud CLI:

gcloud dataproc clusters gke create "${DP_CLUSTER}" \
  --region=${REGION} \
  --gke-cluster=${GKE_CLUSTER} \
  --spark-engine-version=latest \
  --staging-bucket=${BUCKET} \
  --pools="name=${DP_POOLNAME},roles=default \
  --setup-workload-identity
  --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \
  --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \
  --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"