Dataproc sur des pools de nœuds GKE

Lorsque vous créez ou mettez à jour un cluster virtuel Dataproc sur GKE, vous spécifiez un ou plusieurs pools de nœuds qui seront utilisés par le cluster virtuel pour exécuter des tâches (ce cluster est appelé "cluster utilisé par "associé au pool de nœuds spécifié"). Si un pool de nœuds spécifié n'existe pas sur votre cluster GKE, Dataproc sur GKE crée le pool de nœuds sur le cluster GKE avec les paramètres que vous spécifiez. Si le pool de nœuds existe, il sera validé pour confirmer que ses paramètres correspondent aux paramètres que vous avez spécifiés.

Paramètres de pool de nœuds Dataproc sur GKE

Vous pouvez spécifier les paramètres suivants sur les pools de nœuds utilisés par vos clusters virtuels Dataproc sur GKE (ces paramètres constituent un sous-ensemble des paramètres du pool de nœuds GKE):

  • accelerators
  • acceleratorCount
  • acceleratorType
  • gpuPartitionSize*
  • localSsdCount
  • machineType
  • minCpuPlatform
  • minNodeCount
  • maxNodeCount
  • preemptible
  • spot*

Remarques :

Suppression du pool de nœuds

Lorsqu'un cluster Dataproc sur GKE est supprimé, les pools de nœuds utilisés par le cluster ne sont pas supprimés. Consultez la section Supprimer un pool de nœuds pour savoir comment supprimer les pools de nœuds qui ne sont plus utilisés par Dataproc sur des clusters GKE.

Emplacement du pool de nœuds

Vous pouvez spécifier l'emplacement de zone des pools de nœuds associés à votre cluster virtuel Dataproc sur GKE lorsque vous créez ou mettez à jour le cluster virtuel. Les zones des pools de nœuds doivent se trouver dans la région du cluster virtuel associé.

Mappage des rôles vers le pool de nœuds

Les rôles du pool de nœuds sont définis pour le travail du pilote et de l'exécuteur Spark, avec un rôle par défaut défini pour tous les types de tâches par un pool de nœuds. Les clusters Dataproc sur GKE doivent disposer d'au moins un pool de nœuds doté du rôle default. L'attribution d'autres rôles est facultative.

Recommandation:Créez des pools de nœuds distincts pour chaque type de rôle, en définissant un type et une taille de nœud en fonction des exigences de rôle.

Exemple de création d'un cluster virtuel de CLI gcloud:

gcloud dataproc clusters gke create "${DP_CLUSTER}" \
  --region=${REGION} \
  --gke-cluster=${GKE_CLUSTER} \
  --spark-engine-version=latest \
  --staging-bucket=${BUCKET} \
  --pools="name=${DP_POOLNAME},roles=default \
  --setup-workload-identity
  --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \
  --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \
  --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"