Lorsque vous créez ou mettez à jour un cluster virtuel Dataproc sur GKE, vous spécifiez un ou plusieurs pools de nœuds que le cluster virtuel utilisera pour exécuter des tâches (ce cluster est appelé cluster "utilisé par" ou "associé" aux pools de nœuds spécifiés). Si un pool de nœuds spécifié n'existe pas sur votre cluster GKE, Dataproc sur GKE le crée sur le cluster GKE avec les paramètres que vous spécifiez. Si le pool de nœuds existe et a été créé par Dataproc, il sera validé pour vérifier que ses paramètres correspondent aux paramètres spécifiés.
Paramètres de pool de nœuds Dataproc sur GKE
Vous pouvez spécifier les paramètres suivants sur les pools de nœuds utilisés par vos clusters virtuels Dataproc sur GKE (ces paramètres constituent un sous-ensemble des paramètres des pools de nœuds GKE):
accelerators
acceleratorCount
acceleratorType
gpuPartitionSize
*localSsdCount
machineType
minCpuPlatform
minNodeCount
maxNodeCount
preemptible
spot
*
Remarques :
gpuPartitionSize
peut être défini dans l'API DataprocGkeNodePoolAcceleratorConfig
.spot
peut être défini dans l'API Dataproc GkeNodeConfig.
Suppression du pool de nœuds
Lorsqu'un cluster Dataproc sur GKE est supprimé, les pools de nœuds utilisés par le cluster ne sont pas supprimés. Consultez la section Supprimer un pool de nœuds pour supprimer les pools de nœuds qui ne sont plus utilisés par Dataproc sur les clusters GKE.
Emplacement du pool de nœuds
Vous pouvez spécifier l'emplacement zone des pools de nœuds associés à votre cluster virtuel Dataproc sur GKE lorsque vous créez ou mettez à jour le cluster virtuel. Les zones des pools de nœuds doivent être situées dans la région du cluster virtuel associé.
Mappage de rôle au pool de nœuds
Les rôles des pools de nœuds sont définis pour les tâches de pilote et d'exécuteur Spark, avec un rôle par défaut défini pour tous les types de tâches effectués par un pool de nœuds. Les clusters Dataproc sur GKE doivent disposer d'au moins un pool de nœuds auquel le rôle default
est attribué.
L'attribution d'autres rôles est facultative.
Recommandation:Créez des pools de nœuds distincts pour chaque type de rôle, avec le type et la taille des nœuds en fonction des exigences du rôle.
Exemple de création de cluster virtuel gcloud CLI:
gcloud dataproc clusters gke create "${DP_CLUSTER}" \ --region=${REGION} \ --gke-cluster=${GKE_CLUSTER} \ --spark-engine-version=latest \ --staging-bucket=${BUCKET} \ --pools="name=${DP_POOLNAME},roles=default \ --setup-workload-identity --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \ --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \ --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"