Wenn Sie create oder Update einem virtuellen Dataproc on GKE-Cluster, geben Sie einen oder mehrere Knotenpools an, der virtuelle Cluster verwendet, um Jobs auszuführen (dieser Cluster wird als Cluster „verwendet von“ oder „verknüpft“ mit den angegebenen Knotenpools. Wenn ein bestimmter Knotenpool ist in Ihrem GKE-Cluster nicht vorhanden, Dataproc in GKE erstellt den Knotenpool im GKE-Cluster mit den Einstellungen die Sie angeben. Wenn der Knotenpool vorhanden ist und von Dataproc erstellt wurde, wird überprüft, ob die Einstellungen mit den angegebenen übereinstimmen.
Dataproc on GKE-Knotenpooleinstellungen
Sie können Folgendes angeben: Einstellungen auf Knotenpools, die von Dataproc in virtuellen GKE-Clustern verwendet werden (diese Einstellungen sind eine Teilmenge der Einstellungen für den GKE-Knotenpool):
accelerators
acceleratorCount
acceleratorType
gpuPartitionSize
*localSsdCount
machineType
minCpuPlatform
minNodeCount
maxNodeCount
preemptible
spot
*
Hinweise:
gpuPartitionSize
kann in der Dataproc API festgelegt werdenGkeNodePoolAcceleratorConfig
spot
kann in der GkeNodeConfig der Dataproc API festgelegt werden.
Knotenpool löschen
Wenn ein Dataproc on GKE-Cluster gelöscht wird, werden die vom Cluster verwendeten Knotenpools werden nicht gelöscht. Unter Knotenpool löschen erfahren Sie, wie Sie Knotenpools löschen, die von Dataproc in GKE-Clustern nicht mehr verwendet werden.
Knotenpoolstandort
Sie können die Zone der Knotenpools angeben, die mit Ihrem Dataproc-Cluster in GKE verknüpft sind, wenn Sie den virtuellen Cluster erstellen oder aktualisieren. Die Knotenpoolzonen müssen sich in der Region des zugehörigen virtuellen Clusters befindet.
Zuordnung von Rollen zu Knotenpools
Knotenpoolrollen werden für Spark-Treiber- und Executor-Arbeit definiert. Für alle Arten von Arbeit wird von einem Knotenpool eine Standardrolle definiert. Dataproc on GKE-Cluster müssen
Mindestens ein Knotenpool mit der Rolle default
.
Das Zuweisen weiterer Rollen ist optional.
Empfehlung: Erstellen Sie für jeden Rollentyp separate Knotenpools, deren Knotentyp und ‑größe auf den Rollenanforderungen basieren.
Beispiel für das Erstellen eines virtuellen gcloud CLI-Clusters:
gcloud dataproc clusters gke create "${DP_CLUSTER}" \ --region=${REGION} \ --gke-cluster=${GKE_CLUSTER} \ --spark-engine-version=latest \ --staging-bucket=${BUCKET} \ --pools="name=${DP_POOLNAME},roles=default \ --setup-workload-identity --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \ --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \ --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"