Wenn Sie einen Dataproc-on-GKE-virtuellen Cluster erstellen oder aktualisieren, geben Sie einen oder mehrere Knotenpools an, die der virtuelle Cluster zum Ausführen von Jobs verwendet. Dieser Cluster wird als Cluster bezeichnet, der „von“ oder „mit“ den angegebenen Knotenpools „verbunden“ ist. Wenn ein bestimmter Knotenpool ist in Ihrem GKE-Cluster nicht vorhanden, Dataproc in GKE erstellt den Knotenpool im GKE-Cluster mit den Einstellungen die Sie angeben. Wenn der Knotenpool vorhanden ist und von Dataproc erstellt wurde, wird geprüft, ob seine Einstellungen mit den angegebenen Einstellungen übereinstimmen.
Dataproc on GKE-Knotenpooleinstellungen
Sie können die folgenden Einstellungen für Knotenpools angeben, die von Ihren Dataproc-virtuellen Clustern in GKE verwendet werden. Diese Einstellungen sind eine Teilmenge der GKE-Knotenpooleinstellungen:
accelerators
acceleratorCount
acceleratorType
gpuPartitionSize
*localSsdCount
machineType
minCpuPlatform
minNodeCount
maxNodeCount
preemptible
spot
*
Hinweise:
gpuPartitionSize
kann in der Dataproc API festgelegt werdenGkeNodePoolAcceleratorConfig
spot
kann in der GkeNodeConfig der Dataproc API festgelegt werden.
Knotenpool löschen
Wenn ein Dataproc on GKE-Cluster gelöscht wird, werden die vom Cluster verwendeten Knotenpools nicht gelöscht. Unter Knotenpool löschen erfahren Sie, wie Sie Knotenpools löschen, die von Dataproc in GKE-Clustern nicht mehr verwendet werden.
Knotenpoolstandort
Sie können die Zone der Knotenpools angeben, die mit Ihrem Dataproc-Cluster in GKE verknüpft sind, wenn Sie den virtuellen Cluster erstellen oder aktualisieren. Die Knotenpoolzonen müssen sich in der Region des zugehörigen virtuellen Clusters befindet.
Zuordnung von Rollen zu Knotenpools
Knotenpool-Rollen
sind für Spark-Treiber- und Executor-Arbeiten mit einer Standardrolle definiert
die für alle Arten von Aufgaben
von einem Knotenpool definiert sind. Dataproc-Cluster in GKE-Clustern müssen mindestens einen Knotenpool haben, dem die Rolle default
zugewiesen ist.
Das Zuweisen anderer Rollen ist optional.
Empfehlung:Erstellen Sie separate Knotenpools für jeden Rollentyp mit Knotentyp und Größe basierend auf den Rollenanforderungen.
Beispiel für das Erstellen eines virtuellen gcloud CLI-Clusters:
gcloud dataproc clusters gke create "${DP_CLUSTER}" \ --region=${REGION} \ --gke-cluster=${GKE_CLUSTER} \ --spark-engine-version=latest \ --staging-bucket=${BUCKET} \ --pools="name=${DP_POOLNAME},roles=default \ --setup-workload-identity --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \ --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \ --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"