Dataproc auf GKE-Knotenpools

Wenn Sie create oder Update einem virtuellen Dataproc on GKE-Cluster, geben Sie einen oder mehrere Knotenpools an, der virtuelle Cluster verwendet, um Jobs auszuführen (dieser Cluster wird als Cluster „verwendet von“ oder „verknüpft“ mit den angegebenen Knotenpools. Wenn ein bestimmter Knotenpool ist in Ihrem GKE-Cluster nicht vorhanden, Dataproc in GKE erstellt den Knotenpool im GKE-Cluster mit den Einstellungen die Sie angeben. Wenn der Knotenpool vorhanden ist und von Dataproc erstellt wurde, wird überprüft, ob die Einstellungen mit den angegebenen übereinstimmen.

Dataproc on GKE-Knotenpooleinstellungen

Sie können Folgendes angeben: Einstellungen auf Knotenpools, die von Dataproc in virtuellen GKE-Clustern verwendet werden (diese Einstellungen sind eine Teilmenge der Einstellungen für den GKE-Knotenpool):

  • accelerators
  • acceleratorCount
  • acceleratorType
  • gpuPartitionSize*
  • localSsdCount
  • machineType
  • minCpuPlatform
  • minNodeCount
  • maxNodeCount
  • preemptible
  • spot*

Hinweise:

Knotenpool löschen

Wenn ein Dataproc on GKE-Cluster gelöscht wird, werden die vom Cluster verwendeten Knotenpools werden nicht gelöscht. Unter Knotenpool löschen erfahren Sie, wie Sie Knotenpools löschen, die von Dataproc in GKE-Clustern nicht mehr verwendet werden.

Knotenpoolstandort

Sie können die Zone der Knotenpools angeben, die mit Ihrem Dataproc-Cluster in GKE verknüpft sind, wenn Sie den virtuellen Cluster erstellen oder aktualisieren. Die Knotenpoolzonen müssen sich in der Region des zugehörigen virtuellen Clusters befindet.

Zuordnung von Rollen zu Knotenpools

Knotenpoolrollen werden für Spark-Treiber- und Executor-Arbeit definiert. Für alle Arten von Arbeit wird von einem Knotenpool eine Standardrolle definiert. Dataproc on GKE-Cluster müssen Mindestens ein Knotenpool mit der Rolle default. Das Zuweisen weiterer Rollen ist optional.

Empfehlung: Erstellen Sie für jeden Rollentyp separate Knotenpools, deren Knotentyp und ‑größe auf den Rollenanforderungen basieren.

Beispiel für das Erstellen eines virtuellen gcloud CLI-Clusters:

gcloud dataproc clusters gke create "${DP_CLUSTER}" \
  --region=${REGION} \
  --gke-cluster=${GKE_CLUSTER} \
  --spark-engine-version=latest \
  --staging-bucket=${BUCKET} \
  --pools="name=${DP_POOLNAME},roles=default \
  --setup-workload-identity
  --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \
  --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \
  --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"