Dataproc auf GKE-Knotenpools

Wenn Sie einen Dataproc-on-GKE-virtuellen Cluster erstellen oder aktualisieren, geben Sie einen oder mehrere Knotenpools an, die der virtuelle Cluster zum Ausführen von Jobs verwendet. Dieser Cluster wird als Cluster bezeichnet, der „von“ oder „mit“ den angegebenen Knotenpools „verbunden“ ist. Wenn ein angegebener Knotenpool in Ihrem GKE-Cluster nicht vorhanden ist, erstellt Dataproc on GKE den Knotenpool im GKE-Cluster mit den von Ihnen angegebenen Einstellungen. Wenn der Knotenpool vorhanden ist und von Dataproc erstellt wurde, wird geprüft, ob seine Einstellungen mit den angegebenen Einstellungen übereinstimmen.

Dataproc on GKE-Knotenpooleinstellungen

Sie können die folgenden Einstellungen für Knotenpools angeben, die von Ihren Dataproc-virtuellen Clustern in GKE verwendet werden. Diese Einstellungen sind eine Teilmenge der GKE-Knotenpooleinstellungen:

  • accelerators
  • acceleratorCount
  • acceleratorType
  • gpuPartitionSize*
  • localSsdCount
  • machineType
  • minCpuPlatform
  • minNodeCount
  • maxNodeCount
  • preemptible
  • spot*

Hinweise:

Knotenpool löschen

Wenn ein Dataproc on GKE-Cluster gelöscht wird, werden die vom Cluster verwendeten Knotenpools nicht gelöscht. Unter Knotenpool löschen erfahren Sie, wie Sie Knotenpools löschen, die von Dataproc in GKE-Clustern nicht mehr verwendet werden.

Knotenpoolstandort

Sie können die Zone der Knotenpools angeben, die mit Ihrem Dataproc-Cluster in GKE verknüpft sind, wenn Sie den virtuellen Cluster erstellen oder aktualisieren. Die Knotenpoolzonen müssen sich in der Region des zugehörigen virtuellen Clusters befinden.

Zuordnung von Rollen zu Knotenpools

Knotenpoolrollen werden für Spark-Treiber- und Executor-Arbeit definiert. Für alle Arten von Arbeit wird von einem Knotenpool eine Standardrolle definiert. Dataproc-Cluster in GKE-Clustern müssen mindestens einen Knotenpool haben, dem die Rolle default zugewiesen ist. Das Zuweisen anderer Rollen ist optional.

Empfehlung:Erstellen Sie für jeden Rollentyp separate Knotenpools, deren Knotentyp und ‑größe auf den Rollenanforderungen basieren.

Beispiel für die Erstellung eines virtuellen Clusters mit der gcloud CLI:

gcloud dataproc clusters gke create "${DP_CLUSTER}" \
  --region=${REGION} \
  --gke-cluster=${GKE_CLUSTER} \
  --spark-engine-version=latest \
  --staging-bucket=${BUCKET} \
  --pools="name=${DP_POOLNAME},roles=default \
  --setup-workload-identity
  --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \
  --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \
  --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"