Dataproc in GKE-Knotenpools

Wenn Sie einen virtuellen Dataproc in GKE-Cluster erstellen oder aktualisieren, geben Sie einen oder mehrere Knotenpools an, die der virtuelle Cluster zum Ausführen von Jobs verwenden soll. Dieser Cluster wird als Cluster bezeichnet, der von den angegebenen Knotenpools „verwendet“ oder „zugewiesen“ ist. Wenn ein bestimmter Knotenpool in Ihrem GKE-Cluster nicht vorhanden ist, erstellt Dataproc in GKE den Knotenpool im GKE-Cluster mit den von Ihnen angegebenen Einstellungen. Wenn der Knotenpool vorhanden ist und von Dataproc erstellt wurde, wird er validiert, um zu bestätigen, dass die Einstellungen mit den angegebenen Einstellungen übereinstimmen.

Einstellungen für Dataproc in GKE-Knotenpools

Sie können die folgenden Einstellungen für Knotenpools festlegen, die von Ihren virtuellen Dataproc in GKE-Clustern verwendet werden (diese Einstellungen sind eine Teilmenge der Einstellungen für GKE-Knotenpools):

  • accelerators
  • acceleratorCount
  • acceleratorType
  • gpuPartitionSize*
  • localSsdCount
  • machineType
  • minCpuPlatform
  • minNodeCount
  • maxNodeCount
  • preemptible
  • spot*

Hinweise:

Knotenpoollöschung

Wenn ein Dataproc on GKE-Cluster gelöscht wird, werden die vom Cluster verwendeten Knotenpools nicht gelöscht. Unter Knotenpool löschen erfahren Sie, wie Sie Knotenpools löschen, die nicht mehr von Dataproc in GKE-Clustern verwendet werden.

Knotenpoolstandort

Sie können den Zonenstandort von Knotenpools angeben, die mit Ihrem virtuellen Dataproc in GKE-Cluster verknüpft sind, wenn Sie den virtuellen Cluster erstellen oder aktualisieren. Die Knotenpoolzonen müssen sich in der Region des zugehörigen virtuellen Clusters befinden.

Zuordnung von Rolle zu Knotenpool

Knotenpoolrollen werden für Spark-Treiber- und Executor-Arbeiten definiert, wobei eine Standardrolle für alle Arten von Arbeiten eines Knotenpools definiert ist. Dataproc in GKE-Clustern muss mindestens einen Knotenpool haben, dem die Rolle default zugewiesen ist. Das Zuweisen weiterer Rollen ist optional.

Empfehlung:Erstellen Sie für jeden Rollentyp separate Knotenpools mit Knotentyp und -größe basierend auf den Rollenanforderungen.

Beispiel für die Erstellung eines virtuellen Clusters über die gcloud CLI:

gcloud dataproc clusters gke create "${DP_CLUSTER}" \
  --region=${REGION} \
  --gke-cluster=${GKE_CLUSTER} \
  --spark-engine-version=latest \
  --staging-bucket=${BUCKET} \
  --pools="name=${DP_POOLNAME},roles=default \
  --setup-workload-identity
  --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \
  --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \
  --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"