Dataproc on GKE-Cluster skalieren

Zum Skalieren eines Dataproc on GKE-Clusters aktualisieren Sie die Autoscaling-Konfiguration der Knotenpools, die mit den Spark-Treibern oder den Spark-Executor-Rollen verknüpft sind. Sie geben Dataproc in GKE-Knotenpools und die zugehörigen Rollen an, wenn Sie einen Dataproc in GKE-Cluster erstellen.

Autoscaling für Knotenpools festlegen

Sie können die Grenzen für das Autoscaling von Dataproc in GKE-Knotenpools festlegen, wenn Sie einen virtuellen Dataproc in GKE-Cluster erstellen. Wenn nicht angegeben, werden Dataproc on GKE-Knotenpools automatisch mit Standardwerten skaliert. Beim GA-Release von Dataproc on GKE werden die Standardwerte auf Minimum = 1 und Maximum = 10 festgelegt. Diese Werte können sich ändern. Um bestimmte Mindest- und Höchstwerte für das Autoscaling von Knotenpools zu erhalten, legen Sie diese beim Erstellen des virtuellen Dataproc in GKE-Clusters fest.

Autoscaling von Knotenpools aktualisieren

Verwenden Sie den folgenden GKE-Befehl gcloud container node-pools update, um die Autoscaling-Konfiguration eines Dataproc in GKE-Knotenpools zu ändern.

gcloud container node-pools update NODE_POOL_NAME \
    --cluster=GKE_CLUSTER_NAME \
    --region=region \
    --enable-autoscaling \
    --min-nodes=min nodes (must be <= max-nodes) \
    --max-nodes=max nodes (must be >= min-nodes) \

Funktionsweise von Spark-Autoscaling

  1. Wenn ein Job gesendet wird, wird der Treiber-Pod planmäßig auf dem Knotenpool ausgeführt, der mit der Spark-Treiberrolle verknüpft ist.
  2. Der Treiber-Pod ruft den GKE-Planer auf, um Executor-Pods zu erstellen.
  3. Executor-Pods werden auf dem Knotenpool geplant, der mit der Spark-Executor-Rolle verknüpft ist.
  4. Wenn die Knotenpools über Kapazität für die Pods verfügen, werden die Pods sofort ausgeführt. Wenn die Kapazität nicht ausreicht, skaliert GKE-Cluster Autoscaler den Knotenpool hoch, um die angeforderten Ressourcen bis zum vom Nutzer angegebenen Limit bereitzustellen. Wenn Knotenpools überschüssige Kapazitäten haben, skaliert GKE-Cluster Autoscaler den Knotenpool bis auf sein benutzerdefiniertes Limit herunter.