Scalabilità di Dataproc sui cluster GKE

Per scalare un cluster Dataproc su GKE, aggiorna la configurazione del gestore della scalabilità automatica del node pool o dei node pool associati ai ruoli di driver Spark o executor Spark. Specifichi i pool di nodi e i ruoli associati di Dataproc su GKE quando crei un cluster Dataproc su GKE.

Imposta la scalabilità automatica del pool di nodi

Puoi impostare i limiti per la scalabilità automatica del pool di nodi di Dataproc su GKE quando crei un cluster virtuale Dataproc su GKE. Se non specificati, i pool di nodi Dataproc su GKE vengono scalati automaticamente con valori predefiniti (al momento del rilascio GA di Dataproc su GKE, i valori predefiniti sono impostati su minimo = 1 e massimo = 10, che sono soggetti a modifiche). Per ottenere valori specifici di scalabilità automatica minima e massima del pool di nodi, impostali quando crei il cluster virtuale Dataproc su GKE.

Aggiorna la scalabilità automatica del pool di nodi

Utilizza il seguente comando GKE gcloud container node-pools update per modificare la configurazione di scalabilità automatica di un pool di nodi Dataproc su GKE.

gcloud container node-pools update NODE_POOL_NAME \
    --cluster=GKE_CLUSTER_NAME \
    --region=region \
    --enable-autoscaling \
    --min-nodes=min nodes (must be <= max-nodes) \
    --max-nodes=max nodes (must be >= min-nodes) \

Come funziona la scalabilità automatica di Spark

  1. Quando viene inviato un job, l'esecuzione del pod driver è pianificata nel pool di nodi associato al ruolo di driver Spark.
  2. Il pod driver chiama lo scheduler GKE per creare i pod executor.
  3. I pod esecutore vengono pianificati sul pool di nodi associato al ruolo di esecutore Spark.
  4. Se i pool di nodi hanno capacità per i pod, questi iniziano a essere eseguiti immediatamente. Se la capacità è insufficiente, il gestore della scalabilità automatica dei cluster GKE aumenta il pool di nodi per fornire le risorse richieste, fino al limite specificato dall'utente. Quando i pool di nodi hanno capacità in eccesso, il gestore della scalabilità automatica dei cluster GKE riduce le dimensioni del pool di nodi fino al limite specificato dall'utente.