Scalabilità di Dataproc sui cluster GKE

Per scalare un cluster Dataproc su GKE, aggiorna la configurazione del gestore della scalabilità del pool o dei pool di nodi associati ai ruoli del driver o dell'executor Spark. Tu e specificare Dataproc su GKE pool di nodi e i relativi ruoli associati quando creare un cluster Dataproc su GKE.

Imposta scalabilità automatica del pool di nodi

Puoi impostare i limiti per la scalabilità automatica del pool di nodi Dataproc su GKE quando crei un cluster virtuale Dataproc su GKE. Se non specificato, i pool di nodi Dataproc su GKE vengono sottoposti a scalabilità automatica con i valori predefiniti (nella versione GA di Dataproc su GKE, i valori predefiniti sono impostati su minimo = 1 e massimo = 10 e sono soggetti a modifiche). Per ottenere valori specifici di scalabilità automatica del pool di nodi minimo e massimo, impostali quando crei il cluster virtuale Dataproc su GKE.

Aggiorna la scalabilità automatica del pool di nodi

Utilizza il seguente comando GKE gcloud container node-pools update per modificare la configurazione della scalabilità automatica di un pool di nodi Dataproc su GKE.

gcloud container node-pools update NODE_POOL_NAME \
    --cluster=GKE_CLUSTER_NAME \
    --region=region \
    --enable-autoscaling \
    --min-nodes=min nodes (must be <= max-nodes) \
    --max-nodes=max nodes (must be >= min-nodes) \

Come funziona la scalabilità automatica di Spark

  1. Quando viene inviato un job, il pod del driver viene pianificato per l'esecuzione nel pool di nodi associato al ruolo del driver Spark.
  2. Il pod del driver chiama lo scheduler GKE per creare i pod dell'executor.
  3. I pod dell'esecutore vengono pianificati nel pool di nodi associato al ruolo dell'esecutore Spark.
  4. Se i pool di nodi hanno la capacità per i pod, questi iniziano a funzionare immediatamente. Se la capacità non è sufficiente, il gestore della scalabilità automatica dei cluster GKE esegue lo scale up del pool di nodi per fornire le risorse richieste, fino al limite specificato dall'utente. Quando i pool di nodi hanno una capacità in eccesso, il gestore della scalabilità automatica dei cluster GKE esegue lo scale down del pool di nodi fino al limite specificato dall'utente.