Questa pagina è stata tradotta dall'API Cloud Translation.

Scalabilità automatica pod orizzontale

Autopilot Standard

Questa pagina fornisce una panoramica della scalabilità automatica orizzontale dei pod e spiega come funziona in Google Kubernetes Engine (GKE). Puoi anche scoprire come configurare e utilizzare la scalabilità automatica orizzontale dei pod sui tuoi cluster.

Horizontal Pod Autoscaler modifica la forma del tuo workload Kubernetes aumentando o diminuendo automaticamente il numero di pod in risposta al consumo di CPU o memoria del workload oppure in risposta a metriche personalizzate segnalate da Kubernetes o a metriche esterne provenienti da fonti esterne al cluster.

I cluster GKE con il provisioning automatico dei nodi scalano automaticamente il numero di nodi nel cluster in base alle variazioni del numero di pod. Per questo motivo, ti consigliamo di utilizzare la scalabilità automatica orizzontale dei pod per tutti i cluster.

Perché utilizzare la scalabilità automatica orizzontale dei pod

Quando esegui il deployment del carico di lavoro in un cluster Kubernetes per la prima volta, potresti non avere la certezza dei requisiti delle risorse e di come questi potrebbero cambiare a seconda dei pattern di utilizzo, delle dipendenze esterne o di altri fattori. La scalabilità automatica orizzontale dei pod contribuisce a garantire che il tuo workload funzioni in modo coerente in diverse situazioni e ti consente di controllare i costi pagando solo la capacità aggiuntiva quando ne hai bisogno.

Non è sempre facile prevedere gli indicatori che mostrano se il tuo workload è sottoutilizzato o non dispone di risorse sufficienti. Horizontal Pod Autoscaler può scalare automaticamente il numero di pod nel tuo workload in base a una o più metriche dei seguenti tipi:

Utilizzo effettivo delle risorse: quando l'utilizzo di CPU o memoria di un determinato pod supera una soglia. Può essere espresso come valore grezzo o come percentuale dell'importo richiesto dal pod per la risorsa.
Metriche personalizzate: basate su qualsiasi metrica segnalata da un oggetto Kubernetes in un cluster, ad esempio la frequenza delle richieste client al secondo o le scritture I/O al secondo.

Questa opzione può essere utile se la tua applicazione è soggetta a colli di bottiglia della rete, piuttosto che della CPU o della memoria.
Metriche esterne: basate su una metrica di un'applicazione o di un servizio esterno al cluster.

Ad esempio, il tuo workload potrebbe aver bisogno di più CPU quando acquisisce un numero elevato di richieste da una pipeline come Pub/Sub. Puoi creare una metrica esterna per le dimensioni della coda e configurare Horizontal Pod Autoscaler in modo che aumenti automaticamente il numero di pod quando le dimensioni della coda raggiungono una determinata soglia e riduca il numero di pod quando le dimensioni della coda si riducono.

Puoi combinare un Horizontal Pod Autoscaler con un gestore della scalabilità automatica verticale dei pod, con alcune limitazioni.

Come funziona la scalabilità automatica orizzontale dei pod

Ogni Horizontal Pod Autoscaler configurato funziona utilizzando un ciclo di controllo. Esiste un Horizontal Pod Autoscaler separato per ogni carico di lavoro. Ogni gestore della scalabilità automatica pod orizzontale controlla periodicamente le metriche di un determinato workload rispetto alle soglie target che configuri e modifica automaticamente la forma del workload.

Risorse per pod

Per le risorse allocate per pod, come la CPU, il controller esegue query sull'API delle metriche delle risorse per ogni container in esecuzione nel pod.

Se specifichi un valore non elaborato per la CPU o la memoria, viene utilizzato il valore.
Se specifichi un valore percentuale per la CPU o la memoria, lo Horizontal Pod Autoscaler calcola il valore di utilizzo medio come percentuale delle richieste di CPU o memoria del pod.
Le metriche personalizzate ed esterne sono espresse come valori grezzi o medi.

Il controller utilizza il valore medio o non elaborato di una metrica segnalata per produrre un rapporto e lo utilizza per la scalabilità automatica del workload. Puoi leggere una descrizione dell'algoritmo di scalabilità automatica orizzontale dei pod nella documentazione del progetto Kubernetes.

Rispondere a più metriche

Se configuri un workload per la scalabilità automatica in base a più metriche, Horizontal Pod Autoscaler valuta ogni metrica separatamente e utilizza l'algoritmo di scalabilità per determinare la nuova scalabilità del workload in base a ciascuna metrica. Per l'azione di scalabilità automatica viene selezionata la scala più grande.

Se una o più metriche non sono disponibili per qualche motivo, Horizontal Pod Autoscaler esegue comunque lo scale up in base alle dimensioni più grandi calcolate, ma non lo scale down.

Prevenire il thrashing

Il termine Thrashing si riferisce a una situazione in cui Horizontal Pod Autoscaler tenta di eseguire azioni di scalabilità automatica successive prima che il carico di lavoro finisca di rispondere alle azioni di scalabilità automatica precedenti. Per evitare il thrashing, Horizontal Pod Autoscaler sceglie il consiglio più grande in base agli ultimi cinque minuti.

Limitazioni

Non utilizzare Horizontal Pod Autoscaler insieme a Vertical Pod Autoscaler su CPU o memoria. Puoi utilizzare Horizontal Pod Autoscaler con Vertical Pod Autoscaler per altre metriche. Puoi configurare la scalabilità automatica multidimensionale dei pod (in versione beta) per scalare orizzontalmente la CPU e verticalmente la memoria contemporaneamente.
Se hai un deployment, non configurare scalabilità automatica orizzontale dei pod orizzontale sul ReplicaSet o sul controller di replica che lo supporta. Quando esegui un aggiornamento in sequenza del deployment o del controller di replica, questo viene sostituito da un nuovo controller di replica. Configura invece la scalabilità automatica orizzontale dei pod sul deployment stesso.
Non puoi utilizzare la scalabilità automatica pod orizzontale per i carichi di lavoro che non possono essere scalati, come i DaemonSet.
La scalabilità automatica orizzontale dei pod espone le metriche come risorse Kubernetes, il che impone limitazioni ai nomi delle metriche, ad esempio nessun carattere maiuscolo o "/". L'adattatore della metrica potrebbe consentire la ridenominazione. Ad esempio, vedi l'operatore prometheus-adapter as.
Horizontal Pod Autoscaler non eseguirà fare lo scale down se una delle metriche che è configurato per monitorare non è disponibile. Per verificare se hai metriche non disponibili, consulta Visualizzazione dei dettagli di un gestore della scalabilità automatica orizzontale dei pod.

Scalabilità

Sebbene Horizontal Pod Autoscaler non abbia un limite rigido al numero di oggetti HPA supportati, le sue prestazioni possono essere influenzate all'aumentare di questo numero. Nello specifico, il periodo tra i ricalcoli di HPA potrebbe diventare più lungo dei 15 secondi standard.

Nella versione secondaria di GKE 1.22 o successive, il periodo di ricalcolo deve rimanere entro 15 secondi con un massimo di 300 oggetti HPA.
Nella versione secondaria di GKE 1.31 o successive, se è configurato il profilo HPA per il rendimento, il periodo di ricalcolo deve rimanere entro 15 secondi con un massimo di 1000 oggetti HPA. Scopri come configurare il profilo HPA per il rendimento.
Nella versione secondaria di GKE 1.33 o successive, se è configurato il profilo HPA per il rendimento, il periodo di ricalcolo deve rimanere entro 15 secondi con un massimo di 5000 oggetti HPA. Il profilo HPA per il rendimento è attivato per impostazione predefinita in tutti i cluster che soddisfano i requisiti.

Anche i seguenti fattori possono influire sul rendimento:

Scalabilità su più metriche: ogni metrica aggiunge una chiamata di recupero per i calcoli dei consigli, il che influisce sul periodo di ricalcolo.
Latenza dello stack di metriche personalizzate: i tempi di risposta superiori a circa 50 millisecondi sarebbero superiori a quelli osservati in genere con le metriche Kubernetes standard, il che influisce sul periodo di ricalcolo.

Interagire con gli oggetti `HorizontalPodAutoscaler`

Puoi configurare un Horizontal Pod Autoscaler per un workload e ottenere informazioni sugli eventi di scalabilità automatica e sulle relative cause visitando la pagina Workload nella console Google Cloud .

Ogni Horizontal Pod Autoscaler esiste nel cluster come oggetto HorizontalPodAutoscaler. Puoi utilizzare comandi come kubectl get hpa o kubectl describe hpa HPA_NAME per interagire con questi oggetti.

Puoi anche creare oggetti HorizontalPodAutoscaler utilizzando il comando kubectl autoscale.

Passaggi successivi

Scopri come configurare la scalabilità automatica orizzontale dei pod.
Scopri come scalare manualmente un'applicazione
Scopri come scalare a zero utilizzando KEDA
Scopri di più su Vertical Pod Autoscaler
Scopri di più sul gestore della scalabilità automatica dei cluster