Questa pagina è stata tradotta dall'API Cloud Translation.

Gestire l'interruzione dei nodi GKE per GPU e TPU

Autopilot Standard

Durante il ciclo di vita di un cluster GKE a lunga esecuzione, si verificano interruzioni periodiche dei carichi di lavoro a causa di interruzioni dell'infrastruttura cheGoogle Cloud problemi. Questi eventi automatici possono verificarsi per rispondere alle decisioni di pianificazione (eventi di preemption), agli aggiornamenti del control plane o dei nodi, che includono gli upgrade automatici dei nodi GKE (eventi di manutenzione) o la correzione di problemi rilevati (eventi di terminazione).

Questa pagina ti aiuta a capire cosa significa interruzione dei nodi in GKE, a monitorare le notifiche di manutenzione e a ridurre al minimo l'impatto dell'interruzione nei nodi GKE con GPU e TPU collegate.

Questo documento è rivolto agli amministratori e agli operatori della piattaforma che gestiscono il ciclo di vita dell'infrastruttura tecnologica sottostante. Per scoprire di più sui ruoli comuni e sulle attività di esempio a cui facciamo riferimento nei contenuti di Google Cloud , consulta Ruoli utente e attività comuni di GKE.

Che cosa significa interruzione dell'infrastruttura in GKE?

I tuoi cluster GKE gestiscono il ciclo di vita dei nodi GKE. Il provisioning di questi nodi viene eseguito su VM Compute Engine, che periodicamente subiscono le seguenti interruzioni:

Correzione dei problemi rilevati (TerminationEvent): questi eventi si verificano perché Google Cloud rileva un problema e interrompe l'infrastruttura del cluster. Gli eventi TerminationEvent non supportano l'arresto normale. Gli eventi TerminationEvent vengono attivati dai seguenti problemi:
- La riparazione automatica si verifica quando GKE ripara un nodo dopo ripetuti controlli di integrità non riusciti.
- HostError si verifica quando un errore hardware o software sulla macchina fisica causa l'arresto della VM.
Nota: gli eventi di manutenzione di Compute Engine sottostanti sono considerati eventi di manutenzione automatica. Questi eventi ignorano le norme di manutenzione e le esclusioni di GKE.
Eventi di manutenzione o upgrade (MaintenanceEvent): questi eventi si verificano quando Google Cloud deve interrompere una VM per eseguire la manutenzione. Gli eventi MaintenanceEvent vengono attivati dalle seguenti attività di manutenzione:
- Gli eventi di manutenzione si verificano quando Google Cloud esegue l'upgrade dell'host sottostante.
- Gli aggiornamenti dei nodi, che includono gli upgrade automatici dei nodi, si verificano quando GKE aggiorna la versione di Kubernetes in esecuzione sul nodo.
Per saperne di più su come tu e GKE gestite le modifiche durante il ciclo di vita di un cluster, consulta Tipi di modifiche.
Risposta alle decisioni di pianificazione (PreemptionEvent): si verificano quando Google Cloud deve eseguire il preempt delle VM per rendere disponibile la capacità per le risorse con priorità più alta. Gli eventi PreemptionEvent possono essere:
- Rimozione:si verifica quando l'infrastruttura preemptible o Spot viene prerilasciata per ospitare una VM con priorità più alta.
- Defragmentazione:si verifica quando GKE prerilascia una sezione TPU più piccola per ospitare una sezione TPU più grande. La deframmentazione si verifica solo sulle sezioni TPU.

Durante il ciclo di vita di un cluster GKE a lunga esecuzione, i nodi potrebbero subire interruzioni periodiche dei workload di addestramento o di pubblicazione. Quando questi problemi interessano i nodi GKE che eseguono workload AI/ML, GKE deve riavviare sia i workload in esecuzione sia il nodo sottostante.

Perché GPU e TPU richiedono la gestione delle interruzioni

La maggior parte delle VM Compute Engine, con alcune eccezioni, ha la policy di manutenzione dell'host impostata su migrazione live, il che significa che i workload in esecuzione in genere subiscono interruzioni minime o nulle. Tuttavia, alcune classi di VM non supportano la migrazione live, incluse le VM con GPU e TPU collegate. Quando si verifica un evento host nella VM all'interno di uno slice TPU, l'intero slice viene interrotto e poi riprogrammato perché tutti gli eventi di manutenzione sono coordinati a livello di slice. Pertanto, se crei uno slice TPU con centinaia di VM, tutte riceveranno la stessa pianificazione degli eventi di manutenzione.

Quando si verifica un evento host, GKE termina il nodo e i relativi pod. Se i pod vengono sottoposti a deployment nell'ambito di un workload più grande, come un Job o un Deployment, GKE riavvia i pod sul nodo interessato.

Spetta a te o ai framework che utilizzi gestire la configurazione del workload per reagire in modo appropriato agli eventi di manutenzione. Ad esempio, puoi salvare lo stato del job di addestramento dell'AI per ridurre la perdita di dati.

Per gestire le interruzioni sui carichi di lavoro AI/ML, puoi:

Monitorare le interruzioni di nodi e node pool
Monitorare le notifiche di manutenzione
Ridurre al minimo l'impatto delle interruzioni del servizio

Monitorare le interruzioni dei nodi

La seguente metrica di sistema GKE riporta il conteggio delle interruzioni per un nodo GKE dall'ultimo campione (la metrica viene campionata ogni 60 secondi):

kubernetes.io/node/interruption_count

I campi interruption_type (ad esempio TerminationEvent, MaintenanceEvent o PreemptionEvent) e interruption_reason (come HostError, Eviction o AutoRepair) possono aiutarti a capire il motivo per cui un nodo è stato interrotto.

Per ottenere una suddivisione delle interruzioni e delle relative cause nei nodi TPU nei cluster del tuo progetto, utilizza la seguente query PromQL:

  sum by (interruption_type,interruption_reason)(
    sum_over_time(
      kubernetes_io:node_interruption_count{monitored_resource="k8s_node"}[${__interval}]))

Per visualizzare solo gli eventi di manutenzione dell'host, aggiorna la query per filtrare il valore HW/SW Maintenance per interruption_reason. Utilizza la seguente query PromQL:

  sum by (interruption_type,interruption_reason)(
    sum_over_time(
      kubernetes_io:node_interruption_count{monitored_resource="k8s_node", interruption_reason="HW/SW Maintenance"}[${__interval}]))

Per visualizzare il conteggio delle interruzioni aggregato per pool di nodi, utilizza la seguente query PromQL:

  sum by (node_pool_name,interruption_type,interruption_reason)(
    sum_over_time(
      kubernetes_io:node_pool_interruption_count{monitored_resource="k8s_node_pool", interruption_reason="HW/SW Maintenance", node_pool_name=NODE_POOL_NAME }[${__interval}]))

Monitorare le notifiche di manutenzione

Compute Engine invia notifiche quando i nodi e le relative VM sono pianificati per eventi host interruttivi e quando questi eventi diventano attivi. Le notifiche includono informazioni sull'ora di inizio pianificata, sul tipo di evento e altri dettagli.

Su GKE versione 1.31.1-gke.2008000 e successive, puoi monitorare gli eventi di manutenzione imminenti, inclusi quelli descritti in questa sezione.

La manutenzione imminente è pianificata, ma non attiva

Prima che una VM con GPU o TPU collegate abbia un evento di manutenzione pianificato, Compute Engine invia notifiche a tutte le sue VM. Queste notifiche segnalano l'inizio del periodo di manutenzione. Quando una manutenzione imminente è pianificata dalla VM, ma non è attiva, GKE aggiunge scheduled-maintenance-time all'etichetta del nodo.

Per eseguire query su queste notifiche a livello di nodo, esegui questo comando:

kubectl get nodes -l cloud.google.com/scheduled-maintenance-time \
    -L cloud.google.com/scheduled-maintenance-time

L'output è simile al seguente:

NAME                         STATUS    SCHEDULED-MAINTENANCE-TIME
<gke-accelerator-node-name>  Ready     1733083200
<gke-accelerator-node-name>  Ready     1733083200
[...]

La colonna SCHEDULED-MAINTENANCE-TIME rappresenta i secondi, visualizzati nel formato ora epoca di Unix.

Per eseguire query su queste notifiche a livello di metadati del nodo, controlla la presenza di una notifica di evento di manutenzione nelle istanze.

Per le famiglie di macchine ottimizzate per l'acceleratore che supportano la manutenzione avanzata, puoi accedere all'endpoint upcoming-maintenance che fornisce informazioni sugli eventi di manutenzione pianificata e avviata.

Ridurre al minimo l'impatto delle interruzioni

Compute Engine invia notifiche relative agli eventi di manutenzione imminenti e pianifica un periodo di manutenzione. Tra l'ora della notifica e l'ora di inizio del periodo di manutenzione, puoi decidere di:

Avvia manualmente un evento di manutenzione dell'host.
Consenti a Compute Engine di avviare l'evento di manutenzione in base alla pianificazione.

Avvia manualmente un evento di manutenzione dell'host

Quando Compute Engine invia una notifica relativa a un evento di manutenzione pianificato, puoi avviare manualmente la manutenzione in un momento in linea con la tua pianificazione operativa, ad esempio durante i periodi di attività ridotta.

Su un nodo nel pool di nodi, imposta l'etichetta nodo cloud.google.com/perform-maintenance su true. Ad esempio:

kubectl label nodes <node-name> cloud.google.com/perform-maintenance=true

Se avvii un evento di manutenzione, GKE esegue le seguenti operazioni:

Contamina il nodo.
Esegue l'espulsione controllata dei pod.
Richiede a Compute Engine di avviare immediatamente l'evento di manutenzione, anziché attendere l'ora pianificata.

Compute Engine avvia l'evento di manutenzione come pianificato

Se non avvii un evento di manutenzione dell'host, Compute Engine avvia l'evento di manutenzione pianificato autonomamente. A partire dalla versione 1.33 di GKE, il nodo non è contaminato e i pod non vengono rimossi all'inizio del periodo di manutenzione.

Quando inizia l'evento di manutenzione, un nodo potrebbe spegnersi una o più volte con un breve periodo di notifica prima della sua imminente terminazione. In questi casi, GKE fa del suo meglio per terminare i carichi di lavoro ed espelle i pod in modo controllato.

Inizio della manutenzione pianificata

Quando inizia la manutenzione pianificata, Compute Engine aggiorna i metadati nella directory http://metadata.google.internal/computeMetadata/v1/instance/attributes/. Compute Engine aggiorna le etichette dei metadati nel seguente modo:

Imposta maintenance-event su TERMINATE_ON_HOST_MAINTENANCE.
In upcoming-maintenance, imposta maintenance_status su ONGOING.

GKE gestisce un evento di manutenzione dell'host pianificato, a seconda che lo attivi manualmente o che GKE proceda automaticamente.

Configura GKE per terminare i workload in modo controllato

In questa sezione, configurerai GKE per gestire il ciclo di vita dell'applicazione e ridurre al minimo l'interruzione del workload. Se non configuri un periodo di tolleranza, il valore predefinito è 30 secondi.

GKE fa del suo meglio per terminare questi pod in modo controllato ed eseguire l'azione di terminazione definita, ad esempio il salvataggio di uno stato di addestramento. GKE invia un segnale SIGTERM ai pod all'inizio del periodo di tolleranza. Se i pod non vengono chiusi entro la fine del periodo di tolleranza, GKE invia un segnale SIGKILL di follow-up a tutti i processi ancora in esecuzione in qualsiasi container del pod.

Per configurare il periodo di interruzione controllata, imposta il periodo di tolleranza per l'interruzione (in secondi) nel campo spec.terminationGracePeriodSeconds del manifest del pod. Ad esempio, per ricevere una notifica 10 minuti prima, imposta il campo spec.terminationGracePeriodSeconds nel manifest del pod su 600 secondi, come segue:

    spec:
      terminationGracePeriodSeconds: 600

Ti consigliamo di impostare un periodo di tolleranza per la chiusura sufficientemente lungo da consentire il completamento di eventuali attività in corso entro il periodo di tempo della notifica. Se il tuo workload utilizza un framework ML come MaxText, Pax o JAX con Orbax, i workload possono acquisire il segnale di arresto SIGTERM e avviare un processo di creazione di checkpoint. Per saperne di più, consulta TPU Autocheckpoint.

Procedura di arresto controllato

Quando inizia un evento di manutenzione avviato manualmente, Compute Engine segnala l'arresto imminente della macchina aggiornando la chiave di metadati maintenance-event. GKE avvia l'arresto controllato.

Il seguente flusso di lavoro mostra come GKE esegue l'arresto normale del nodo quando è imminente un arresto del nodo:

Entro 60 secondi, si verifica quanto segue:
1. I componenti di sistema applicano il set di etichette dei nodi cloud.google.com/active-node-maintenance a ONGOING per indicare che i carichi di lavoro vengono arrestati.
2. GKE applica l'incompatibilità del nodo per impedire la pianificazione di nuovi pod sul nodo. L'incompatibilità ha la chiave cloud.google.com/impending-node-termination:NoSchedule. Ti consigliamo di non modificare i tuoi workload per tollerare questa contaminazione a causa dell'interruzione nota che si verifica.
Il componente maintenance-handler inizia a eliminare i pod eliminando prima i pod del workload e poi i pod di sistema (ad esempio kube-system).
GKE invia un segnale di arresto SIGTERM ai pod del workload in esecuzione sul nodo per avvisarli di un arresto imminente. I pod possono utilizzare questo avviso per completare le attività in corso. GKE fa del suo meglio per terminare questi pod in modo controllato.
Al termine dell'espulsione, GKE aggiorna il valore dell'etichetta cloud.google.com/active-node-maintenance a terminating per indicare che il nodo è pronto per la terminazione.

Successivamente, si verifica la terminazione del nodo e viene allocato un nodo di sostituzione. GKE cancella le etichette e i taint al termine della procedura. Per aumentare la finestra di interruzione per i tuoi carichi di lavoro che utilizzano GPU o TPU, completa i passaggi nella sezione Avviare manualmente un evento di manutenzione dell'host.

Monitorare l'avanzamento di una chiusura normale attiva

Puoi filtrare i log GKE in base ai seguenti eventi di terminazione controllata:

Quando la VM rileva un'interruzione dovuta a un'imminente terminazione del nodo, ad esempio un evento di manutenzione dell'host Compute Engine, GKE imposta cloud.google.com/active-node-maintenance su ONGOING quando i workload vengono arrestati e su terminating quando i workload sono terminati e il nodo è pronto per la terminazione.
Quando impedisce la pianificazione di nuovi workload, GKE applica il taint cloud.google.com/impending-node-termination:NoSchedule.

Ridurre al minimo l'interruzione dei carichi di lavoro in esecuzione con la manutenzione opportunistica

Puoi ridurre al minimo l'interruzione dei workload in esecuzione attivando automaticamente la manutenzione quando GKE rileva che i nodi con GPU o TPU sono inattivi. Per attivare questa funzionalità, crea un nuovo pool di nodi. Non puoi abilitare la manutenzione opportunistica su un pool di nodi esistente.

Crea un nuovo pool di nodi con manutenzione opportunistica

Il seguente comando mostra come creare un pool di nodi con la manutenzione opportunistica abilitata:

gcloud beta container node-pools create NODE_POOL_NAME \
    --cluster CLUSTER_NAME \
    --accelerator ACCELERATOR_ARG \
    --machine-type MACHINE_TYPE \
    --num-nodes NODE_COUNT \
    --zone ZONE \
    --project=PROJECT_ID \
    --opportunistic-maintenance=node-idle-time=NODE_IDLE_TIME,min-nodes=MIN_NODES,window=WINDOW

Sostituisci i seguenti valori:

NODE_POOL_NAME: il nome del tuo pool di nodi GKE.
CLUSTER_NAME : il nome del tuo cluster GKE.
NODE_IDLE_TIME : il periodo di tempo durante il quale un nodo può rimanere inattivo (ovvero non sono in esecuzione carichi di lavoro che consumano acceleratori) prima che venga attivata la manutenzione. Il valore rappresenta la durata in secondi, con un massimo di nove cifre frazionarie, e termina con il carattere s, ad esempio: 80000s.
MIN_NODES : il numero minimo di nodi che devono essere disponibili in un pool di nodi. Questa opzione blocca la manutenzione se il numero di nodi in esecuzione scende al di sotto di questo valore, ad esempio 10.
WINDOW : l'intervallo di tempo, in secondi, in cui può essere eseguita la manutenzione opportunistica. Il valore termina con il carattere s. Ad esempio, un valore di 14 giorni, o 1209600s, implica che la manutenzione opportunistica può essere eseguita solo nelle due settimane precedenti la data di manutenzione pianificata. Un valore di 28 giorni, o 2419200s, consente l'esecuzione della manutenzione opportunistica in qualsiasi momento durante il periodo di manutenzione pianificato. Questa finestra per la manutenzione dell'host Compute Engine è diversa dai periodi di manutenzione di GKE, che determinano quando può essere eseguita la manutenzione del cluster GKE e vengono configurati separatamente.

Configurazione di esempio per la manutenzione opportunistica

Considera l'esempio seguente. Hai un pool di nodi con quattro nodi e la configurazione della manutenzione opportunistica è impostata su --opportunistic-maintenance=node-idle-time=600s,window=2419200s,min-nodes=3. In questo scenario, si verifica quanto segue:

node1 ha un carico di lavoro GPU in esecuzione. Questo nodo non è inattivo, quindi viene ignorato.
node2 è inattivo da 60 secondi. Questo nodo non è rimasto inattivo per un periodo di tempo sufficiente, quindi viene ignorato.
node3 è inattivo da 600 secondi. Questo nodo soddisfa il requisito di inattività.
node4 è inattivo da 600 secondi. Questo nodo soddisfa il requisito di inattività.

Sia node3 che node4 soddisfano il requisito di inattività. Tuttavia, solo uno di questi nodi attiverà la manutenzione opportunistica perché il valore dell'opzione min-nodes è impostato su 3.

Controlla la configurazione e lo stato dei nodi con manutenzione opportunistica

Controlla se la manutenzione opportunistica è configurata per un nodo eseguendo il seguente comando:

kubectl describe node NODE_NAME | grep node.gke.io/opportunistic-config

Sostituisci NODE_NAME con il nome del nodo che vuoi controllare.

Controlla se un nodo configurato con la manutenzione opportunistica è attualmente in manutenzione:

kubectl describe node NODE_NAME | grep node.gke.io/maintenance-state

Se il nodo viene attivato dalla manutenzione opportunistica, l'annotazione maintenance-state mostra opportunistic-triggered come true.

Limitazioni

Tieni presente le seguenti limitazioni della manutenzione opportunistica:

Questa funzionalità può essere utilizzata solo con i node pool GPU e TPU.
La manutenzione opportunistica non è compatibile con la scalabilità automatica dei cluster perché il gestore della scalabilità automatica dei cluster esegue già lo scale down dei nodi inattivi.
Per i node pool TPU multi-host, il valore dell'impostazione min-nodes-per-pool deve essere 0 perché questi node pool sono atomici.
La versione minima supportata di GKE è 1.33.3-gke.1118000.
È supportata solo la manutenzione pianificata che include la can_reschedule=TRUE notifica.
Per disattivare questa funzionalità, devi ricreare il pool di nodi senza i flag corrispondenti. In alternativa, puoi disattivare manualmente la funzionalità su nodi specifici con cloud.google.com/opportunistic-disable=true.
In rari casi, il completamento della manutenzione di un nodo potrebbe richiedere più tempo. I clienti che utilizzano questa funzionalità potrebbero riscontrare un numero inferiore di nodi disponibili, fino al valore dell'impostazione min-nodes-per-pool, per un determinato periodo di tempo.