Quando Compute Engine esegue la manutenzione su una macchina virtuale (VM) con Attached Graphics Processing Unit (GPU), la VM deve essere arrestata. Questo perché VM con GPU collegate non può essere sottoposti a migrazione live.
Devi impostare queste VM su interrompi per gli eventi di manutenzione dell'host. Puoi impostare le VM arrestate su riavvio automatico al termine dell'evento di manutenzione.
Gli eventi di manutenzione dell'host si verificano in genere una volta ogni due settimane, ma a volte potrebbero essere eseguiti più spesso.
Questo documento illustra come ridurre al minimo le interruzioni dei carichi di lavoro durante un evento di manutenzione.
Ricevi un preavviso prima di eventi di manutenzione
Puoi monitorare la pianificazione della manutenzione dell'istanza della macchina virtuale (VM) per preparare i carichi di lavoro alla transizione tramite il riavvio del sistema.
Per ricevere un preavviso degli eventi organizzatore, monitora il
Valore dei metadati /computeMetadata/v1/instance/maintenance-event
.
Se la richiesta al server di metadati restituisce NONE
, la VM non è
pianificato per l'interruzione. Ad esempio, esegui il comando seguente dall'interno di una VM:
curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"
NONE
Se il server dei metadati restituisce TERMINATE_ON_HOST_MAINTENANCE
,
La VM è pianificata per l'arresto. Compute Engine offre alle GPU
Le VM ricevono un avviso di interruzione di 1 ora, mentre le VM normali ricevono solo
con un preavviso di 60 secondi. Configura la tua applicazione per la transizione attraverso
di manutenzione. Ad esempio, potresti utilizzare una delle seguenti tecniche:
Configura l'applicazione per spostare temporaneamente il lavoro in corso in un bucket Cloud Storage, quindi recupera dopo il riavvio della VM.
Scrivi dati in un disco permanente secondario. Quando la VM si riavvia automaticamente, il Persistent Disk può essere di nuovo in modo da poter riprendere il lavoro.
Passaggi successivi
- Scopri di più sulle piattaforme GPU.
- Per saperne di più sulla gestione e la scalabilità di gruppi di VM, consulta Imposta la dimensione di destinazione del gruppo.
- Per monitorare le prestazioni della GPU, consulta Monitoraggio delle prestazioni della GPU.
- Per migliorare le prestazioni della rete, vedi Utilizzare una larghezza di banda di rete superiore.
- Scopri come risolvere i problemi di arresti e riavvii delle VM.