Quando Compute Engine esegue la manutenzione di una macchina virtuale (VM) con unità di elaborazione grafica (GPU) collegate, la VM deve essere interrotta. Questo perché non è possibile eseguire la migrazione in tempo reale delle VM con GPU collegate.
Devi impostare queste VM in modo che si arrestino per gli eventi di manutenzione dell'host. Puoi impostare le VM arrestate in modo che riavvio automaticamente al termine dell'evento di manutenzione.
Gli eventi di manutenzione dell'host si verificano in genere una volta ogni due settimane, ma a volte potrebbero essere eseguiti più spesso.
Questo documento illustra come ridurre al minimo le interruzioni dei carichi di lavoro durante un evento di manutenzione.
Ricevi un preavviso prima di eventi di manutenzione
Puoi monitorare la pianificazione della manutenzione per l'istanza della macchina virtuale (VM) e preparare i carichi di lavoro per la transizione durante il riavvio del sistema.
Per ricevere un preavviso degli eventi organizzatore, monitora il
Valore dei metadati /computeMetadata/v1/instance/maintenance-event
.
Se la richiesta al server dei metadati restituisce NONE
, l'interruzione della VM non è programmata. Ad esempio, esegui il comando seguente dall'interno di una VM:
curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"
NONE
Se il server metadati restituisce TERMINATE_ON_HOST_MAINTENANCE
, l'interruzione della VM è pianificata. Compute Engine invia alle VM GPU un preavviso di arresto di 1 ora, mentre le VM normali ricevono solo un preavviso di 60 secondi. Configura l'applicazione in modo che effettui la transizione tramite l'evento di manutenzione. Ad esempio, puoi utilizzare una delle seguenti tecniche:
Configura l'applicazione per spostare temporaneamente il lavoro in corso in un bucket Cloud Storage, quindi recupera dopo il riavvio della VM.
Scrivi dati in un disco permanente secondario. Quando la VM si riavvia automaticamente, il Persistent Disk può essere di nuovo in modo da poter riprendere il lavoro.
Passaggi successivi
- Scopri di più sulle piattaforme GPU.
- Per scoprire di più sulla gestione e sull'adattamento alle dimensioni di gruppi di VM, consulta Impostare le dimensioni target del gruppo.
- Per monitorare le prestazioni della GPU, consulta Monitoraggio delle prestazioni della GPU.
- Per migliorare le prestazioni della rete, consulta Utilizzare una larghezza di banda di rete superiore.
- Scopri come risolvere i problemi di arresto e riavvio delle VM.