Gestire gli eventi di manutenzione degli host GPU


Quando Compute Engine esegue la manutenzione di una macchina virtuale (VM) con unità di elaborazione grafica (GPU) collegate, la VM deve essere interrotta. Questo perché non è possibile eseguire la migrazione in tempo reale delle VM con GPU collegate.

Devi impostare queste VM in modo che si arrestino per gli eventi di manutenzione dell'host. Puoi impostare le VM arrestate in modo che si riavvi automaticamente al termine dell'evento di manutenzione.

Gli eventi di manutenzione dell'host si verificano in genere una volta ogni due settimane, ma a volte potrebbero essere eseguiti più di frequente.

Questo documento illustra come ridurre al minimo le interruzioni dei carichi di lavoro durante un evento di manutenzione.

Ricevere una notifica in anticipo prima degli eventi di manutenzione

Puoi monitorare la pianificazione della manutenzione per l'istanza della tua macchina virtuale (VM) e preparare i tuoi workload per la transizione durante il riavvio del sistema.

Per ricevere un preavviso degli eventi in hosting, monitora il valore dei metadati /computeMetadata/v1/instance/maintenance-event. Se la richiesta al server dei metadati restituisce NONE, l'interruzione della VM non è programmata. Ad esempio, esegui il seguente comando da una VM:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Se il server metadati restituisce TERMINATE_ON_HOST_MAINTENANCE, l'arresto della VM è pianificato. Compute Engine invia alle VM GPU un preavviso di arresto di 1 ora, mentre le VM normali ricevono solo un preavviso di 60 secondi. Configura l'applicazione in modo che effettui la transizione tramite l'evento di manutenzione. Ad esempio, puoi utilizzare una delle seguenti tecniche:

  • Configura l'applicazione in modo da spostare temporaneamente il lavoro in corso in un bucket Cloud Storage, quindi recupera i dati dopo il riavvio della VM.

  • Scrivere i dati su un disco permanente secondario. Quando la VM si riavvia automaticamente, il Persistent Disk può essere nuovamente collegato e l'applicazione può riprendere il lavoro.

Passaggi successivi