Gestire gli eventi di manutenzione dell'host GPU

Non è possibile eseguire la migrazione live delle VM con GPU collegate. Devi impostare queste VM in modo che vengano interrotte per gli eventi di manutenzione dell'host. Se necessario, puoi impostare le VM arrestate in modo che si riavviino automaticamente al termine dell'evento di manutenzione. Gli eventi di manutenzione dell'host su Compute Engine hanno una frequenza di una volta ogni due settimane, ma a volte possono essere eseguiti con maggiore frequenza.

Per ridurre al minimo le interruzioni dei carichi di lavoro durante un evento di manutenzione, puoi monitorare il piano di manutenzione per l'istanza di macchina virtuale (VM) e preparare i carichi di lavoro per la transizione attraverso il riavvio del sistema.

Per ricevere un preavviso relativo agli eventi host, monitora il valore dei metadati /computeMetadata/v1/instance/maintenance-event. Se la richiesta al server dei metadati restituisce NONE, la VM non è pianificata per l'arresto. Ad esempio, esegui questo comando da una VM:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Se il server dei metadati restituisce TERMINATE_ON_HOST_MAINTENANCE, la VM viene pianificata per l'arresto. Compute Engine indica alle VM GPU un preavviso di interruzione di un'ora, mentre le VM normali ricevono un preavviso solo di 60 secondi. Configura la tua applicazione per la transizione tramite l'evento di manutenzione. Ad esempio, potresti utilizzare una delle seguenti tecniche:

  • Configura la tua applicazione per spostare temporaneamente i lavori in corso in un bucket di Cloud Storage, quindi recupera i dati dopo il riavvio della VM.

  • Scrivere dati in un disco permanente secondario. Quando la VM si riavvia automaticamente, il disco permanente può essere ricollegato e l'applicazione può riprendere il lavoro.

Che cosa succede dopo?