Gestire gli eventi di manutenzione dell'host GPU

Quando Compute Engine esegue la manutenzione su una macchina virtuale (VM) con GPU (Graphics Processing Unit) collegate, la VM deve essere arrestata. Questo perché non è possibile eseguire la migrazione live delle VM con GPU collegate.

Devi impostare queste VM su interrompi per eventi di manutenzione dell'host. Puoi impostare le VM arrestate in modo che riavviano automaticamente al termine dell'evento di manutenzione.

Gli eventi di manutenzione dell'host si verificano in genere una volta ogni due settimane, ma a volte potrebbero essere eseguiti più spesso.

Questo documento illustra come ridurre al minimo le interruzioni dei carichi di lavoro durante un evento di manutenzione.

Ricevi un preavviso prima di eventi di manutenzione

Puoi monitorare la pianificazione della manutenzione dell'istanza della tua macchina virtuale (VM) e preparare i carichi di lavoro per la transizione dopo il riavvio del sistema.

Per ricevere un preavviso degli eventi host, monitora il valore dei metadati /computeMetadata/v1/instance/maintenance-event. Se la richiesta al server dei metadati restituisce NONE, l'arresto della VM non è pianificato. Ad esempio, esegui il comando seguente dall'interno di una VM:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Se il server di metadati restituisce TERMINATE_ON_HOST_MAINTENANCE, la VM è pianificata per l'arresto. Compute Engine avvisa le VM GPU un avviso di 1 ora, mentre le VM normali ricevono un preavviso di solo 60 secondi. Configura la tua applicazione per la transizione tramite l'evento di manutenzione. Ad esempio, potresti utilizzare una delle seguenti tecniche:

  • Configura l'applicazione per spostare temporaneamente il job in corso in un bucket Cloud Storage, quindi recupera i dati dopo il riavvio della VM.

  • Scrivere i dati su un disco permanente secondario. Quando la VM si riavvia automaticamente, il Persistent Disk può essere ricollegato e l'applicazione può riprendere il lavoro.

Che cosa succede dopo?