Gestire gli eventi di manutenzione dell'host GPU

Quando Compute Engine esegue la manutenzione su una macchina virtuale (VM) con Attached Graphics Processing Unit (GPU), la VM deve essere arrestata. Questo perché VM con GPU collegate non può essere sottoposti a migrazione live.

Devi impostare queste VM su interrompi per gli eventi di manutenzione dell'host. Puoi impostare le VM arrestate su riavvio automatico al termine dell'evento di manutenzione.

Gli eventi di manutenzione dell'host si verificano in genere una volta ogni due settimane, ma a volte potrebbero essere eseguiti più spesso.

Questo documento illustra come ridurre al minimo le interruzioni dei carichi di lavoro durante un evento di manutenzione.

Ricevi un preavviso prima di eventi di manutenzione

Puoi monitorare la pianificazione della manutenzione dell'istanza della macchina virtuale (VM) per preparare i carichi di lavoro alla transizione tramite il riavvio del sistema.

Per ricevere un preavviso degli eventi organizzatore, monitora il Valore dei metadati /computeMetadata/v1/instance/maintenance-event. Se la richiesta al server di metadati restituisce NONE, la VM non è pianificato per l'interruzione. Ad esempio, esegui il comando seguente dall'interno di una VM:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Se il server dei metadati restituisce TERMINATE_ON_HOST_MAINTENANCE, La VM è pianificata per l'arresto. Compute Engine offre alle GPU Le VM ricevono un avviso di interruzione di 1 ora, mentre le VM normali ricevono solo con un preavviso di 60 secondi. Configura la tua applicazione per la transizione attraverso di manutenzione. Ad esempio, potresti utilizzare una delle seguenti tecniche:

  • Configura l'applicazione per spostare temporaneamente il lavoro in corso in un bucket Cloud Storage, quindi recupera dopo il riavvio della VM.

  • Scrivi dati in un disco permanente secondario. Quando la VM si riavvia automaticamente, il Persistent Disk può essere di nuovo in modo da poter riprendere il lavoro.

Passaggi successivi