Avviare manualmente un evento di manutenzione dell'host

Questa pagina spiega come avviare manualmente un evento di manutenzione dell'host sulle VM TPU supportate. Questo è utile per i carichi di lavoro che potrebbero essere interessati da un calo delle prestazioni o da tempi di inattività, per i quali è necessario che il periodo di manutenzione inizi a un'ora specifica.

Quando avvii manualmente un evento di manutenzione, l'evento di manutenzione dell'attività inizia immediatamente. Non puoi specificare una data o un'ora per l'inizio dell'evento di manutenzione. Se non utilizzi questa funzionalità, l'evento di manutenzione si verifica all'ora indicata nella notifica relativa alla manutenzione imminente.

Per informazioni su come avviare manualmente la manutenzione delle TPU in GKE, consulta Gestire l'interruzione dei nodi GKE per GPU e TPU.

Limitazioni

Puoi avviare manualmente un evento di manutenzione dell'host per le VM TPU v6e solo con le seguenti configurazioni:

  • VM TPU v6e con la configurazione della topologia 2x4 (v6e-8 se si utilizza il campo del tipo di acceleratore nell'API Cloud TPU) o versioni successive
  • Pool di nodi GKE multi-host con VM TPU v6e di dimensioni pari o superiori a 2x4

L'avvio immediato della manutenzione dell'host per slice di dimensioni maggiori potrebbe comportare la mancata disponibilità dello slice per alcune ore. Normalmente, un evento di manutenzione dell'host comporta la riprogrammazione del slice il prima possibile su un altro insieme di host idonei, ma per richieste di eventi di manutenzione dell'host più grandi, la capacità potrebbe non essere sufficiente per riprogrammare immediatamente il slice, con un tempo di attesa più lungo.

Inoltre, l'avvio della manutenzione del segmento Cloud TPU avvia la manutenzione di tutte le VM TPU sottostanti. Se esegui la manutenzione direttamente su una delle istanze utilizzando l'API Instances, tutte le istanze all'interno del segmento Cloud TPU entreranno in manutenzione. Utilizza invece l'queued-resourcesAPI Cloud TPU per specificare su quali nodi eseguire la manutenzione.

Avviare manualmente un evento di manutenzione dell'host

Puoi utilizzare le notifiche di manutenzione per determinare quando puoi avviare manualmente un evento di manutenzione su una TPU.

Controllare le informazioni di notifica

Puoi trovare le notifiche per gli eventi di manutenzione imminenti utilizzando l'API Cloud TPU o eseguendo una query sul server dei metadati sulla VM. Per ulteriori informazioni, consulta Visualizzare le notifiche relative alla manutenzione.

Puoi avviare un evento di manutenzione in anticipo quando è presente una notifica di manutenzione dell'host imminente sulla TPU. Per avviare l'evento di manutenzione in anticipo, la notifica di manutenzione imminente dell'host deve avere canReschedule impostato su true e maintenanceStatus impostato su PENDING.

Avvia l'evento di manutenzione

Per avviare un evento di manutenzione dell'host, puoi utilizzare l'API Cloud TPU con il comando perform-maintenance:

gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \
    --zone=ZONE

Al termine dell'operazione, i campi windowEndTime e windowStartTime diventano uguali all'ora in cui hai avviato l'evento di manutenzione e il campo maintenanceStatus diventa ONGOING. L'evento di manutenzione dell'organizzatore inizia poco dopo.

Utilizza il comando gcloud alpha compute tpus tpu-vm describe per visualizzare lo stato dell'evento di manutenzione:

gcloud alpha compute tpus tpu-vm describe TPU_NAME \
    --zone=ZONE

L'output contiene una sezione simile alla seguente:

upcomingMaintenance:
    canReschedule: true
    latestWindowStartTime: "2025-12-01T19:00:00Z"
    maintenanceStatus: ONGOING
    type: SCHEDULED
    windowEndTime: "2025-12-01T22:00:00Z"
    windowStartTime: "2025-12-01T19:00:00Z"

La manutenzione è completata quando lo stato della VM TPU è READY e l'output del comando gcloud alpha compute tpus tpu-vm describe non contiene più un campo dei metadati upcomingMaintenance.

Per gli ambienti multislice, puoi avviare manualmente un evento di manutenzione dell'host su slice specifici utilizzando il seguente comando:

gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \
    --zone=ZONE --node-names=NODE_NAMES

NODE_NAMES è un elenco separato da virgole di slice (nodi) nella risorsa in coda per la quale vuoi avviare un evento di manutenzione dell'host. Ad esempio, se la risorsa in coda ha nodi denominati my-qr-0, my-qr-1 e my-qr-2, un input valido per il comando perform-maintenance sarebbe --node-names=my-qr-0,my-qr-1.

Passaggi successivi