Avviare manualmente un evento di manutenzione dell'host
Questa pagina spiega come avviare manualmente un evento di manutenzione dell'host sulle VM TPU supportate. Questo è utile per i carichi di lavoro che potrebbero essere interessati da un calo delle prestazioni o da tempi di inattività, per i quali è necessario che il periodo di manutenzione inizi a un'ora specifica.
Quando avvii manualmente un evento di manutenzione, l'evento di manutenzione dell'attività inizia immediatamente. Non puoi specificare una data o un'ora per l'inizio dell'evento di manutenzione. Se non utilizzi questa funzionalità, l'evento di manutenzione si verifica all'ora indicata nella notifica relativa alla manutenzione imminente.
Per informazioni su come avviare manualmente la manutenzione delle TPU in GKE, consulta Gestire l'interruzione dei nodi GKE per GPU e TPU.
Limitazioni
Puoi avviare manualmente un evento di manutenzione dell'host per le VM TPU v6e solo con le seguenti configurazioni:
- VM TPU v6e con la configurazione della topologia
2x4
(v6e-8
se si utilizza il campo del tipo di acceleratore nell'API Cloud TPU) o versioni successive - Pool di nodi GKE multi-host con VM TPU v6e di dimensioni pari o superiori a
2x4
L'avvio immediato della manutenzione dell'host per slice di dimensioni maggiori potrebbe comportare la mancata disponibilità dello slice per alcune ore. Normalmente, un evento di manutenzione dell'host comporta la riprogrammazione del slice il prima possibile su un altro insieme di host idonei, ma per richieste di eventi di manutenzione dell'host più grandi, la capacità potrebbe non essere sufficiente per riprogrammare immediatamente il slice, con un tempo di attesa più lungo.
Inoltre, l'avvio della manutenzione del segmento Cloud TPU avvia la manutenzione di tutte le VM TPU sottostanti. Se esegui la manutenzione direttamente su una delle istanze utilizzando l'API Instances, tutte le istanze all'interno del segmento Cloud TPU entreranno in manutenzione. Utilizza invece l'queued-resources
API Cloud TPU per specificare su quali nodi eseguire la manutenzione.
Avviare manualmente un evento di manutenzione dell'host
Puoi utilizzare le notifiche di manutenzione per determinare quando puoi avviare manualmente un evento di manutenzione su una TPU.
Controllare le informazioni di notifica
Puoi trovare le notifiche per gli eventi di manutenzione imminenti utilizzando l'API Cloud TPU o eseguendo una query sul server dei metadati sulla VM. Per ulteriori informazioni, consulta Visualizzare le notifiche relative alla manutenzione.
Puoi avviare un evento di manutenzione in anticipo quando è presente una notifica di manutenzione dell'host imminente sulla TPU. Per avviare l'evento di manutenzione in anticipo, la notifica di manutenzione imminente dell'host deve avere canReschedule
impostato su true
e maintenanceStatus
impostato su PENDING
.
Avvia l'evento di manutenzione
Per avviare un evento di manutenzione dell'host, puoi utilizzare l'API Cloud TPU con il comando perform-maintenance
:
gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \ --zone=ZONE
Al termine dell'operazione, i campi windowEndTime
e windowStartTime
diventano uguali all'ora in cui hai avviato l'evento di manutenzione e il campo maintenanceStatus
diventa ONGOING
. L'evento di manutenzione dell'organizzatore inizia poco dopo.
Utilizza il comando gcloud alpha compute tpus tpu-vm describe
per visualizzare lo stato dell'evento di manutenzione:
gcloud alpha compute tpus tpu-vm describe TPU_NAME \ --zone=ZONE
L'output contiene una sezione simile alla seguente:
upcomingMaintenance: canReschedule: true latestWindowStartTime: "2025-12-01T19:00:00Z" maintenanceStatus: ONGOING type: SCHEDULED windowEndTime: "2025-12-01T22:00:00Z" windowStartTime: "2025-12-01T19:00:00Z"
La manutenzione è completata quando lo stato della VM TPU è READY
e l'output del comando gcloud alpha compute tpus tpu-vm describe
non contiene più un campo dei metadati upcomingMaintenance
.
Per gli ambienti multislice, puoi avviare manualmente un evento di manutenzione dell'host su slice specifici utilizzando il seguente comando:
gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \ --zone=ZONE --node-names=NODE_NAMES
NODE_NAMES
è un elenco separato da virgole di slice (nodi) nella risorsa in coda per la quale vuoi avviare un evento di manutenzione dell'host. Ad esempio, se la risorsa in coda ha nodi denominati my-qr-0, my-qr-1
e my-qr-2
, un input valido per il comando perform-maintenance
sarebbe --node-names=my-qr-0,my-qr-1
.