Hostwartungsereignis manuell starten

Auf dieser Seite wird erläutert, wie Sie ein Host-Wartungsereignis auf unterstützten TPU-VMs manuell starten. Dies ist für Arbeitslasten nützlich, die möglicherweise von einer Leistungsbeeinträchtigung oder Ausfallzeit betroffen sind und bei denen das Wartungsfenster zu einer bestimmten Zeit beginnen muss.

Wenn Sie ein Wartungsereignis manuell starten, beginnt das Host-Wartungsereignis sofort. Sie können kein Datum oder keine Uhrzeit für den Beginn des Wartungsereignisses angeben. Wenn Sie diese Funktion nicht verwenden, erfolgt das Wartungsereignis zur in der Benachrichtigung zur bevorstehenden Wartung angegebenen Zeit.

Informationen zum manuellen Starten einer Wartung für TPUs in GKE finden Sie unter GKE-Knotenunterbrechungen für GPUs und TPUs verwalten.

Beschränkungen

Sie können ein Hostwartungsereignis für TPU v6e-VMs nur mit den folgenden Konfigurationen manuell starten:

  • TPU v6e-VMs mit der Topologiekonfiguration 2x4 (v6e-8, wenn das Feld „Accelerator Type“ in der Cloud TPU API verwendet wird) oder höher
  • GKE-Knotenpools mit mehreren Hosts mit TPU v6e-VMs mit einer Größe von 2x4 oder mehr

Wenn Sie bei größeren Slices sofort eine Hostwartung starten, kann es bis zu mehrere Stunden dauern, bis der Slice wieder verfügbar ist. Normalerweise wird der Ausschnitt bei einem Hostwartungsereignis so schnell wie möglich auf eine andere geeignete Gruppe von Hosts umverteilt. Bei größeren Anfragen für Hostwartungsereignisse ist die Kapazität jedoch möglicherweise nicht ausreichend, um den Ausschnitt sofort umzuverteilen. Dies führt zu einer längeren Wartezeit.

Wenn Sie die Wartung des Cloud TPU-Slabs starten, wird auch die Wartung aller zugrunde liegenden TPU-VMs gestartet. Wenn Sie die Wartung direkt über die Instances API auf einer der Instanzen durchführen, werden alle Instanzen im Cloud TPU-Speicherbereich in den Wartungsmodus versetzt. Verwenden Sie stattdessen die queued-resources Cloud TPU API, um anzugeben, für welche Knoten die Wartung durchgeführt werden soll.

Hostwartungsereignis manuell starten

Anhand von Wartungsbenachrichtigungen können Sie feststellen, wann Sie ein Wartungsereignis auf einer TPU manuell starten können.

Benachrichtigungsinformationen prüfen

Sie können Benachrichtigungen zu anstehenden Wartungsereignissen über die Cloud TPU API oder durch Abfragen des Metadatenservers auf Ihrer VM abrufen. Weitere Informationen finden Sie unter Wartungsbenachrichtigungen aufrufen.

Sie können ein Wartungsereignis im Voraus starten, wenn auf der TPU eine Benachrichtigung über anstehende Hostwartung angezeigt wird. Wenn das Wartungsereignis vorzeitig gestartet werden soll, muss in der Benachrichtigung zur bevorstehenden Hostwartung canReschedule auf true und maintenanceStatus auf PENDING festgelegt sein.

Wartungsereignis starten

Sie können die Cloud TPU API mit dem Befehl perform-maintenance verwenden, um ein Hostwartungsereignis zu starten:

gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \
    --zone=ZONE

Wenn der Vorgang abgeschlossen ist, ändern sich die Felder windowEndTime und windowStartTime in die Uhrzeit, zu der Sie das Wartungsereignis gestartet haben, und das Feld maintenanceStatus in ONGOING. Das Host-Wartungsereignis beginnt kurz darauf.

Verwenden Sie den Befehl gcloud alpha compute tpus tpu-vm describe, um den Status des Wartungsereignisses aufzurufen:

gcloud alpha compute tpus tpu-vm describe TPU_NAME \
    --zone=ZONE

Die Ausgabe enthält einen Abschnitt, der etwa so aussieht:

upcomingMaintenance:
    canReschedule: true
    latestWindowStartTime: "2025-12-01T19:00:00Z"
    maintenanceStatus: ONGOING
    type: SCHEDULED
    windowEndTime: "2025-12-01T22:00:00Z"
    windowStartTime: "2025-12-01T19:00:00Z"

Die Wartung ist abgeschlossen, wenn der Status der TPU-VM READY ist und die Ausgabe des Befehls gcloud alpha compute tpus tpu-vm describe kein Metadatenfeld upcomingMaintenance mehr enthält.

In Multi-Slice-Umgebungen können Sie ein Hostwartungsereignis für bestimmte Slices manuell mit dem folgenden Befehl starten:

gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \
    --zone=ZONE --node-names=NODE_NAMES

NODE_NAMES ist eine durch Kommas getrennte Liste von Slices (Knoten) in der Ressourcenwarteschlange, für die ein Hostwartungsereignis gestartet werden soll. Wenn die in der Warteschlange befindliche Ressource beispielsweise die Knoten my-qr-0, my-qr-1 und my-qr-2 hat, ist --node-names=my-qr-0,my-qr-1 eine gültige Eingabe für den Befehl perform-maintenance.

Nächste Schritte