Host-Wartungsereignis manuell starten

Auf dieser Seite wird beschrieben, wie Sie auf unterstützten TPU-VMs manuell ein Host-Wartungsereignis starten. Dies ist für solche Arbeitslasten nützlich, auf die sich eine verminderte Leistung bzw. Ausfallzeiten möglicherweise auswirken und für die das Wartungsfenster zu einem bestimmten Zeitpunkt beginnen muss.

Wenn Sie ein Wartungsereignis manuell starten, beginnt das Host-Wartungsereignis sofort. Sie können für den Beginn des Wartungsereignisses kein Datum und keine Uhrzeit angeben. Wenn Sie dieses Feature nicht verwenden, findet das Wartungsereignis zu dem in der Benachrichtigung über die bevorstehende Wartung angegebenen Zeitpunkt statt.

Informationen zum manuellen Starten einer Wartung für TPUs in GKE finden Sie unter GKE-Knotenunterbrechungen für GPUs und TPUs verwalten.

Beschränkungen

Sie können ein Host-Wartungsereignis nur für TPU-VMs mit den folgenden Konfigurationen manuell starten:

Alle TPU-VMs vom Typ v4 oder v5p
TPU-VMs vom Typ v5e oder v6e mit der Topologiekonfiguration 2x4 (z. B. v6e-8, wenn in der Cloud TPU API das Feld „Beschleunigertyp“ verwendet wird) oder größer
GKE v5e- oder v6e-Knotenpools mit mehreren Hosts mit TPU-VMs, die die Größe 2x4 haben oder größer sind

Wenn Sie die Hostwartung für größere Slices sofort starten, kann es sein, dass Slices für bis zu mehrere Stunden nicht verfügbar sind. Normalerweise führt ein Host-Wartungsereignis dazu, dass der Slice so schnell wie möglich auf eine andere geeignete Gruppe von Hosts umgeplant wird. Bei größeren Anfragen für Host-Wartungsereignisse ist möglicherweise nicht genügend Kapazität vorhanden, um den Slice sofort umzuplanen, was zu einer längeren Wartezeit führt.

Wenn Sie die Wartung für den Cloud TPU-Slice starten, wird die Wartung auch für alle zugrunde liegenden TPU-VMs gestartet. Wenn Sie die Wartung direkt auf einer der Instanzen durchführen, die die Instances API verwenden, werden alle Instanzen im Cloud TPU-Slice gewartet. Sie können stattdessen auch die Cloud TPU API queued-resources verwenden, um anzugeben, auf welchen Knoten Wartungsarbeiten durchgeführt werden sollen.

Host-Wartungsereignis manuell starten

Sie können Wartungsbenachrichtigungen verwenden, um zu ermitteln, wann Sie auf einer TPU manuell ein Wartungsereignis starten können.

Benachrichtigungsinformationen prüfen

Sie können die Benachrichtigungen für anstehende Wartungsereignisse über die Cloud TPU API oder durch Abfragen des Metadatenservers auf Ihrer VM abrufen. Weitere Informationen finden Sie unter Wartungsbenachrichtigungen ansehen.

Sie können ein Wartungsereignis dann vorzeitig starten, wenn auf der TPU eine Benachrichtigung über eine bevorstehende Hostwartung angezeigt wird. Damit das Wartungsereignis vorzeitig gestartet werden kann, muss in der Benachrichtigung zur bevorstehenden Hostwartung canReschedule auf true und maintenanceStatus auf PENDING festgelegt sein.

Wartungsereignis starten

Wenn Sie ein Host-Wartungsereignis starten möchten, können Sie die Cloud TPU API mit dem Befehl perform-maintenance verwenden:

gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \
    --zone=ZONE

Wenn der Vorgang abgeschlossen ist, ändert sich der Inhalt der Felder windowEndTime und windowStartTime in die Uhrzeit, zu der Sie das Wartungsereignis gestartet haben, und das Feld maintenanceStatus ändert sich in ONGOING. Das Host-Wartungsereignis beginnt kurz danach.

Verwenden Sie den Befehl gcloud alpha compute tpus tpu-vm describe, um den Status des Wartungsereignisses aufzurufen:

gcloud alpha compute tpus tpu-vm describe TPU_NAME \
    --zone=ZONE

Die Ausgabe enthält einen Abschnitt, der etwa so aussieht:

upcomingMaintenance:
    canReschedule: true
    latestWindowStartTime: "2025-12-01T19:00:00Z"
    maintenanceStatus: ONGOING
    type: SCHEDULED
    windowEndTime: "2025-12-01T22:00:00Z"
    windowStartTime: "2025-12-01T19:00:00Z"

Die Wartung ist dann abgeschlossen, wenn der Status der TPU-VM READY ist und die Ausgabe des Befehls gcloud alpha compute tpus tpu-vm describe kein upcomingMaintenance-Metadatenfeld mehr enthält.

In Multislice-Umgebungen können Sie mit dem folgenden Befehl auf bestimmten Slices auch manuell ein Host-Wartungsereignis starten:

gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \
    --zone=ZONE --node-names=NODE_NAMES

NODE_NAMES ist eine durch Kommas getrennte Liste von Slices (Knoten) in der in die Warteschlange gestellten Ressource, für die Sie ein Host-Wartungsereignis starten möchten. Wenn die in die Warteschlange gestellte Ressource beispielsweise Knoten mit den Namen my-qr-0, my-qr-1 und my-qr-2 hat, wäre --node-names=my-qr-0,my-qr-1 eine gültige Eingabe für den Befehl perform-maintenance.

Host-Wartungsereignis manuell starten

Beschränkungen

Host-Wartungsereignis manuell starten

Benachrichtigungsinformationen prüfen

Wartungsereignis starten

Nächste Schritte