Diese Seite wurde von der Cloud Translation API übersetzt.

GPU-Hostwartungen

Wenn Compute Engine Wartungsarbeiten an einer VM mit angehängten GPUs durchführt, muss die VM beendet werden. Das liegt daran, dass VMs mit angehängten GPUs nicht live migriert werden können.

Sie müssen diese VMs so einstellen, dass sie bei Hostwartungsereignissen beendet werden. Sie können die beendeten VMs so einstellen, dass sie nach einer Hostwartung automatisch neu gestartet werden.

Hostwartungen werden in der Regel alle zwei Wochen, möglicherweise aber öfter ausgeführt.

In diesem Dokument wird beschrieben, wie Sie Unterbrechungen Ihrer Arbeitslasten während eines Wartungsereignisses minimieren können.

Vorabbenachrichtigungen vor Wartungsereignissen erhalten

Sie können den Wartungsplan für Ihre VM-Instanz überwachen und Ihre Arbeitslasten auf den Übergang beim Neustart des Systems vorbereiten.

Um im Voraus eine Warnung über Hostereignisse zu erhalten, führen Sie ein Monitoring des Metadatenwerts /computeMetadata/v1/instance/maintenance-event durch. Wenn die Anfrage an den Metadatenserver NONE zurückgibt, ist die Beendigung der VM nicht geplant. Führen Sie in einer VM beispielsweise den folgenden Befehl aus:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Wenn der Metadatenserver TERMINATE_ON_HOST_MAINTENANCE zurückgibt, ist die Beendigung Ihrer VM geplant. Compute Engine sendet den GPU-VMs eine Stunde vorher eine Warnung, während normale VMs nur 60 Sekunden im Voraus gewarnt werden. Konfigurieren Sie Ihre Anwendung für die Umstellung durch das Wartungsereignis. Beispielsweise können Sie eine der folgenden Methoden verwenden:

Konfigurieren Sie Ihre Anwendung so, dass laufende Arbeiten vorübergehend in einen Cloud Storage-Bucket verschoben werden. Rufen Sie diese Daten dann nach dem Neustart der VM ab.
Schreiben Sie Daten in einen sekundären Persistent Disk. Nachdem die VM automatisch neu gestartet wurde, kann der Persistent Disk wieder angehängt werden und Ihre Anwendung setzt die Arbeit fort.

Nächste Schritte

Weitere Informationen zu GPU-Plattformen
Weitere Informationen zum Verwalten und Skalieren von VM-Gruppen finden Sie unter Zielgröße der Gruppe festlegen.
Informationen zum Überwachen der GPU-Leistung finden Sie unter GPU-Leistung überwachen.
Informationen zum Verbessern der Netzwerkleistung finden Sie unter Höhere Netzwerkbandbreite verwenden.
Fehler beim Herunterfahren und Neustarten von VMs beheben