GPU-Hostwartungen


Wenn die Compute Engine Wartungsarbeiten an einer virtuellen Maschine (VM) mit angehängten GPUs (Grafikprozessoren) durchführt, muss die VM beendet werden. Das liegt daran, dass VMs mit angehängten GPUs keine Live-Migration ausführen können.

Sie müssen die Einstellungen so vornehmen, dass diese VMs vor einer Hostwartung beendet werden. Sie können die beendeten VMs so einstellen, dass sie nach einer Hostwartung automatisch neu gestartet werden.

Hostwartungen werden in der Regel alle zwei Wochen ausgeführt, können aber auch häufiger erfolgen.

In diesem Dokument wird beschrieben, wie Sie Unterbrechungen der Arbeitslasten während eines Wartungsereignisses minimieren können.

Vor Wartungsereignissen im Voraus benachrichtigt werden

Sie können den Wartungsplan für Ihre VM-Instanz überwachen und Ihre Arbeitslasten auf den Übergang beim Neustart des Systems vorbereiten.

Um im Voraus eine Warnung über Hostereignisse zu erhalten, führen Sie ein Monitoring des Metadatenwerts /computeMetadata/v1/instance/maintenance-event durch. Wenn die Anfrage an den Metadatenserver NONE zurückgibt, ist die Beendigung der VM nicht geplant. Führen Sie in einer VM beispielsweise den folgenden Befehl aus:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Wenn der Metadatenserver TERMINATE_ON_HOST_MAINTENANCE zurückgibt, ist die Beendigung Ihrer VM geplant. Compute Engine sendet den GPU-VMs eine Stunde vorher eine Warnung, während normale VMs nur 60 Sekunden im Voraus gewarnt werden. Konfigurieren Sie Ihre Anwendung für die Umstellung durch das Wartungsereignis. Beispielsweise können Sie eine der folgenden Methoden verwenden:

  • Konfigurieren Sie Ihre Anwendung so, dass laufende Arbeiten vorübergehend in einen Cloud Storage-Bucket verschoben werden. Rufen Sie diese Daten dann nach dem Neustart der VM ab.

  • Schreiben Sie Daten in einen sekundären Persistent Disk. Nachdem die VM automatisch neu gestartet wurde, kann der Persistent Disk wieder angehängt werden und Ihre Anwendung setzt die Arbeit fort.

Nächste Schritte