Fehlerbehebung bei GPU-VMs

Auf dieser Seite wird beschrieben, wie Sie Probleme für VMs beheben, die auf Compute Engine ausgeführt werden und angehängte GPUs haben.

Wenn Sie versuchen, eine VM mit angehängten GPUs zu erstellen und Fehler erhalten, lesen Sie die Informationen unter Fehler bei der Ressourcenverfügbarkeit beheben und Fehlerbehebung beim Erstellen und Aktualisieren von VMs.

Xid-Nachrichten

Nachdem Sie eine VM mit angehängten GPUs erstellt haben, müssen Sie NVIDIA-Gerätetreiber auf Ihren GPU-VMs installieren, damit Ihre Anwendungen auf die GPUs zugreifen können. Manchmal geben diese Treiber jedoch Fehlermeldungen zurück.

Eine Xid-Meldung ist ein Fehlerbericht vom NVIDIA-Treiber, der im Kernel- oder Ereignislog des Betriebssystems für Ihre Linux-VM ausgegeben wird. Diese Nachrichten werden in der Datei /var/log/messages abgelegt.

Weitere Informationen zu Xid-Nachrichten und möglichen Ursachen finden Sie in der NVIDIA-Dokumentation.

Der folgende Abschnitt enthält Anleitungen zum Umgang mit einigen Xid-Nachrichten, die nach den häufigsten Typen gruppiert sind: GPU-Arbeitsspeicherfehler, GPU-Systemprozessor-Fehler und Fehler bezüglich ungültigen Arbeits-Speicherzugriff.

GPU-Arbeitsspeicherfehler

GPU-Arbeitsspeicher ist der Speicher, der auf einem GPU-Gerät verfügbar ist und zum temporären Speichern von Daten verwendet werden kann. Der GPU-Arbeits-Speicher ist durch den Fehlerkorrekturcode ECC geschützt, der Single-Bit-Fehler (SBE) erkennt und korrigiert und Double-Bit-Fehler (DBE) erkennt und meldet.

Vor der Veröffentlichung der NVIDIA A100-GPUs wurde die dynamische Seitendeaktivierung unterstützt. Für NVIDIA A100- und neuere GPU-Releases (z. B. NVIDIA H100) wird die Wiederherstellung nach Zeilenneuzuordnungsfehlern eingeführt. ECC ist standardmäßig aktiviert. Google empfiehlt dringend, ECC aktiviert zu lassen.

Im Folgenden sind einige häufige GPU-Arbeits-Speicherfehler und ihre empfohlenen Lösungen aufgeführt.

Xid-Fehlermeldung	Lösung
`Xid 48: Double Bit ECC`	Beenden Sie Ihre Arbeitslasten. Löschen Sie die VM und erstellen Sie sie neu. Wenn der Fehler weiterhin auftritt, reichen Sie eine Anfrage beim Cloud Customer Care ein.
`Xid 63: ECC page retirement or row remapping recording event`	Beenden Sie Ihre Arbeitslasten. GPUs zurücksetzen.
`Xid 64: ECC page retirement or row remapper recording failure` Die Nachricht enthält die folgenden Informationen: `Xid 64: All reserved rows for bank are remapped`	Beenden Sie Ihre Arbeitslasten. Löschen Sie die VM und erstellen Sie sie neu. Wenn der Fehler weiterhin auftritt, reichen Sie eine Anfrage beim Cloud Customer Care ein.
Wenn Sie mindestens zwei der folgenden Xid-Nachrichten zusammen erhalten: `Xid 48` `Xid 63` `Xid 64` Die Nachricht enthält die folgenden Informationen: `Xid XX: row remap pending`	Beenden Sie Ihre Arbeitslasten. GPUs zurücksetzen. Wenn Sie die GPU zurücksetzen, können die Zeilen-Neuzuordnung und Seitendeaktivierung abgeschlossen und die GPU repariert werden.
`Xid 92: High single-bit ECC error rate`	Diese Xid-Nachricht wird zurückgegeben, nachdem der GPU-Treiber einen korrigierbaren Fehler behoben hat. Sie sollte sich nicht auf Ihre Arbeitslasten auswirken. Diese Xid-Nachricht dient nur zur Information. Sie müssen nichts tun.
`Xid 94: Contained ECC error`	Beenden Sie Ihre Arbeitslasten. GPUs zurücksetzen.
`Xid 95: Uncontained ECC error`	Beenden Sie Ihre Arbeitslasten. GPUs zurücksetzen.

GSP-Fehler

Ein GPU-Systemprozessor (GSP) ist ein Mikrocontroller, der auf GPUs ausgeführt wird und einige der untergeordneten Funktionen zur Hardwareverwaltung ausführt.

Xid-Fehlermeldung	Lösung
`Xid 119: GSP RPC timeout`	Beenden Sie Ihre Arbeitslasten. Löschen Sie die VM und erstellen Sie sie neu. Wenn der Fehler weiterhin auftritt, erstellen Sie den NVIDIA-Fehlerbericht und reichen Sie einen Fall beim Cloud Customer Care ein.
`Xid 120: GSP error`

Ungültiger Arbeitsspeicherzugriff-Fehler

Die folgenden Xids werden zurückgegeben, wenn Anwendungen illegale Arbeits-Speicherzugriffsprobleme haben:

Xid 13: Graphics Engine Exception
Xid 31: GPU memory page fault

Ungültiger Arbeits-Speicherzugriff-Fehler werden normalerweise dadurch verursacht, dass Arbeitslasten versuchen, auf Arbeitsspeicher zuzugreifen, der bereits freigegeben wurde oder außerhalb des zulässigen Bereichs liegt. Dies kann durch Probleme wie die Dereferenzierung eines ungültigen Zeigers oder durch ein Array außerhalb des gültigen Bereichs verursacht werden.

Zur Behebung dieses Problems müssen Sie Ihre Anwendung debuggen. Zur Fehlerbehebung in der Anwendung können Sie cuda-memcheck und CUDA-GDB verwenden.

In einigen sehr seltenen Fällen kann ein Hardwareverschlechterung dazu führen, dass Fehler zu ungültigem Arbeits-Speicherzugriff zurückgegeben werden. Verwenden Sie den NVIDIA Data Center GPU Manager (DCGM), um festzustellen, ob das Problem auf Ihre Hardware zurückzuführen ist. Sie können dcgmi diag -r 3 oder dcgmi diag -r 4 ausführen, um verschiedene Level an Testabdeckung und -dauer auszuführen. Wenn Sie feststellen, dass das Problem auf die Hardware zurückzuführen ist, reichen Sie eine Anfrage beim Cloud Customer Care ein.

Weitere häufig auftretende Xid-Fehlermeldungen

Xid-Fehlermeldung	Lösung
`Xid 74: NVLINK error`	Beenden Sie Ihre Arbeitslasten. GPUs zurücksetzen.
`Xid 79: GPU has fallen off the bus` Dies bedeutet, dass der Treiber nicht mit der GPU kommunizieren kann.	Starten Sie die VM neu.

GPUs zurücksetzen

Bei einigen Problemen müssen Sie möglicherweise Ihre GPUs zurücksetzen. Führen Sie folgende Schritte aus, um GPUs zurückzusetzen:

Starten Sie bei N1-, G2- und A2-VMs die VM neu, indem Sie sudo reboot ausführen.
Führen Sie für A3-VMs nvidia-smi reset GPU aus.

Wenn Fehler nach dem Zurücksetzen der GPU weiterhin bestehen, müssen Sie die VM löschen und neu erstellen.

Wenn der Fehler nach dem Löschen und Neuerstellen weiterhin besteht, reichen Sie einen Fall bei Cloud Customer Care ein, um die VM in die Reparaturphase zu verschieben.