Questa pagina mostra come risolvere i problemi delle VM in esecuzione su Compute Engine con GPU collegate.
Se stai cercando di creare una VM con GPU collegate e riscontri errori, consulta gli articoli Risoluzione dei problemi relativi alla disponibilità delle risorse e Risoluzione dei problemi relativi alla creazione e all'aggiornamento delle VM.
Messaggi Xid
Dopo aver creato una VM con GPU collegate, devi installare i driver di dispositivo NVIDIA sulle VM GPU in modo che le applicazioni possano accedere alle GPU. Tuttavia, a volte questi driver restituiscono messaggi di errore.
Un messaggio Xid è un report di errore del driver NVIDIA stampato nel log del kernel o nel log eventi del sistema operativo per la VM Linux. Questi messaggi
vengono inseriti nel file /var/log/messages
.
Per ulteriori informazioni sui messaggi Xid, incluse le potenziali cause, consulta la documentazione di NVIDIA.
La sezione seguente fornisce indicazioni sulla gestione di alcuni messaggi Xid raggruppati in base ai tipi più comuni: errori di memoria GPU, errori del processore di sistema GPU (GSP) ed errori di accesso alla memoria illegale.
Errori di memoria GPU
La memoria GPU è la memoria disponibile su una GPU che può essere utilizzata per l'archiviazione temporanea dei dati. La memoria della GPU è protetta con il codice di correzione degli errori, ECC, che rileva e corregge gli errori a bit singolo (SBE) e rileva e segnala gli errori a doppio bit (DBE).
Prima del rilascio delle GPU NVIDIA A100, era supportato il ritiro delle pagine dinamiche. Per le release NVIDIA A100 e GPU successive (come NVIDIA H100), viene introdotto il ripristino degli errori di rimappatura delle righe. ECC è abilitata per impostazione predefinita. Google consiglia vivamente di mantenere abilitata ECC.
Di seguito sono riportati gli errori di memoria più comuni della GPU e le relative risoluzioni suggerite.
Messaggio di errore Xid | Risoluzione |
---|---|
Xid 48: Double Bit ECC |
|
Xid 63: ECC page retirement or row remapping recording
event |
|
Xid 64: ECC page retirement or row remapper recording
failure
Il messaggio contiene le seguenti informazioni: Xid 64: All reserved rows for bank are remapped
|
|
Se ricevi insieme almeno due dei seguenti messaggi Xid:
Il messaggio contiene le seguenti informazioni: Xid XX: row remap pending
|
|
Xid 92: High single-bit ECC error rate |
Questo messaggio Xid viene restituito dopo che il driver GPU ha corretto un errore correggibile e non dovrebbe influire sui carichi di lavoro. Questo messaggio Xid è solo informativo. Non è necessario alcun intervento da parte tua. |
Xid 94: Contained ECC error |
|
Xid 95: Uncontained ECC error |
|
Errori relativi alle GSP
Un processore di sistema GPU (GSP) è un microcontroller che viene eseguito sulle GPU e gestisce alcune delle funzioni di gestione hardware di basso livello.
Messaggio di errore Xid | Risoluzione |
---|---|
Xid 119: GSP RPC timeout |
|
Xid 120: GSP error |
Errori di accesso alla memoria non valido
I seguenti Xid vengono restituiti quando le applicazioni presentano problemi di accesso alla memoria illegali:
Xid 13: Graphics Engine Exception
Xid 31: GPU memory page fault
Gli errori di accesso alla memoria non valido sono in genere causati dal tentativo dei carichi di lavoro di accedere a una memoria già liberata o fuori dai limiti. Ciò può essere causato da problemi come il deriferimento di un puntatore non valido o un array di limiti in uscita.
Per risolvere questo problema, devi eseguire il debug dell'applicazione. Per eseguire il debug della tua applicazione, puoi usare cuda-memcheck e CUDA-GDB.
In alcuni molto rari casi, il degrado dell'hardware potrebbe causare la restituzione di errori di accesso alla memoria illegale. Per capire se il problema riguarda l'hardware, utilizza NVIDIA Data Center GPU Manager (DCGM).
Puoi eseguire dcgmi diag -r 3
o dcgmi diag -r 4
per eseguire diversi livelli di copertura e durata dei test. Se identifichi che il problema riguarda l'hardware, invia una richiesta all'assistenza clienti Google Cloud.
Altri messaggi di errore Xid comuni
Messaggio di errore Xid | Risoluzione |
---|---|
Xid 74: NVLINK error |
|
Xid 79: GPU has fallen off the bus
Questo significa che il driver non è in grado di comunicare con la GPU. |
Riavvia la VM. |
Reimposta GPU
Alcuni problemi potrebbero richiedere il ripristino delle GPU. Per reimpostare le GPU, completa i seguenti passaggi:
- Per le VM N1, G2 e A2, riavvia la VM eseguendo
sudo reboot
. - Per le VM A3, esegui
nvidia-smi reset GPU
.
Se gli errori persistono dopo aver reimpostato la GPU, devi eliminare e ricreare la VM.
Se l'errore persiste dopo un'eliminazione e una nuova creazione, invia una richiesta all'assistenza clienti Google Cloud per spostare la VM nella fase di riparazione.