Risolvere i problemi delle VM GPU

Questa pagina mostra come risolvere i problemi delle VM in esecuzione su Compute Engine con GPU collegate.

Se stai cercando di creare una VM con GPU collegate e riscontri errori, consulta gli articoli Risoluzione dei problemi relativi alla disponibilità delle risorse e Risoluzione dei problemi relativi alla creazione e all'aggiornamento delle VM.

Messaggi Xid

Dopo aver creato una VM con GPU collegate, devi installare i driver di dispositivo NVIDIA sulle VM GPU in modo che le applicazioni possano accedere alle GPU. Tuttavia, a volte questi driver restituiscono messaggi di errore.

Un messaggio Xid è un report di errore del driver NVIDIA stampato nel log del kernel o nel log eventi del sistema operativo per la VM Linux. Questi messaggi vengono inseriti nel file /var/log/messages.

Per ulteriori informazioni sui messaggi Xid, incluse le potenziali cause, consulta la documentazione di NVIDIA.

La sezione seguente fornisce indicazioni sulla gestione di alcuni messaggi Xid raggruppati in base ai tipi più comuni: errori di memoria GPU, errori del processore di sistema GPU (GSP) ed errori di accesso alla memoria illegale.

Errori di memoria GPU

La memoria GPU è la memoria disponibile su una GPU che può essere utilizzata per l'archiviazione temporanea dei dati. La memoria della GPU è protetta con il codice di correzione degli errori, ECC, che rileva e corregge gli errori a bit singolo (SBE) e rileva e segnala gli errori a doppio bit (DBE).

Prima del rilascio delle GPU NVIDIA A100, era supportato il ritiro delle pagine dinamiche. Per le release NVIDIA A100 e GPU successive (come NVIDIA H100), viene introdotto il ripristino degli errori di rimappatura delle righe. ECC è abilitata per impostazione predefinita. Google consiglia vivamente di mantenere abilitata ECC.

Di seguito sono riportati gli errori di memoria più comuni della GPU e le relative risoluzioni suggerite.

Messaggio di errore Xid Risoluzione
Xid 48: Double Bit ECC
  1. Arresta i carichi di lavoro.
  2. Elimina e ricrea la VM. Se l'errore persiste, invia una richiesta all'assistenza clienti Google Cloud.
Xid 63: ECC page retirement or row remapping recording event
  1. Arresta i carichi di lavoro.
  2. Reimposta le GPU.
Xid 64: ECC page retirement or row remapper recording failure

Il messaggio contiene le seguenti informazioni:

Xid 64: All reserved rows for bank are remapped
  1. Arresta i carichi di lavoro.
  2. Elimina e ricrea la VM. Se l'errore persiste, invia una richiesta all'assistenza clienti Google Cloud.

Se ricevi insieme almeno due dei seguenti messaggi Xid:

  • Xid 48
  • Xid 63
  • Xid 64

Il messaggio contiene le seguenti informazioni:

Xid XX: row remap pending
  1. Arresta i carichi di lavoro.
  2. Reimposta le GPU. La reimpostazione della GPU consente alla rimappatura delle righe e al processo di ritiro delle pagine di completare e correggere la GPU.
Xid 92: High single-bit ECC error rate Questo messaggio Xid viene restituito dopo che il driver GPU ha corretto un errore correggibile e non dovrebbe influire sui carichi di lavoro. Questo messaggio Xid è solo informativo. Non è necessario alcun intervento da parte tua.
Xid 94: Contained ECC error
  1. Arresta i carichi di lavoro.
  2. Reimposta le GPU.
Xid 95: Uncontained ECC error
  1. Arresta i carichi di lavoro.
  2. Reimposta le GPU.

Errori relativi alle GSP

Un processore di sistema GPU (GSP) è un microcontroller che viene eseguito sulle GPU e gestisce alcune delle funzioni di gestione hardware di basso livello.

Messaggio di errore Xid Risoluzione
Xid 119: GSP RPC timeout
  1. Arresta i carichi di lavoro.
  2. Elimina e ricrea la VM. Se l'errore persiste, raccogli la segnalazione di bug NVIDIA e invia una richiesta all'assistenza clienti Google Cloud.
Xid 120: GSP error

Errori di accesso alla memoria non valido

I seguenti Xid vengono restituiti quando le applicazioni presentano problemi di accesso alla memoria illegali:

  • Xid 13: Graphics Engine Exception
  • Xid 31: GPU memory page fault

Gli errori di accesso alla memoria non valido sono in genere causati dal tentativo dei carichi di lavoro di accedere a una memoria già liberata o fuori dai limiti. Ciò può essere causato da problemi come il deriferimento di un puntatore non valido o un array di limiti in uscita.

Per risolvere questo problema, devi eseguire il debug dell'applicazione. Per eseguire il debug della tua applicazione, puoi usare cuda-memcheck e CUDA-GDB.

In alcuni molto rari casi, il degrado dell'hardware potrebbe causare la restituzione di errori di accesso alla memoria illegale. Per capire se il problema riguarda l'hardware, utilizza NVIDIA Data Center GPU Manager (DCGM). Puoi eseguire dcgmi diag -r 3 o dcgmi diag -r 4 per eseguire diversi livelli di copertura e durata dei test. Se identifichi che il problema riguarda l'hardware, invia una richiesta all'assistenza clienti Google Cloud.

Altri messaggi di errore Xid comuni

Messaggio di errore Xid Risoluzione
Xid 74: NVLINK error
  1. Arresta i carichi di lavoro.
  2. Reimposta le GPU.
Xid 79: GPU has fallen off the bus

Questo significa che il driver non è in grado di comunicare con la GPU.

Riavvia la VM.

Reimposta GPU

Alcuni problemi potrebbero richiedere il ripristino delle GPU. Per reimpostare le GPU, completa i seguenti passaggi:

  • Per le VM N1, G2 e A2, riavvia la VM eseguendo sudo reboot.
  • Per le VM A3, esegui nvidia-smi reset GPU.

Se gli errori persistono dopo aver reimpostato la GPU, devi eliminare e ricreare la VM.

Se l'errore persiste dopo un'eliminazione e una nuova creazione, invia una richiesta all'assistenza clienti Google Cloud per spostare la VM nella fase di riparazione.