Genera segnalazione di bug NVIDIA per le GPU Blackwell


Questo documento spiega come creare un report sui bug di NVIDIA per i tipi di macchina che utilizzano le GPU NVIDIA Blackwell. Se vuoi identificare quali dei tuoi tipi di macchine utilizzano la GPU NVIDIA Blackwell, consulta Modelli di GPU.

Se il tuo tipo di macchina utilizza l'architettura GPU NVIDIA Blackwell, il report sui bug NVIDIA generato non include dati hardware di basso livello critici quando esegui lo script nvidia-bug-report.sh. Questi dati contengono informazioni come lo stato del livello fisico delle connessioni NVLink, i valori dei registri interni della GPU e i segmenti diagnostici non elaborati del firmware. Queste informazioni sono essenziali per diagnosticare i problemi, in particolare quelli relativi a NVLink, che potrebbero causare errori Xid della GPU o un peggioramento irrisolto del rendimento.

Generare una segnalazione di bug NVIDIA

Per generare una segnalazione di bug, completa i seguenti passaggi:

  1. Connettiti all'istanza GPU. Scegli una delle seguenti opzioni:

  2. Scarica e installa il pacchetto MFT selezionando una delle seguenti opzioni:

Container-Optimized OS

Se la tua istanza utilizza Container-Optimized OS (COS) come sistema operativo guest, utilizza lo strumento open source GCE COS NVIDIA Bug Report Collector per generare il report sui bug con MFT. Questo strumento inserisce automaticamente i moduli del kernel MST supportati che corrispondono al kernel COS, installa lo strumento userspace, genera il report bug e carica facoltativamente il risultato in un bucket Cloud Storage.

Altri sistemi operativi

Per altri sistemi operativi Linux, completa i seguenti passaggi:

  1. Scarica e installa il software NVIDIA Firmware Tools (MFT) versione 4.32.0 o successive dal sito web NVIDIA.
  2. Installa lo strumento. Per ulteriori informazioni, vedi Compilazione e installazione nella documentazione di NVIDIA Firmware Tools (MFT). Dopo aver installato MFT, lo script nvidia-bug-report.sh utilizza automaticamente gli strumenti MFT per generare il report. Non è necessario interagire direttamente con gli strumenti MFT.
  3. Esegui lo script nvidia-bug-report.sh per generare una segnalazione di bug. Questa procedura richiede circa due minuti.
  4. Estrai il report.
  5. Verifica che il report includa i dati MFT eseguendo il seguente comando sul file del report bug estratto:
    grep -m 1 -A 30 "Starting GPU MST dump.." PATH_TO_UNZIPPED_BUG_REPORT

    L'output è simile al seguente esempio:

    Starting GPU MST dump..
    ... (additional MFT data) ...