為 Blackwell GPU 產生 NVIDIA 錯誤報告


本文說明如何為使用 NVIDIA Blackwell GPU 的機器類型建立 NVIDIA 錯誤報告。如要瞭解哪些機器類型使用 NVIDIA Blackwell GPU,請參閱「GPU 型號」。

如果機器類型使用 NVIDIA Blackwell GPU 架構,執行 nvidia-bug-report.sh 指令碼時,產生的 NVIDIA 錯誤報告不會包含重要的低階硬體資料。這項資料包含 NVLink 連線的實體層狀態、內部 GPU 暫存器值,以及韌體中的原始診斷區隔等資訊。這項資訊對於診斷問題至關重要,尤其是與 NVLink 相關的問題,這類問題可能導致 GPU Xid 錯誤或效能下降問題無法解決。

產生 NVIDIA 錯誤報告

如要產生錯誤報告,請完成下列步驟:

  1. 連線至 GPU 執行個體。您可以選擇下列任一選項:

  2. 選取下列其中一個選項,下載並安裝 MFT 套件:

Container-Optimized OS

如果執行個體使用 Container-Optimized OS (COS) 做為客體作業系統,請使用開放原始碼的 GCE COS NVIDIA Bug Report Collector 工具,透過 MFT 產生錯誤報告。這項工具會自動插入與 COS 核心相符的支援 MST 核心模組、安裝使用者空間工具、產生錯誤報告,並視需要將結果上傳至 Cloud Storage bucket。

其他 OS

如要使用其他 Linux OS,請完成下列步驟:

  1. NVIDIA 網站下載並安裝 NVIDIA 韌體工具 (MFT) 軟體 4.32.0 以上版本。
  2. 安裝工具。詳情請參閱 NVIDIA 韌體工具 (MFT) 說明文件中的「Compilation and installation」。安裝 MFT 後,nvidia-bug-report.sh 指令碼會自動使用 MFT 工具產生報表。您不需要直接與 MFT 工具互動。
  3. 執行 nvidia-bug-report.sh 指令碼,產生錯誤報告。這個過程大約需要兩分鐘。
  4. 擷取報表。
  5. 在擷取的錯誤報告檔案中執行下列指令,確認報表包含 MFT 資料:
    grep -m 1 -A 30 "Starting GPU MST dump.." PATH_TO_UNZIPPED_BUG_REPORT

    輸出結果會與下列範例相似:

    Starting GPU MST dump..
    ... (additional MFT data) ...