Blackwell GPU の NVIDIA バグレポートを生成


このドキュメントでは、NVIDIA Blackwell GPU を使用するマシンタイプについて NVIDIA バグレポートを作成する方法について説明します。どのマシンタイプが NVIDIA Blackwell GPU を使用しているかを確認する場合は、GPU モデルをご覧ください。

マシンタイプで NVIDIA Blackwell GPU アーキテクチャを使用している場合、nvidia-bug-report.sh スクリプトを実行すると、生成された NVIDIA バグレポートに重要な低レベルのハードウェア データが含まれません。このデータには、NVLink 接続の物理レイヤのステータス、内部 GPU レジスタ値、ファームウェアからの未加工の診断セグメントなどの情報が含まれます。この情報は、特に NVLink 関連の問題を診断するうえで不可欠です。NVLink 関連の問題は、GPU Xid エラーや未解決のパフォーマンス低下につながる可能性があります。

NVIDIA バグレポートを生成する

バグレポートを生成する手順は次のとおりです。

  1. GPU インスタンスに接続します。次のいずれかのオプションを選択します。

  2. 次のいずれかのオプションを選択して、MFT パッケージをダウンロードしてインストールします。

Container-Optimized OS

インスタンスでゲスト オペレーティング システムとして Container-Optimized OS(COS)を使用している場合は、オープンソースの GCE COS NVIDIA バグレポート コレクタ ツールを使用して、MFT でバグレポートを生成します。このツールは、COS カーネルに一致するサポート対象の MST カーネル モジュールを自動的に挿入し、ユーザー空間ツールをインストールして、バグレポートを生成します。また、必要に応じて結果を Cloud Storage バケットにアップロードします。

その他の OS

他の Linux OS の場合は、次の手順を行います。

  1. NVIDIA ウェブサイトから NVIDIA ファームウェア ツール(MFT)ソフトウェア バージョン 4.32.0 以降をダウンロードしてインストールします。
  2. ツールをインストールします。詳細については、NVIDIA ファームウェア ツール(MFT)のドキュメントのコンパイルとインストールをご覧ください。MFT をインストールすると、nvidia-bug-report.sh スクリプトが MFT ツールを自動的に使用してレポートを生成します。MFT ツールを直接操作する必要はありません。
  3. nvidia-bug-report.sh スクリプトを実行してバグレポートを生成します。この処理には約 2 分かかります。
  4. レポートを抽出します。
  5. 抽出したバグレポート ファイルで次のコマンドを実行して、レポートに MFT データが含まれていることを確認します。
    grep -m 1 -A 30 "Starting GPU MST dump.." PATH_TO_UNZIPPED_BUG_REPORT

    出力は次のようになります。

    Starting GPU MST dump..
    ... (additional MFT data) ...