为 Blackwell GPU 生成 NVIDIA bug 报告


本文档说明了如何为使用 NVIDIA Blackwell GPU 的机器类型创建 NVIDIA bug 报告。如果您想确定哪些机器类型在使用 NVIDIA Blackwell GPU,请参阅 GPU 型号

如果您的机器类型使用 NVIDIA Blackwell GPU 架构,那么在运行 nvidia-bug-report.sh 脚本时,生成的 NVIDIA bug 报告不包含关键的低级硬件数据。此数据包含 NVLink 连接的物理层状态、内部 GPU 寄存器值以及固件中的原始诊断片段等信息。此信息对于诊断问题(尤其是与 NVLink 相关的问题)至关重要,这些问题可能会导致 GPU Xid 错误或无法解决的性能下降。

生成 NVIDIA bug 报告

如需生成 bug 报告,请完成以下步骤:

  1. 连接到 GPU 实例。请从下列选项中选择一项:

  2. 选择以下选项之一,以下载并安装 MFT 软件包:

Container-Optimized OS

如果您的实例使用 Container-Optimized OS (COS) 作为客机操作系统,请使用开源 GCE COS NVIDIA Bug Report Collector 工具生成包含 MFT 数据的 bug 报告。此工具会自动注入与 COS 内核匹配的受支持 MST 内核模块,安装用户空间工具,生成 bug 报告,并可选择将结果上传到 Cloud Storage 存储桶。

其他操作系统

对于其他 Linux 操作系统,请完成以下步骤:

  1. NVIDIA 网站下载并安装 NVIDIA 固件工具 (MFT) 软件版本 4.32.0 或更高版本。
  2. 安装工具。如需了解详情,请参阅 NVIDIA 固件工具 (MFT) 文档中的编译和安装。安装 MFT 后,nvidia-bug-report.sh 脚本会自动使用 MFT 工具生成报告。您无需直接与 MFT 工具互动。
  3. 运行 nvidia-bug-report.sh 脚本以生成 bug 报告。此过程大约需要两分钟。
  4. 提取报告。
  5. 通过对提取的 bug 报告文件运行以下命令,验证报告是否包含 MFT 数据:
    grep -m 1 -A 30 "Starting GPU MST dump.." PATH_TO_UNZIPPED_BUG_REPORT

    输出类似于以下示例:

    Starting GPU MST dump..
    ... (additional MFT data) ...