本文档说明了如何为使用 NVIDIA Blackwell GPU 的机器类型创建 NVIDIA bug 报告。如果您想确定哪些机器类型在使用 NVIDIA Blackwell GPU,请参阅 GPU 型号。
如果您的机器类型使用 NVIDIA Blackwell GPU 架构,那么在运行 nvidia-bug-report.sh 脚本时,生成的 NVIDIA bug 报告不包含关键的低级硬件数据。此数据包含 NVLink 连接的物理层状态、内部 GPU 寄存器值以及固件中的原始诊断片段等信息。此信息对于诊断问题(尤其是与 NVLink 相关的问题)至关重要,这些问题可能会导致 GPU Xid 错误或无法解决的性能下降。
生成 NVIDIA bug 报告
如需生成 bug 报告,请完成以下步骤:
连接到 GPU 实例。请从下列选项中选择一项:
选择以下选项之一,以下载并安装 MFT 软件包:
Container-Optimized OS
如果您的实例使用 Container-Optimized OS (COS) 作为客机操作系统,请使用开源 GCE COS NVIDIA Bug Report Collector 工具生成包含 MFT 数据的 bug 报告。此工具会自动注入与 COS 内核匹配的受支持 MST 内核模块,安装用户空间工具,生成 bug 报告,并可选择将结果上传到 Cloud Storage 存储桶。
其他操作系统
对于其他 Linux 操作系统,请完成以下步骤:
- 从 NVIDIA 网站下载并安装 NVIDIA 固件工具 (MFT) 软件版本 4.32.0 或更高版本。
- 安装工具。如需了解详情,请参阅 NVIDIA 固件工具 (MFT) 文档中的编译和安装。安装 MFT 后,nvidia-bug-report.sh 脚本会自动使用 MFT 工具生成报告。您无需直接与 MFT 工具互动。
- 运行
nvidia-bug-report.sh
脚本以生成 bug 报告。此过程大约需要两分钟。 - 提取报告。
- 通过对提取的 bug 报告文件运行以下命令,验证报告是否包含 MFT 数据:
grep -m 1 -A 30 "Starting GPU MST dump.." PATH_TO_UNZIPPED_BUG_REPORT
输出类似于以下示例:
Starting GPU MST dump.. ... (additional MFT data) ...