Blackwell GPU용 NVIDIA 버그 신고 생성


이 문서에서는 NVIDIA Blackwell GPU를 사용하는 머신 유형에 대한 NVIDIA 버그 신고를 만드는 방법을 설명합니다. NVIDIA Blackwell GPU를 사용하는 머신 유형을 확인하려면 GPU 모델을 참고하세요.

머신 유형이 NVIDIA Blackwell GPU 아키텍처를 사용하는 경우 nvidia-bug-report.sh 스크립트를 실행할 때 생성된 NVIDIA 버그 신고에 중요한 하위 수준 하드웨어 데이터가 포함되지 않습니다. 이 데이터에는 NVLink 연결의 물리적 계층 상태, 내부 GPU 레지스터 값, 펌웨어의 원시 진단 세그먼트와 같은 정보가 포함됩니다. 이 정보는 문제를 진단하는 데 특히 NVLink와 관련된 문제를 진단하는 데 필수적이며, NVLink와 관련된 문제는 GPU Xid 오류 또는 해결되지 않은 성능 저하로 이어질 수 있습니다.

NVIDIA 버그 신고 생성

버그 신고를 생성하려면 다음 단계를 완료하세요.

  1. GPU 인스턴스에 연결합니다. 다음 옵션 중 하나를 선택합니다.

  2. 다음 옵션 중 하나를 선택하여 MFT 패키지를 다운로드하고 설치합니다.

Container-Optimized OS

인스턴스에서 Container-Optimized OS (COS)를 게스트 운영체제로 사용하는 경우 오픈소스 GCE COS NVIDIA 버그 신고 수집기 도구를 사용하여 MFT로 버그 신고를 생성합니다. 이 도구는 COS 커널과 일치하는 지원되는 MST 커널 모듈을 자동으로 삽입하고, 사용자 공간 도구를 설치하고, 버그 신고를 생성하고, 선택적으로 결과를 Cloud Storage 버킷에 업로드합니다.

기타 OS

다른 Linux OS의 경우 다음 단계를 완료하세요.

  1. NVIDIA 웹사이트에서 NVIDIA 펌웨어 도구 (MFT) 소프트웨어 버전 4.32.0 이상을 다운로드하여 설치합니다.
  2. 도구를 설치합니다. 자세한 내용은 NVIDIA 펌웨어 도구 (MFT) 문서의 컴파일 및 설치를 참고하세요. MFT를 설치하면 nvidia-bug-report.sh 스크립트가 MFT 도구를 사용하여 보고서를 자동으로 생성합니다. MFT 도구와 직접 상호작용할 필요는 없습니다.
  3. nvidia-bug-report.sh 스크립트를 실행하여 버그 신고를 생성합니다. 이 과정은 약 2분이 소요됩니다.
  4. 보고서를 추출합니다.
  5. 추출된 버그 신고 파일에서 다음 명령어를 실행하여 신고에 MFT 데이터가 포함되어 있는지 확인합니다.
    grep -m 1 -A 30 "Starting GPU MST dump.." PATH_TO_UNZIPPED_BUG_REPORT

    출력은 다음 예시와 비슷합니다.

    Starting GPU MST dump..
    ... (additional MFT data) ...