Générer un rapport de bug NVIDIA pour les GPU Blackwell


Ce document explique comment créer un rapport de bug NVIDIA pour vos types de machines qui utilisent des GPU NVIDIA Blackwell. Pour identifier les types de machines qui utilisent le GPU NVIDIA Blackwell, consultez Modèles de GPU.

Si votre type de machine utilise l'architecture de GPU NVIDIA Blackwell, le rapport de bug NVIDIA généré n'inclut pas de données matérielles critiques de bas niveau lorsque vous exécutez le script nvidia-bug-report.sh. Ces données contiennent des informations telles que l'état de la couche physique des connexions NVLink, les valeurs des registres GPU internes et les segments de diagnostic bruts du micrologiciel. Ces informations sont essentielles pour diagnostiquer les problèmes, en particulier ceux liés à NVLink, qui peuvent entraîner des erreurs Xid du GPU ou une dégradation des performances non résolue.

Générer un rapport de bug NVIDIA

Pour générer un rapport de bug, procédez comme suit :

  1. Connectez-vous à votre instance de GPU. Choisissez l'une des options suivantes :

  2. Téléchargez et installez le package MFT en sélectionnant l'une des options suivantes :

Container-Optimized OS

Si votre instance utilise Container-Optimized OS (COS) comme système d'exploitation invité, utilisez l'outil Open Source GCE COS NVIDIA Bug Report Collector pour générer le rapport d'erreur avec MFT. Cet outil injecte automatiquement les modules de noyau MST compatibles qui correspondent au noyau COS, installe l'outil d'espace utilisateur, génère le rapport de bug et, éventuellement, importe le résultat dans un bucket Cloud Storage.

Autres systèmes d'exploitation

Pour les autres OS Linux, procédez comme suit :

  1. Téléchargez et installez le logiciel NVIDIA Firmware Tools (MFT) version 4.32.0 ou ultérieure sur le site Web de NVIDIA.
  2. Installez l'outil. Pour en savoir plus, consultez Compilation et installation dans la documentation NVIDIA Firmware Tools (MFT). Une fois MFT installé, le script nvidia-bug-report.sh utilise automatiquement les outils MFT pour générer le rapport. Vous n'avez pas besoin d'interagir directement avec les outils MFT.
  3. Exécutez le script nvidia-bug-report.sh pour générer un rapport de bug. Ce processus prend environ deux minutes.
  4. Extrayez le rapport.
  5. Vérifiez que le rapport inclut des données MFT en exécutant la commande suivante sur le fichier de rapport de bug extrait :
    grep -m 1 -A 30 "Starting GPU MST dump.." PATH_TO_UNZIPPED_BUG_REPORT

    Le résultat ressemble à celui de l'exemple ci-dessous.

    Starting GPU MST dump..
    ... (additional MFT data) ...