Genera un informe de errores de NVIDIA para las GPU Blackwell


En este documento, se explica cómo crear un informe de errores de NVIDIA para los tipos de máquinas que usan GPUs NVIDIA Blackwell. Si deseas identificar cuáles de tus tipos de máquinas usan la GPU NVIDIA Blackwell, consulta Modelos de GPU.

Si tu tipo de máquina usa la arquitectura de GPU NVIDIA Blackwell, el informe de errores de NVIDIA generado no incluye datos de hardware críticos de bajo nivel cuando ejecutas el script nvidia-bug-report.sh. Estos datos contienen información como el estado de la capa física de las conexiones NVLink, los valores internos de los registros de la GPU y los segmentos de diagnóstico sin procesar del firmware. Esta información es esencial para diagnosticar problemas, en especial los relacionados con NVLink, que podrían provocar errores de Xid de la GPU o una degradación del rendimiento sin resolver.

Cómo generar un informe de errores de NVIDIA

Para generar un informe de errores, completa los siguientes pasos:

  1. Conéctate a tu instancia de GPU. Elige una de las siguientes opciones:

  2. Descarga e instala el paquete de MFT seleccionando una de las siguientes opciones:

Container-Optimized OS

Si tu instancia usa un SO invitado de Container-Optimized OS (COS), usa la herramienta de código abierto GCE COS NVIDIA Bug Report Collector para generar el informe de errores con MFT. Esta herramienta inserta automáticamente los módulos del kernel de MST compatibles que coinciden con el kernel del COS, instala la herramienta del espacio del usuario, genera el informe de errores y, de manera opcional, sube el resultado a un bucket de Cloud Storage.

Otro SO

Para otros SO de Linux, completa los siguientes pasos:

  1. Descarga e instala la versión 4.32.0 o posterior del software de NVIDIA Firmware Tools (MFT) desde el sitio web de NVIDIA.
  2. Instala la herramienta. Para obtener más información, consulta Compilation and installation en la documentación de NVIDIA Firmware Tools (MFT). Después de instalar MFT, la secuencia de comandos nvidia-bug-report.sh usa automáticamente las herramientas de MFT para generar el informe. No es necesario que interactúes directamente con las herramientas de MFT.
  3. Ejecuta la secuencia de comandos nvidia-bug-report.sh para generar un informe de errores. Este proceso tarda unos dos minutos.
  4. Extrae el informe.
  5. Para verificar que el informe incluya datos de la MFT, ejecuta el siguiente comando en el archivo del informe de errores extraído:
    grep -m 1 -A 30 "Starting GPU MST dump.." PATH_TO_UNZIPPED_BUG_REPORT

    El resultado es similar al siguiente ejemplo.

    Starting GPU MST dump..
    ... (additional MFT data) ...