En este documento se explica cómo crear un informe de errores de NVIDIA para los tipos de máquina que usan GPUs NVIDIA Blackwell. Si quieres saber qué tipos de máquinas usan la GPU NVIDIA Blackwell, consulta Modelos de GPU.
Si tu tipo de máquina usa la arquitectura de GPU NVIDIA Blackwell, el informe de errores de NVIDIA generado no incluye datos de hardware críticos de bajo nivel cuando ejecutas la secuencia de comandos nvidia-bug-report.sh. Estos datos contienen información como el estado de la capa física de las conexiones NVLink, los valores de los registros internos de la GPU y los segmentos de diagnóstico sin procesar del firmware. Esta información es esencial para diagnosticar problemas, especialmente los relacionados con NVLink, que podrían provocar errores Xid de la GPU o una degradación del rendimiento sin resolver.
Generar un informe de errores de NVIDIA
Para generar un informe de errores, sigue estos pasos:
Conéctate a tu instancia de GPU. Elige una de estas opciones:
Descarga e instala el paquete MFT seleccionando una de las siguientes opciones:
Container-Optimized OS
Si tu instancia usa un sistema operativo optimizado para contenedores (COS) como sistema operativo invitado, utiliza la herramienta de código abierto GCE COS NVIDIA Bug Report Collector para generar el informe de errores con MFT. Esta herramienta inserta automáticamente los módulos del kernel de MST compatibles que coinciden con el kernel de COS, instala la herramienta del espacio de usuario, genera el informe de errores y, opcionalmente, sube el resultado a un segmento de Cloud Storage.
Otros SO
En el caso de otros sistemas operativos Linux, sigue estos pasos:
- Descarga e instala el software NVIDIA Firmware Tools (MFT) versión 4.32.0 o posterior desde el sitio web de NVIDIA.
- Instala la herramienta. Para obtener más información, consulta Compilación e instalación en la documentación de las herramientas de firmware de NVIDIA (MFT). Después de instalar MFT, la secuencia de comandos nvidia-bug-report.sh utiliza automáticamente las herramientas de MFT para generar el informe. No es necesario que interactúes directamente con las herramientas de MFT.
- Ejecuta la secuencia de comandos
nvidia-bug-report.sh
para generar un informe de errores. Este proceso tarda unos dos minutos. - Extrae el informe.
- Para verificar que el informe incluye datos de MFT, ejecuta el siguiente comando en el archivo de informe de errores extraído:
grep -m 1 -A 30 "Starting GPU MST dump.." PATH_TO_UNZIPPED_BUG_REPORT
La salida es similar al siguiente ejemplo:
Starting GPU MST dump.. ... (additional MFT data) ...