En esta página, se muestra cómo resolver problemas de las VMs que se ejecutan en Compute Engine y que tienen GPU conectadas.
Si intentas crear una VM con GPU conectadas y recibes errores, revisa Soluciona errores de disponibilidad de recursos y Soluciona problemas de creación y actualización de VMs.
Mensajes Xid
Después de crear una VM que tenga GPU conectadas, debes instalar los controladores del dispositivo NVIDIA en tus VMs con GPU para que tus aplicaciones puedan acceder a las GPU. Sin embargo, a veces estos controladores muestran mensajes de error.
Un mensaje Xid es un informe de error del controlador de NVIDIA que se imprime en el registro del kernel del sistema operativo o en el registro de acontecimientos de la VM de Linux. Estos mensajes se colocan en el archivo /var/log/messages
.
Para obtener más información sobre los mensajes Xid, incluidas las posibles causas, consulta la documentación de NVIDIA.
En la siguiente sección, se proporciona orientación sobre cómo manejar algunos mensajes Xid agrupados según los tipos más comunes: errores de memoria de GPU, errores de procesador del sistema de GPU (GSP) y errores de acceso no permitido a la memoria.
Errores de memoria de GPU
La memoria de GPU es la memoria disponible en una GPU que se puede usar para el almacenamiento temporal de datos. La memoria de GPU está protegida con el código de corrección de errores, ECC, que detecta y corrige errores de un solo bit (SBE) y detecta y también informa errores de doble bit (DBE).
Antes del lanzamiento de las GPU NVIDIA A100, se admitía la retiro dinámica de páginas. Para las versiones de GPU NVIDIA A100 y posteriores (como NVIDIA H100), se presenta la recuperación de error de reasignación de fila. ECC está habilitado de forma predeterminada. Google recomienda mantener habilitado el ECC.
Los siguientes son errores comunes de memoria de GPU y sus soluciones sugeridas.
Mensaje de error de Xid | Solución |
---|---|
Xid 48: Double Bit ECC |
|
Xid 63: ECC page retirement or row remapping recording
event |
|
Xid 64: ECC page retirement or row remapper recording
failure
Y el mensaje contiene la siguiente información: Xid 64: All reserved rows for bank are remapped
|
|
Si obtienes al menos dos de los siguientes mensajes Xid juntos:
Y el mensaje contiene la siguiente información: Xid XX: row remap pending
|
|
Xid 92: High single-bit ECC error rate |
Este mensaje Xid se muestra después de que el controlador de GPU corrige un error corregible y no debería afectar tus cargas de trabajo. Este mensaje Xid solo es informativo. No se requiere ninguna acción. |
Xid 94: Contained ECC error |
|
Xid 95: Uncontained ECC error |
|
Errores del GSP
Un procesador del sistema de GPU (GSP) es un microcontrolador que se ejecuta en GPU y controla algunas de las funciones de administración de hardware de bajo nivel.
Mensaje de error de Xid | Solución |
---|---|
Xid 119: GSP RPC timeout |
|
Xid 120: GSP error |
Errores de acceso no permitido a la memoria
Los siguientes Xids se muestran cuando las aplicaciones tienen problemas de acceso no permitido a la memoria:
Xid 13: Graphics Engine Exception
Xid 31: GPU memory page fault
Los errores de acceso no permitido a la memoria suelen deberse a las cargas de trabajo que intentan acceder a la memoria que ya está liberada o está fuera de los límites. Esto puede deberse a problemas como la desreferencia de un puntero no válido o un arreglo de límites salientes.
Para resolver este problema, debes depurar tu aplicación. Para depurar tu aplicación, puedes usar cuda-memcheck y CUDA-GDB.
En algunos casos muy raros, la degradación de hardware puede provocar errores de acceso no permitido a la memoria. Para identificar si el problema es con tu hardware, usa el administrador de GPU del centro de datos de NVIDIA (DCGM).
Puedes ejecutar dcgmi diag -r 3
o dcgmi diag -r 4
para ejecutar diferentes niveles de cobertura y duración de la prueba. Si identificas que el problema está relacionado con el hardware, presenta un caso a Atención al cliente de Cloud.
Otros mensajes de error comunes de Xid
Mensaje de error de Xid | Solución |
---|---|
Xid 74: NVLINK error |
|
Xid 79: GPU has fallen off the bus
Esto significa que el controlador no puede comunicarse con la GPU. |
Reinicia la VM. |
Restablece las GPU
Algunos problemas pueden requerir que restablezcas tus GPU. Para restablecer las GPU, completa los siguientes pasos:
- Para las VMs N1, G2 y A2, ejecuta
sudo reboot
para reiniciar la VM. - Para las VMs A3, ejecuta
nvidia-smi reset GPU
.
Si los errores persisten después de restablecer la GPU, debes borrar y volver a crear la VM.
Si el error persiste después de una eliminación y una recreación, presenta un caso a Atención al cliente de Cloud para pasar la VM a la etapa de reparación.