Soluciona problemas de VMs con GPU


En esta página, se muestra cómo resolver problemas de las VMs que se ejecutan en Compute Engine y que tienen GPU conectadas.

Si intentas crear una VM con GPU conectadas y recibes errores, revisa Soluciona errores de disponibilidad de recursos y Soluciona problemas de creación y actualización de VMs.

Mensajes Xid

Después de crear una VM que tenga GPU conectadas, debes instalar los controladores del dispositivo NVIDIA en tus VMs con GPU para que tus aplicaciones puedan acceder a las GPU. Sin embargo, a veces estos controladores muestran mensajes de error.

Un mensaje Xid es un informe de error del controlador de NVIDIA que se imprime en el registro del kernel del sistema operativo o en el registro de acontecimientos de la VM de Linux. Estos mensajes se colocan en el archivo /var/log/messages.

Para obtener más información sobre los mensajes Xid, incluidas las posibles causas, consulta la documentación de NVIDIA.

En la siguiente sección, se proporciona orientación sobre cómo manejar algunos mensajes Xid agrupados según los tipos más comunes: errores de memoria de GPU, errores de procesador del sistema de GPU (GSP) y errores de acceso no permitido a la memoria.

Errores de memoria de GPU

La memoria de GPU es la memoria disponible en una GPU que se puede usar para el almacenamiento temporal de datos. La memoria de GPU está protegida con el código de corrección de errores, ECC, que detecta y corrige errores de un solo bit (SBE) y detecta y también informa errores de doble bit (DBE).

Antes del lanzamiento de las GPU NVIDIA A100, se admitía la retiro dinámica de páginas. Para las versiones de GPU NVIDIA A100 y posteriores (como NVIDIA H100), se presenta la recuperación de error de reasignación de fila. ECC está habilitado de forma predeterminada. Google recomienda mantener habilitado el ECC.

Los siguientes son errores comunes de memoria de GPU y sus soluciones sugeridas.

Mensaje de error de Xid Solución
Xid 48: Double Bit ECC
  1. Detén tus cargas de trabajo.
  2. Borra y vuelve a crear la VM. Si el error persiste, presenta un caso a Atención al cliente de Cloud.
Xid 63: ECC page retirement or row remapping recording event
  1. Detén tus cargas de trabajo.
  2. Restablece las GPU.
Xid 64: ECC page retirement or row remapper recording failure

Y el mensaje contiene la siguiente información:

Xid 64: All reserved rows for bank are remapped
  1. Detén tus cargas de trabajo.
  2. Borra y vuelve a crear la VM. Si el error persiste, presenta un caso a Atención al cliente de Cloud.

Si obtienes al menos dos de los siguientes mensajes Xid juntos:

  • Xid 48
  • Xid 63
  • Xid 64

Y el mensaje contiene la siguiente información:

Xid XX: row remap pending
  1. Detén tus cargas de trabajo.
  2. Restablece las GPU. Restablecer la GPU permite que la reasignación de filas y el proceso de retiro de página completen y corrijan la GPU.
Xid 92: High single-bit ECC error rate Este mensaje Xid se muestra después de que el controlador de GPU corrige un error corregible y no debería afectar tus cargas de trabajo. Este mensaje Xid solo es informativo. No se requiere ninguna acción.
Xid 94: Contained ECC error
  1. Detén tus cargas de trabajo.
  2. Restablece las GPU.
Xid 95: Uncontained ECC error
  1. Detén tus cargas de trabajo.
  2. Restablece las GPU.

Errores del GSP

Un procesador del sistema de GPU (GSP) es un microcontrolador que se ejecuta en GPU y controla algunas de las funciones de administración de hardware de bajo nivel.

Mensaje de error de Xid Solución
Xid 119: GSP RPC timeout
  1. Detén tus cargas de trabajo.
  2. Borra y vuelve a crear la VM. Si el error persiste, recopila el informe de errores de NVIDIA y presenta un caso a Atención al cliente de Cloud.
Xid 120: GSP error

Errores de acceso no permitido a la memoria

Los siguientes Xids se muestran cuando las aplicaciones tienen problemas de acceso no permitido a la memoria:

  • Xid 13: Graphics Engine Exception
  • Xid 31: GPU memory page fault

Los errores de acceso no permitido a la memoria suelen deberse a las cargas de trabajo que intentan acceder a la memoria que ya está liberada o está fuera de los límites. Esto puede deberse a problemas como la desreferencia de un puntero no válido o un arreglo de límites salientes.

Para resolver este problema, debes depurar tu aplicación. Para depurar tu aplicación, puedes usar cuda-memcheck y CUDA-GDB.

En algunos casos muy raros, la degradación de hardware puede provocar errores de acceso no permitido a la memoria. Para identificar si el problema es con tu hardware, usa el administrador de GPU del centro de datos de NVIDIA (DCGM). Puedes ejecutar dcgmi diag -r 3 o dcgmi diag -r 4 para ejecutar diferentes niveles de cobertura y duración de la prueba. Si identificas que el problema está relacionado con el hardware, presenta un caso a Atención al cliente de Cloud.

Otros mensajes de error comunes de Xid

Mensaje de error de Xid Solución
Xid 74: NVLINK error
  1. Detén tus cargas de trabajo.
  2. Restablece las GPU.
Xid 79: GPU has fallen off the bus

Esto significa que el controlador no puede comunicarse con la GPU.

Reinicia la VM.

Restablece las GPU

Algunos problemas pueden requerir que restablezcas tus GPU. Para restablecer las GPU, completa los siguientes pasos:

  • Para las VMs N1, G2 y A2, ejecuta sudo reboot para reiniciar la VM.
  • Para las VMs A3, ejecuta nvidia-smi reset GPU.

Si los errores persisten después de restablecer la GPU, debes borrar y volver a crear la VM.

Si el error persiste después de una eliminación y una recreación, presenta un caso a Atención al cliente de Cloud para pasar la VM a la etapa de reparación.