Controlar eventos de mantenimiento del host de GPU


Cuando Compute Engine realiza el mantenimiento en una máquina virtual (VM) con unidades de procesamiento de gráficos (GPU) conectadas, la VM debe detenerse. Esto se debe a que las VMs con GPU conectadas no se pueden migrar en vivo.

Debes configurar estas VMs para que se detengan durante los eventos de mantenimiento del host. Puedes configurar las VMs que se detuvieron para que se reinicien de forma automática luego de que se complete el evento de mantenimiento.

Los eventos de mantenimiento del host suelen ocurrir una vez cada dos semanas, pero a veces se pueden ejecutar con mayor frecuencia.

En este documento, se analiza cómo puedes minimizar las interrupciones en las cargas de trabajo durante un evento de mantenimiento.

Recibe avisos anticipados antes de eventos de mantenimiento

Puedes supervisar el programa de mantenimiento de la instancia de máquina virtual (VM) y preparar la transición de tus cargas de trabajo cuando se reinicia el sistema.

Para recibir una notificación avanzada de los eventos del host, supervisa el valor de metadatos /computeMetadata/v1/instance/maintenance-event. Si la solicitud al servidor de metadatos devuelve NONE, la VM no está programada para detenerse. Por ejemplo, ejecuta el siguiente comando desde una VM:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Si el servidor de metadatos muestra TERMINATE_ON_HOST_MAINTENANCE, entonces tu instancia está programada para detenerse. Compute Engine les da a las VMs de GPU un aviso de 1 hora antes de la detención, mientras que las VMs normales reciben un aviso de apenas 60 segundos. Configura tu aplicación para que haga una transición cuando se produce un evento de mantenimiento. Por ejemplo, puedes usar una de las siguientes técnicas:

  • Configura tu aplicación para que transfiera de forma temporal el trabajo en curso a un bucket de Cloud Storage y recupere esos datos después de que se reinicie la instancia.

  • Escribe datos en un disco persistente secundario. Cuando la instancia se reinicia de forma automática, el disco persistente se puede volver a conectar y tu aplicación puede reanudar el trabajo.

Próximos pasos