Controla eventos del host de GPU


Las VMs que tienen GPU conectadas no se pueden migrar en vivo. Debes configurar estas VMs para que se detengan durante los eventos del host. Si es necesario, puedes configurar las VMs que se detuvieron para que se reinicien de forma automática luego de que se complete el evento de mantenimiento. Los eventos de mantenimiento del host, en Compute Engine, tienen una frecuencia de una vez cada dos semanas, pero a veces se pueden ejecutar con mayor frecuencia.

A fin de minimizar las interrupciones en tus cargas de trabajo durante un evento de mantenimiento, puedes supervisar la programación del mantenimiento de la instancia y preparar la transición de tus cargas de trabajo cuando se reinicia el sistema.

Para recibir una notificación avanzada de los eventos del host, supervisa el valor de metadatos /computeMetadata/v1/instance/maintenance-event. Si la solicitud al servidor de metadatos muestra NONE, la VM no está programada para detenerse. Por ejemplo, ejecuta el siguiente comando desde una VM:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Si el servidor de metadatos muestra TERMINATE_ON_HOST_MAINTENANCE, entonces tu instancia está programada para detenerse. Compute Engine les da a las VM de GPU un aviso de 1 hora antes de la detención, mientras que las VM normales reciben un aviso de apenas 60 segundos. Configura tu aplicación para que haga una transición cuando se produce un evento de mantenimiento. Por ejemplo, puedes usar una de las siguientes técnicas:

  • Configura tu aplicación para que transfiera de forma temporal el trabajo en curso a un bucket de Cloud Storage y recupere esos datos después de que se reinicie la instancia.

  • Escribe datos en un disco persistente secundario. Cuando la instancia se reinicia de forma automática, el disco persistente se puede volver a conectar y tu aplicación puede reanudar el trabajo.

Próximos pasos