Controla eventos de mantenimiento del host de GPU

Las instancias de GPU no se pueden migrar en vivo. Debes configurar las instancias de GPU para que finalicen antes de que se realicen los eventos de mantenimiento del host. Si es necesario, puedes configurar que tus instancias finalizadas se reinicien automáticamente después de que termine el evento de mantenimiento. Estos eventos de mantenimiento generalmente ocurren una vez al mes, pero pueden llevarse a cabo con mayor frecuencia cuando sea necesario.

A fin de minimizar las interrupciones en tus cargas de trabajo durante un evento de mantenimiento, puedes supervisar la programación del mantenimiento de la instancia y preparar la transición de tus cargas de trabajo cuando se reinicia el sistema.

Para recibir una notificación avanzada de los eventos de mantenimiento del host, supervisa el valor de metadatos /computeMetadata/v1/instance/maintenance-event. Si la solicitud al servidor de metadatos muestra NONE, la instancia no está programada para finalizar. Por ejemplo, ejecuta el siguiente comando desde una instancia:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Si el servidor de metadatos muestra TERMINATE_ON_HOST_MAINTENANCE, entonces tu instancia está programada para finalizar. Compute Engine les da a las instancias de GPU un aviso de 1 hora antes de la finalización, mientras que las instancias normales reciben un aviso de apenas 60 segundos. Configura tu aplicación para que haga una transición cuando se produce un evento de mantenimiento. Por ejemplo, puedes usar una de las siguientes técnicas:

  • Configura tu aplicación para que transfiera de forma temporal el trabajo en curso a un depósito de Cloud Storage y recupere esos datos después de que se reinicie la instancia.

  • Escribe datos en un disco persistente secundario. Cuando la instancia se reinicia de forma automática, el disco persistente se puede volver a conectar y tu aplicación puede reanudar el trabajo.

También puedes recibir notificaciones de cambios en este valor de metadatos sin sondeo. Para ver ejemplos de cómo recibir avisos avanzados de eventos de mantenimiento del host sin sondeo, consulta cómo recibir avisos de migración en vivo.

Próximos pasos