Controla eventos de mantenimiento del host de GPU

Las instancias de GPU no se pueden migrar en vivo. Debes configurar las instancias de GPU para que se detengan durante los eventos de mantenimiento del host. Si es necesario, puedes configurar las instancias que se detuvieron para que se reinicien de forma automática luego de que se complete el evento de mantenimiento. Los eventos de mantenimiento del host, en Compute Engine, tienen una frecuencia de una vez cada dos semanas, pero a veces se pueden ejecutar con mayor frecuencia.

A fin de minimizar las interrupciones en tus cargas de trabajo durante un evento de mantenimiento, puedes supervisar la programación del mantenimiento de la instancia y preparar la transición de tus cargas de trabajo cuando se reinicia el sistema.

Para recibir una notificación avanzada de los eventos de mantenimiento del host, supervisa el valor de metadatos /computeMetadata/v1/instance/maintenance-event. Si la solicitud al servidor de metadatos muestra NONE, la instancia no está programada para detenerse. Por ejemplo, ejecuta el siguiente comando desde una instancia:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Si el servidor de metadatos muestra TERMINATE_ON_HOST_MAINTENANCE, entonces tu instancia está programada para detenerse. Compute Engine les da a las instancias de GPU un aviso de 1 hora antes de la detención, mientras que las instancias normales reciben un aviso de apenas 60 segundos. Configura tu aplicación para que haga una transición cuando se produce un evento de mantenimiento. Por ejemplo, puedes usar una de las siguientes técnicas:

  • Configura tu aplicación para que transfiera de forma temporal el trabajo en curso a un depósito de Cloud Storage y recupere esos datos después de que se reinicie la instancia.

  • Escribe datos en un disco persistente secundario. Cuando la instancia se reinicia de forma automática, el disco persistente se puede volver a conectar y tu aplicación puede reanudar el trabajo.

También puedes recibir notificaciones de cambios en este valor de metadatos sin sondeo. Para ver ejemplos de cómo recibir avisos avanzados de eventos de mantenimiento del host sin sondeo, consulta cómo recibir avisos de migración en vivo.

Próximos pasos