Gérer les événements de l'hôte GPU


Les VM auxquelles sont associés des GPU ne peuvent pas faire l'objet d'une migration à chaud. Vous devez configurer ces VM pour qu'elles s'arrêtent sur des événements hôte. Si nécessaire, vous pouvez paramétrer vos VM arrêtées pour qu'elles redémarrent automatiquement une fois l'événement de maintenance terminé. Les événements de maintenance de l'hôte, sur Compute Engine, sont associés à une fréquence d'une fois toutes les deux semaines, mais ils peuvent parfois être exécutés plus souvent.

Pour minimiser les perturbations de vos charges de travail lors d'un événement de maintenance, vous pouvez surveiller le programme de maintenance de votre instance de VM et préparer vos charges de travail en vue du passage au redémarrage du système.

Pour recevoir des notifications avancées des événements de l'hôte, surveillez la valeur de métadonnées /computeMetadata/v1/instance/maintenance-event. Si la requête adressée au serveur de métadonnées renvoie NONE, la VM n'est pas programmée pour s'arrêter. Par exemple, exécutez la commande suivante à partir d'une VM :

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Si le serveur de métadonnées renvoie TERMINATE_ON_HOST_MAINTENANCE, votre VM est programmée pour s'arrêter. Compute Engine donne aux VM de GPU un préavis d'interruption d'une heure, tandis que les VM normales ne reçoivent qu'un préavis de 60 secondes. Configurez votre application pour traverser l'événement de maintenance. Par exemple, vous pouvez utiliser l'une des techniques suivantes :

  • Configurez votre application pour déplacer temporairement les tâches en cours vers un bucket Cloud Storage, puis récupérer ces données après le redémarrage de la VM.

  • Écrivez les données sur un disque persistant secondaire. Lorsque la VM redémarre automatiquement, le disque persistant peut être associé à nouveau, et votre application peut reprendre son travail.

Étape suivante