Gérer les événements de maintenance de l'hôte GPU

Lorsque Compute Engine effectue une maintenance sur une machine virtuelle (VM) dotée de processeurs graphiques (GPU) associés, cette VM doit être arrêtée. En effet, les VM auxquelles sont associés des GPU ne peuvent pas faire l'objet d'une migration à chaud.

Vous devez configurer ces VM pour qu'elles s'arrêtent en cas d'événements de maintenance de l'hôte. Vous pouvez paramétrer vos VM arrêtées pour qu'elles redémarrent automatiquement une fois l'événement de maintenance terminé.

Les événements de maintenance de l'hôte se produisent généralement une fois toutes les deux semaines, mais peuvent parfois être exécutés plus souvent.

Ce document explique comment minimiser les perturbations de vos charges de travail lors d'un événement de maintenance.

Recevoir des notifications préalables avant les événements de maintenance

Vous pouvez surveiller le programme de maintenance de votre instance de machine virtuelle (VM) et préparer vos charges de travail en vue du passage au redémarrage du système.

Pour recevoir des notifications préalables des événements de l'hôte, surveillez la valeur de métadonnées /computeMetadata/v1/instance/maintenance-event. Si la requête adressée au serveur de métadonnées renvoie NONE, la VM n'est pas programmée pour s'arrêter. Par exemple, exécutez la commande suivante à partir d'une VM :

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Si le serveur de métadonnées renvoie TERMINATE_ON_HOST_MAINTENANCE, votre VM est programmée pour s'arrêter. Compute Engine donne aux VM de GPU un préavis d'interruption d'une heure, tandis que les VM normales ne reçoivent qu'un préavis de 60 secondes. Configurez votre application pour traverser l'événement de maintenance. Par exemple, vous pouvez utiliser l'une des techniques suivantes :

Configurez votre application pour déplacer temporairement les tâches en cours vers un bucket Cloud Storage, puis récupérer ces données après le redémarrage de la VM.
Écrivez les données sur un disque persistant secondaire. Lorsque la VM redémarre automatiquement, le disque persistant peut être associé à nouveau, et votre application peut reprendre son travail.

Étape suivante

Apprenez-en plus sur les plates-formes GPU.
Pour en savoir plus sur la gestion et le scaling de groupes de VM, consultez la section Définir la taille cible du groupe.
Pour surveiller les performances du GPU, consultez la section Surveiller les performances des GPU.
Pour améliorer les performances du réseau, consultez la section Utiliser une bande passante réseau plus élevée.
Découvrez comment résoudre les problèmes liés aux arrêts et aux redémarrages des VM.