Cette page a été traduite par l'API Cloud Translation.

Processus de migration à chaud lors d'événements de maintenance

Lors d'un événement de maintenance planifié pour le matériel sous-jacent d'une instance de machine virtuelle (VM) ou d'une instance Bare Metal, le serveur hôte n'est pas disponible. Pour qu'une instance reste en cours d'exécution lors d'un événement hôte, Compute Engine effectue une migration à chaud de l'instance vers un autre serveur hôte de la même zone. Pour en savoir plus sur les événements hôtes, consultez À propos des événements hôtes.

La migration à chaud permet à Google Cloud d'effectuer une maintenance sans interrompre une charge de travail, redémarrer une instance ni modifier les propriétés de l'instance, telles que les adresses IP, les métadonnées, les données du stockage de blocs, l'état de l'application ou les paramètres réseau.

Grâce à la migration à chaud, les instances continuent de s'exécuter dans les situations suivantes :

Maintenance de l'infrastructure. La maintenance de l'infrastructure comprend le matériel hôte, le réseau informatique et les réseaux électriques dans les centres de données, ainsi que l'OS et le BIOS de l'hôte.
Mises à jour de sécurité et modifications de la configuration système. Cela inclut des événements tels que l'installation de correctifs de sécurité et la modification de la taille de la partition racine de l'hôte pour le stockage des packages et de l'image d'OS de l'hôte.
les défaillances matérielles ; Cela inclut les défaillances affectant la mémoire, les processeurs, les cartes d'interface réseau et les disques. Si la défaillance est détectée avant que le serveur ne soit complètement hors service, Compute Engine effectue une migration à chaud préventive de l'instance vers un nouveau serveur hôte. Si le matériel tombe en panne ou empêche la migration à chaud, l'instance s'arrête et redémarre automatiquement.

Compute Engine effectue uniquement une migration à chaud des VM pour lesquelles la stratégie de maintenance de l'hôte est définie pour la migration. Pour savoir comment modifier la stratégie de maintenance de l'hôte, consultez Définir la stratégie de maintenance de l'hôte d'une VM.

Processus de migration à chaud et disques SSD locaux

Compute Engine peut migrer à chaud les instances auxquelles des disques SSD locaux sont associés (à l'exception des instances Z3 avec plus de 18 Tio de disques Titanium SSD associés). Compute Engine déplace les instances de VM et leurs données de disque SSD local vers une nouvelle machine avant toute maintenance planifiée.

Limites

La migration à chaud n'est pas compatible avec les types de VM suivants :

Instances Bare Metal. Les instances créées avec un type de machine Bare Metal ne sont pas compatibles avec la migration à chaud. Le comportement de maintenance de ces instances est défini sur TERMINATE et RESTART, respectivement.
La plupart des instances Confidential VM La migration à chaud des instances Confidential VM n'est compatible qu'avec les types de machines N2D dotés de plates-formes de processeur AMD EPYC Milan exécutant AMD SEV. Toutes les autres instances Confidential VM ne sont pas compatibles avec la migration à chaud et doivent être configurées pour s'arrêter et éventuellement redémarrer lors d'un événement de maintenance de l'hôte. Pour en savoir plus, consultez Migration à chaud.
VM avec GPU associés. Les instances de VM avec des GPU associés doivent être configurées pour s'arrêter et éventuellement redémarrer. Compute Engine envoie une notification avant l'arrêt d'une instance de VM avec un GPU rattaché, en fonction du type de GPU :
- Pour la plupart des GPU, Compute Engine envoie une notification 60 minutes avant.
- Pour les familles de GPU exécutées sur AI Hypercomputer Cluster Director, Compute Engine envoie une notification 10 minutes avant l'arrêt.
Pour en savoir plus sur ces notifications d'événements de maintenance, consultez Interroger le serveur de métadonnées pour les notifications d'événements de maintenance.

Pour en savoir plus sur la gestion de la maintenance des hôtes avec GPU, consultez la section Gestion de la maintenance de l'hôte dans la documentation relative aux GPU.
Cloud TPU. Les Cloud TPU ne sont pas compatibles avec la migration à chaud.
VM optimisées pour le stockage. Les VM Z3 auxquelles sont associés plus de 18 Tio de SSD Titanium ne sont pas compatibles avec la migration à chaud. Le comportement de maintenance de ces VM est défini sur TERMINATE et RESTART.Compute Engine conserve les données sur le SSD Titanium lors de l'événement de maintenance, comme décrit dans Persistance des disques après l'arrêt des instances.

Fonctionnement du processus de migration à chaud

Lorsque la migration à chaud d'une VM est planifiée, Compute Engine envoie une notification pour que vous puissiez préparer vos charges de travail et vos applications à cette interruption. Lors de la migration à chaud, Google Cloud observe une durée d'interruption minimale, généralement inférieure à une seconde. Si la migration à chaud n'est pas configurée, Compute Engine arrête la VM pendant la maintenance de l'hôte. Les VM configurées pour s'arrêter lors d'un événement hôte s'arrêtent et (éventuellement) redémarrent.

Lorsque Google Cloud migre une VM en cours d'exécution d'un hôte à un autre, l'état complet de la VM est transféré de la source vers la destination de manière transparente pour l'OS invité et les ressources qui communiquent avec elle. Pour que cela fonctionne avec une parfaite fluidité, de nombreux composants entrent en jeu, comme le montre l'illustration suivante :

Migrer une VM et chacune de ses ressources vers un nouveau système hôte sans nécessiter le redémarrage du système d'exploitation invité — *Composants de la migration à chaud*

Le processus commence par une notification indiquant qu'une VM doit être déplacée de sa machine hôte actuelle. La notification peut commencer par une modification de fichier indiquant une nouvelle version disponible du BIOS, une opération de maintenance matérielle programmée ou un signal automatique suite à une défaillance matérielle imminente.

Le logiciel de gestion des clusters deGoogle Cloudsurveille en permanence ces événements et les planifie en fonction des règles qui contrôlent les centres de données, telles que les taux d'utilisation des capacités et le nombre de VM qu'un seul client peut migrer simultanément.

Une fois la VM sélectionnée pour la migration, Google Cloud envoie une notification à l'invité indiquant qu'une migration va bientôt avoir lieu. Après un délai d'attente, un hôte cible est sélectionné et est invité à configurer une nouvelle VM vierge "cible" pour recevoir la VM "source" à migrer. L'authentification est utilisée pour établir une connexion entre la source et la cible.

La migration de la VM se déroule en trois étapes :

Brownout source. La VM s'exécute toujours sur la source, tandis que la plupart des états sont envoyés de la source à la cible. Par exemple,Google Cloud copie toute la mémoire de l'invité sur la cible, tout en effectuant le suivi des pages modifiées sur la source. Le temps passé en brownout source est fonction de la taille de la mémoire de l'invité et du taux de modification des pages.
Arrêt complet. Pendant ce moment très bref d'absence totale d'exécution, la VM source est interrompue et tous les états restants nécessaires pour commencer l'exécution sur la cible sont envoyés. La VM entre dans la phase d'arrêt complet lorsque l'état d'envoi change pendant la phase de brownout source et atteint un point de rendement décroissant. L'utilisation d'un algorithme permet d'équilibrer le nombre d'octets de mémoire envoyés par rapport au taux auquel la VM invitée effectue les modifications.

Lors des événements d'arrêt complet, l'horloge système semble avancer d'un maximum de cinq secondes. Si un événement d'arrêt complet dépasse cinq secondes, Google Cloud s'arrête et synchronise l'horloge à l'aide d'un daemon inclus dans les packages invités de la VM.
Brownout cible. La VM s'exécute sur la VM cible. La VM source est présente et peut fournir une assistance pour la VM cible. Par exemple, jusqu'à ce que le tissu réseau soit mis à jour avec le nouvel emplacement de la VM cible, la VM source fournit des services de transfert de paquets vers et depuis la VM cible.

Enfin, la migration est terminée et le système supprime la VM source. Vous pouvez constater que la migration a eu lieu dans les journaux Cloud Logging de votre VM.

Migration à chaud des VM à locataire unique

Lorsque votre charge de travail s'exécute, vous pouvez déplacer les VM vers un autre nœud ou groupe de nœuds à locataire unique. Si vous déplacez une VM vers un groupe de nœuds, Compute Engine détermine le nœud sur lequel la placer. Pour en savoir plus sur la location unique, consultez la page Présentation de la location unique.

Pour déplacer des VM à locataire unique vers un autre nœud ou groupe de nœuds, vous pouvez lancer manuellement une migration à chaud. Vous pouvez également lancer manuellement une migration à chaud pour déplacer une VM sur un hôte mutualisé vers un nœud à locataire unique. Pour en savoir plus, consultez Migrer à chaud des VM manuellement.

Étapes suivantes

Définissez les options de la règle de maintenance de l'hôte de VM pour la migration à chaud dans la configuration de vos instances.
Découvrez comment recevoir des notifications de migration à chaud pour pouvoir déclencher les tâches que vous souhaitez effectuer avant un événement de maintenance.
Consultez les conseils pour concevoir un système robuste capable de gérer les interruptions de service.