Le produit décrit dans cette documentation, GKE sur AWS, est désormais en mode de maintenance et sera arrêté le 17 mars 2027.

Cette page a été traduite par l'API Cloud Translation.

Réparation automatique des nœuds

La fonctionnalité de réparation automatique des nœuds surveille en continu l'état de chaque nœud d'un pool de nœuds. Si un nœud devient défaillant, la fonctionnalité de réparation automatique des nœuds le répare automatiquement. Cette fonctionnalité réduit la probabilité de panne de cluster et de dégradations des performances, tout en réduisant au maximum la maintenance de vos clusters.

Vous pouvez activer la réparation automatique des nœuds lorsque vous créez ou mettez à jour un pool de nœuds. Notez que vous activez ou désactivez cette fonctionnalité sur les pools de nœuds plutôt que sur les nœuds individuels.

Conditions de nœud non opérationnel

La réparation automatique des nœuds examine l'état de chaque nœud pour déterminer s'il doit être réparé. Un nœud est considéré comme sain s'il signale un état Ready. Sinon, si l'état "non opérationnel" est signalé de manière consécutive pendant une durée spécifique, des réparations sont lancées.

Un état non opérationnel peut être dû à un état NotReady, détecté lors de plusieurs vérifications consécutives sur une période d'environ 15 minutes. Sinon, un état non opérationnel peut être dû à l'épuisement de l'espace disque de démarrage, identifié sur une période d'environ 30 minutes

Vous pouvez vérifier manuellement et à tout moment les signaux d'état de votre nœud à l'aide de la commande kubectl get nodes.

Stratégies de réparation des nœuds

La réparation automatique des nœuds suit certaines stratégies pour garantir à la fois l'état général du cluster et la disponibilité des applications pendant le processus de réparation. Cette section explique comment la fonctionnalité de réparation automatique des nœuds respecte les configurations PodDisruptionBudget, le Pod Termination Grace Period et prend d'autres mesures pour minimiser les perturbations du cluster lors de la réparation des nœuds.

Respecter `PodDisruptionBudget` pendant 30 minutes

Si un nœud doit être réparé, il n'est pas drainé et recréé immédiatement. Au lieu de cela, la fonctionnalité de réparation automatique des nœuds respecte les configurations PodDisruptionBudget (PDB) pendant 30 minutes au maximum, après quoi tous les pods du nœud sont supprimés. (Une configuration PDB définit, entre autres, le nombre minimal d'instances répliquées d'un pod particulier disponibles à tout moment).

En respectant PodDisruptionBudget pendant environ 30 minutes, la fonction de réparation automatique de nœud permet aux pods d'être replanifiés et redistribués en toute sécurité sur les autres nœuds sains du cluster. Cela permet de maintenir le niveau de disponibilité souhaité pour l'application pendant le processus de réparation.

Une fois le délai de 30 minutes écoulé, la réparation automatique du nœud se poursuit même si cela implique de ne pas respecter les PodDisruptionBudget. Sans limite de temps, le processus de réparation peut s'arrêter indéfiniment si la configuration PodDisruptionBudget empêche les évictions nécessaires à la réparation.

Respecter le délai de grâce avant l'arrêt des pods

La fonctionnalité de réparation automatique des nœuds respecte également un délai de grâce pour l'arrêt des pods d'environ 30 minutes. Le délai de grâce avant l'arrêt des pods permet aux pods de disposer d'une fenêtre de temps pour un arrêt progressif lors de la résiliation. Pendant la période de grâce, le kubelet d'un nœud est chargé d'exécuter les tâches de nettoyage libérant les ressources associées aux pods sur ce nœud. La réparation automatique des nœuds laisse jusqu'à 30 minutes au kubelet pour effectuer ce nettoyage. Si les 30 minutes allouées sont écoulées, le nœud est forcé de s'arrêter, que les pods aient été arrêtés correctement ou non.

Stratégies de réparation de nœuds supplémentaires

La réparation automatique des nœuds met également en œuvre les stratégies suivantes :

Si plusieurs nœuds nécessitent une réparation, ils sont réparés un par un pour limiter les perturbations du cluster et protéger les charges de travail.
Si vous désactivez la réparation automatique de nœuds pendant le processus de réparation, les réparations en cours se poursuivent néanmoins jusqu'à ce que l'opération de réparation aboutisse ou échoue.

Activer et désactiver la réparation automatique des nœuds

Vous pouvez activer ou désactiver la réparation automatique des nœuds lors de la création ou de la mise à jour d'un pool de nœuds. Vous activez ou désactivez cette fonctionnalité sur les pools de nœuds plutôt que sur les nœuds individuels.