Comprendre l'impact des défaillances des clusters Anthos sur la solution Bare Metal

Les clusters Anthos sur solution Bare Metal sont conçus pour limiter la portée des défaillances et donner la priorité aux fonctionnalités essentielles à la continuité des activités. Ce document explique comment les fonctionnalités de vos clusters sont affectées en cas de défaillance. En cas de problème, ces informations peuvent vous aider à identifier les zones à résoudre en priorité.

Les fonctionnalités principales des clusters Anthos sur bare metal incluent les catégories suivantes:

  • Exécuter des charges de travail : les charges de travail existantes peuvent continuer à s'exécuter. Il s'agit de la considération la plus importante pour assurer la continuité des activités. Même en cas de problème de votre cluster, les charges de travail existantes peuvent continuer à s'exécuter sans interruption.
  • Gérer les charges de travail : vous pouvez créer, mettre à jour et supprimer des charges de travail. Il s'agit de la deuxième considération la plus importante pour faire évoluer les charges de travail lorsque le trafic augmente, même en cas de problème du cluster.
  • Gérer des clusters d'utilisateur : vous pouvez gérer les nœuds, mettre à jour, mettre à niveau et supprimer des clusters d'utilisateur. Cela est moins important que les considérations sur le cycle de vie de l'application. Si les nœuds existants disposent d'une capacité suffisante, l'impossibilité de modifier les clusters d'utilisateur n'affecte pas les charges de travail utilisateur.
  • Gérer les clusters d'administrateur : vous pouvez mettre à jour et mettre à niveau le cluster d'administrateur.
    • Pour les déploiements qui utilisent des clusters d'administrateur et d'utilisateur distincts, il s'agit de la considération la moins importante, car le cluster d'administrateur n'héberge aucune charge de travail d'utilisateur. Si votre cluster d'administrateur rencontre un problème, les charges de travail de votre application sur les autres clusters continuent de s'exécuter sans interruption.
    • Si vous utilisez d'autres modèles de déploiement, tels que les modèles hybrides ou autonomes, le cluster d'administrateur exécute les charges de travail de l'application. Si le cluster d'administrateur rencontre un problème et que le plan de contrôle est indisponible, vous ne pouvez pas non plus gérer les charges de travail de l'application ni les composants du cluster d'utilisateur.

Les sections suivantes utilisent ces catégories de fonctionnalités de base pour décrire l'impact de types de scénarios de défaillance spécifiques. En cas de perturbation dans le cadre d'un scénario de défaillance, la durée (l'ordre) de la perturbation est également indiquée, dans la mesure du possible.

Échecs de nœud

Un nœud dans les clusters Anthos sur bare metal peut cesser de fonctionner ou devenir inaccessible sur le réseau. En fonction du pool de nœuds et du cluster dont fait partie la machine défaillante, il existe plusieurs modes de défaillance différents.

Nœud du plan de contrôle

Le tableau suivant décrit le comportement des nœuds du plan de contrôle dans les clusters Anthos sur bare metal:

Exécuter des charges de travail Gérer les charges de travail Gérer les clusters d'utilisateur Gérer les clusters d'administrateur
Interruption (durée) Aucune interruption Perturbation possible (inconnue) Perturbation possible (inconnue) Perturbation possible (inconnue)
Explication Une défaillance affecte l'unique nœud du plan de contrôle dans un cluster d'utilisateur à disponibilité élevée, ou affecte au moins la moitié des nœuds du plan. Le quorum du plan de contrôle du cluster d'utilisateur est perdu. Une défaillance affecte le nœud du plan de contrôle unique d'un cluster d'administrateur haute disponibilité ou affecte au moins la moitié des nœuds du plan de contrôle dans un cluster d'administrateur à haute disponibilité. Le quorum du plan de contrôle du cluster d'administrateur est perdu. Une défaillance affecte le nœud du plan de contrôle unique d'un cluster d'administrateur haute disponibilité ou affecte au moins la moitié des nœuds du plan de contrôle dans un cluster d'administrateur à haute disponibilité. Le quorum du plan de contrôle du cluster d'administrateur est perdu.
Récupération Pour en savoir plus, découvrez comment récupérer de la perte de quorum. Pour en savoir plus, découvrez comment récupérer de la perte de quorum. Pour en savoir plus, découvrez comment récupérer de la perte de quorum.
Prévention Déployez des clusters d'utilisateur en mode haute disponibilité pour limiter les risques de perturbations. Déployez des clusters d'administrateur en mode haute disponibilité pour limiter les risques de perturbations. Déployez des clusters d'administrateur en mode haute disponibilité pour limiter les risques de perturbations.

Nœud d'équilibrage de charge

Le tableau suivant décrit le comportement des nœuds hébergeant les équilibreurs de charge sur des clusters Anthos sur solution Bare Metal. Ces conseils ne s'appliquent qu'aux équilibreurs de charge groupés avec le mode de couche 2. Pour l'équilibrage de charge manuel, consultez les modes de défaillance de vos équilibreurs de charge externes:

Exécuter des charges de travail Gérer les charges de travail Gérer les clusters d'utilisateur Gérer les clusters d'administrateur
Interruption (durée) Perturbation possible (variable) Perturbation possible (variable) Perturbation possible (variable) Perturbation possible (variable)
Explication Si les charges de travail externes reposent sur l'équilibreur de charge du plan de données pour communiquer avec les charges de travail du cluster et que vous ne disposez que d'un seul nœud d'équilibreur de charge, il y a une interruption. L'adresse IP virtuelle du plan de contrôle du cluster d'utilisateur réside sur un nœud d'équilibreur de charge. Si le pool de nœuds de l'équilibreur de charge du cluster d'utilisateur n'est pas à haute disponibilité, une interruption est constatée. L'adresse IP virtuelle du plan de contrôle du cluster d'administrateur réside sur un nœud d'équilibreur de charge. Si le pool de nœuds de l'équilibreur de charge du cluster d'administrateur n'est pas à haute disponibilité, une interruption est constatée. L'adresse IP virtuelle du plan de contrôle du cluster d'administrateur réside sur un nœud d'équilibreur de charge. Si le pool de nœuds de l'équilibreur de charge du cluster d'administrateur n'est pas à haute disponibilité, une interruption est constatée.
Récupération

S'il existe plusieurs nœuds d'équilibreur de charge, le basculement MetalLB se produit en quelques secondes.

Si ce n'est pas la haute disponibilité, envisagez de déployer des nœuds d'équilibreur de charge supplémentaires.

Si la haute disponibilité est activée, le basculement est automatique et ne prend que quelques secondes.

Si ce n'est pas la haute disponibilité, envisagez de déployer des nœuds d'équilibreur de charge supplémentaires

Si la haute disponibilité est activée, le basculement est automatique et ne prend que quelques secondes.

Si ce n'est pas la haute disponibilité, envisagez de déployer des nœuds d'équilibreur de charge supplémentaires.

Si la haute disponibilité est activée, le basculement est automatique et ne prend que quelques secondes.

Si ce n'est pas la haute disponibilité, envisagez de déployer des nœuds d'équilibreur de charge supplémentaires.

Prévention Pour réduire les risques de perturbation, déployez des pools de nœuds d'équilibreur de charge en mode haute disponibilité. Pour réduire les risques de perturbation, déployez des pools de nœuds d'équilibreur de charge en mode haute disponibilité. Pour réduire les risques de perturbation, déployez des pools de nœuds d'équilibreur de charge en mode haute disponibilité. Pour réduire les risques de perturbation, déployez des pools de nœuds d'équilibreur de charge en mode haute disponibilité.

Nœud de calcul

Le tableau suivant décrit le comportement des nœuds de calcul dans les clusters Anthos sur bare metal:

Exécuter des charges de travail Gérer les charges de travail Gérer les clusters d'utilisateur Gérer les clusters d'administrateur
Interruption (durée) Perturbation possible (ordre de secondes) Aucune interruption Aucune interruption Aucune interruption
Explication

Les Pods qui s'exécutent sur le nœud défaillant sont perturbées et sont reprogrammées automatiquement sur d'autres nœuds opérationnels avec un délai d'éviction par défaut de cinq minutes.

Si les applications utilisateur disposent d'une capacité de charge de travail de secours et sont réparties sur plusieurs nœuds, l'interruption n'est pas observable par les clients qui implémentent des tentatives.

Les Pods sont automatiquement redémarrés sur les nœuds opérationnels.

Si le cluster n'a pas de capacité de secours, l'interruption peut durer jusqu'à ce que de nouveaux nœuds soient ajoutés au cluster.

Récupération Si le cluster ne dispose pas de capacité de secours, vous devez déployer plus de nœuds répartis sur plusieurs zones de défaillance et déplacer les charges de travail défaillantes vers les nouveaux nœuds.
Prévention

Déployer des nœuds répartis sur plusieurs zones de défaillance

Déployez des charges de travail avec plusieurs instances dupliquées réparties sur plusieurs zones de défaillance afin de minimiser les risques de perturbations.

Défaillance de l'espace de stockage

Dans les clusters Anthos sur bare metal, le stockage peut cesser de fonctionner ou devenir inaccessible sur le réseau. En fonction du stockage défaillant, il existe différents modes de défaillance.

etcd

Le contenu de etcd peut être corrompu en raison d'une indisponibilité de l'appareil du nœud ou d'une défaillance de stockage sous-jacente. Le tableau suivant décrit le comportement de la fonctionnalité de base en raison d'échecs etcd:

Exécuter des charges de travail Gérer les charges de travail Gérer les clusters d'utilisateur Gérer les clusters d'administrateur
Interruption (durée) Aucune interruption Perturbation possible (inconnue) Perturbation possible (inconnue) Perturbation possible (inconnue)
Explication Si les charges de travail existantes ne reposent pas sur le plan de contrôle de Kubernetes, elles continuent de fonctionner sans interruption. En cas d'échec de etcd sur un cluster d'utilisateur unique du plan de contrôle ou sur au moins la moitié des nœuds du plan de contrôle d'un cluster d'utilisateur haute disponibilité, des interruptions sont constatées. Le quorum du plan de contrôle du cluster d'utilisateur est perdu. En cas d'échec de etcd sur un seul cluster d'administrateur du plan de contrôle ou sur au moins la moitié des nœuds du plan de contrôle d'un cluster d'administrateur à haute disponibilité, des interruptions sont constatées. Le quorum du plan de contrôle du cluster d'administrateur est perdu. En cas d'échec de etcd sur un seul cluster d'administrateur du plan de contrôle ou sur au moins la moitié des nœuds du plan de contrôle d'un cluster d'administrateur à haute disponibilité, des interruptions sont constatées. Le quorum du plan de contrôle du cluster d'administrateur est perdu.
Récupération Pour en savoir plus, découvrez comment récupérer de la perte de quorum. Pour en savoir plus, découvrez comment récupérer de la perte de quorum. Pour en savoir plus, découvrez comment récupérer de la perte de quorum.
Prévention Pour réduire les risques de perturbation, déployez des clusters d'utilisateur en mode haute disponibilité. Pour réduire les risques de perturbation, déployez des clusters d'administrateur en mode haute disponibilité. Pour réduire les risques de perturbation, déployez des clusters d'administrateur en mode haute disponibilité.

Application utilisateur PersistentVolume

Le tableau suivant décrit le comportement de la fonctionnalité de base due à l'échec d'une PersistentVolume :

Exécuter des charges de travail Gérer les charges de travail Gérer les clusters d'utilisateur Gérer les clusters d'administrateur
Interruption (durée) Perturbation possible (inconnue) Aucune interruption Aucune interruption Aucune interruption
Explication Les charges de travail qui utilisent le PersistentVolume are affected. en échec
Récupération
Prévention Pour réduire les risques de perturbation, déployez la charge de travail de l'utilisateur en mode haute disponibilité.

Disque corrompu de Fluent Bit

La corruption d'un disque Fluent Bit n'affecte aucune des fonctionnalités principales, mais affecte la capacité à collecter et à inspecter les journaux sur Google Cloud.

L'événement SIGSEGV peut parfois être observé à partir des journaux de stackdriver-log-forwarder. Cette erreur peut être due à des journaux corrompus mis en mémoire tampon sur le disque.

Fluent Bit dispose d'un mécanisme pour filtrer et éliminer les fragments cassés. Cette fonctionnalité est disponible dans la version fluent-bit (v1.8.3) utilisée dans les clusters Anthos sur bare metal.

Sur LoadBalancer adresse IP

Si toutes les adresses IP des pools attribués sont actuellement occupées, les services LoadBalancer nouvellement créés ne peuvent pas acquérir une adresse IP LoadBalancer. Ce scénario affecte la capacité des clients du service à communiquer avec les services LoadBalancer.

Pour récupérer les adresses IP épuisées, attribuez plus d'adresses IP au pool d'adresses en modifiant la ressource personnalisée du cluster.

Expiration du certificat

Les certificats utilisés dans les opérations de cluster peuvent expirer si le cluster n'a pas été mis à niveau depuis un an et qu'aucune rotation à la demande n'a été effectuée.

Exécuter des charges de travail Gérer les charges de travail Gérer les clusters d'utilisateur Gérer les clusters d'administrateur
Interruption (durée) Aucune interruption Perturbation possible (inconnue) Perturbation possible (inconnue) Perturbation possible (inconnue)
Explication Si les charges de travail de l'utilisateur ne communiquent pas avec les composants du plan de contrôle Kubernetes, aucune interruption ne se produit. L'expiration des autorités de certification pour les clusters d'utilisateur sera interrompue. L'expiration des autorités de certification pour les clusters d'administrateur sera interrompue. L'expiration des autorités de certification pour les clusters d'utilisateur sera interrompue.
Récupération

Suivez la procédure permettant de déclencher manuellement une rotation des certificats sur le cluster d'utilisateur.

La rotation de l'autorité de certification sera perturbée.

Suivez la procédure permettant de déclencher manuellement une rotation des certificats sur le cluster d'administrateur.

La rotation de l'autorité de certification sera perturbée.

Suivez la procédure permettant de déclencher manuellement une rotation des certificats sur le cluster d'administrateur.

La rotation de l'autorité de certification sera perturbée.

Prévention La configuration permet de surveiller l'expiration du certificat. Vous trouverez un exemple de métrique "kubelet_certificate_manager_server_expiration_seconds" dans la liste des métriques.

Échec de la mise à niveau

Exécuter des charges de travail Gérer les charges de travail Gérer les clusters d'utilisateur Gérer les clusters d'administrateur
Interruption (durée) Aucune interruption Aucune interruption Perturbation possible (inconnue) Perturbation possible (inconnue)
Explication

Si la mise à niveau échoue sur le plan de contrôle du cluster d'utilisateur, cela n'entraîne aucune interruption des charges de travail existantes.

Si la mise à niveau échoue sur un nœud de calcul particulier, les charges de travail sur ce nœud seront drainées et déplacées vers d'autres nœuds opérationnels s'il existe une capacité supplémentaire sur les nœuds opérationnels.

La mise à niveau s'arrête si l'un des nœuds du plan de contrôle échoue. Le cluster fonctionne toujours si la mise à niveau échoue si le cluster d'utilisateur est à haute disponibilité. Si la mise à niveau échoue sur le plan de contrôle du cluster d'administrateur, des interruptions se produisent jusqu'à la fin de la mise à niveau. Si la mise à niveau échoue sur le plan de contrôle du cluster d'administrateur, des interruptions se produisent jusqu'à la fin de la mise à niveau.
Récupération La mise à niveau peut être renouvelée. Pour en savoir plus, découvrez comment diagnostiquer les problèmes de mise à niveau et reprendre. La mise à niveau peut être renouvelée. Pour en savoir plus, découvrez comment diagnostiquer les problèmes de mise à niveau et reprendre.
Prévention Pour en savoir plus, découvrez comment créer une sauvegarde avant la mise à niveau. Pour en savoir plus, découvrez comment créer une sauvegarde avant la mise à niveau.

Étapes suivantes

Pour en savoir plus sur les problèmes produit connus et les solutions de contournement, consultez l'article Problèmes rencontrés avec les clusters Anthos sur bare metal.