Lorsque vous devez vérifier rapidement l'état de vos clusters et charges de travail Google Kubernetes Engine (GKE), il peut être difficile de savoir par où commencer. La visualisation de l'état de vos clusters et de vos charges de travail dans la console Google Cloud vous aide à évaluer rapidement l'état de votre environnement. L'état du cluster fait référence à l'état de l'infrastructure GKE sous-jacente, comme les nœuds et le réseau, tandis que l'état de la charge de travail fait référence à l'état et aux performances de vos applications exécutées sur le cluster.
Cette page vous explique comment parcourir les pages "Clusters Kubernetes" et "Charges de travail" pour obtenir une vue d'ensemble, identifier les problèmes potentiels (comme les nœuds sous pression de ressources ou les pods en échec) et examiner des ressources spécifiques pour obtenir plus de détails.
Ces informations sont importantes pour les administrateurs et les opérateurs de plate-forme qui sont responsables du maintien de la stabilité des clusters et qui doivent effectuer des évaluations rapides de l'état et des vérifications des ressources. Il est également essentiel pour les développeurs d'applications qui doivent comprendre l'état d'exécution de leurs déploiements et examiner les échecs. Pour en savoir plus sur les rôles courants et les exemples de tâches que nous citons dans le contenu Google Cloud , consultez Rôles utilisateur et tâches courantes de GKE.
Pour vous donner une vue d'ensemble de l'état de votre application, la console Google Cloud vous donne également accès à de puissants outils de journalisation et de surveillance. Vous pouvez ainsi identifier la cause première des échecs passés et prévenir de manière proactive ceux à venir. Pour en savoir plus sur ces outils, consultez Effectuer des analyses historiques avec Cloud Logging et Effectuer une surveillance proactive avec Cloud Monitoring.
Identifier les problèmes de cluster
La page Clusters Kubernetes vous offre une vue d'ensemble de l'état de vos clusters. Pour identifier les problèmes liés à vos clusters, commencez par consulter cette page.
Pour commencer, dans la console Google Cloud , accédez à la page Clusters Kubernetes.
Voici quelques exemples d'utilisation de cette page pour résoudre des problèmes :
- Pour obtenir des conseils sur l'amélioration de l'état de votre cluster, de votre stratégie de mise à niveau et de l'optimisation des coûts, cliquez sur Afficher les recommandations.
- Pour identifier les clusters non opérationnels, consultez la colonne État. Tout cluster qui ne comporte pas de coche verte requiert votre attention.
- Pour identifier les problèmes potentiels, consultez la colonne Notifications. Cliquez sur un message de notification pour en savoir plus.
Examiner un cluster spécifique
Une fois que vous avez identifié un problème avec un cluster, explorez la page Détails du cluster pour obtenir des informations détaillées qui vous aideront à résoudre le problème et à comprendre la configuration du cluster.
Pour accéder à la page Détails d'un cluster, procédez comme suit :
Accédez à la page des clusters Kubernetes.
Examinez la colonne Nom, puis cliquez sur le nom du cluster que vous souhaitez examiner.
Voici quelques exemples d'utilisation de la page Détails du cluster pour résoudre les problèmes liés à votre cluster :
Pour les vérifications d'état générales, essayez les options suivantes :
Pour afficher les tableaux de bord au niveau du cluster, accédez à l'onglet Observabilité. Par défaut, GKE active Cloud Monitoring lorsque vous créez un cluster. Lorsque Cloud Monitoring est activé, GKE configure automatiquement les tableaux de bord sur cette page. Voici quelques-unes des vues qui pourraient vous être les plus utiles pour résoudre les problèmes :
- Présentation : affichez un récapitulatif de l'état, de l'utilisation des ressources et des événements clés de votre cluster. Ce tableau de bord vous aide à évaluer rapidement l'état général de votre cluster et à identifier les problèmes potentiels.
- Métriques de trafic : affichez les métriques de mise en réseau basées sur les nœuds pour obtenir des insights sur le trafic entre vos charges de travail Kubernetes.
- État de la charge de travail : affichez l'état des déploiements, des pods et des conteneurs. Identifier les instances défaillantes ou non opérationnelles et détecter les contraintes de ressources.
Plan de contrôle : affichez l'état et les performances du plan de contrôle. Ce tableau de bord vous permet de surveiller les métriques clés des composants tels que
kube-apiserver
etetcd
, d'identifier les goulots d'étranglement des performances et de détecter les défaillances des composants.
Pour afficher les erreurs d'application récentes, accédez à l'onglet Erreurs d'application. Les informations de cet onglet peuvent vous aider à hiérarchiser et à résoudre les erreurs. Elles indiquent le nombre d'occurrences, la date de la première apparition d'une erreur et la date de sa dernière occurrence.
Pour examiner une erreur plus en détail, cliquez sur le message d'erreur afin d'afficher un rapport d'erreurs détaillé, y compris des liens vers les journaux concernés.
Si vous rencontrez des problèmes après une mise à niveau ou une modification récente, consultez la section Principes de base des clusters dans l'onglet Détails du cluster. Vérifiez que la version indiquée dans le champ Version est celle que vous attendez. Pour en savoir plus, cliquez sur Afficher l'historique des mises à niveau dans la section Mises à niveau.
Si vous utilisez un cluster standard et que vos pods sont bloqués à l'état
Pending
, ou si vous pensez que les nœuds sont surchargés, consultez l'onglet Nœuds. L'onglet Nœuds n'est pas disponible pour les clusters Autopilot, car GKE gère les nœuds à votre place.- Dans la section Pools de nœuds, vérifiez que l'autoscaling est correctement configuré et que le type de machine est adapté à vos charges de travail.
- Dans la section Nœuds, recherchez les nœuds dont l'état n'est pas
Ready
. Un étatNotReady
indique un problème lié au nœud lui-même, tel qu'une pression sur les ressources ou un problème avec le kubelet (l'agent qui s'exécute sur chaque nœud pour gérer les conteneurs).
Identifier les problèmes liés aux charges de travail
Lorsque vous pensez qu'un problème est lié à une application spécifique, comme un déploiement ayant échoué, accédez à la page Charges de travail de la console Google Cloud . Cette page fournit une vue centralisée de toutes les applications qui s'exécutent dans vos clusters.
Pour commencer, dans la console Google Cloud , accédez à la page Charges de travail.
Voici quelques exemples d'utilisation de cette page pour résoudre des problèmes :
- Pour identifier les charges de travail non opérationnelles, consultez la colonne État. Toute charge de travail qui ne comporte pas de coche verte requiert votre attention.
- Si une application ne répond pas, consultez la colonne Pods. Par exemple, un état tel que 1/3 signifie qu'une seule des trois répliques d'application est en cours d'exécution, ce qui indique un problème.
Examiner une charge de travail spécifique
Une fois que vous avez identifié une charge de travail problématique dans l'aperçu, explorez la page Détails de la charge de travail pour commencer à isoler la cause première.
Pour accéder à la page Détails d'une charge de travail, procédez comme suit :
Accédez à la page "Charges de travail".
Consultez la colonne Nom et cliquez sur le nom de la charge de travail que vous souhaitez examiner.
Voici quelques exemples d'utilisation de la page Détails de la charge de travail pour résoudre les problèmes liés à vos charges de travail :
Pour vérifier la configuration de la charge de travail, utilisez les onglets Présentation et Détails de la charge de travail. Vous pouvez utiliser ces informations pour vérifier des événements tels que le déploiement du tag d'image de conteneur approprié ou les limites et demandes de ressources de la charge de travail.
Pour trouver le nom d'un pod spécifique qui plante, accédez à la section Pods gérés. Vous aurez peut-être besoin de ces informations pour les commandes
kubectl
. Cette section liste tous les pods contrôlés par la charge de travail, ainsi que leur état.Pour afficher l'historique des modifications récentes apportées à une charge de travail, accédez à l'onglet Historique des révisions. Si vous constatez des problèmes de performances après un nouveau déploiement, utilisez cette section pour identifier la révision active. Vous pouvez ensuite comparer les configurations de la révision actuelle avec les précédentes pour identifier la source du problème. Si cet onglet n'est pas visible, cela signifie que la charge de travail est d'un type qui n'utilise pas de révisions ou qu'elle n'a pas encore été mise à jour.
Si un déploiement semble avoir échoué, accédez à l'onglet Événements. Cette page est souvent la source d'informations la plus utile, car elle affiche les événements au niveau de Kubernetes.
Pour consulter les journaux de votre application, cliquez sur l'onglet Journaux. Cette page vous aide à comprendre ce qui se passe dans votre cluster. Recherchez ici les messages d'erreur et les traces de pile qui peuvent vous aider à diagnostiquer les problèmes.
Pour confirmer exactement ce qui a été déployé, consultez l'onglet YAML. Cette page affiche le fichier manifeste YAML actif de la charge de travail telle qu'elle existe sur le cluster. Ces informations sont utiles pour identifier les éventuelles incohérences dans vos fichiers manifestes contrôlés par source. Si vous consultez le fichier manifeste YAML d'un seul pod, cet onglet affiche également l'état du pod, ce qui fournit des informations sur les échecs au niveau du pod.
Étapes suivantes
Lisez Examiner l'état d'un cluster avec
kubectl
(page suivante de cette série).Découvrez comment ces concepts s'appliquent dans l'exemple de scénario de dépannage.
Pour obtenir des conseils sur la résolution de problèmes spécifiques, consultez les guides de dépannage de GKE.
Si vous ne trouvez pas de solution à votre problème dans la documentation, consultez Obtenir de l'aide pour obtenir une assistance supplémentaire, y compris des conseils sur les sujets suivants :
- Ouvrez une demande d'assistance en contactant le service client Google Cloud.
- Obtenir de l'aide de la communauté en posant des questions sur Stack Overflow et en utilisant le tag
google-kubernetes-engine
pour rechercher des problèmes similaires. Vous pouvez également rejoindre le canal Slack#kubernetes-engine
pour obtenir de l'aide auprès de la communauté. - Signaler des bugs ou demander des fonctionnalités à l'aide de l'outil public de suivi des problèmes.