Résoudre les problèmes liés à GKE


Cette page répertorie les pages de dépannage pour les problèmes courants que vous pouvez rencontrer lorsque vous utilisez Google Kubernetes Engine (GKE). Cette page s'adresse aux administrateurs, aux architectes, aux spécialistes de la sécurité, aux spécialistes de la mise en réseau ou aux spécialistes du stockage qui résolvent les problèmes de configuration de GKE. Pour en savoir plus sur les rôles GKE, consultez Rôles utilisateur et tâches courantes de GKE.

Si vous débutez dans le dépannage dans GKE ou si vous souhaitez obtenir une présentation générale des outils et techniques de base, commencez par Introduction au dépannage.

Pour diagnostiquer et résoudre les problèmes que vous rencontrez à différentes étapes de l'utilisation de votre infrastructure GKE, consultez les sections suivantes :

Cette page donne également accès à des sujets de dépannage plus généraux :

Pour résoudre les problèmes de mise en réseau GKE, consultez Résoudre les problèmes de mise en réseau GKE dans la documentation sur la mise en réseau GKE.

Présentation du dépannage

Thème Description
Présentation du dépannage de GKE Pour commencer à résoudre les problèmes liés à GKE, découvrez le processus global et les concepts fondamentaux.
Examiner l'état et les incidents des services Découvrez comment vérifier l'état de santé de GKE et des services Google Cloud associés pour exclure les problèmes liés à la plate-forme.
Évaluer l'état des clusters et des charges de travail dans la console Google Cloud Découvrez comment utiliser la console Google Cloud pour examiner et résoudre les problèmes GKE.
Examiner l'état d'un cluster avec kubectl Découvrez les commandes et techniques kubectl courantes pour diagnostiquer les problèmes dans vos clusters et charges de travail.
Effectuer une analyse historique avec Cloud Logging Découvrez comment utiliser efficacement Cloud Logging pour identifier les causes profondes des problèmes dans GKE.
Effectuer une surveillance proactive avec Cloud Monitoring Utilisez les tableaux de bord et les métriques Cloud Monitoring pour identifier, diagnostiquer et résoudre les problèmes liés à GKE.
Accélérer le diagnostic avec Gemini Cloud Assist Découvrez comment Gemini peut vous aider à diagnostiquer et à résoudre les problèmes liés à GKE.
Synthèse : exemple de scénario de dépannage Suivez un exemple pas à pas de dépannage d'un scénario courant dans GKE.

Configurer le cluster

Thème Description
Création de clusters Résolvez les problèmes de création de clusters.
Clusters Autopilot Diagnostiquer et résoudre les problèmes liés aux clusters GKE Autopilot, y compris la création de clusters, la suppression d'espaces de noms, le scaling et les problèmes de charge de travail.
Outil de ligne de commande Kubectl Résolvez les problèmes liés à l'outil de ligne de commande kubectl dans GKE, y compris les problèmes d'authentification et d'autorisation. Cette page inclut également des conseils sur la façon de résoudre les problèmes liés au proxy Konnectivity pour vérifier s'il est à l'origine de l'arrêt de la réponse des commandes kubectl logs, attach, exec ou port-forward.
Pools de nœuds standards Résoudre les problèmes liés aux pools de nœuds GKE Standard, y compris les problèmes de création de pools de nœuds, de provisionnement au mieux, de métadonnées d'instance corrompues et de migration des charges de travail vers de nouveaux pools de nœuds.
Enregistrement des nœuds Résolvez les problèmes qui surviennent lorsque vous ajoutez des nœuds à votre cluster GKE Standard, tels que les échecs d'enregistrement des nœuds et les conditions préalables manquantes pour l'enregistrement réussi des nœuds.
Environnement d'exécution du conteneur Résolvez les problèmes liés aux environnements d'exécution de conteneurs dans GKE, y compris les problèmes liés à containerd et dockershim, ainsi qu'aux registres privés.

Stockage

Thème Description
Stockage Résolvez les problèmes de stockage, y compris ceux liés aux disques persistants régionaux, aux performances des disques et à l'expansion des volumes.

Sécurité du cluster

Thème Description
Authentification Résolvez les problèmes d'authentification dans GKE, y compris ceux liés au RBAC, à la fédération d'identité de charge de travail pour GKE et au serveur de métadonnées GKE.
Comptes de service Résolvez les problèmes liés aux comptes de service, y compris la restauration du compte de service par défaut et l'activation du compte de service Compute Engine par défaut.
Secrets au niveau de la couche application Résolvez les problèmes qui peuvent survenir lors de la configuration du chiffrement des secrets au niveau de l'application, y compris les échecs de mise à jour et les erreurs lorsque vous ne pouvez pas utiliser de clé Cloud KMS ou lorsque la version de clé Cloud KMS a été détruite.

L'autorité de certification racine du cluster arrive bientôt à expiration

Thème Description
Expiration de l'autorité de certification (CA) racine Si l'autorité de certification (AC) racine de votre cluster arrive bientôt à expiration, découvrez comment effectuer une rotation des identifiants pour éviter toute interruption des opérations normales sur les clusters.

Charges de travail

Thème Description
Charges de travail déployées Résolvez les erreurs liées aux charges de travail exécutées dans un cluster GKE, y compris PodUnschedulable. Consultez la section "PodUnschedulable" pour obtenir des conseils sur les erreurs telles que MatchNodeSelector et Does not have minimum availability.
Récupération d'images Résolvez les problèmes d'extraction d'images. Découvrez les causes des états ImagePullBackOff et ErrImagePull, et comment les résoudre en corrigeant les problèmes courants tels que l'authentification et la connectivité réseau.
Événements CrashLoopBackOff Résolvez les problèmes liés aux événements CrashLoopBackOff dans GKE. Diagnostiquez les problèmes tels que l'épuisement des ressources, les erreurs de configuration des applications et les échecs des vérifications d'activité.
Événements OOM Résolvez les problèmes liés aux événements Kubernetes de mémoire insuffisante (OOM). Identifier les causes, distinguer les types d'événements et appliquer des solutions efficaces pour les erreurs OOM au niveau du conteneur et du nœud.
Charges de travail Arm Résolvez les problèmes liés aux charges de travail Arm, y compris le plantage des pods sur les nœuds Arm.
TPU Résolvez les problèmes liés aux TPU, y compris ceux liés au quota, au provisionnement automatique des nœuds, à la configuration des charges de travail et à la planification.
GPU Résolvez les problèmes liés aux GPU, y compris ceux liés à l'installation des pilotes de GPU, aux erreurs de plug-in d'appareil et aux images de conteneur.

Gestion des clusters

Thème Description
Mises à niveau de cluster Résolvez les problèmes de mise à niveau des clusters et des nœuds GKE, y compris les mises à niveau longues ou incomplètes, les mises à niveau automatiques inattendues, les échecs et les problèmes post-mise à niveau.
Webhook Découvrez comment résoudre les problèmes et assurer la stabilité du plan de contrôle de votre cluster lorsque vous utilisez des webhooks d'admission.
Espace de noms bloqué à l'état Terminating Résolvez les problèmes liés aux espaces de noms bloqués à l'état Terminating en identifiant et en supprimant les composants non opérationnels qui bloquent la suppression.
Opérations simultanées Résolvez les problèmes liés aux opérations simultanées en apprenant à identifier ces erreurs et à les résoudre en attendant que les opérations se terminent.

Surveillance

Thème Description
Métriques système Résolvez les problèmes liés aux métriques système qui n'apparaissent pas dans Cloud Monitoring.
Tableaux de bord Monitoring Résolvez les problèmes liés aux tableaux de bord de surveillance, y compris ceux liés à l'activation de la surveillance, aux ressources Kubernetes manquantes et aux autorisations.
Journalisation Résoudre les problèmes de journalisation, y compris ceux liés à l'activation de la journalisation, aux journaux manquants et aux quotas.

Erreurs 4xx

Thème Description
Erreurs 4xx Résolvez certains des problèmes 400, 401, 403 et 404 que vous pouvez rencontrer lorsque vous utilisez GKE. Cette page explique également comment résoudre les erreurs liées à l'absence d'autorisation de modification du compte.

Problèmes connus

Thème Description
Problèmes connus Identifiez et résolvez les problèmes connus qui peuvent affecter votre utilisation de GKE.

Étapes suivantes