Cette page a été traduite par l'API Cloud Translation.

Résoudre les problèmes liés à GKE

Cette page répertorie les pages de dépannage pour les problèmes courants que vous pouvez rencontrer lorsque vous utilisez Google Kubernetes Engine (GKE). Cette page s'adresse aux administrateurs, aux architectes, aux spécialistes de la sécurité, aux spécialistes de la mise en réseau ou aux spécialistes du stockage qui résolvent les problèmes de configuration de GKE. Pour en savoir plus sur les rôles GKE, consultez Rôles utilisateur et tâches courantes de GKE.

Si vous débutez dans le dépannage dans GKE ou si vous souhaitez obtenir une présentation générale des outils et techniques de base, commencez par Introduction au dépannage.

Pour diagnostiquer et résoudre les problèmes que vous rencontrez à différentes étapes de l'utilisation de votre infrastructure GKE, consultez les sections suivantes :

Configurer un cluster
Autoscaling
Stockage
Sécurité du cluster
Charges de travail
Gestion des clusters
Monitoring

Cette page donne également accès à des sujets de dépannage plus généraux :

Erreurs 4xx
Problèmes connus

Pour résoudre les problèmes de mise en réseau GKE, consultez Résoudre les problèmes de mise en réseau GKE dans la documentation sur la mise en réseau GKE.

Présentation du dépannage

Sujet	Description
Présentation du dépannage de GKE	Pour commencer à résoudre les problèmes liés à GKE, découvrez le processus global et les concepts fondamentaux.
Examiner l'état et les incidents des services	Découvrez comment vérifier l'état de santé de GKE et des services Google Cloud associés pour exclure les problèmes liés à la plate-forme.
Évaluer l'état des clusters et des charges de travail dans la console Google Cloud	Découvrez comment utiliser la console Google Cloud pour examiner et résoudre les problèmes GKE.
Examiner l'état d'un cluster avec `kubectl`	Découvrez les commandes et techniques `kubectl` courantes pour diagnostiquer les problèmes dans vos clusters et charges de travail.
Effectuer une analyse historique avec Cloud Logging	Découvrez comment utiliser efficacement Cloud Logging pour identifier les causes profondes des problèmes dans GKE.
Effectuer une surveillance proactive avec Cloud Monitoring	Utilisez les tableaux de bord et les métriques Cloud Monitoring pour identifier, diagnostiquer et résoudre les problèmes liés à GKE.
Accélérer le diagnostic avec Gemini Cloud Assist	Découvrez comment Gemini peut vous aider à diagnostiquer et à résoudre les problèmes liés à GKE.
Synthèse : exemple de scénario de dépannage	Suivez un exemple pas à pas de dépannage d'un scénario courant dans GKE.

Configurer le cluster

Sujet	Description
Création de clusters	Résolvez les problèmes de création de clusters.
Clusters Autopilot	Diagnostiquer et résoudre les problèmes liés aux clusters GKE Autopilot, y compris la création de clusters, la suppression d'espaces de noms, le scaling et les problèmes de charge de travail.
Outil de ligne de commande Kubectl	Résolvez les problèmes liés à l'outil de ligne de commande `kubectl` dans GKE, y compris les problèmes d'authentification et d'autorisation. Cette page inclut également des conseils sur la façon de résoudre les problèmes liés au proxy Konnectivity pour vérifier s'il est à l'origine de l'arrêt de la réponse des commandes `kubectl logs`, `attach`, `exec` ou `port-forward`.
Pools de nœuds standards	Résolvez les problèmes liés aux pools de nœuds GKE Standard, y compris ceux liés à la création de pools de nœuds, au provisionnement au mieux, aux métadonnées d'instance corrompues et à la migration des charges de travail vers de nouveaux pools de nœuds.
Enregistrement des nœuds	Résolvez les problèmes qui se produisent lorsque vous ajoutez des nœuds à votre cluster GKE Standard, tels que les échecs d'enregistrement des nœuds et les conditions préalables manquantes pour l'enregistrement réussi des nœuds.
Environnement d'exécution du conteneur	Résolvez les problèmes liés aux environnements d'exécution de conteneurs dans GKE, y compris les problèmes liés à `containerd` et `dockershim`, ainsi qu'aux registres privés.

Autoscaling

Sujet	Description
L'autoscaler de cluster n'effectue pas de scaling à la baisse	Diagnostiquer et résoudre les problèmes courants qui empêchent votre cluster de supprimer les nœuds sous-utilisés Découvrez comment rechercher des problèmes tels que des `PodDisruptionBudgets` restrictifs, des pods avec stockage local ou des annotations spécifiques (par exemple, `"cluster-autoscaler.kubernetes.io/safe-to-evict": "false"`) qui empêchent l'éviction des nœuds.
L'autoscaler de cluster n'effectue pas de scaling à la hausse	Découvrez pourquoi l'autoscaler de cluster n'ajoute pas de nœuds pour répondre à la demande. Vérifiez s'il existe des pods non planifiables, assurez-vous de ne pas avoir atteint les limites de taille du cluster ou du pool de nœuds, et identifiez les éventuels problèmes de quota de ressources ou de disponibilité régionale des VM.
Autoscaling horizontal des pods	Résolvez les problèmes liés à l'autoscaler horizontal de pods qui ne met pas à l'échelle les répliques de pods de votre application. Résolvez les problèmes courants, tels que les objets HorizontalPodAutoscaler mal configurés ou les problèmes liés au pipeline de métriques.

Stockage

Sujet	Description
Stockage	Résolvez les problèmes de stockage, y compris ceux liés aux disques persistants régionaux, aux performances des disques et à l'expansion des volumes.

Sécurité du cluster

Sujet	Description
Authentification	Résolvez les problèmes d'authentification dans GKE, y compris ceux liés au RBAC, à la fédération d'identité de charge de travail pour GKE et au serveur de métadonnées GKE.
Comptes de service	Résolvez les problèmes liés aux comptes de service, y compris la restauration du compte de service par défaut et l'activation du compte de service Compute Engine par défaut.
Secrets au niveau de la couche application	Résolvez les problèmes qui peuvent survenir lors de la configuration du chiffrement des secrets au niveau de l'application, y compris les échecs de mise à jour et les erreurs lorsque vous ne pouvez pas utiliser de clé Cloud KMS ou lorsque la version de clé Cloud KMS a été détruite.

L'autorité de certification racine du cluster arrive bientôt à expiration

Sujet	Description
Expiration de l'autorité de certification (CA) racine	Si l'autorité de certification (AC) racine de votre cluster arrive bientôt à expiration, découvrez comment effectuer une rotation des identifiants pour éviter toute interruption des opérations normales sur les clusters.

Charges de travail

Sujet	Description
Charges de travail déployées	Résolvez les erreurs liées aux charges de travail exécutées dans un cluster GKE, y compris `PodUnschedulable`. Consultez la section "PodUnschedulable" pour obtenir des conseils sur les erreurs telles que `MatchNodeSelector` et `Does not have minimum availability`.
Récupération d'images	Résolvez les problèmes d'extraction d'images. Découvrez les causes des états `ImagePullBackOff` et `ErrImagePull`, et comment les résoudre en corrigeant les problèmes courants tels que l'authentification et la connectivité réseau.
Événements CrashLoopBackOff	Résolvez les problèmes liés aux événements `CrashLoopBackOff` dans GKE. Diagnostiquez les problèmes tels que l'épuisement des ressources, les erreurs de configuration des applications et les échecs des vérifications d'activité.
Événements OOM	Résolvez les problèmes liés aux événements Kubernetes de mémoire insuffisante (OOM). Identifier les causes, distinguer les types d'événements et appliquer des solutions efficaces pour les erreurs OOM au niveau du conteneur et du nœud.
Charges de travail Arm	Résolvez les problèmes liés aux charges de travail Arm, y compris le plantage des pods sur les nœuds Arm.
TPU	Résolvez les problèmes liés aux TPU, y compris ceux liés au quota, au provisionnement automatique des nœuds, à la configuration des charges de travail et à la planification.
GPU	Résolvez les problèmes liés aux GPU, y compris ceux liés à l'installation des pilotes de GPU, aux erreurs de plug-in d'appareil et aux images de conteneur.

Gestion des clusters

Sujet	Description
Mises à niveau de cluster	Résolvez les problèmes de mise à niveau des clusters et des nœuds GKE, y compris les mises à niveau longues ou incomplètes, les mises à niveau automatiques inattendues, les échecs et les problèmes post-mise à niveau.
Webhook	Découvrez comment résoudre les problèmes et assurer la stabilité du plan de contrôle de votre cluster lorsque vous utilisez des webhooks d'admission.
Espace de noms bloqué à l'état `Terminating`	Résolvez les problèmes liés aux espaces de noms bloqués à l'état `Terminating` en identifiant et en supprimant les composants non opérationnels qui bloquent la suppression.
Opérations simultanées	Résolvez les problèmes liés aux opérations simultanées en apprenant à identifier ces erreurs et à les résoudre en attendant que les opérations se terminent.

Surveillance

Sujet	Description
Métriques système	Résolvez les problèmes liés aux métriques système qui n'apparaissent pas dans Cloud Monitoring.
Tableaux de bord Monitoring	Résolvez les problèmes liés aux tableaux de bord de surveillance, y compris ceux liés à l'activation de la surveillance, aux ressources Kubernetes manquantes et aux autorisations.
Journalisation	Résolvez les problèmes de journalisation, y compris ceux liés à l'activation de la journalisation, aux journaux manquants et aux quotas.

Erreurs 4xx

Sujet	Description
Erreurs 4xx	Résolvez certains des problèmes 400, 401, 403 et 404 que vous pouvez rencontrer lorsque vous utilisez GKE. Cette page explique également comment résoudre les erreurs liées à l'absence d'autorisation de modification du compte.

Problèmes connus

Sujet	Description
Problèmes connus	Identifiez et résolvez les problèmes connus qui peuvent affecter votre utilisation de GKE.

Étapes suivantes

Si vous ne trouvez pas de solution à votre problème dans la documentation, consultez Obtenir de l'aide pour bénéficier d'une assistance supplémentaire, y compris des conseils sur les sujets suivants :
- Ouvrir une demande d'assistance en contactant Cloud Customer Care.
- Obtenir de l'aide de la communauté en posant des questions sur Stack Overflow et en utilisant le tag google-kubernetes-engine pour rechercher des problèmes similaires. Vous pouvez également rejoindre le canal Slack #kubernetes-engine pour obtenir une assistance supplémentaire de la communauté.
- Signaler des bugs ou demander des fonctionnalités à l'aide de l'outil public de suivi des problèmes.