Examiner l'état et les incidents de service


Lorsque vos clusters ou applications Google Kubernetes Engine (GKE) rencontrent des problèmes, il est essentiel de déterminer rapidement si la cause est interne ou liée à uneGoogle Cloud interruption de service plus large. Il est inefficace de passer du temps à déboguer localement si la cause première est un incident de plate-forme connu.

Utilisez cette page pour déterminer si un problème lié à votre cluster GKE est dû à une interruption de service Google Cloud plus générale. Découvrez où trouver les informations officielles sur l'état des services, les événements de santé personnalisés et les insights sur les incidents de service à partir des sources suivantes :

  • Google Cloud  État du service : informations sur l'état des services Google Cloud, par région.
  • Personalized Service Health : interruptions de service pertinentes pour vos projets.
  • Insights et recommandations sur les incidents de service : clusters GKE concernés par un incident de service en cours.

Ces informations sont importantes pour les administrateurs et opérateurs de plate-forme, ainsi que pour les développeurs d'applications qui résolvent des problèmes et doivent déterminer si les problèmes observés sont liés à un événement d'état de service Google Cloud plus général. Pour en savoir plus sur les rôles courants et les exemples de tâches que nous citons dans le contenuGoogle Cloud , consultez Rôles utilisateur et tâches courantes de GKE.

Consulter l'état des Google Cloud services

La page État du serviceGoogle Cloud fournit des informations sur l'état des services faisant partie de Google Cloud.

Pour consulter les incidents liés à GKE, accédez à la page Google Cloud Service Health.

Accéder à tous les incidents signalés pour Google Kubernetes Engine

Examiner Personalized Service Health

Personalized Service Health vous permet d'identifier les interruptions de serviceGoogle Cloud pertinentes pour vos projets. Ces perturbations sont appelées événements d'état du service. Des informations les concernant sont disponibles dans la console Google Cloud et dans divers points d'intégration.

Pour examiner les incidents liés à GKE qui concernent vos projets, consultez les événements Service Health dans le tableau de bord Personalized Service Health de la console Google Cloud .

Accéder à Personalized Service Health

Vous pouvez filtrer les incidents par service, zone géographique, pertinence et état. Le tableau de bord fournit également des détails sur les incidents, tels que l'étendue de l'impact, les symptômes, les solutions et les mises à jour sur l'état de la résolution. Pour commencer, consultez Guide de démarrage rapide : afficher les événements d'état des services dans la consoleGoogle Cloud .

Examiner les insights et les recommandations concernant les incidents de service

Les insights et recommandations sur les incidents de service vous permettent d'identifier les clusters GKE concernés par un incident de service en cours.

Pour obtenir des insights sur les incidents de service, consultez les insights et les recommandations pour le sous-type GKE_RELIABILITY_INCIDENT. Vous pouvez obtenir des insights à l'aide de la console Google Cloud , de Google Cloud CLI ou de l'API Recommender. Pour en savoir plus, consultez Afficher des insights et des recommandations.

Les insights et les recommandations incluent les informations suivantes :

  • Cluster concerné : cluster affecté par l'incident.
  • Nom de l'incident : identifiant de l'incident à utiliser comme référence lorsque vous communiquez avec le Cloud Customer Care.
  • Description de l'incident : informations sur l'incident fournies par l'équipe de réponse aux incidents.
  • Dernière heure d'efficacité : date et heure de la dernière mise à jour des informations sur l'incident.
  • Mesure d'atténuation : mesure d'atténuation recommandée par l'équipe de réponse aux incidents, le cas échéant.

L'insight sur l'incident de service reste visible jusqu'à ce que l'équipe de gestion des incidents Google Cloud atténue l'incident et détermine que l'insight n'est plus pertinent. Il y aura un délai entre le moment où l'incident est atténué et n'a plus d'impact sur vos ressources, et le moment où l'insight est supprimé. Si vous avez mis en place une solution de contournement et que vous ne souhaitez plus voir l'insight, vous pouvez l'ignorer.

Étapes suivantes