Surveiller les incidents Service Health

.

Pour vous tenir informé de l'état des Google Cloud produits, vérifiez les points suivants:

  1. Personalized Service Health : fournit une vue personnalisée des Google Cloud produits et régions utilisés par vos projets ou dans votre organisation. Consultez Personalized Service Health pour obtenir des informations sur les incidentsGoogle Cloud actifs et passés susceptibles d'affecter vos projets et vos ressources.

    Vous pouvez accéder à Personalized Service Health via les éléments suivants:

    Consultez d'abord l'état de service personnalisé en cas de perturbation de service pour des produits spécifiques, car il contient toujours les informations les plus complètes disponibles pour les clientsGoogle Cloud . En savoir plus sur Personalized Service Health et comment l'intégrer à votre workflow de gestion des incidents

  2. Google Cloud État du service : fournit les informations suivantes :

    • Vue d'ensemble de l'état de tous les Google Cloud produits Google Cloud sur la plate-forme.
    • Google Cloud Incidents ayant un impact étendu

    Google Cloud L'état du service est disponible pour tous les utilisateurs via les éléments suivants:

Vous pouvez également rechercher des perturbations actives sur la page d'assistance de la console Google Cloud. Les problèmes connus affichés sur la page d'assistance de la console Google Cloud incluent également des incidents mineurs et à portée limitée. La page "Problèmes connus" vous permet de créer une demande à partir d'un incident publié afin d'obtenir des notifications régulières et de pouvoir communiquer avec l'équipe d'assistance. Les demandes d'assistance sont pertinentes pour les problèmes qui ne sont pas considérés comme des incidents ou pour lesquels une interaction humaine personnalisée est nécessaire. Si vous disposez d'une formule d'assistance Premium, Advanced ou Standard, vous pouvez signaler un incident en créant une demande d'assistance dans la console Google Cloud. Sinon, vous pouvez utiliser ce formulaire.

Ce document se concentre sur l' Google Cloud état du service.

Qu'est-ce que Google Cloud Service Health ?

Google Cloud Service Health fournit des informations sur les incidents à grande échelle en cours qui répondent à certains critères et sur l'état des Google Cloud produits, organisés par région et par paramètres régionaux globaux. Ces informations peuvent inclure des perturbations ou des interruptions de service, ou des messages d'information sur un problème passager.

Google Cloud Service Health est conçu pour être disponible dans le cas rare où Personalized Service Health lui-même est indisponible ou affecté par une interruption, ou si le produit concerné n'a pas encore été intégré à Personalized Service Health.

Quand un incident apparaît-il dans Google Cloud Service Health ?

Pour la plupart des Google Cloud incidents, les clients concernés reçoivent des communications directement via Personalized Service Health dans la console Google Cloud. S'ils répondent aux conditions d'alerte, ces incidents déclenchent également les alertes Service Health que vous avez configurées.

Les incidents qui répondent à l'un des critères suivants s'affichent dans Google Cloud État du service:

  • Incidents majeurs et publics
  • Incidents pour les Google Cloud produits qui ne sont pas encore disponibles dans Personalized Service Health
  • Incidents qui se produisent lorsque le tableau de bord Service Health n'est pas disponible

Incident majeur

Google Cloud définit un incident comme un incident majeur s'il remplit toutes les conditions suivantes:

  • Étendue élevée : l'incident a un impact mondial ou affecte un pourcentage important de projets client dans une ou plusieurs régions.
  • Gravité élevée : un ou plusieurs produits sont indisponibles ou très dégradés.

Dans les rares cas où un incident majeur se produit, nous prenons des mesures urgentes pour résoudre les problèmes.

En cas d'incident majeur, l'état du problème est communiqué via Service Health de Google Cloud. Un incident majeur est marqué comme Interruption de service dans les tableaux de bord d'état. Une fois le problème résolu, nous publions un rapport public sur l'incident, qui comprend les détails des facteurs ayant contribué à l'incident et les mesures que nous prévoyons de prendre pour éviter que de tels incidents ne se reproduisent.

En cas d'incidents de plus petite envergure, un rapport non public peut être mis à la disposition des clients.

Cycle de vie d'un incident

En cas de détection d'une dégradation d'un produit, l' Google Cloud équipe d'assistance et l'équipe d'ingénierie produit travaillent conjointement pour résoudre l'incident et vous tenir informé.

Le schéma suivant illustre les responsabilités des équipes d'ingénierie produit et d'assistance:

Schéma du cycle de vie

Pour en savoir plus sur chacune de ces responsabilités, consultez les sections suivantes.

Détection

Google Cloud utilise une surveillance interne et par boîte noire pour détecter les incidents. Pour en savoir plus, consultez le chapitre 6 du manuel d'ingénierie en fiabilité des sites.

Réponse initiale

Lorsqu'un incident est détecté, l' Google Cloud équipe Customer Care gère les communications avec les clients. La notification initiale d'un incident est souvent sommaire, ne mentionnant généralement que le produit concerné. En effet, nous privilégions une notification rapide à l'apport de détails. Ces derniers peuvent être fournis dans les mises à jour ultérieures.

Différents canaux de communication sont utilisés en fonction de l'étendue et de la gravité d'un problème afin de vous fournir autant d'informations que possible, sans vous submerger de données qui ne vous concernent pas:

Schéma des communications

Examiner

Les ingénieurs produit sont chargés d'enquêter sur l'origine des incidents. La gestion des incidents est souvent assurée par des ingénieurs en fiabilité des sites, mais elle peut être confiée à des ingénieurs logiciels ou à d'autres spécialistes, en fonction de la situation et du produit. Pour en savoir plus, consultez le chapitre 12 du manuel d'ingénierie en fiabilité des sites.

Atténuation et correction

Un problème n'est considéré comme résolu que lorsque des modifications ont été apportées et que Google a la certitude qu'elles vont le régler définitivement. Par exemple, un rollback peut être effectué pour annuler une modification ayant déclenché un incident.

Tant qu'un incident est en cours, Customer Care et l'équipe produit tentent d'atténuer le problème. Cela permet de réduire l'impact ou l'étendue d'un problème, par exemple en fournissant temporairement des ressources supplémentaires à un produit présentant une surcharge.

Si aucune mesure d'atténuation n'a été trouvée et si cela est possible, l'équipe Customer Care découvre des solutions de contournement et les communique. Les solutions de contournement sont des étapes que vous pouvez suivre pour répondre au besoin sous-jacent en dépit de l'incident. Une solution de contournement peut par exemple consister à utiliser des paramètres différents pour un appel d'API afin d'éviter un chemin de code problématique.

Suivi

Lorsqu'un incident est en cours, l'équipe Customer Care fournit des mises à jour régulières, lesquelles fournissent généralement les éléments suivants :

  • Davantage d'informations sur l'incident, par exemple les messages d'erreur, les zones ou régions concernées, les fonctionnalités affectées ou les pourcentages d'impact

  • L'avancement du processus d'atténuation, y compris les solutions de contournement

  • Le calendrier des communications, adapté à l'incident

  • Les changements d'état, par exemple lorsqu'un incident est résolu

Analyse post-mortem

Tous les incidents font l'objet d'une analyse post-mortem en interne pour bien les comprendre et identifier les améliorations de fiabilité que Google peut apporter. Ces améliorations font ensuite l'objet d'un suivi et d'une mise en œuvre. Pour en savoir plus sur les analyses post-mortem effectuées par Google, consultez le chapitre 15 du manuel d'ingénierie en fiabilité des sites.

Rapport d'incident

Lorsque les incidents ont des conséquences très graves et très étendues, Google fournit des rapports d'incident décrivant les symptômes, l'impact, l'origine, les mesures correctives et la prévention future de ces derniers. Comme pour les analyses post-mortem, nous accordons une attention particulière aux mesures que nous prenons pour tirer les leçons du problème et améliorer la fiabilité. L'écriture et la publication des analyses post-mortem témoignent de la volonté de transparence de Google, ainsi que de notre engagement à créer des produits stables pour nos clients.

Modèle de données d'incident

Un incident affecte un ou plusieurs produits dans un ou plusieurs lieux. Les incidents ont une heure de début et de fin, ainsi qu'une gravité globale. Un incident est associé à des mises à jour qui décrivent son évolution au fil du temps, y compris son état et les zones concernées. Les informations sur l'incident sont disponibles via un schéma JSON.

Le schéma JSON comporte des champs marqués comme Stable (Stable) et Unstable (Instable). En général, les champs d'ID sont considérés comme stables, tandis que les champs tels que les noms à afficher sont considérés comme instables et peuvent être modifiés sans avertissement. N'utilisez les champs Stable que lorsque vous effectuez une intégration avec un système externe ou une automatisation de bâtiment. Consultez Puis-je créer des intégrations pour consommer les données affichées dansGoogle Cloud État du service de manière programmatique ?.

Questions fréquentes

Où puis-je trouver des informations sur les perturbations et interruptions de service antérieures ?

Google Cloud Service Health enregistre les perturbations et les pannes des produitsGoogle Cloud pendant cinq ans au maximum. L'onglet Aperçu affiche l'état actuel des produits par paramètres régionaux. Pour afficher des informations sur les perturbations et les pannes de produits au cours de la dernière année, cliquez sur Afficher l'historique. Pour afficher l'historique des pannes d'un produit au cours des cinq dernières années, cliquez sur Voir plus pour ce produit.

Comment consulter les informations d'état régionalisées pour les Google Cloud produits ?

Google Cloud L'état du service affiche l'état de tous les Google Cloud produits, organisés par région et par paramètres régionaux globaux. Pour afficher l'état d'un emplacement multirégional, sélectionnez l'onglet correspondant à la région.

Puis-je créer des intégrations pour consommer les données affichées dans l'état de service de Google Google Cloud de manière programmatique ?

Oui, vous pouvez utiliser les données affichées sur la page Google Cloud État du service de la manière suivante:

  • Via un flux RSS
  • Via un fichier d'historique JSON

    Vous pouvez télécharger le schéma du fichier JSON ici.

Le flux RSS et le fichier d'historique JSON fournissent des informations sur l'état des incidents qui peuvent être utilisées via des intégrations.

Utilisez les champs marqués Stable dans le fichier d'historique JSON au lieu des champs marqués Instable. Exemple: Si vous essayez d'identifier de manière programmatique les incidents affectant un ensemble particulier de produits, utilisez les ID de produit (affected_products>id), et non leurs noms à afficher.

Identifiants produit par rapport aux noms de produits

Historiquement, Google Cloud Service Health ne fournissait pas de mécanisme permettant de localiser l'ID d'un produit donné. Depuis début 2023,Google Cloud Service Health a mis à disposition un catalogue de produits qui fournit ce mappage pour tous les produits. Un ID produit fournit un champ stable à utiliser comme clé, tout en permettant de modifier le nom à afficher d'un produit. Privilégiez la référence à l'ID du produit lorsque vous identifiez des incidents affectant un ensemble de produits par programmation.

Que se passe-t-il si j'ai prédéfini des intégrations basées sur Google Cloud État du service avant l'introduction des rapports d'état régionalisés et du changement de nom en Google Cloud État du service ?

Dans le flux RSS et le fichier JSON, les informations d'état régionales s'ajoutent aux informations déjà publiées avant l'introduction des rapports d'état régionalisés et du changement de nom deGoogle Cloud Service Health. Par conséquent, nous nous attendons à ce que vos intégrations existantes continuent de fonctionner. Toutefois, si vous souhaitez utiliser les informations d'état régional via vos intégrations, vous devez les modifier.

Voici une description détaillée de la présentation des informations régionales dans le flux RSS et le fichier JSON:

  • Flux RSS

    Les informations sur l'état régional viennent s'ajouter aux informations du flux fournies avant l'introduction de l'état régionalisé. Tous les emplacements signalés comme affectés sont ajoutés au message RSS.

  • Fichier JSON

    Avant la mise à jour de l'état régional, Google Cloud a publié un flux d'incidents, chacun contenant une liste des produits concernés et une liste des mises à jour de l'état pour chacun d'eux, le cas échéant. Ces mises à jour d'état contenaient un champ de chaîne non structuré qui contenait ou non les informations de localisation.

    Google Cloud publie désormais un flux d'incidents comme auparavant. Toutefois, pour chaque incident, chaque mise à jour d'état contient les nouveaux champs suivants:

    • updates.affected_locations: contient une liste structurée des zones géographiques concernées au moment de la publication de la mise à jour. Chaque enregistrement de mise à jour et l'enregistrement most_recent_update contiennent ce champ.
    • currently_affected_locations: contient les informations les plus récentes sur les sites concernés par l'incident. Contrairement à updates.affected_locations, cette liste devient vide une fois l'incident résolu (c'est-à-dire lorsque end est défini sur une valeur non vide).
    • previously_affected_locations: contient la liste des emplacements qui ont déjà été affectés lors d'un incident, mais qui ne le sont plus actuellement. Au fur et à mesure de l'incident, la panne peut être résolue dans certains pays. Ces emplacements resteront dans le fichier previously_affected_locations field. Une fois l'incident résolu (c'est-à-dire lorsque end est défini sur une valeur non vide), ce champ contient la liste de tous les emplacements concernés par cet incident.

Que faire si je rencontre un problème, mais qu'il ne figure pas dans Google Cloud État du service ?

Google Cloud Service Health fournit des informations sur l'état actuel et historique de tout incident majeur affectant les produits et services. Google Cloud Si vous rencontrez un problème qui n'est pas listé dansGoogle Cloud État du service, il est possible qu'il ne concerne que vos projets ou vos instances, ou qu'il affecte un nombre limité de clients. Les incidents de moindre envergure peuvent être listés dans Customer Care Portal. Vous pouvez contacter le service client si vous rencontrez des problèmes qui ne figurent pas sur la page Google Cloud État du service.

Si vous utilisez déjà Personalized Service Health, vérifiez si le problème y figure pour déterminer si votre projet ou votre instance est concerné.

Si vous utilisez la console Google Cloud, vous pouvez cliquer sur l'outil Envoyer des commentaires situé dans l'angle supérieur droit pour signaler des problèmes.

Qui met à jour Google Cloud Service Health ?

L'équipe d'assistance mondiale Customer Care surveille l'état des produits par le biais de différents types de signaux, et met à jour Google Cloud l'état de service en cas de problème généralisé. Au besoin, elle publie un rapport d'analyse d'incident détaillé après la résolution de l'incident.