Incidents et Google Cloud Status Dashboard

Cycle de vie d'un incident

Lorsqu'une dégradation d'un produit est détectée, l'équipe du Service client Cloud et l'équipe d'ingénierie des produits collaborent pour résoudre l'incident et communiquer avec vous.

Schéma du cycle de vie

Détection

Google met en œuvre une surveillance interne et par boîte noire pour détecter les incidents. Pour en savoir plus, consultez le chapitre 6 du manuel d'ingénierie en fiabilité des sites.

Si vous disposez des formules d'assistance Premium, Enhanced, Standard, Role-based ou Enterprise, vous pouvez signaler un incident en créant une demande d'assistance dans Google Cloud Console. Si vous disposez d'une assistance Platinum, Gold ou Silver, vous pouvez signaler un incident en créant une demande d'assistance dans le Centre d'assistance Google Cloud. Sinon, vous pouvez utiliser ce formulaire.

Réponse initiale

Lorsqu'un incident est détecté, l'équipe du service client gère la communication avec vous. La notification initiale d'un incident est souvent sommaire, ne mentionnant généralement que le produit concerné. En effet, nous donnons la priorité aux notifications rapides, Ces détails peuvent être fournis dans les mises à jour ultérieures.

Différents canaux de communication sont utilisés en fonction de l'étendue et de la gravité d'un problème afin de vous fournir autant d'informations que possible, sans vous submerger de données qui ne vous concernent pas :

Schéma des communications

Lorsque vous constatez un problème, consultez en premier lieu le tableau de bord d'état du cloud. Ce tableau de bord indique les incidents qui concernent de nombreux clients. Par conséquent, si un incident est répertorié, il est probablement lié à votre problème. Pour indiquer la gravité, le tableau de bord marque les incidents comme une perturbation ou une interruption. Les problèmes moins importants, mais tout de même répandus, sont indiqués en tant que notifications temporaires.

Lorsqu'un produit ou un service Google Cloud concerné signale un problème dans Cloud Status Dashboard, une notification d'interruption peut également s'afficher dans Cloud Console. Si une notification d'interruption apparaît dans Cloud Console, vous pouvez cliquer sur la notification pour en savoir plus sur l'état du problème.

Certains produits Google Cloud disposent de groupes Google auxquels vous pouvez vous abonner pour recevoir des annonces et des notifications concernant les nouveaux incidents dans le tableau de bord d'état du cloud.

Les problèmes connus affichés dans le Centre d'assistance Google Cloud et sur la page Assistance de Cloud Console constituent la liste la plus exhaustive. Ils incluent des problèmes qui concernent moins d'utilisateurs que ceux répertoriés dans le tableau de bord. Si vous suspectez un problème dans GCP, mais que vous ne voyez rien de correspondant sur le tableau de bord, consultez cette liste.

Les demandes d'assistance sont pertinentes pour les problèmes qui ne sont pas considérés comme des incidents ou pour lesquels une interaction humaine personnalisée est nécessaire. La page "Problèmes connus" vous permet de créer une demande à partir d'un incident publié afin d'obtenir des mises à jour régulières et de pouvoir communiquer avec l'équipe d'assistance.

Examen

Les ingénieurs produit sont chargés d'enquêter sur l'origine des incidents. La gestion des incidents est souvent assurée par des ingénieurs en fiabilité des sites, mais elle peut être confiée à des ingénieurs logiciels ou à d'autres spécialistes, en fonction de la situation et du produit. Pour en savoir plus, consultez le chapitre 12 du manuel d'ingénierie en fiabilité des sites.

Atténuation/Résolution

Un problème n'est considéré comme résolu que lorsque des modifications ont été apportées et que Google a la certitude qu'elles vont le régler définitivement. Par exemple, un rollback peut être effectué pour annuler une modification ayant déclenché un incident.

Tant qu'un incident est en cours, le service client et l'équipe produit tentent d'atténuer le problème. Cela permet de réduire l'impact ou l'étendue d'un problème, par exemple en fournissant temporairement des ressources supplémentaires à un service présentant une surcharge.

Si aucune mesure d'atténuation n'a été trouvée et si cela est possible, l'équipe du service client recherche et communique des solutions de contournement. Les solutions de contournement sont des étapes que vous pouvez suivre pour répondre au besoin sous-jacent en dépit de l'incident. Une solution de contournement peut, par exemple, consister à utiliser des paramètres différents pour un appel d'API afin d'éviter un chemin de code problématique.

Suivi

Tant qu'un incident est en cours, l'équipe du service client fournit des mises à jour régulières. Les mises à jour fournissent généralement:

  • Davantage d'informations sur l'incident, par exemple les messages d'erreur, les zones ou régions concernées, les fonctionnalités affectées ou les pourcentages d'impact

  • L'avancement du processus d'atténuation, y compris les solutions de contournement

  • Le calendrier des communications, adapté à l'incident

  • Les changements d'état, par exemple lorsqu'un incident est résolu

Analyse post-mortem

Tous les incidents font l'objet d'une analyse post-mortem en interne pour bien les comprendre et identifier les améliorations de fiabilité que Google peut apporter. Ces améliorations font ensuite l'objet d'un suivi et d'une mise en œuvre. Pour en savoir plus sur les analyses post-mortem effectuées par Google, consultez le chapitre 15 du manuel d'ingénierie en fiabilité des sites.

Rapport d'incident

Lorsque les incidents ont des conséquences très graves et très étendues, Google fournit des rapports d'incident décrivant les symptômes, l'impact, l'origine, les mesures correctives et la prévention future de ces derniers. Comme pour les analyses post-mortem, nous accordons une attention particulière aux mesures que nous prenons pour tirer les leçons du problème et améliorer la fiabilité. L'écriture et la publication des analyses post-mortem témoignent de la volonté de transparence de Google, ainsi que de notre engagement à créer des services stables pour nos clients.

FAQ

Quel type d'informations d'état puis-je trouver sur la page d'accueil du tableau de bord ?

Le tableau de bord d'état de Google Cloud fournit des informations sur l'état des services faisant partie de Google Cloud Platform. Cet état peut être une perturbation ou une interruption de service, ou des messages d'information sur un problème passager.

Où puis-je trouver des informations sur les perturbations et interruptions de service antérieures ?

La page du récapitulatif et de l'historique regroupe les perturbations et les interruptions des 365 derniers jours. Cliquez sur un numéro d'incident pour examiner les posts relatifs à l'incident au moment où il s'est produit, ainsi que les rapports d'incident rédigés par l'équipe du service client.

Que faire si je rencontre un problème, mais qu'il ne figure pas dans le tableau de bord ?

Le problème peut ne concerner que vos projets ou vos instances, ou affecter un nombre limité de clients. Vous pouvez contacter le service client pour tout problème que vous rencontrez et qui ne figure pas dans le tableau de bord.

Si vous utilisez Google Cloud Console, vous pouvez cliquer sur l'outil Envoyer des commentaires situé dans l'angle supérieur droit pour signaler des problèmes.

Qui met à jour le tableau de bord ?

L'équipe mondiale de support client surveille l'état des services par le biais de différents types de signaux, et met à jour le tableau de bord en cas de problème généralisé. Au besoin, elle publie un rapport d'analyse d'incident détaillé après la résolution de l'incident.

Quelle est la différence entre un incident et une panne ?

Bien que ces termes soient souvent employés indifféremment, nous utilisons incident dans le tableau de bord d'état du cloud et dans nos communications externes pour désigner toute période de dégradation de service, et interruption pour ne faire référence qu'à des fins de référence. le produit le plus sérieux, où le produit fonctionne à grande échelle.