Bien que les perturbations de service soient inévitables, une communication transparente et rapide est essentielle pour évaluer ce qui se passe, tenir vos partenaires informés et prendre des mesures pour minimiser l'impact sur votre entreprise.
L'exploitation d'une application cloud fiable est une responsabilité partagée entreGoogle Cloud et les développeurs d'applications. En cas de perturbation de service,Google Cloud vise à communiquer rapidement l'incident et à fournir une évaluation de l'impact. Vous devez évaluer comment recevoir des notifications, intervenir sur les incidents émergents et gérer l'impact sur votre application.
Personalized Service Health peut vous aider. Vous pouvez l'intégrer de différentes manières pour connaître les incidents émergents, évaluer l'impact sur vos applications et recevoir des mises à jour de la part de Google Cloud. Ce document explique comment recevoir des signaux de perturbation de service de la part deGoogle Cloud, y compris des recommandations sur l'intégration.
Décider où intégrer
Google Cloud propose les produits suivants pour vous aider à comprendre l'état de vos Google Cloud produits:
- État des services Google Cloud : fournit un aperçu de tous les produitsGoogle Cloud sur l'ensemble de la plate-forme, quel que soit l'emplacement. Il couvre les incidents de plus grande ampleur et de plus grande gravité, et est disponible dans les éléments suivants :
- Personalized Service Health : fournit une vue personnalisée des Google Cloud
produits utilisés par vos projets ou dans votre organisation. Il couvre une gamme d'incidents plus large que ceux publiés sur Google Cloud Service Health.
Personalized Service Health est disponible dans les éléments suivants :
- Tableau de bord de la console, accessible via la console Google Cloud.
- Alertes
- API Service Health
Nous vous recommandons d'intégrer Personalized Service Health pour bénéficier de la meilleure couverture et de la plus grande variété d'options d'intégration possibles.
Point d'intégration | Cas d'utilisation | Avantages | Dépendances |
Tableau de bord de la console (état du service personnalisé) | Afficher les perturbations actives | Personnalisé selon vos projets, disponible par défaut | Identity and Access Management (IAM) console Google Cloud |
Alertes (Personalized Service Health) | Notifications proactives | Personnalisé selon vos projets, pratique et proactif | IAM Cloud Logging Cloud Monitoring |
API (état du service personnalisé) | Intégrer un autre système ou outil | Personnalisé selon vos projets ou votre organisation | IAM |
Choisir la méthode d'interaction avec Personalized Service Health
Vous devez tenir compte de Personalized Service Health dans le contexte de vos opérations, de votre surveillance et de votre modèle de gestion des incidents. En évaluant la façon dont vos équipes utilisent les signaux pendant et avant les incidents, vous pouvez décider de la manière dont vous souhaitez utiliser Personalized Service Health.
Le tableau suivant montre comment vous pouvez interagir avec l'état de service personnalisé, en fonction de sa configuration.
Exemple de scénario dans votre organisation | Intégration à Personalized Service Health | Exemples d'outils avec lesquels vous pouvez intégrer |
Les développeurs qui sont de garde pour quelques applications | Alertes de projet individuelles
Tableau de bord de la console |
Google Cloud Observability, PagerDuty |
Réponse centralisée aux incidents au sein d'une organisation | Intégration de l'API au système existant à l'aide de l'API OrganizationEvents (v1, v1beta) | PagerDuty, tableaux de bord personnalisés |
Plate-forme interne permettant de gérer les ressources et les opérations cloud | API Service Health Alertes de projet individuel Intégration de l'API Service Health à une plate-forme de développement interne |
Backstage, Terraform |
De nombreux projets configurés et gérés par programmation (par exemple,plus de 1 000) | API Service Health Notifications automatisées basées sur des API |
Backstage, Terraform, PagerDuty |
Utiliser Personalized Service Health lors d'un incident
Une fois que vous avez intégré Personalized Service Health et que vous commencez à recevoir des notifications d'alerte, Personalized Service Health fournit des informations sur les perturbations qui peuvent vous aider à gérer leur impact. Google Cloud
Détecter et évaluer l'incident
Voici quelques questions que vous pourriez vous poser à ce stade:
- S'agit-il d'un vrai problème ?
- Pouvez-vous confirmer l'impact ?
- Quels sont les symptômes ?
- Quels utilisateurs, produits ou parties de l'entreprise sont concernés ? Quelles zones géographiques ?
Personalized Service Health vous aide à déterminer si le problème vient de votre projet ou de Google, afin que vous puissiez mettre en œuvre la réponse appropriée à l'incident. Elle vous permet de rechercher et d'afficher des informations sur l'événement afin de surveiller l'événement, les produits concernés et les zones géographiques qui affectent votre projet.
Voici quelques étapes que vous pouvez suivre:
- Passez l'alerte en revue, si vous l'avez configurée.
- Pourquoi cette alerte s'est-elle déclenchée ?
- Comment ces alertes s'intègrent-elles à toutes vos autres alertes potentiellement spécifiques aux produits ?
- Accédez au tableau de bord de l'état du service de votre projet ou de votre organisation. Vous pouvez consulter les événements, les produits concernés et les zones géographiques en un coup d'œil, et répondre aux questions suivantes :
- Quels sont vos projets concernés ?
- Quels sont les produits sur lesquels votre projet repose qui sont concernés ?
- L'événement affecte-t-il des ressources spécifiques dans ces zones géographiques ?
- Passez en revue les événements et comprenez leur portée, leur impact et leur pertinence pour votre projet.
- Identifiez un événement qui semble lié au problème que vous rencontrez.
- Découvrez les étapes de vérification, les mesures d'atténuation (le cas échéant) et le délai de résolution prévu pour l'événement.
Personalized Service Health vous aide à examiner l'état actuel et l'impact des incidents affectant votre projet ou votre organisation, afin de pouvoir les gérer et y répondre efficacement. Par exemple, vous pouvez définir des priorités efficaces en identifiant précisément l'incident le plus prioritaire.
Atténuer, résoudre ou escalader l'incident
Voici quelques questions que vous pourriez vous poser à ce stade:
- Comment pouvez-vous contourner le problème ?
- Pouvez-vous le corriger directement ?
- Devriez-vous lancer un basculement maintenant ou attendre plus longtemps ?
- À qui devez-vous le signaler pour qu'il soit corrigé ?
Personalized Service Health vous aide à comprendre l'impact d'un incident sur vos projets et ressources, à connaître les solutions de contournement disponibles et à recevoir des informations sur le délai de résolution estimé.
Surveiller la progression de la résolution des incidents
L'aperçu de l'événement dans le tableau de bord "État du service" identifie les informations clés telles que les symptômes et les solutions de contournement, qui sont nécessaires à l'atténuation, et indique quand l'état change. Ces informations vous permettent de:
- Suivez un résumé continu de l'impact potentiel au fur et à mesure que la situation évolue.
- Tenez-vous informé des derniers développements et de la date prévue de la prochaine communication ou mise à jour.
- Afficher la date de publication d'un problème constaté
- Découvrez quand une solution de contournement est identifiée.
- Vérifiez quand l'état passe à Résolu.
Vous pouvez effectuer les actions suivantes pendant que vous suivez la progression:
- Examinez les solutions de contournement, le cas échéant.
- Implémentez la procédure de gestion des incidents adaptée à votre projet ou à votre organisation.
- Continuez à surveiller l'événement jusqu'à ce qu'il soit atténué ou résolu.
Quand contacter l'assistance ?
Google est au courant des événements qui s'affichent dans le tableau de bord Service Health. Pour savoir ce que Google fait concernant un événement, sélectionnez-le pour en afficher les détails.
Si un problème ne semble pas être représenté dans l'un des événements du tableau de bord, contactez l'assistance.
Utiliser Personalized Service Health avec d'autres sources d'informations sur les incidents
Quelle que soit la configuration de votre entreprise, utilisez l'état de service personnalisé comme signal supplémentaire lorsque vous évaluez l'impact des incidents. Assurez-vous de pouvoir consulter plusieurs sources d'informations sur l'incident afin de pouvoir décider des prochaines étapes en fonction des données et des preuves.
Voici quelques raisons d'utiliser plusieurs sources d'informations sur les incidents:
- Un produit Google Cloud peut faire l'objet d'un incident dans un emplacement donné, mais vos projets peuvent ne pas être affectés, car ils se trouvent dans un autre emplacement.
- Si votre système de diffusion comporte deux réplications complètes dans des zones distinctes et qu'un produit Google Cloud critique d'une zone échoue, Service Health personnalisé vous en informe. Toutefois, il est possible que vos utilisateurs ne soient pas réellement concernés et que vous n'ayez pas besoin de prendre des mesures immédiates.
- Si votre projet dépend de nombreux produits Google Cloud dans une zone géographique, Personalized Service Health ne saura pas :
- Si votre projet nécessite que tous les produits soient fonctionnels.
- Si votre projet continue de fonctionner en cas d'échec d'un produit.
- Si l'ensemble de votre application est affecté si un ou plusieurs des produits échouent.
- Personalized Service Health peut également être dégradé ou subir un échec. Pour vérifier, vous pouvez consulter son état.
Vous devrez interpréter les signaux de Personalized Service Health en fonction de votre configuration.