Intégrer Personalized Service Health

Bien que les perturbations de service soient inévitables, une communication transparente et rapide est essentielle pour évaluer ce qui se passe, tenir vos partenaires informés et prendre des mesures pour minimiser l'impact sur votre entreprise.

L'exploitation d'une application cloud fiable est une responsabilité partagée entreGoogle Cloud et les développeurs d'applications. En cas de perturbation de service,Google Cloud vise à communiquer rapidement l'incident et à fournir une évaluation de l'impact. Vous devez évaluer comment recevoir des notifications, intervenir sur les incidents émergents et gérer l'impact sur votre application.

Personalized Service Health peut vous aider. Vous pouvez l'intégrer de différentes manières pour connaître les incidents émergents, évaluer l'impact sur vos applications et recevoir des mises à jour de la part de Google Cloud. Ce document explique comment recevoir des signaux de perturbation de service de la part deGoogle Cloud, y compris des recommandations sur l'intégration.

Décider où intégrer

Google Cloud propose les produits suivants pour vous aider à comprendre l'état de vos Google Cloud produits:

  • État des services Google Cloud : fournit un aperçu de tous les produitsGoogle Cloud sur l'ensemble de la plate-forme, quel que soit l'emplacement. Il couvre les incidents de plus grande ampleur et de plus grande gravité, et est disponible dans les éléments suivants :
  • Personalized Service Health : fournit une vue personnalisée des Google Cloud produits utilisés par vos projets ou dans votre organisation. Il couvre une gamme d'incidents plus large que ceux publiés sur Google Cloud Service Health. Personalized Service Health est disponible dans les éléments suivants :

Nous vous recommandons d'intégrer Personalized Service Health pour bénéficier de la meilleure couverture et de la plus grande variété d'options d'intégration possibles.

Point d'intégration Cas d'utilisation Avantages Dépendances
Tableau de bord de la console (état du service personnalisé) Afficher les perturbations actives Personnalisé selon vos projets, disponible par défaut Identity and Access Management (IAM)
console Google Cloud
Alertes (Personalized Service Health) Notifications proactives Personnalisé selon vos projets, pratique et proactif IAM
Cloud Logging
Cloud Monitoring
API (état du service personnalisé) Intégrer un autre système ou outil Personnalisé selon vos projets ou votre organisation IAM

Choisir la méthode d'interaction avec Personalized Service Health

Vous devez tenir compte de Personalized Service Health dans le contexte de vos opérations, de votre surveillance et de votre modèle de gestion des incidents. En évaluant la façon dont vos équipes utilisent les signaux pendant et avant les incidents, vous pouvez décider de la manière dont vous souhaitez utiliser Personalized Service Health.

Le tableau suivant montre comment vous pouvez interagir avec l'état de service personnalisé, en fonction de sa configuration.

Exemple de scénario dans votre organisation Intégration à Personalized Service Health Exemples d'outils avec lesquels vous pouvez intégrer
Les développeurs qui sont de garde pour quelques applications Alertes de projet individuelles

Tableau de bord de la console

Google Cloud Observability, PagerDuty
Réponse centralisée aux incidents au sein d'une organisation Intégration de l'API au système existant à l'aide de l'API OrganizationEvents (v1, v1beta) PagerDuty, tableaux de bord personnalisés
Plate-forme interne permettant de gérer les ressources et les opérations cloud API Service Health
Alertes de projet individuel
Intégration de l'API Service Health à une plate-forme de développement interne
Backstage, Terraform
De nombreux projets configurés et gérés par programmation (par exemple,plus de 1 000) API Service Health
Notifications automatisées basées sur des API
Backstage, Terraform, PagerDuty

Utiliser Personalized Service Health lors d'un incident

Une fois que vous avez intégré Personalized Service Health et que vous commencez à recevoir des notifications d'alerte, Personalized Service Health fournit des informations sur les perturbations qui peuvent vous aider à gérer leur impact. Google Cloud

Détecter et évaluer l'incident

Voici quelques questions que vous pourriez vous poser à ce stade:

  • S'agit-il d'un vrai problème ?
  • Pouvez-vous confirmer l'impact ?
  • Quels sont les symptômes ?
  • Quels utilisateurs, produits ou parties de l'entreprise sont concernés ? Quelles zones géographiques ?

Personalized Service Health vous aide à déterminer si le problème vient de votre projet ou de Google, afin que vous puissiez mettre en œuvre la réponse appropriée à l'incident. Elle vous permet de rechercher et d'afficher des informations sur l'événement afin de surveiller l'événement, les produits concernés et les zones géographiques qui affectent votre projet.

Voici quelques étapes que vous pouvez suivre:

  1. Passez l'alerte en revue, si vous l'avez configurée.
    • Pourquoi cette alerte s'est-elle déclenchée ?
    • Comment ces alertes s'intègrent-elles à toutes vos autres alertes potentiellement spécifiques aux produits ?
  2. Accédez au tableau de bord de l'état du service de votre projet ou de votre organisation. Vous pouvez consulter les événements, les produits concernés et les zones géographiques en un coup d'œil, et répondre aux questions suivantes :
    • Quels sont vos projets concernés ?
    • Quels sont les produits sur lesquels votre projet repose qui sont concernés ?
    • L'événement affecte-t-il des ressources spécifiques dans ces zones géographiques ?
  3. Passez en revue les événements et comprenez leur portée, leur impact et leur pertinence pour votre projet.
  4. Identifiez un événement qui semble lié au problème que vous rencontrez.
  5. Découvrez les étapes de vérification, les mesures d'atténuation (le cas échéant) et le délai de résolution prévu pour l'événement.

Personalized Service Health vous aide à examiner l'état actuel et l'impact des incidents affectant votre projet ou votre organisation, afin de pouvoir les gérer et y répondre efficacement. Par exemple, vous pouvez définir des priorités efficaces en identifiant précisément l'incident le plus prioritaire.

Atténuer, résoudre ou escalader l'incident

Voici quelques questions que vous pourriez vous poser à ce stade:

  • Comment pouvez-vous contourner le problème ?
  • Pouvez-vous le corriger directement ?
  • Devriez-vous lancer un basculement maintenant ou attendre plus longtemps ?
  • À qui devez-vous le signaler pour qu'il soit corrigé ?

Personalized Service Health vous aide à comprendre l'impact d'un incident sur vos projets et ressources, à connaître les solutions de contournement disponibles et à recevoir des informations sur le délai de résolution estimé.

Surveiller la progression de la résolution des incidents

L'aperçu de l'événement dans le tableau de bord "État du service" identifie les informations clés telles que les symptômes et les solutions de contournement, qui sont nécessaires à l'atténuation, et indique quand l'état change. Ces informations vous permettent de:

  • Suivez un résumé continu de l'impact potentiel au fur et à mesure que la situation évolue.
  • Tenez-vous informé des derniers développements et de la date prévue de la prochaine communication ou mise à jour.
  • Afficher la date de publication d'un problème constaté
  • Découvrez quand une solution de contournement est identifiée.
  • Vérifiez quand l'état passe à Résolu.

Vous pouvez effectuer les actions suivantes pendant que vous suivez la progression:

  • Examinez les solutions de contournement, le cas échéant.
  • Implémentez la procédure de gestion des incidents adaptée à votre projet ou à votre organisation.
  • Continuez à surveiller l'événement jusqu'à ce qu'il soit atténué ou résolu.

Quand contacter l'assistance ?

Google est au courant des événements qui s'affichent dans le tableau de bord Service Health. Pour savoir ce que Google fait concernant un événement, sélectionnez-le pour en afficher les détails.

Si un problème ne semble pas être représenté dans l'un des événements du tableau de bord, contactez l'assistance.

Utiliser Personalized Service Health avec d'autres sources d'informations sur les incidents

Quelle que soit la configuration de votre entreprise, utilisez l'état de service personnalisé comme signal supplémentaire lorsque vous évaluez l'impact des incidents. Assurez-vous de pouvoir consulter plusieurs sources d'informations sur l'incident afin de pouvoir décider des prochaines étapes en fonction des données et des preuves.

Voici quelques raisons d'utiliser plusieurs sources d'informations sur les incidents:

  • Un produit Google Cloud peut faire l'objet d'un incident dans un emplacement donné, mais vos projets peuvent ne pas être affectés, car ils se trouvent dans un autre emplacement.
  • Si votre système de diffusion comporte deux réplications complètes dans des zones distinctes et qu'un produit Google Cloud critique d'une zone échoue, Service Health personnalisé vous en informe. Toutefois, il est possible que vos utilisateurs ne soient pas réellement concernés et que vous n'ayez pas besoin de prendre des mesures immédiates.
  • Si votre projet dépend de nombreux produits Google Cloud dans une zone géographique, Personalized Service Health ne saura pas :
    • Si votre projet nécessite que tous les produits soient fonctionnels.
    • Si votre projet continue de fonctionner en cas d'échec d'un produit.
    • Si l'ensemble de votre application est affecté si un ou plusieurs des produits échouent.
  • Personalized Service Health peut également être dégradé ou subir un échec. Pour vérifier, vous pouvez consulter son état.

Vous devrez interpréter les signaux de Personalized Service Health en fonction de votre configuration.