Durée estimée : cinq jours
Propriétaire du composant exploitable : OLT
Profil de compétences : ingénieur en déploiement
À partir de la version 1.14, la finalisation du déploiement est vérifiée par rapport aux tableaux de bord de la pile Observability and Monitoring.
Vérifier le tableau de bord des incidents ServiceNow
- Recherchez les incidents nouveaux ou non résolus liés au déploiement.
Vérifier le tableau de bord Grafana AlertManager
- Recherchez les alertes qui sont actuellement déclenchées.
Trier les nouveaux incidents et alertes Pour tout nouvel incident ServiceNow ou toute nouvelle alerte Grafana, procédez comme suit :
- Comparez le problème avec le document sur les problèmes connus.
- Si le problème ne figure pas dans la liste des problèmes connus, transférez-le à l'équipe d'ingénieurs pour qu'elle évalue la marche à suivre. Pour résoudre le problème, vous devrez peut-être effectuer les opérations suivantes :
- Résolvez le problème sous-jacent.
- Documentez l'alerte comme un nouveau problème connu, par exemple s'il s'agit d'un faux positif.
37.1. Vérifier l'état du système
Après le déploiement, l'indicateur principal de l'état du système est l'absence d'incidents et d'alertes nouveaux et inattendus sur le tableau de bord des incidents ServiceNow (SNOW) et sur le tableau de bord Grafana AlertManager.
37.1.1. Tableau de bord des incidents ServiceNow
Le tableau de bord ServiceNow fournit une vue d'ensemble des problèmes importants qui ont été automatiquement signalés par le système. Après un déploiement, ce tableau de bord ne doit afficher aucun nouvel incident critique.
Votre objectif est de confirmer qu'aucun nouvel incident non documenté n'a été déclenché. Tout incident qui s'affiche doit déjà figurer dans la section des problèmes connus.
37.1.2. Tableau de bord Grafana AlertManager
Le tableau de bord AlertManager offre une vue plus immédiate et en temps réel de l'état du système en affichant les alertes actives. Un problème s'affiche souvent ici avant la création d'un incident ServiceNow.
Un système en bon état n'affiche pas de nouvelles alertes de déclenchement. Toute alerte active doit être vérifiée sur la page des problèmes connus pour confirmer qu'il s'agit d'un comportement attendu.
37.1.3. Interpréter les résultats
Si les deux tableaux de bord n'affichent aucun problème nouveau ni non documenté, cela confirme que le déploiement a réussi et que le système est stable.
Si vous découvrez des incidents ou des alertes qui ne figurent pas sur la page des problèmes connus, suivez les étapes de triage et de transmission décrites dans la checklist mentionnée précédemment. Les nouveaux faux positifs doivent être signalés à l'équipe d'ingénierie afin qu'ils puissent être traités et documentés de manière appropriée.
37.2. Exemple de workflow de triage
Lorsqu'une nouvelle alerte nécessite une investigation, le processus de triage général dans Grafana AlertManager comprend les étapes suivantes :
Regroupez les alertes par priorité : commencez par regrouper les alertes pour vous concentrer sur les problèmes les plus critiques.

Attribuer une demande : pour assurer la propriété et le suivi, attribuez une demande à l'alerte.

Examiner les règles d'alerte : examinez la règle d'alerte spécifique qui a été déclenchée pour comprendre ses conditions et son objectif.

Vérifier l'état de déclenchement : examinez les détails et l'état de l'alerte de déclenchement dans le tableau de bord.

Vérifiez l'alerte : enfin, assurez-vous que l'alerte est active et qu'elle représente un problème valide avant de passer au processus d'escalade.
