Présentation des objectifs de niveau de service

Les objectifs de niveau de service (SLO) sont des outils essentiels du kit de surveillance des services Google. Les SLO peuvent vous donner un signal concis et au bruit faible concernant l'état général de vos services. Anthos Service Mesh vous permet de définir des SLO pour vos services, ainsi que de suivre et de surveiller vos services en fonction de ces SLO.

Pour surveiller l'état d'un service, vous devez comprendre quels sont les comportements importants pour ce service et comment mesurer et évaluer ces comportements. Un indicateur de niveau de service (SLI) est une mesure quantitative de certains aspects du service. Les SLI types sont les suivants :

Latence : temps nécessaire pour renvoyer une réponse à une requête, généralement mesuré en millisecondes (ms). La latence est généralement présentée sous forme d'agrégation. En d'autres termes, les données brutes sont collectées sur une période donnée et calculées en centiles. Anthos Service Mesh affiche un graphique de latence sur la page Métriques pour chacun de vos services. Le graphique de latence vous indique la latence au fil du temps, ce qui peut vous aider à déterminer un seuil de latence ou une limite supérieure d'un service.
Disponibilité : la durée pendant laquelle un service répond correctement. Il s'agit généralement d'un ratio entre le nombre de réponses réussies et le nombre total de réponses. Le graphique de taux d'erreur sur la page Métriques peut vous aider à déterminer la disponibilité de chaque service.

Un SLO est une valeur cible pour un niveau de service mesuré par un SLI. Un SLO peut être représenté comme suit : SLI ≤ upper_bound ou SLI ≥ lower_bound. Les SLO sont des objectifs de performances mesurables sur une période donnée. Par exemple, pour certains de vos services, vous pouvez avoir des exigences telles que les suivantes :

La latence ne peut dépasser 300 ms que dans 5 % des requêtes sur une période glissante de 30 jours.
Le système doit avoir une disponibilité de 99 %, mesurée sur une semaine calendaire.

Vous pouvez définir et afficher les SLO de vos services en fonction de leurs données de télémétrie sur la page État. Vous pouvez ensuite créer des alertes dans Stackdriver Monitoring pour être averti si un service ne fonctionne pas comme prévu.

Étapes suivantes

Pour en savoir plus sur les SLO, consultez l'ingénierie en fiabilité des sites (SRE) de Google :
- Ingénierie en fiabilité des sites (SRE)
- Le manuel sur la fiabilité des sites
Concevoir des SLO
Créer des SLO
Suivre les SLO