Pour surveiller un service, vous devez disposer d'au moins un objectif de niveau de service (SLO). Les SLO encapsulent vos objectifs de performances pour le service. Chaque SLO est basé sur une métrique de performances, appelée SLI (service level indicator, indicateur de niveau de service). Pour obtenir des informations générales sur les SLI et les SLO, consultez la page Concepts de surveillance des services.
Vous pouvez créer jusqu'à 500 SLO pour un service.
Avant de commencer
Pour obtenir les autorisations nécessaires pour afficher et créer des SLO, demandez à votre administrateur de vous accorder le rôle Éditeur Monitoring (roles/monitoring.editor
) dans votre projet.
Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.
Premiers pas
Pour définir un SLO, accédez au volet Créer un objectif de niveau de service (SLO), procédez comme suit :
-
Dans la console Google Cloud, accédez à la page SLO :
Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est Monitoring.
Ouvrez le volet Créer un objectif de niveau de service (SLO) :
Pour un nouveau service :
- Cliquez sur Définir le service, puis définir votre service.
- Après avoir cliqué sur Envoyer dans le volet Définir le service, cliquez sur Créer un SLO.
Pour un service existant :
- Dans la liste Services, cliquez sur le nom du service dans la liste Services.
- Sur la page Informations sur le service, cliquez sur Créer un SLO.
Le volet de création de SLO vous guide dans les étapes de création d'un SLO. Le reste de ce document décrit chacune des étapes suivantes du processus de création de SLO :
- Définissez le SLI.
- Détaillez le SLI.
- Définissez le SLO.
- Vérifiez et enregistrez le SLO.
Pour passer à l'étape suivante, cliquez sur Continuer. Vous pouvez cliquer sur une étape précédente pour apporter des modifications avant d'enregistrer le SLO. Pour quitter le processus de création de SLO, cliquez sur Annuler.
Définir votre SLI
Le volet Définissez votre SLI contient les sous-volets suivants :
Informations sur le service, dans lequel vous pouvez obtenir des informations permettant d'identifier votre service. Il est identique au volet Informations sur le service du tableau de bord du service.
Sélectionner une métrique, dans lequel vous choisissez une métrique pour les performances que vous souhaitez surveiller.
Basé sur les requêtes ou sur les fenêtres ?, où vous choisissez la manière dont la métrique doit être évaluée.
La capture d'écran suivante montre le volet SLI :
Pour plus d'informations sur les métriques utilisées dans les SLI et les méthodes d'évaluation, consultez la rubrique présentant les concepts relatifs aux Indicateurs de niveau de service.
Choisir une métrique
La métrique "SLI" spécifie le type de performances que vous souhaitez mesurer. Dans la SLI, vous créez un ratio à partir de la métrique afin de mesurer les bonnes performances au fil du temps. Vous disposez des options suivantes pour les SLI :
- Availability (Disponibilité), qui mesure la disponibilité de votre service pour les utilisateurs.
- Latency (Latence), qui mesure la réactivité de votre service.
- Autre, qui permet d'indiquer que vous souhaitez utiliser une métrique spécifique. Spécifiez la métrique et décrivez comment créer le SLI dans le volet Détaillez le SLI.
Les choix valides dépendent du type de service que vous configurez.
Pour les services sur Cloud Service Mesh, Istio sur Google Kubernetes Engine et App Engine, vous pouvez choisir n'importe quelle option. Les métriques de disponibilité et de latence sont déjà connues pour ces services. Vous pouvez également choisir l'option Autre pour utiliser un SLI personnalisé.
Pour les services basés sur GKE et pour les services personnalisés, la seule option disponible est Autre. Les métriques Prometheus ne sont pas incluses dans les SLO de disponibilité et de latence par défaut, et les autres métriques de disponibilité ou de latence significatives ne sont pas connues à l'avance pour ces services.
Si vous avez configuré la collecte de métriques Prometheus à l'aide de Google Cloud Managed Service pour Prometheus, vous pouvez définir une métrique Prometheus collectée en tant que SLI personnalisé.
Choisir la méthode d'évaluation
Après avoir sélectionné la métrique pour votre SLI, spécifiez comment la métrique doit être évaluée.
L'évaluation basée sur des requêtes permet de mesurer le nombre de requêtes qui répondent au critère d'évaluation par rapport au nombre total de requêtes au cours d'une période donnée.
L'évaluation basée sur une fenêtre mesure le nombre de périodes d'évaluation qui correspondent à un critère de satisfaction par rapport au nombre total de périodes d'évaluation.
Pour les deux méthodes d'évaluation, spécifiez les critères d'évaluation sur la page Set SLI details (Définir les détails du SLI).
Pour plus d'informations sur ces types d'évaluation, consultez la section Conformité dans les SLO basés sur des requêtes et sur une fenêtre.
Détailler le SLI
Le contenu du volet Define SLI details (Définir les détails du SLI) dépend de la métrique et de la méthode d'évaluation que vous avez choisie à l'étape précédente.
Si vous avez choisi la métrique de disponibilité et l'évaluation basée sur des requêtes, vous n'avez pas besoin d'autres informations.
Évaluation basée sur une fenêtre
Si vous avez sélectionné l'évaluation basée sur une fenêtre, vous devez définir les critères supplémentaires pour la fenêtre dans ce volet : un critère de satisfaction et une durée.
Le critère de satisfaction indique le pourcentage de fenêtre qui doit renvoyer une valeur "satisfaisante" pendant la période de conformité. La durée spécifie la durée de la fenêtre.
Métrique de latence
Si vous avez choisi la métrique de latence, vous spécifiez la valeur de seuil qui détermine les performances acceptables dans ce volet :
Tout ce qui dépasse le seuil de latence est considéré comme "mauvaise" performance lors de l'évaluation du SLI.
SLI personnalisé
Si vous avez sélectionné Autre comme métrique SLI, spécifiez dans ce volet la métrique que vous souhaitez utiliser. Vous pouvez sélectionner une métrique en saisissant son nom dans le champ Métrique de performance ou en sélectionnant une métrique dans la liste.
Les métriques de la liste sont divisées en deux types :
- Indicateurs de répartition des distributions
- Indicateurs de ratio de séries temporelles
Si vous collectez des métriques Prometheus avec Google Cloud Managed Service pour Prometheus, le nom de la métrique commence par prometheus.googleapis.com/
.
La capture d'écran suivante montre une liste partielle :
Si vous sélectionnez un indicateur de répartition des distributions, configurez le SLI en indiquant une plage (dessus, dessous ou entre) et un filtre pour spécifier la ressource surveillée et les libellés que vous souhaitez inclure. Le volet de configuration se présente comme suit :
Si vous sélectionnez un indicateur de ratio de séries temporelles, configurez le ratio en créant des filtres de numérateur et de dénominateur pour classer les données de métrique, généralement en sélectionnant les valeurs des libellés dans le type de métrique ou de ressource. Le volet de configuration se présente comme suit :
Pour en savoir plus sur ces types de SLI, consultez les pages de référence de l'API Monitoring pour DistributionCut
et TimeSeriesRatio
.
Métriques du plan de contrôle GKE
Les métriques du plan de contrôle GKE sont des indicateurs utiles de l'état du système que vous pouvez utiliser pour des SLI personnalisés. Vous devez activer la collecte de ces métriques avant de pouvoir les utiliser. Ces métriques sont collectées par Google Cloud Managed Service pour Prometheus.
- Utilisez les [métriques du serveur d'API][gke-api-metrics] pour effectuer le suivi de la charge du serveur d'API, la fraction des requêtes du serveur d'API qui renvoient des erreurs et la latence de réponse des requêtes reçues par le serveur d'API.
- Utilisez les métriques du programmeur pour vous aider à réagir de manière proactive aux problèmes de planification lorsque les ressources sont insuffisantes pour les pods en attente.
Pour en savoir plus sur les métriques du plan de contrôle et sur leur utilisation pour surveiller l'état du système, consultez la page Utiliser les métriques du plan de contrôle.
Aperçu du graphique
Une fois que vous avez configuré le SLI, le volet Define SLI details (Définir les détails du SLI) inclut un graphique d'aperçu qui montre comment la performance historique de ce service est mesurée par le SLI. Exemple :
Si vous venez de créer ou de déployer un service, il est possible qu'aucune donnée ne soit encore présente. Vous pouvez toujours créer le SLI, mais vous n'obtiendrez pas la perspective historique.
Définir votre SLO
Le volet Définissez votre SLO contient les régions suivantes :
Période de conformité : permet de définir la période sur laquelle vous souhaitez évaluer le SLI.
Objectif de performances : permet de spécifier le seuil de performance au cours de la période de conformité.
Aperçu : affiche un graphique qui montre le seuil de performance de l'objectif de performance et un graphique représentant les résultats de l'évaluation du SLI sur la période de conformité.
Période de conformité
Il existe deux types de période de conformité dans le menu :
- Période calendaire
- Fenêtre glissante
Une période calendaire mesure la conformité sur une durée fixe (la durée de la période). À la fin de la période, la marge d'erreur est réinitialisée et une nouvelle période de conformité démarre.
Une période glissante correspond à une période flexible. Elle comporte également une longueur, mais la conformité est calculée sur les n derniers jours. Lorsqu'un nouveau jour commence, la conformité et la marge d'erreur restante sont recalculées au cours des n derniers jours.
Pour en savoir plus sur les périodes de conformité calendaires et glissantes, consultez la section Périodes de conformité.
Aperçu du graphique
Une fois le SLO configuré, le volet Définissez votre SLO inclut un graphique d'aperçu pour vous montrer comment l'historique de performance de ce service est mesuré par le SLO. Exemple :
Si vous venez de créer ou de déployer un service, il est possible qu'aucune donnée ne soit encore présente. Vous pouvez toujours créer le SLO, mais vous n'obtiendrez pas la perspective historique.
Enregistrer votre SLO
Le volet Réviser et enregistrer comporte un seul champ, un nom à afficher pour le SLO. Le champ comporte une valeur par défaut basée sur les sélections que vous avez effectuées lors de la définition du SLO, mais vous pouvez changer cette valeur pour que le nom à afficher soit plus descriptif.
Le volet fournit également un aperçu de votre SLO au format JSON. Le bloc JSON résume votre SLO et peut être copié pour être utilisé avec la méthode serviceLevelObjectives.create
.
Si vous modifiez l'une des valeurs du SLO, l'aperçu JSON est mis à jour automatiquement.
La capture d'écran suivante montre le champ portant un nom par défaut :
Lorsque vous êtes satisfait du nom à afficher, cliquez sur Créer un SLO.
Étapes suivantes
Après avoir créé un SLO, vous pouvez effectuer les opérations suivantes :
Surveiller les performances de votre service par rapport au SLO en créant une règle d'alerte. Pour en savoir plus, consultez les pages Créer des alertes sur votre taux d'utilisation et Créer une règle d'alerte.
Afficher l'état de tous les SLO pour un ensemble de services en créant un tableau de bord personnalisé dans Cloud Monitoring qui affiche des graphiques de SLO. Pour en savoir plus, consultez les pages Créer un tableau de bord personnalisé et Afficher les SLO dans un tableau de bord.