Évaluation des règles et des alertes avec une collection gérée

Ce document décrit une configuration pour l'évaluation des règles et des alertes dans un déploiement de service géré pour Prometheus utilisant une collection gérée.

Le schéma suivant illustre un déploiement qui utilise plusieurs clusters dans deux projets Google Cloud ainsi que l'évaluation des règles et des alertes, ainsi que la ressource GlobalRules facultative:

Un déploiement pour l'évaluation des règles et des alertes qui utilise une collection gérée.

Pour configurer et utiliser un déploiement comme celui du diagramme, notez les points suivants:

  • L'évaluateur de règles géré est automatiquement déployé dans tout cluster sur lequel la collection gérée est exécutée. Ces évaluateurs sont configurés comme suit:

    • Utilisez les ressources Règles pour exécuter des règles sur les données d'un espace de noms. Les ressources de règles doivent être appliquées à chaque espace de noms dans lequel vous souhaitez exécuter la règle.

    • Utilisez les ressources ClusterRules pour exécuter des règles sur les données d'un cluster. Les ressources ClusterRules doivent être appliquées une fois par cluster.

  • Toutes les évaluations de règles s'exécutent sur le datastore global Monarch.

    • Les ressources de règles filtrent automatiquement les règles en fonction du projet, de l'emplacement, du cluster et de l'espace de noms dans lesquels elles sont installées.
    • Les ressources ClusterRules filtrent automatiquement les règles en fonction du projet, de l'emplacement et du cluster dans lesquels elles sont installées.
    • Tous les résultats de la règle sont écrits dans Monarch après l'évaluation.
  • Une instance Prometheus AlertManager est déployée manuellement dans chaque cluster. Les évaluateurs de règles gérées sont configurés en modifiant la ressource OperatorConfig pour envoyer les règles d'alerte déclenchées à leur instance AlertManager locale. Les workflows de silence, d'accusé de réception et de gestion des incidents sont généralement gérés dans un outil tiers tel que PagerDuty.

    Vous pouvez centraliser la gestion des alertes sur plusieurs clusters en un seul gestionnaire d'alertes à l'aide d'une ressource Endpoints Kubernetes.

Le schéma précédent montre également la ressource facultative GlobalRules. Utilisez les règles globales avec parcimonie pour des tâches telles que le calcul des SLO mondiaux sur des projets ou pour l'évaluation de règles sur des clusters au sein d'un même projet Google Cloud. Nous vous recommandons fortement d'utiliser des règles et des règles de cluster dans la mesure du possible. Ces ressources offrent une fiabilité supérieure et conviennent mieux aux mécanismes de déploiement et aux modèles de locataire Kubernetes courants.

Si vous utilisez la ressource GlobalRules, notez les points suivants du diagramme précédent:

  • Un cluster unique exécuté dans Google Cloud est désigné comme cluster d'évaluation des règles à l'échelle mondiale pour un champ d'application des métriques. Cet évaluateur de règle gérée est configuré pour utiliser scoping_project_A, qui contient les projets 1 et 2. Les règles exécutées sur scoping_project_A font automatiquement l'objet d'une distribution ramifiée vers les projets 1 et 2.

    Le compte de service sous-jacent doit disposer des autorisations du lecteur Monitoring pour scoping_project_A. Pour en savoir plus sur la définition de ces champs, consultez la section Évaluation des règles globales et multiprojets.

  • Comme dans tous les autres clusters, cet évaluateur de règles est configuré avec des ressources Rules et ClusterRules qui évaluent les règles appliquées à un espace de noms ou à un cluster. Ces règles sont automatiquement filtrées en tant que projet local (projet 1, dans ce cas). Comme scoping_project_A contient le projet 1, les règles et les règles configurées ClusterRules ne s'exécutent que sur les données du projet local, comme prévu.

  • Ce cluster dispose également de ressources GlobalRules qui exécutent des règles dans "scoping_project_A". Les règles globales ne sont pas automatiquement filtrées et, par conséquent, les règles globales s'exécutent exactement telles qu'elles sont écrites dans tous les projets, emplacements, clusters et espaces de noms de scoping_project_A.

  • Les règles d'alerte déclenchées sont envoyées à l'Alert-Manager auto-hébergé comme prévu.

L'utilisation de règles globales peut avoir des effets inattendus, selon que vous conservez ou agrégez les libellés project_id, location, cluster et namespace dans vos règles:

  • Si votre règle GlobalRules conserve le libellé project_id (en utilisant une clause by(project_id)), les résultats de la règle sont réécrits dans Monarch à l'aide de la valeur project_id d'origine de la série temporelle sous-jacente.

    Dans ce scénario, vous devez vous assurer que le compte de service sous-jacent dispose des autorisations Rédacteur de métriques Monitoring pour chaque projet surveillé dans scoping_project_A. Si vous ajoutez un nouveau projet surveillé à scoping_project_A, vous devez également ajouter manuellement une nouvelle autorisation au compte de service.

  • Si la règle GlobalRules ne conserve pas le libellé project_id (en n'utilisant pas de clause by(project_id)), les résultats de la règle sont réécrits dans Monarch à l'aide de la valeur project_id du cluster sur lequel l'évaluateur de règle global est exécuté.

    Dans ce scénario, vous n'avez pas besoin de modifier davantage le compte de service sous-jacent.

  • Si votre règle globale des règles conserve le libellé location (en utilisant une clause by(location)), les résultats de la règle sont réécrits dans Monarch à l'aide de chaque région Google Cloud d'origine à partir de laquelle la série temporelle sous-jacente est créée.

    Si GlobalRules ne conserve pas le libellé location, les données sont réécrites à l'emplacement du cluster où l'évaluateur de règle globale est exécuté.

Nous vous recommandons vivement de conserver les libellés cluster et namespace dans les résultats de l'évaluation des règles, sauf si l'objectif de la règle est de les agréger. Sinon, les performances de requête risquent de diminuer, et vous risquez de rencontrer des limites de cardinalité. Il est fortement déconseillé de supprimer les deux libellés.