Cette page a été traduite par l'API Cloud Translation.

Résoudre des problèmes liés au service géré pour Prometheus

Ce document décrit certains problèmes que vous pouvez rencontrer lors de l'utilisation du service géré Google Cloud pour Prometheus et fournit des informations sur le diagnostic et la résolution des problèmes.

Vous avez configuré le service géré pour Prometheus, mais vous ne voyez aucune donnée de métrique dans Grafana ou dans l'interface utilisateur de Prometheus. La cause peut être l'une des suivantes :

Il s'agit d'un problème côté requête, et les données ne peuvent pas être lues. Les problèmes côté requête sont souvent provoqués par des autorisations incorrectes sur le compte de service qui lit les données ou par une mauvaise configuration de Grafana.
Problème côté ingestion, de sorte qu'aucune donnée n'est envoyée. Les problèmes d'ingestion peuvent être dus à des problèmes de configuration des comptes de service, des collecteurs ou de l'évaluation des règles.

Pour déterminer si le problème se trouve du côté de l'ingestion ou de la requête, essayez d'interroger les données à l'aide de l'onglet PromQL de l'explorateur de métriques dans la console Google Cloud . Vous avez la garantie que cette page ne présente aucun problème avec les autorisations de lecture ou les paramètres Grafana.

Pour afficher cette page, procédez comme suit :

Utilisez l'outil de sélection de projets de la console Google Cloud pour sélectionner le projet pour lequel vous ne voyez pas de données.
Dans la console Google Cloud , accédez à la page Explorateur de métriques :
Accéder à l'explorateur de métriques

Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est Monitoring.
Dans la barre d'outils du volet de création de requêtes, sélectionnez le bouton nommé MQL ou PromQL.
Vérifiez que PromQL est sélectionné dans le bouton d'activation Langage. Le bouton de langage se trouve dans la barre d'outils qui vous permet de mettre en forme votre requête.
Saisissez la requête suivante dans l'éditeur, puis cliquez sur Exécuter la requête :
```
up
```

Si vous interrogez la métrique up et voyez les résultats, le problème se trouve côté requête. Pour en savoir plus sur la résolution de ces problèmes, consultez la section Problèmes côté requête.

Si vous interrogez la métrique up et que vous ne voyez aucun résultat, le problème est côté ingestion. Pour en savoir plus sur la résolution de ces problèmes, consultez la section Problèmes côté ingestion.

Un pare-feu peut également causer des problèmes d'ingestion et de requête. Pour plus d'informations, consultez la section Pare-feu.

La page Gestion des métriques de Cloud Monitoring fournit des informations qui peuvent vous aider à contrôler les sommes que vous consacrez aux métriques facturables, sans affecter l'observabilité. La page Gestion des métriques fournit les informations suivantes :

Les volumes d'ingestion pour la facturation à base d'octets et celle à base d'exemples, englobant les différents domaines de métriques et des métriques individuelles
Les données sur les libellés et la cardinalité des métriques
Nombre de lectures pour chaque métrique.
L'utilisation de métriques dans les règles d'alerte et les tableaux de bord personnalisés
Les taux d'erreurs d'écriture de métriques

Vous pouvez également utiliser la page Gestion des métriques pour exclure les métriques inutiles, ce qui élimine le coût de leur ingestion.

Procédez comme suit pour afficher la page Gestion des métriques :

Dans la console Google Cloud , accédez à la page Gestion des métriques :
Accédez à la page Gestion des métriques

Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est Monitoring.
Dans la barre d'outils, sélectionnez votre période. Par défaut, la page Gestion des métriques affiche des informations sur les métriques collectées au cours du jour précédent.

Pour en savoir plus sur la page Gestion des métriques, consultez la section Afficher et gérer l'utilisation des métriques.

Problèmes côté requête

La cause de la plupart des problèmes côté requête est l'une des suivantes :

Autorisations ou identifiants incorrects pour les comptes de service.
Mauvaise configuration de Workload Identity Federation for GKE, si cette fonctionnalité est activée sur votre cluster Pour en savoir plus, consultez la section Configurer un compte de service pour Workload Identity Federation for GKE.

Commencez par effectuer les opérations suivantes :

Vérifiez attentivement votre configuration en suivant les instructions de configuration pour l'interrogation.
Si vous utilisez Workload Identity Federation for GKE, vérifiez que votre compte de service dispose des autorisations appropriées en procédant comme suit :
1. Dans la console Google Cloud , accédez à la page IAM :
  Accéder à IAM
  
  Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est IAM et administration.
2. Identifiez le nom du compte de service dans la liste des comptes principaux. Vérifiez que le nom du compte de service est correctement orthographié. Cliquez ensuite sur Modifier.
3. Sélectionnez le champ Rôle, puis cliquez sur Actuellement utilisé et recherchez le rôle "Lecteur Monitoring". Si le compte de service ne dispose pas de ce rôle, ajoutez-le maintenant.

Si le problème persiste, envisagez les solutions suivantes :

Secrets mal configurés ou mal orthographiés

Si l'un des éléments suivants s'affiche, il est possible que votre code secret soit manquant ou mal saisi :

L'une de ces erreurs "Interdit" dans Grafana ou dans l'interface utilisateur Prometheus :
- "Avertissement : État de réponse inattendu lors de la récupération de l'heure du serveur : Interdit"
- "Avertissement : Erreur lors de la récupération de la liste des métriques : État de réponse inattendu lors de la récupération des noms de métriques : Interdit"
Un message de ce type s'affiche dans vos journaux :
"Impossible de lire le fichier d'identifiants : ouvrir /gmp/key.json : aucun fichier ni répertoire de ce type"

Si vous utilisez le synchronisateur de sources de données pour authentifier et configurer Grafana, procédez comme suit pour résoudre ces erreurs :

Vérifiez que vous avez choisi le point de terminaison de l'API Grafana, l'UID de la source de données Grafana et le jeton d'API Grafana appropriés. Vous pouvez inspecter les variables dans la tâche cron en exécutant la commande kubectl describe cronjob datasource-syncer.
Vérifiez que vous avez défini l'ID du projet du synchronisateur de sources de données sur le même champ d'application des métriques ou le projet pour lequel votre compte de service dispose d'identifiants.
Vérifiez que votre compte de service Grafana dispose du rôle "Administrateur" et que votre jeton d'API n'a pas expiré.
Vérifiez que votre compte de service dispose du rôle "Lecteur Monitoring" pour l'ID de projet choisi.
Vérifiez qu'il n'y a pas d'erreur dans les journaux du job de synchronisation des sources de données en exécutant kubectl logs job.batch/datasource-syncer-init. Cette commande doit être exécutée immédiatement après l'application du fichier datasource-syncer.yaml.
Si vous utilisez Workload Identity Federation for GKE, vérifiez que vous n'avez pas mal saisi la clé ou les identifiants du compte, et que vous l'avez associée au bon espace de noms.

Si vous utilisez l'ancien proxy d'interface utilisateur, procédez comme suit pour résoudre ces erreurs :

Vérifiez que vous avez défini l'ID de projet de l'interface utilisateur sur le même champ d'application des métriques ou le même projet pour lequel votre compte de service dispose d'identifiants.
Vérifiez l'ID du projet que vous avez spécifié pour les options --query.project-id.
Vérifiez que votre compte de service dispose du rôle "Lecteur Monitoring" pour l'ID de projet choisi.
Vérifiez que vous avez défini l'ID de projet approprié lors du déploiement de l'interface utilisateur et que vous ne l'avez pas défini sur la chaîne littérale PROJECT_ID.
Si vous utilisez Workload Identity, vérifiez que vous n'avez pas mal saisi la clé ou les identifiants du compte, et que vous l'avez associée au bon espace de noms.
Si vous installez votre propre secret, assurez-vous qu'il est présent :
```
kubectl get secret gmp-test-sa -o json | jq '.data | keys'
```

Vérifiez que le secret est correctement installé :

kubectl get deploy frontend -o json | jq .spec.template.spec.volumes

kubectl get deploy frontend -o json | jq .spec.template.spec.containers[].volumeMounts

Assurez-vous que le secret est correctement transmis au conteneur :

kubectl get deploy frontend -o json | jq .spec.template.spec.containers[].args

Méthode HTTP incorrecte pour Grafana

Si l'erreur d'API suivante s'affiche depuis Grafana, Grafana est configuré pour envoyer une requête POST au lieu d'une requête GET :

"{"status":"error","errorType":"bad_data","error":"no match[] parameter provided"}%"

Pour résoudre ce problème, configurez Grafana pour utiliser une requête GET en suivant les instructions de la section Configurer une source de données.

Délais avant expiration des requêtes volumineuses ou de longue durée

Si l'erreur suivante s'affiche dans Grafana, le délai avant expiration par défaut de la requête est trop faible :

"Post "http://frontend.NAMESPACE_NAME.svc:9090/api/v1/query_range": net/http: timeout awaiting response headers"

Managed Service pour Prometheus ne renvoie pas d'expiration de délai tant qu'une requête ne dépasse pas 120 secondes, contre 30 secondes par défaut avec Grafana. Pour résoudre ce problème, portez les délais avant expiration dans Grafana à 120 secondes en suivant les instructions de la section Configurer une source de données.

Erreurs de validation de libellés

Si l'une des erreurs suivantes s'affiche dans Grafana, vous utilisez peut-être un point de terminaison non compatible :

"Validation : les libellés autres que name ne sont pas encore acceptés."
"Modélisation [tâche] : erreur de mise à jour des options : les étiquettes autres que name ne sont pas encore acceptées."

Le service géré pour Prometheus n'accepte le point de terminaison /api/v1/$label/values que pour le libellé __name__. Cette limitation entraîne l'échec des requêtes utilisant la variable label_values($label) dans Grafana.

Utilisez plutôt le format label_values($metric, $label). Cette requête est recommandée, car elle restreint les valeurs de libellés renvoyées par la métrique, ce qui empêche la récupération de valeurs non liées au contenu du tableau de bord. Cette requête appelle un point de terminaison compatible avec Prometheus.

Pour plus d'informations sur les points de terminaison compatibles, consultez la section Compatibilité avec les API.

Quota dépassé

Si l'erreur suivante s'affiche, cela signifie que vous avez dépassé votre quota de lecture pour l'API Cloud Monitoring :

"429: RESOURCE_EXHAUSTED: Quota exceeded for quota metric 'Time series queries ' and limit 'Time series queries per minute' of service 'monitoring.googleapis.com' for consumer 'project_number:...'."

Pour résoudre ce problème, envoyez une demande d'augmentation de votre quota de lecture pour l'API Monitoring. Pour obtenir de l'aide, contactez l'assistanceGoogle Cloud . Pour en savoir plus sur les quotas, consultez la documentation Cloud Quotas.

Métriques de plusieurs projets

Si vous souhaitez afficher les métriques de plusieurs projets Google Cloud , vous n'avez pas besoin de configurer plusieurs synchroniseurs de sources de données ni de créer plusieurs sources de données dans Grafana.

À la place, créez un champ d'application des métriques Cloud Monitoring dans un projetGoogle Cloud (le projet de champ d'application) contenant les projets que vous souhaitez surveiller. Lorsque vous configurez la source de données Grafana avec un projet de champ d'application, vous accédez aux données de tous les projets dans le champ d'application des métriques. Pour en savoir plus, consultez Champs d'application des requêtes et des métriques.

Aucun type de ressource surveillée spécifié

Si l'erreur suivante s'affiche, vous devez spécifier un type de ressource surveillée lorsque vous utilisez PromQL pour interroger une métrique systèmeGoogle Cloud :

"la métrique est configurée pour être utilisée avec plusieurs types de ressources surveillées ; le sélecteur de série doit spécifier un outil de mise en correspondance des libellés sur le nom de la ressource surveillée"

Vous pouvez spécifier un type de ressource surveillée en filtrant à l'aide du libellé monitored_resource. Pour en savoir plus sur l'identification et le choix d'un type de ressource surveillée valide, consultez la page Spécifier un type de ressource surveillée.

Les valeurs brutes de compteur, d'histogramme et de récapitulatif ne correspondent pas entre l'interface utilisateur du collecteur et la console Google Cloud

Vous remarquerez peut-être une différence entre les valeurs de l'interface utilisateur Prometheus du collecteur local et celles de la console Google Cloud Google Cloud lorsque vous interrogez la valeur brute des métriques Prometheus cumulatives, y compris les compteurs, les histogrammes et les récapitulatifs. Ce comportement est normal.

Monarch nécessite des horodatages de début, mais Prometheus n'en a pas. Le service géré pour Prometheus génère des horodatages de début en ignorant le premier point ingéré de n'importe quelle série temporelle et en le convertissant en horodatage de début. La valeur des points suivants est diminuée de la valeur du point initial ignoré pour garantir la précision des tarifs. Cela entraîne un déficit persistant de la valeur brute de ces points.

La différence entre le nombre indiqué dans l'interface utilisateur du collecteur et le nombre indiqué dans la consoleGoogle Cloud est égale à la première valeur enregistrée dans l'interface utilisateur du collecteur, ce qui est normal, car le système ignore cette valeur initiale et la soustrait des points suivants.

C'est acceptable car la production ne nécessite pas d'exécuter une requête pour les valeurs brutes des métriques cumulatives. Toutes les requêtes utiles nécessitent une fonction rate() ou similaire, auquel cas la différence sur l'horizon temporel est identique entre les deux UI. Les métriques cumulatives ne cessent d'augmenter. Vous ne pouvez donc pas définir une alerte sur une requête brute, car une série temporelle n'atteint un seuil qu'une seule fois. Toutes les alertes et les graphiques utiles examinent les variations ou le taux de variation de la valeur.

Le collecteur ne conserve environ que 10 minutes de données en local. Des écarts entre les valeurs cumulées brutes peuvent également survenir en raison d'une réinitialisation avant l'horizon des 10 minutes. Pour éliminer cette possibilité, essayez de définir une période d'analyse des requêtes de 10 minutes uniquement lorsque vous comparez l'interface utilisateur du collecteur à la console Google Cloud .

Les écarts peuvent également être causés par plusieurs threads de calcul dans votre application, chacun avec un point de terminaison /metrics. Si votre application lance plusieurs threads, vous devez passer la bibliothèque cliente Prometheus en mode multiprocessus. Pour en savoir plus, consultez la documentation sur l'utilisation du mode multiprocess dans la bibliothèque cliente Python de Prometheus.

Données de compteur manquantes ou histogrammes défectueux

Le signal le plus courant de ce problème est l'absence de données ou la présence de données manquantes lors de l'interrogation d'une métrique de compteur simple (par exemple, une requête PromQL de metric_name_foo). Vous pouvez le vérifier si des données apparaissent après l'ajout d'une fonction rate à votre requête (par exemple, rate(metric_name_foo[5m])).

Vous remarquerez également que vos échantillons ingérés ont considérablement augmenté sans aucune modification majeure du volume de scrape ou que de nouvelles métriques sont créées avec des suffixes "unknown" ou "unknown:counter" dans Cloud Monitoring.

Vous remarquerez peut-être également que les opérations d'histogramme, telles que la fonction quantile(), ne fonctionnent pas comme prévu.

Ces problèmes se produisent lorsqu'une métrique est collectée sans TYPE de métrique Prometheus. Comme Monarch est fortement typé, Managed Service pour Prometheus tient compte des métriques non typées en leur ajoutant le suffixe "unknown" et en les ingérant deux fois, une fois en tant que jauge et une fois en tant que compteur. Le moteur de requêtes choisit ensuite d'interroger la métrique de jauge ou de compteur sous-jacente selon les fonctions de requête que vous utilisez.

Bien que cette heuristique fonctionne généralement très bien, elle peut entraîner des problèmes tels que des résultats étranges lors de l'interrogation d'une métrique brute "unknown:counter". De plus, comme les histogrammes sont des objets spécifiquement typés dans Monarch, l'ingestion des trois métriques d'histogramme requises en tant que métriques de compteur individuelles entraîne le dysfonctionnement des fonctions d'histogramme. Comme les métriques de type "unknown" sont ingérées deux fois, le fait de ne pas définir de type TYPE double vos échantillons ingérés.

Les raisons courantes pour lesquelles TYPE ne peut pas être défini sont les suivantes :

Configuration accidentelle d'un collecteur Managed Service pour Prometheus en tant que serveur de fédération. La fédération n'est pas disponible lorsque vous utilisez le service géré pour Prometheus. Étant donné que la fédération supprime intentionnellement les informations TYPE, l'implémentation de la fédération entraîne des métriques de type "unknown".
Utilisation de l'écriture distante Prometheus à tout moment du pipeline d'ingestion. Ce protocole supprime également intentionnellement les informations de TYPE.
Utiliser une règle de modification de libellés qui modifie le nom de la métrique. La métrique renommée est alors dissociée des informations TYPE associées au nom de la métrique d'origine.
L'exportateur n'émet pas de TYPE pour chaque métrique.
Un problème temporaire où TYPE est supprimé au démarrage du collecteur.

Pour résoudre ce problème, procédez comme suit :

Cessez d'utiliser la fédération avec le service géré pour Prometheus. Si vous souhaitez réduire la cardinalité et les coûts en pratiquant le "roll up" de données avant de les envoyer à Monarch, consultez la page Configurer l'agrégation locale.
Cessez d'utiliser l'écriture distante Prometheus dans votre chemin d'accès à la collection.
Vérifiez que le champ # TYPE existe pour chaque métrique en accédant au point de terminaison /metrics.
Supprimez toutes les règles de modification de libellés qui modifient le nom d'une métrique.
Supprimez toutes les métriques en conflit avec le suffixe "unknown" ou "unknown:counter" en appelant DeleteMetricDescriptor.
Vous pouvez également interroger systématiquement les compteurs à l'aide d'une fonction de traitement des compteurs rate ou autre.

Vous pouvez également créer une règle d'exclusion de métriques dans la gestion des métriques pour empêcher l'ingestion des métriques dont le nom se termine par "inconnu" à l'aide de l'expression régulière prometheus.googleapis.com/.+/unknown.*. Si vous ne résolvez pas le problème sous-jacent avant d'installer cette règle, vous risquez d'empêcher l'ingestion des données de métriques souhaitées.

Données Grafana non conservées après le redémarrage du pod

Si vos données semblent disparaître de Grafana après un redémarrage du pod, mais qu'elles sont visibles dans Cloud Monitoring, utilisez Grafana pour interroger l'instance Prometheus locale au lieu de Managed Service pour Prometheus.

Pour plus d'informations sur la configuration de Grafana en vue de l'utilisation du service géré en tant que source de données, consultez la page Grafana.

Résultats de requêtes ou de règles d'alerte incohérents qui se corrigent automatiquement

Vous remarquerez peut-être un schéma dans lequel les requêtes sur les fenêtres récentes, telles que les requêtes exécutées par les règles d'enregistrement ou d'alerte, renvoient des pics de données inexplicables. Lorsque vous examinez le pic en exécutant la requête dans Grafana ou l'explorateur de métriques, vous constaterez peut-être qu'il a disparu et que les données semblent à nouveau normales.

Ce comportement peut se produire plus souvent si l'une des conditions suivantes est remplie :

Vous exécutez en parallèle de nombreuses requêtes très similaires, peut-être à l'aide de règles. Ces requêtes ne peuvent différer que par un seul attribut. Par exemple, vous pouvez exécuter 50 règles d'enregistrement qui ne diffèrent que par le VALUE du filtre {foo="VALUE"}, ou qui ne diffèrent que par des valeurs [duration] différentes pour la fonction rate.
Vous exécutez des requêtes à time=now sans tampon.
Vous exécutez des requêtes instantanées telles que des règles d'alerte ou d'enregistrement. Si vous utilisez une règle d'enregistrement, vous remarquerez peut-être que le pic est présent dans le résultat enregistré, mais qu'il est introuvable lorsque vous exécutez une requête sur les données brutes.
Vous interrogez deux métriques pour créer un ratio. Les pics sont plus prononcés lorsque le nombre de séries temporelles est faible dans la requête du numérateur ou du dénominateur.
Vos données de métriques se trouvent dans des régions Google Cloud plus vastes, comme us-central1 ou us-east4.

Plusieurs raisons peuvent expliquer les pics temporaires de ce type de requêtes :

(Cause la plus fréquente) Toutes vos requêtes similaires et parallèles demandent des données au même ensemble de nœuds Monarch, ce qui consomme une grande quantité de mémoire sur chaque nœud au total. Lorsque Monarch dispose de suffisamment de ressources disponibles dans une région cloud, vos requêtes fonctionnent. Lorsqu'une région cloud est soumise à une pression de ressources, chaque nœud limite les requêtes, en privilégiant les utilisateurs qui consomment le plus de mémoire sur chaque nœud. Lorsque Monarch disposera à nouveau de ressources suffisantes, vos requêtes fonctionneront de nouveau. Ces requêtes peuvent être des SLI générés automatiquement à partir d'outils tels que Sloth.
Vos données arrivent en retard et vos requêtes ne sont pas tolérantes à ce problème. Il faut environ trois à sept secondes pour que les données nouvellement écrites puissent être interrogées, sans compter la latence réseau ni les éventuels retards causés par la pression exercée sur les ressources dans votre environnement. Si votre requête ne prévoit pas de délai ni de décalage pour tenir compte des données tardives, vous risquez d'interroger, sans le savoir, une période pour laquelle vous ne disposez que de données partielles. Une fois les données reçues, les résultats de votre requête semblent normaux.
Monarch peut présenter une légère incohérence lors de l'enregistrement de vos données dans différentes répliques. Le moteur de requête tente de choisir la réplique de "meilleure qualité". Toutefois, si différentes requêtes choisissent différentes répliques avec des ensembles de données légèrement différents, il est possible que vos résultats varient légèrement d'une requête à l'autre. Il s'agit d'un comportement normal du système. Vos alertes doivent tolérer ces légères différences.
Il est possible qu'une région Monarch entière soit temporairement indisponible. Si une région n'est pas accessible, le moteur de requête la traite comme si elle n'avait jamais existé. Une fois la région disponible, les résultats des requêtes continuent de renvoyer les données de cette région.

Pour tenir compte de ces causes fondamentales possibles, vous devez vous assurer que vos requêtes, règles et alertes respectent les bonnes pratiques suivantes :

Regroupez les règles et les alertes similaires dans une seule règle qui agrège les données par libellé, au lieu d'avoir des règles distinctes pour chaque permutation de valeurs de libellé. S'il s'agit de règles d'alerte, vous pouvez utiliser des notifications basées sur des libellés pour acheminer les alertes de la règle agrégée au lieu de configurer des règles d'acheminement individuelles pour chaque alerte.

Par exemple, si vous avez un libellé foo avec les valeurs bar, baz et qux, au lieu d'avoir une règle distincte pour chaque valeur de libellé (une avec la requête sum(metric{foo="bar"}), une avec la requête sum(metric{foo="baz"}) et une avec la requête sum(metric{foo="qux"})), créez une seule règle qui agrège ce libellé et filtre éventuellement les valeurs de libellé qui vous intéressent (comme sum by (foo) metric{foo=~"bar|baz|qux"}).

Si votre métrique comporte deux libellés, chacun avec 50 valeurs, et que vous avez une règle distincte pour chaque combinaison de valeurs de libellé, et que vos requêtes de règles sont un ratio, vous lancez 50 x 50 x 2 = 5 000 requêtes Monarch parallèles à chaque période,qui touchent chacune le même ensemble de nœuds Monarch. Au total, ces 5 000 requêtes parallèles consomment une grande quantité de mémoire sur chaque nœud Monarch, ce qui augmente le risque de limitation du débit lorsqu'une région Monarch est soumise à une pression sur les ressources.

Si vous utilisez plutôt des agrégations pour regrouper ces règles en une seule règle qui est un ratio, vous ne lancerez que deux requêtes Monarch parallèles par période. Ces deux requêtes parallèles consomment beaucoup moins de mémoire au total que les 5 000 requêtes parallèles, et le risque de limitation du débit est beaucoup plus faible.
Si votre règle remonte à plus d'un jour, exécutez-la moins fréquemment que toutes les minutes. Les requêtes qui accèdent à des données de plus de 25 heures sont envoyées au dépôt de données sur disque Monarch. Ces requêtes de dépôt sont plus lentes et consomment plus de mémoire que les requêtes portant sur des données plus récentes, ce qui exacerbe les problèmes de consommation de mémoire liés aux règles d'enregistrement parallèle.

Envisagez d'exécuter ces types de requêtes une fois par heure au lieu d'une fois par minute. Si vous exécutez une requête d'une journée toutes les minutes, vous n'obtiendrez qu'une variation de 1/1440 = 0,07 % dans le résultat à chaque période, ce qui est négligeable. Si vous exécutez une requête d'une journée toutes les heures, le résultat change de 60/1440 = 4 % à chaque période, ce qui correspond à une taille de signal plus pertinente. Si vous souhaitez recevoir une alerte en cas de modification récente des données, vous pouvez exécuter une autre règle avec une période d'analyse plus courte (par exemple, cinq minutes) une fois par minute.
Utilisez le champ for: dans vos règles pour tolérer les résultats aberrants temporaires. Le champ for: empêche le déclenchement de votre alerte, sauf si la condition d'alerte a été remplie pendant au moins la durée configurée. Définissez ce champ sur une valeur au moins deux fois supérieure à la durée de votre intervalle d'évaluation des règles.

L'utilisation du champ for: est utile, car les problèmes passagers se résolvent souvent d'eux-mêmes, ce qui signifie qu'ils ne se produisent pas lors des cycles d'alerte consécutifs. Si vous constatez un pic et qu'il persiste sur plusieurs codes temporels et plusieurs cycles d'alerte, vous pouvez être plus sûr qu'il s'agit d'un véritable pic et non d'un problème temporaire.
Utilisez le modificateur offset dans PromQL pour retarder l'évaluation de votre requête afin qu'elle ne s'applique pas à la période de données la plus récente. Examinez votre intervalle d'échantillonnage et votre intervalle d'évaluation des règles, puis identifiez le plus long des deux. Idéalement, votre décalage de requête doit être au moins deux fois plus long que l'intervalle le plus long. Par exemple, si vous envoyez des données toutes les 15 secondes et exécutez des règles toutes les 30 secondes, décalez vos requêtes d'au moins une minute. Un décalage d'une minute permet à vos règles d'utiliser un code temporel de fin d'au moins 60 secondes, ce qui crée une marge pour que les données tardives arrivent avant l'exécution de votre règle.

Il s'agit à la fois d'une bonne pratique Cloud Monitoring (toutes les alertes PromQL gérées ont au moins un décalage d'une minute) et d'une bonne pratique Prometheus.
Regroupez vos résultats par libellé location pour isoler les problèmes potentiels de régions non disponibles. Le libellé associé à la région Google Cloud peut être appelézoneouregiondans certaines métriques système.

Si vous ne regroupez pas vos données par région et qu'une région devient indisponible, vos résultats semblent chuter soudainement. Vous pouvez également constater une baisse des résultats historiques. Si vous regroupez les résultats par région et qu'une région devient indisponible, vous ne recevrez aucun résultat de cette région, mais les résultats des autres régions ne seront pas affectés.
Si votre ratio est un taux de réussite (par exemple, les réponses 2xx par rapport au nombre total de réponses), envisagez de le transformer en taux d'erreur (par exemple, les réponses 4xx+5xx par rapport au nombre total de réponses). Les ratios d'erreur sont plus tolérants aux données incohérentes, car une baisse temporaire des données fait que le résultat de la requête est inférieur à votre seuil et ne déclenche donc pas votre alerte.
Si possible, divisez une requête de ratio ou une règle d'enregistrement en requêtes de numérateur et de dénominateur distinctes. Il s'agit d'une bonne pratique Prometheus. L'utilisation de ratios est valide, mais comme la requête du numérateur s'exécute indépendamment de celle du dénominateur, elle peut amplifier l'impact des problèmes temporaires :
- Si Monarch limite la requête du numérateur, mais pas celle du dénominateur, vous risquez d'obtenir des résultats anormalement bas. Si Monarch limite la requête du dénominateur, mais pas celle du numérateur, vous pouvez obtenir des résultats anormalement élevés.
- Si vous interrogez des périodes récentes et que vous avez des données tardives, il est possible qu'une requête du ratio s'exécute avant l'arrivée des données et que l'autre requête du ratio s'exécute après l'arrivée des données.
- Si l'un des côtés de votre ratio est composé d'un nombre relativement faible de séries temporelles, les erreurs sont amplifiées. Si votre numérateur et votre dénominateur comportent chacun 100 séries temporelles, et que Monarch ne renvoie pas une série temporelle dans la requête du numérateur, vous remarquerez probablement la différence de 1 %. Si votre numérateur et votre dénominateur comportent chacun 1 000 000 de séries temporelles, et que Monarch ne renvoie pas une série temporelle dans la requête du numérateur, il est peu probable que vous remarquiez la différence de 0,0001 %.
Si vos données sont rares, utilisez une durée de taux plus longue dans votre requête. Si vos données arrivent toutes les 10 minutes et que votre requête utilise rate(metric[1m]), votre requête ne recherche les données que sur la dernière minute et vous obtenez parfois des résultats vides. En règle générale, définissez votre [duration] sur une valeur au moins quatre fois supérieure à votre intervalle de récupération.

Par défaut, les requêtes de type "Gauge" (Jauge) recherchent les données des cinq dernières minutes. Pour qu'ils regardent plus loin dans le passé, utilisez n'importe quelle fonction x_over_time valide, telle que last_over_time.

Ces recommandations sont surtout pertinentes si vous obtenez des résultats de requête incohérents lorsque vous interrogez des données récentes. Si ce problème se produit lorsque vous interrogez des données datant de plus de 25 heures, il peut s'agir d'un problème technique lié à Monarch. Si cela se produit, contactez l'assistance Cloud Customer Care pour que nous puissions examiner le problème.

Importer des tableaux de bord Grafana

Pour en savoir plus sur l'utilisation de l'outil d'importation de tableau de bord et son dépannage, consultez la page Importer des tableaux de bord Grafana dans Cloud Monitoring.

Pour en savoir plus sur les problèmes de conversion du contenu du tableau de bord, consultez le fichier README de l'outil d'importation.

Problèmes côté ingestion

Les problèmes côté ingestion peuvent être liés à la collecte ou l'évaluation des règles. Commencez par consulter les journaux d'erreurs de la collecte gérée. Vous pouvez exécuter les commandes suivantes :

kubectl logs -f -n gmp-system -lapp.kubernetes.io/part-of=gmp

kubectl logs -f -n gmp-system -lapp.kubernetes.io/name=collector -c prometheus

Sur les clusters GKE Autopilot, vous pouvez exécuter les commandes suivantes :

kubectl logs -f -n gke-gmp-system -lapp.kubernetes.io/part-of=gmp

kubectl logs -f -n gke-gmp-system -lapp.kubernetes.io/name=collector -c prometheus

La fonctionnalité d'état de la cible peut vous aider à déboguer la cible de scrape. Pour en savoir plus, consultez la page Informations sur l'état de la cible.

L'état du point de terminaison est manquant ou trop ancien

Si vous avez activé la fonctionnalité d'état de la cible, mais qu'il manque un champ ou une valeur Status.Endpoint Statuses dans une ou plusieurs de vos ressources PodMonitoring ou ClusterPodMonitoring, vous risquez de rencontrer les problèmes suivants :

Managed Service pour Prometheus ne pouvait pas atteindre un collecteur sur le même nœud que l'un de vos points de terminaison.
Une ou plusieurs de vos configurations PodMonitoring ou ClusterPodMonitoring n'a abouti à aucune cible valide.

Des problèmes semblables peuvent également entraîner une valeur inférieure de quelques minutes dans le champ Status.Endpoint Statuses.Last Update Time, plus votre intervalle de scraping.

Pour résoudre ce problème, commencez par vérifier que les pods Kubernetes associés à votre point de terminaison de scraping sont en cours d'exécution. Si vos pods Kubernetes sont en cours d'exécution, les sélecteurs de libellés correspondent et vous pouvez accéder manuellement aux points de terminaison de scraping (généralement en accédant au point de terminaison /metrics), puis vérifier si les collecteurs de Managed Service pour Prometheus sont en cours d'exécution.

La fraction des collecteurs est inférieure à 1

Si vous avez activé la fonctionnalité d'état de la cible, vous obtenez des informations sur l'état de vos ressources. La valeur Status.Endpoint Statuses.Collectors Fraction de vos ressources PodMonitoring ou ClusterPodMonitoring représente la fraction des collecteurs, exprimée entre 0 et 1, qui sont accessibles. Par exemple, une valeur 0.5 indique que 50 % de vos collecteurs sont accessibles, tandis que la valeur 1 indique que 100 % de vos collecteurs sont accessibles.

Si le champ Collectors Fraction a une valeur autre que 1, un ou plusieurs collecteurs sont inaccessibles, et les métriques de l'un de ces nœuds ne sont peut-être pas scrapées. Assurez-vous que tous les collecteurs sont en cours d'exécution et accessibles sur le réseau du cluster. Vous pouvez afficher l'état des pods de collecteur à l'aide de la commande suivante :

kubectl -n gmp-system get pods --selector="app.kubernetes.io/name=collector"

Sur les clusters GKE Autopilot, cette commande est légèrement différente :

kubectl -n gke-gmp-system get pods --selector="app.kubernetes.io/name=collector"

Vous pouvez examiner des pods de collecteurs individuels (par exemple, un pod de collecteur nommé collector-12345) à l'aide de la commande suivante :

kubectl -n gmp-system describe pods/collector-12345

Sur les clusters GKE Autopilot, exécutez la commande suivante :

kubectl -n gke-gmp-system describe pods/collector-12345

Si les collecteurs ne sont pas opérationnels, consultez la section Dépannage de charge de travail GKE.

Si les collecteurs sont opérationnels, consultez les journaux de l'opérateur. Pour vérifier les journaux de l'opérateur, commencez par exécuter la commande suivante afin de trouver le nom du pod d'opérateur :

kubectl -n gmp-system get pods --selector="app.kubernetes.io/name=gmp-collector"

Sur les clusters GKE Autopilot, exécutez la commande suivante :

kubectl -n gke-gmp-system get pods --selector="app.kubernetes.io/name=gmp-collector"

Vérifiez ensuite les journaux de l'opérateur (par exemple, un pod d'opérateur nommé gmp-operator-12345) à l'aide de la commande suivante :

kubectl -n gmp-system logs pods/gmp-operator-12345

Sur les clusters GKE Autopilot, exécutez la commande suivante :

kubectl -n gke-gmp-system logs pods/gmp-operator-12345

Cibles non opérationnelles

Si vous avez activé la fonctionnalité d'état de la cible, mais que le champ Status.Endpoint Statuses.Unhealthy Targets d'une ou ou plusieurs de vos ressources PodMonitoring ou ClusterPodMonitoring comporte une valeur autre que 0, le collecteur ne peut pas récupérer une ou plusieurs de vos cibles.

Affichez le champ Sample Groups, qui regroupe les cibles par message d'erreur, puis recherchez le champ Last Error. Le champ Last Error provient de Prometheus et vous indique pourquoi la cible n'a pas pu être scrapée. Pour résoudre ce problème, en utilisant les exemples de cibles comme référence, vérifiez si vos points de terminaison de scraping sont en cours d'exécution.

Point de terminaison de récupération non autorisé

Si l'une des erreurs suivantes s'affiche et que votre cible de scraping nécessite une autorisation, cela signifie que votre collecteur n'est pas configuré pour utiliser le type d'autorisation approprié ou qu'ilutilise la charge utile d'autorisation incorrecte :

server returned HTTP status 401 Unauthorized
x509: certificate signed by unknown authority

Pour résoudre ce problème, consultez la section Configurer un point de terminaison de scraping autorisé.

Quota dépassé

Si l'erreur suivante s'affiche, cela signifie que vous avez dépassé votre quota d'ingestion pour l'API Cloud Monitoring :

"429: Quota exceeded for quota metric 'Time series ingestion requests' and limit 'Time series ingestion requests per minute' of service 'monitoring.googleapis.com' for consumer 'project_number:PROJECT_NUMBER'., rateLimitExceeded"

Cette erreur se produit le plus souvent lors de la première activation du service géré. Le quota par défaut est épuisé pour 100 000 échantillons par seconde ingérés.

Pour résoudre ce problème, envoyez une demande d'augmentation de votre quota d'ingestion pour l'API Monitoring. Pour obtenir de l'aide, contactez l'assistanceGoogle Cloud . Pour en savoir plus sur les quotas, consultez la documentation Cloud Quotas.

Autorisation manquante sur le compte de service par défaut du nœud

Si l'une des erreurs suivantes s'affiche, il est possible que des autorisations ne soient pas accordées au compte de service par défaut du nœud :

"execute query: Erreur lors de l'interrogation de Prometheus: client_error: client error: 403"
"Readiness probe failed: échec de la vérification HTTP avec le code d'état: 503"
"Erreur lors de l'interrogation de l'instance Prometheus"

La collecte gérée et l'évaluateur de règles gérées dans le service géré pour Prometheus utilisent tous deux le compte de service par défaut sur le nœud. Ce compte est créé avec toutes les autorisations nécessaires, mais les clients peuvent parfois supprimer manuellement les autorisations Monitoring. Cette suppression entraîne l'échec de la collecte et de l'évaluation des règles.

Pour vérifier les autorisations du compte de service, effectuez l'une des opérations suivantes :

Identifiez le nom du nœud Compute Engine sous-jacent, puis exécutez la commande suivante :
```
gcloud compute instances describe NODE_NAME --format="json" | jq .serviceAccounts
```
Recherchez la chaîne https://www.googleapis.com/auth/monitoring. Si nécessaire, ajoutez Monitoring comme décrit dans la section Compte de service mal configuré.
Accédez à la VM sous-jacente du cluster et vérifiez la configuration du compte de service du nœud :
1. Dans la console Google Cloud , accédez à la page Clusters Kubernetes :
  Accéder à la page Clusters Kubernetes
  
  Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est Kubernetes Engine.
2. Sélectionnez Nœuds, puis cliquez sur le nom du nœud dans la table Nœuds.
3. Cliquez sur Détails.
4. Cliquez sur le lien Instance de VM.
5. Recherchez le volet API et gestion des identités, puis cliquez sur Afficher les détails.
6. Recherchez l'API Stackdriver Monitoring avec un accès complet.

Il est également possible que le synchroniseur de sources de données ou l'interface utilisateur de Prometheus aient été configurés pour examiner le mauvais projet. Pour savoir comment vérifier que vous interrogez le champ d'application des métriques prévues, consultez la section Modifier le projet interrogé.

Compte de service mal configuré

Si l'un des messages d'erreur suivants s'affiche, cela signifie que le compte de service utilisé par le collecteur ne dispose pas des autorisations appropriées :

"code = PermissionDenied desc = Permission monitoring.timeSeries.create denied (ou la ressource peut ne pas exister)"
"google : Impossible de trouver les identifiants par défaut. Consultez la page https://developers.google.com/accounts/docs/application-default-credentials.

Pour vérifier que votre compte de service dispose des autorisations appropriées, procédez comme suit :

Dans la console Google Cloud , accédez à la page IAM :
Accéder à IAM

Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est IAM et administration.
Identifiez le nom du compte de service dans la liste des comptes principaux. Vérifiez que le nom du compte de service est correctement orthographié. Cliquez ensuite sur Modifier.
Sélectionnez le champ Rôle, puis cliquez sur Actuellement utilisé et recherchez le rôle "Rédacteur de métriques Monitoring" ou "Éditeur Monitoring". Si le compte de service ne possède pas l'un de ces rôles, attribuez-lui le rôle Rédacteur de métriques Monitoring (roles/monitoring.metricWriter).

Si vous utilisez une solution Kubernetes non GKE, vous devez transmettre explicitement les identifiants au collecteur et à l'évaluateur de règle. Vous devez répéter les identifiants dans les sections rules et collection. Pour en savoir plus, consultez la section Fournir les identifiants explicitement (pour la collecte) ou Fournir les identifiants explicitement (pour les règles).

Les comptes de service sont souvent limités à un seul projet Google Cloud . L'utilisation d'un compte de service pour écrire des données de métriques pour plusieurs projets, par exemple lorsqu'un évaluateur de règles gérées interroge un champ d'application des métriques multiprojets, peut provoquer cette erreur d'autorisation. Si vous utilisez le compte de service par défaut, envisagez de configurer un compte de service dédié afin de pouvoir ajouter l'autorisation monitoring.timeSeries.create en toute sécurité pour plusieurs projets. Si vous ne pouvez pas accorder cette autorisation, vous pouvez utiliser le réétiquetage de métriques pour réécrire le libellé project_id sous un autre nom. L'ID du projet est donc défini par défaut sur le projet Google Cloud dans lequel votre serveur Prometheus ou votre évaluateur de règle est en cours d'exécution.

Configuration de scraping non valide

Si l'erreur suivante s'affiche, votre PodMonitoring ou ClusterPodMonitoring n'est pas correctement formé :

"Erreur interne : échec de l'appel du webhook "validate.podmonitorings.gmp-operator.gmp-system.monitoring.googleapis.com": Post "https://gmp-operator.gmp-system.svc:443/validate/monitoring.googleapis.com/v1/podmonitorings?timeout=10s": EOF""

Pour résoudre ce problème, assurez-vous que votre ressource personnalisée est correctement formée selon la spécification.

Le webhook d'admission ne parvient pas à analyser la configuration du client HTTP ou celle-ci n'est pas valide

Sur les versions de Managed Service pour Prometheus antérieures à la version 0.12, vous pouvez rencontrer une erreur semblable à la suivante, qui est liée à l'injection de secrets dans l'espace de noms non par défaut :

"Le webhook d'admission "validate.podmonitorings.gmp-operator.gmp-system.monitoring.googleapis.com" a refusé la requête : définition non valide pour le point de terminaison avec l'index 0 : échec de l'analyse ou configuration client HTTP Prometheus non valide : vous devez utiliser l'espace de noms "my-custom-namespace", obtenu : "default""

Pour résoudre ce problème, effectuez une mise à niveau vers la version 0.12 ou ultérieure.

Problèmes liés aux intervalles et aux délais d'inactivité de scraping

Lorsque vous utilisez le service géré pour Prometheus, le délai avant expiration de scraping ne peut pas être supérieur à l'intervalle de scraping. Pour vérifier ce problème dans vos journaux, exécutez la commande suivante :

kubectl -n gmp-system logs ds/collector prometheus

Sur les clusters GKE Autopilot, exécutez la commande suivante :

kubectl -n gke-gmp-system logs ds/collector prometheus

Recherchez ce message :

"scrape timeout greater than scrape interval for scrape config with job name "PodMonitoring/gmp-system/example-app/go-metrics""

Pour résoudre ce problème, définissez une valeur de l'intervalle de scraping égale ou supérieure à la valeur du délai avant expiration de scraping.

TYPE manquant dans la métrique

Si l'erreur suivante s'affiche, la métrique ne contient pas d'informations de type :

"aucune métadonnée trouvée pour le nom de métrique "{metric_name}"

Pour vérifier que les informations de type manquantes sont le problème, vérifiez le résultat /metrics de l'application d'exportation. S'il n'y a pas de ligne semblable à la suivante, les informations de type sont manquantes :

# TYPE {metric_name} <type>

Certaines bibliothèques, telles que celles de VictoriaMetrics antérieures à la version 1.28.0, suppriment intentionnellement les informations de type. Ces bibliothèques ne sont pas compatibles avec le service géré pour Prometheus.

Conflits de séries temporelles

Si l'une des erreurs suivantes s'affiche, plusieurs collecteurs peuvent tenter d'écrire dans la même série temporelle :

"Une ou plusieurs séries temporelles n'ont pas pu être écrites : un ou plusieurs points ont été écrits plus souvent que la période d'échantillonnage maximale configurée pour la métrique."
"Une ou plusieurs séries temporelles n'ont pas pu être écrites : les points doivent être écrits dans l'ordre. Un ou plusieurs points spécifiés ont une heure de fin plus ancienne que le point le plus récent.

Les causes et solutions les plus courantes sont les suivantes :

Utilisez des paires haute disponibilité. Le service géré pour Prometheus ne prend pas en charge la collecte traditionnelle à haute disponibilité. L'utilisation de cette configuration peut créer plusieurs collecteurs qui tentent d'écrire des données dans la même série temporelle, ce qui génère cette erreur.

Pour résoudre le problème, désactivez les collecteurs en double en réduisant le nombre d'instances dupliquées à 1, ou utilisez la méthode de haute disponibilité compatible.
Utiliser des règles de modification de libellés, en particulier celles qui opèrent sur des tâches ou des instances. Le service géré pour Prometheus identifie partiellement une série temporelle unique en combinant les libellés {project_id, location, cluster, namespace, job, instance}. L'utilisation d'une règle de changement de libellés pour supprimer ces libellés, en particulier les libellés job et instance, peut provoquer des conflits. Il n'est pas recommandé de réécrire ces libellés.

Pour résoudre le problème, supprimez la règle qui en est à l'origine. Cette opération peut souvent être effectuée par la règle metricRelabeling qui utilise l'action labeldrop. Vous pouvez identifier la règle problématique en ajoutant des commentaires à toutes les règles de réécriture de libellés, puis en les rétablissant une par une, jusqu'à ce que l'erreur se reproduise.

Une cause moins courante des conflits de séries temporelles consiste à utiliser un intervalle de scraping inférieur à 5 secondes. L'intervalle de scraping minimal accepté par le service géré pour Prometheus est de 5 secondes.

Dépassement de la limite du nombre d'étiquettes

Si l'erreur suivante s'affiche, il est possible que trop d'étiquettes soient définies pour l'une de vos métriques :

"Une ou plusieurs séries temporelles n'ont pas pu être écrites : les nouvelles étiquettes entraîneraient le dépassement du nombre d'étiquettes PER_PROJECT_LIMIT pour la métrique prometheus.googleapis.com/METRIC_NAME.

Cette erreur se produit généralement lorsque vous modifiez rapidement la définition de la métrique de sorte qu'un nom de métrique contienne plusieurs ensembles indépendants de clés d'étiquettes sur toute la durée de vie de la métrique. Cloud Monitoring impose une limite sur le nombre d'étiquettes pour chaque métrique. Pour en savoir plus, consultez les limites définies pour les métriques définies par l'utilisateur.

Vous pouvez résoudre ce problème en trois étapes :

Identifiez la raison pour laquelle une métrique donnée a trop d'étiquettes ou des étiquettes qui changent fréquemment.
- Vous pouvez utiliser le widget APIs Explorer sur la page metricDescriptors.list pour appeler la méthode. Pour en savoir plus, consultez la page APIs Explorer. Pour obtenir des exemples, consultez Répertorier les types de métriques et de ressources.
Corrigez la source du problème. Cela peut nécessiter d'ajuster les règles de modification des étiquettes de PodMonitoring, de modifier l'exportateur ou de corriger votre instrumentation.
Supprimez le descripteur de la métrique de cette métrique (ce qui entraînera une perte de données) afin de pouvoir le recréer avec un ensemble d'étiquettes plus petit et plus stable. Pour ce faire, vous pouvez utiliser la méthode metricDescriptors.delete.

Les causes les plus courantes du problème sont les suivantes :

Collecte de métriques à partir d'exportateurs ou d'applications qui associent des étiquettes dynamiques à des métriques. Par exemple, l'agent cAdvisor déployé automatiquement avec des étiquettes de conteneur et des variables d'environnement supplémentaires ou l'agent DataDog, qui injecte des annotations dynamiques.

Pour résoudre ce problème, vous pouvez utiliser une section metricRelabeling sur le PodMonitoring pour conserver ou supprimer des étiquettes. Certains exportateurs et applications permettent également d'effectuer une configuration qui modifie les métriques exportées. Par exemple, cAdvisor dispose d'un certain nombre de paramètres d'exécution avancés qui peuvent ajouter des étiquettes de manière dynamique. Lorsque vous utilisez la collecte gérée, nous vous recommandons d'utiliser la collecte kubelet automatique intégrée.
L'utilisation de règles de modification des étiquettes, en particulier celles qui associent des noms d'étiquettes de manière dynamique, peut entraîner un nombre inattendu d'étiquettes.

Pour résoudre le problème, supprimez l'entrée de règle qui en est à l'origine.

Limitation du débit pour la création et la mise à jour des métriques et des étiquettes

Si l'erreur suivante s'affiche, cela signifie que vous avez atteint la limite de débit par minute pour la création de métriques et l'ajout de libellés de métriques aux métriques existantes :

"La requête est limitée. Vous avez atteint la limite par projet pour les modifications de définition de métrique ou d'étiquette par minute."

Cette limite de débit n'est généralement atteinte que lors de la première intégration à Managed Service pour Prometheus, par exemple lorsque vous migrez un déploiement Prometheus existant qui a fait ses preuves pour utiliser une collection auto-déployée. Il ne s'agit pas d'une limite de débit pour l'ingestion de points de données. Cette limite de débit s'applique uniquement à la création de métriques qui n'existaient pas auparavant ou à l'ajout de nouveaux libellés aux métriques existantes.

Ce quota est fixe, mais les problèmes éventuels doivent être automatiquement résolus à mesure que de nouvelles métriques et de nouveaux libellés de métriques sont créés dans la limite définie par minute.

Limites sur le nombre de descripteurs de métriques

Si l'erreur suivante s'affiche, cela signifie que vous avez atteint la limite de quota pour le nombre de descripteurs de métriques dans un seul projetGoogle Cloud :

"Votre quota de descripteur de la métrique a été épuisé."

Par défaut, cette limite est définie sur 25 000. Bien que ce quota puisse être augmenté par requête si vos métriques sont correctement formées, il est beaucoup plus probable que vous ayez atteint cette limite car vous ingérez des noms de métriques incorrects dans le système.

Prometheus possède un modèle de données de dimension dans lequel les informations telles que le nom de cluster ou d'espace de noms doivent être encodées en tant que valeur de libellé. Lorsque les informations dimensionnelles sont intégrées au nom de la métrique, le nombre de descripteurs de métriques augmente indéfiniment. De plus, comme les libellés ne sont pas correctement utilisés dans ce scénario, il devient beaucoup plus difficile d'interroger et d'agréger des données sur des clusters, des espaces de noms ou des services.

Ni Cloud Monitoring, ni Managed Service pour Prometheus n'acceptent les métriques non dimensionnelles, telles que celles formatées pour StatsD ou Graphite. Bien que la plupart des exportateurs Prometheus soient configurés correctement par défaut, certains exportateurs, tels que l'exportateur StatsD, Vault ou le proxy Envoy fourni avec Istio, doivent être explicitement configurés pour utiliser des libellés au lieu d'intégrer les informations dans le nom de la métrique. Voici quelques exemples de noms de métriques mal formés :

request_path_____path_to_a_resource____istio_request_duration_milliseconds
envoy_cluster_grpc_method_name_failure
envoy_cluster_clustername_upstream_cx_connect_ms_bucket
vault_rollback_attempt_path_name_1700683024
service__________________________________________latency_bucket

Pour confirmer ce problème, procédez comme suit :

Dans la console Google Cloud , sélectionnez le projet Google Cloud associé à l'erreur.
Dans la console Google Cloud , accédez à la page Gestion des métriques :
Accédez à la page Gestion des métriques

Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est Monitoring.
Vérifiez que la somme des métriques actives et inactives est supérieure à 25 000. Dans la plupart des cas, vous devriez voir un grand nombre de métriques "Inactives".
Sélectionnez "Inactif" dans le panneau "Filtres rapides", parcourez la liste et recherchez des tendances.
Sélectionnez "Actif" dans le panneau "Filtres rapides", triez la liste par Volume facturable d'échantillons dans l'ordre décroissant, parcourez la liste et recherchez des tendances.
Triez la liste par Volume facturable des échantillons dans l'ordre croissant, parcourez-la et recherchez des tendances.

Vous pouvez également confirmer ce problème à l'aide de l'explorateur de métriques :

Dans la console Google Cloud , sélectionnez le projet Google Cloud associé à l'erreur.
Dans la console Google Cloud , accédez à la page Explorateur de métriques :
Accéder à l'explorateur de métriques

Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est Monitoring.
Dans le générateur de requêtes, cliquez sur une métrique, puis décochez la case "Actif".
Saisissez "prometheus" dans la barre de recherche.
Recherchez des tendances dans les noms des métriques.

Une fois que vous avez identifié les schémas qui indiquent des métriques mal formées, vous pouvez atténuer le problème en corrigeant l'exportateur à la source, puis en supprimant les descripteurs de métriques concernés.

Pour éviter que ce problème ne se reproduise, vous devez d'abord configurer l'exportateur concerné pour qu'il n'émette plus de métriques incorrectes. Nous vous recommandons de consulter la documentation de votre exportateur pour obtenir de l'aide. Vous pouvez vérifier que vous avez résolu le problème en accédant manuellement au point de terminaison /metrics et en inspectant les noms de métriques exportés.

Vous pouvez ensuite libérer votre quota en supprimant les métriques mal formées à l'aide de la méthode projects.metricDescriptors.delete. Pour parcourir plus facilement la liste des métriques incorrectes, nous fournissons un script Golang. Ce script accepte une expression régulière permettant d'identifier les métriques incorrectes et supprime les descripteurs de métrique correspondant au modèle. La suppression de métriques étant irréversible, nous vous recommandons vivement d'exécuter le script au préalable à l'aide du mode de simulation.

Il manque certaines métriques pour les cibles à exécution courte

Google Cloud Managed Service pour Prometheus est déployé et ne présente aucune erreur de configuration. Toutefois, certaines métriques sont manquantes.

Déterminez le déploiement qui génère les métriques partiellement manquantes. Si le déploiement est une tâche cron de Google Kubernetes Engine, déterminez la durée générale de la tâche:

Recherchez le fichier yaml de déploiement du job Cron et recherchez son état, qui se trouve à la fin du fichier. Dans cet exemple, l'état indique que le job a été exécutée pendant une minute :
```
  status:
    lastScheduleTime: "2024-04-03T16:20:00Z"
    lastSuccessfulTime: "2024-04-03T16:21:07Z"
```
Si la durée d'exécution est inférieure à cinq minutes, le job ne s'exécute pas assez longtemps pour que les données métriques soient collectées de manière cohérente.

Pour résoudre ce problème, procédez comme suit :
- Configurez le job pour vous assurer qu'il ne se ferme pas avant qu'au moins cinq minutes se soient écoulées depuis le démarrage du job.
- Configurez le job pour détecter si les métriques ont été scrapées avant de quitter. Cette fonctionnalité nécessite la prise en charge de la bibliothèque.
- Envisagez de créer une métrique à valeur de distribution basée sur les journaux au lieu de collecter des données de métrique. Cette approche est suggérée lorsque les données sont publiées à un faible taux. Pour en savoir plus, consultez la page Métriques basées sur les journaux.
Si la durée d'exécution est supérieure à cinq minutes ou si elle est incohérente, consultez la section Cibles non opérationnelles de ce document.

Problèmes liés à la collecte par les exportateurs

Si vos métriques d'un exportateur ne sont pas ingérées, vérifiez les points suivants :

Vérifiez que l'exportateur fonctionne et exporte des métriques à l'aide de la commande kubectl port-forward.

Par exemple, pour vérifier que les pods portant le sélecteur app.kubernetes.io/name=redis dans l'espace de noms test émettent des métriques au point de terminaison /metrics sur le port 9121, vous pouvez transférer les ports comme suit :
```
kubectl port-forward "$(kubectl get pods -l app.kubernetes.io/name=redis -n test -o jsonpath='{.items[0].metadata.name}')" 9121
```
Accédez au point de terminaison localhost:9121/metrics à l'aide du navigateur ou de curl dans une autre session de terminal pour vérifier que les métriques sont exposées par l'exportateur pour la récupération.
Vérifiez si vous pouvez interroger les métriques dans la console Google Cloud , mais pas dans Grafana. Si tel est le cas, le problème concerne Grafana, et non la collecte de vos métriques.
Vérifiez que le collecteur géré est capable de scraper l'exportateur en inspectant l'interface Web de Prometheus qu'il expose.
1. Identifiez le collecteur géré exécuté sur le même nœud que celui sur lequel votre exportateur s'exécute. Par exemple, si votre exportateur s'exécute sur des pods dans l'espace de noms test et que les pods sont libellés app.kubernetes.io/name=redis, la commande suivante identifie le collecteur géré s'exécutant sur le même nœud :
```
kubectl get pods -l app=managed-prometheus-collector --field-selector="spec.nodeName=$(kubectl get pods -l app.kubernetes.io/name=redis -n test -o jsonpath='{.items[0].spec.nodeName}')" -n gmp-system -o jsonpath='{.items[0].metadata.name}'
```
2. Configurez un transfert de port à partir du port 19090 du collecteur géré :
```
kubectl port-forward POD_NAME -n gmp-system 19090
```
3. Accédez à l'URL localhost:19090/targets pour accéder à l'interface Web. Si l'exportateur est répertorié comme l'une des cibles, le collecteur géré collecte le scrape de l'exportateur.

Erreurs de mémoire insuffisante (OOM) du collecteur

Si vous utilisez une collection gérée et que vous rencontrez des erreurs de mémoire insuffisante (OOM) sur vos collecteurs, envisagez d'activer l'autoscaling vertical des pods.

Erreurs de mémoire insuffisante (OOM) de l'opérateur

Si vous utilisez la collecte gérée et que vous rencontrez des erreurs de mémoire insuffisante (OOM) sur votre opérateur, envisagez de désactiver la fonctionnalité d'état de la cible. La fonctionnalité d'état cible peut entraîner des problèmes de performances de l'opérateur dans les grands clusters.

Trop de séries temporelles ou augmentation des réponses 503 et des erreurs de délai de contexte dépassé, en particulier en période de pointe

Il est également possible que vous rencontriez ce problème si le message d'erreur suivant s'affiche :

"La ressource surveillée (abcdefg) comporte trop de séries temporelles (métriques Prometheus)"

"Context deadline exceeded" est une erreur 503 générique renvoyée par Monarch pour tout problème lié à l'ingestion qui n'a pas de cause spécifique. Un très petit nombre d'erreurs "context deadline exceeded" (délai du contexte dépassé) est attendu lors d'une utilisation normale du système.

Toutefois, vous pouvez remarquer un schéma dans lequel les erreurs "context deadline exceeded" (délai de contexte dépassé) augmentent et ont un impact important sur l'ingestion de vos données. Une cause potentielle est que vous définissez peut-être incorrectement les libellés cibles. Cela est plus probable si les conditions suivantes sont remplies :

Vos erreurs "Délai du contexte dépassé" suivent un schéma cyclique. Elles augmentent lorsque la charge est élevée pour vous ou pour la région Google Cloud spécifiée par votre libellé location.
Vous verrez plus d'erreurs à mesure que vous intégrerez plus de volume de métriques au service.
Vous utilisez statsd_exporter pour Prometheus, Envoy pour Istio, l'exportateur SNMP, Prometheus Pushgateway, kube-state-metrics ou un autre exportateur similaire qui sert d'intermédiaire et génère des rapports sur les métriques au nom d'autres ressources s'exécutant dans votre environnement. Le problème ne se produit que pour les métriques émises par ce type d'exportateur.
Vous remarquez que vos métriques concernées ont tendance à inclure la chaîne localhost dans la valeur du libellé instance, ou que le libellé instance comporte très peu de valeurs.
Si vous avez accès à l'interface utilisateur de requête du collecteur Prometheus dans le cluster, vous pouvez vérifier que les métriques sont collectées correctement.

Si ces points sont vrais, il est probable que votre exportateur ait mal configuré les libellés de ressources, ce qui est incompatible avec les exigences de Monarch.

Monarch évolue en stockant les données associées ensemble dans une cible. Une cible pour Managed Service pour Prometheus est définie par le type de ressource prometheus_target et les libellés project_id, location, cluster, namespace, job et instance. Pour en savoir plus sur ces libellés et le comportement par défaut, consultez Libellés réservés dans la collecte gérée ou Libellés réservés dans la collecte auto-déployée.

Parmi ces libellés, instance est le champ cible de niveau le plus bas. Il est donc essentiel de le renseigner correctement. Pour stocker et interroger efficacement les métriques dans Monarch, il faut des cibles relativement petites et variées, idéalement de la taille d'une VM ou d'un conteneur typiques. Lorsque vous exécutez Managed Service pour Prometheus dans des scénarios typiques, le comportement par défaut Open Source intégré au collecteur choisit généralement de bonnes valeurs pour les libellés job et instance. C'est pourquoi ce sujet n'est pas abordé ailleurs dans la documentation.

Toutefois, la logique par défaut peut échouer lorsque vous exécutez un exportateur qui signale des métriques au nom d'autres ressources de votre cluster, telles que statsd_exporter. Au lieu de définir la valeur de instance sur l'adresse IP et le port de la ressource qui émet la métrique, la valeur de instance est définie sur l'adresse IP et le port de statsd_exporter lui-même. Le problème peut être aggravé par le libellé job, car au lieu de se rapporter au package ou au service de métriques, il manque également de diversité en étant défini sur statsd-exporter.

Dans ce cas, toutes les métriques provenant de cet exportateur dans un cluster et un espace de noms donnés sont écrites dans la même cible Monarch. À mesure que cette cible augmente, les écritures commencent à échouer et vous constatez une augmentation des erreurs 503 "Délai limite du contexte dépassé".

Pour vérifier que cela vous arrive, contactez le Cloud Customer Care et demandez-lui de consulter les "journaux d'hospitalisation de Monarch Quarantiner". Indiquez toutes les valeurs connues pour les six libellés réservés dans votre demande. Veillez à signaler le projet Google Cloud qui envoie les données, et non le projet Google Cloud de votre champ d'application des métriques.

Pour résoudre ce problème, vous devez modifier votre pipeline de collecte afin d'utiliser des libellés cibles plus variés. Voici quelques stratégies potentielles, listées par ordre d'efficacité :

Au lieu d'exécuter un exportateur central qui génère des rapports sur les métriques pour le compte de toutes les VM ou de tous les nœuds, exécutez un exportateur distinct pour chaque VM en tant qu'agent de nœud ou en déployant l'exportateur en tant que DaemonSet Kubernetes. Pour éviter de définir le libellé instance sur localhost, n'exécutez pas l'exportateur sur le même nœud que votre collecteur.
- Si, après le partitionnement de l'exportateur, vous avez toujours besoin de plus de diversité de cibles, exécutez plusieurs exportateurs sur chaque VM et attribuez logiquement différents ensembles de métriques à chaque exportateur. Au lieu de découvrir le job à l'aide du nom statique statsd-exporter, utilisez un nom de job différent pour chaque ensemble logique de métriques. Les instances avec des valeurs différentes pour job sont attribuées à des cibles différentes dans Monarch.
- Si vous utilisez kube-state-metrics, utilisez le partitionnement horizontal intégré pour créer une plus grande diversité de cibles. D'autres exportateurs peuvent avoir des fonctionnalités similaires.
Si vous utilisez OpenTelemetry ou une collecte autodéployée, utilisez une règle de réétiquetage pour modifier la valeur de instance, en remplaçant l'adresse IP et le port ou le nom de l'exportateur par l'adresse IP et le port ou le nom unique de la ressource qui génère les métriques. Il est très probable que vous capturiez déjà l'adresse IP et le port ou le nom de la ressource d'origine en tant que libellé de métrique. Vous devez également définir le champ honor_labels sur true dans votre configuration Prometheus ou OpenTelemetry.
Si vous utilisez OpenTelemetry ou une collecte auto-déployée, utilisez une règle de relabellisation avec une fonction hashmod pour exécuter plusieurs jobs de scraping sur le même exportateur et assurez-vous qu'un libellé d'instance différent est choisi pour chaque configuration de scraping.

Aucune erreur et aucune métrique

Si vous utilisez une collection gérée et qu'aucune erreur ne s'affiche, mais que les données n'apparaissent pas dans Cloud Monitoring, la cause la plus probable est que vos exportateurs de métriques ou vos configurations de scrape ne sont pas correctement configurés. Le service géré pour Prometheus n'envoie aucune donnée de série temporelle, sauf si vous appliquez d'abord une configuration de scrape valide.

Pour identifier la cause du problème, essayez de déployer l'exemple d'application et l'exemple de ressource PodMonitoring. Si la métrique up s'affiche maintenant (ce qui peut prendre quelques minutes), le problème se situe au niveau de votre configuration de scrape ou de votre exportateur.

Plusieurs causes sont possibles. Nous vous recommandons de vérifier les éléments suivants :

PodMonitoring fait référence à un port valide.
Les ports de la spécification de déploiement de votre exportateur sont correctement nommés.
Vos sélecteurs (le plus souvent app) correspondent à vos ressources de déploiement et de PodMonitoring.
Vous pouvez consulter les données au niveau du point de terminaison et du port prévus, en y accédant manuellement.
Vous avez installé votre ressource PodMonitoring dans le même espace de noms que l'application que vous souhaitez scraper. N'installez aucune application ou ressource personnalisée dans l'espace de noms gmp-system ou gke-gmp-system.
Les noms de métriques et de libellés correspondent à l'expression régulière de validation de Prometheus. Le service géré pour Prometheus n'accepte pas les noms de libellés commençant par le caractère _.
L'ensemble de filtres que vous utilisez n'entraîne pas le filtrage de toutes les données. Veillez à ne pas créer de filtres conflictuels lorsque vous utilisez un filtre collection dans la ressource OperatorConfig.
En cas d'exécution en dehors de Google Cloud, project ou project-id est défini sur un projet Google Cloud valide et location est défini sur une région Google Cloud valide. Vous ne pouvez pas utiliser global comme valeur pour location.
Votre métrique fait partie des quatre types de métriques Prometheus. Certaines bibliothèques telles que Kube State Metrics exposent des types de métriques OpenMetrics, tels que Info, Stateset et GaugeHistogram, mais ces types de métriques ne sont pas compatibles avec le service géré pour Prometheus et sont ignorés sans notification.

Pare-feu

Un pare-feu peut entraîner des problèmes d'ingestion et de requête. Votre pare-feu doit être configuré pour autoriser les requêtes POST et GET au service de l'API Monitoring, monitoring.googleapis.com, afin d'autoriser l'ingestion et les requêtes.

Erreur concernant les modifications simultanées

Le message d'erreur "Trop de modifications simultanées de la configuration du projet" est généralement temporaire, et disparaît après quelques minutes. Cela est généralement dû à la suppression d'une règle de réécriture de libellé qui affecte de nombreuses métriques différentes. La suppression entraîne la création d'une file d'attente de mises à jour des descripteurs de métriques dans votre projet. L'erreur disparaît lorsque la file d'attente est traitée.

Pour en savoir plus, consultez la section Limites pour la création et la mise à jour des métriques et des étiquettes.

Requêtes bloquées et annulées par Monarch

Si l'erreur suivante s'affiche, cela signifie que vous avez atteint la limite interne pour le nombre de requêtes simultanées pouvant être exécutées pour un projet donné :

"internal: expanding series: generic::aborted: invalid status monarch::220: Cancelled due to the number of queries whose evaluation is blocked waiting for memory is 501, which is equal to or greater than the limit of 500."

Pour éviter les utilisations abusives, le système applique une limite stricte au nombre de requêtes qu'un projet peut exécuter simultanément dans Monarch. Avec une utilisation typique de Prometheus, les requêtes doivent être rapides et cette limite ne doit jamais être atteinte.

Vous pouvez atteindre cette limite si vous exécutez de nombreuses requêtes simultanées qui prennent plus de temps que prévu. Les requêtes qui demandent plus de 25 heures de données sont généralement plus lentes à exécuter que celles qui en demandent moins. Plus la période de couverture de la requête est longue, plus elle devrait être lente.

Ce problème est généralement déclenché par l'exécution d'un grand nombre de règles de longue période de couverture de manière inefficace. Par exemple, vous pouvez avoir de nombreuses règles qui s'exécutent une fois par minute et demandent un taux sur quatre semaines. Si chacune de ces règles prend beaucoup de temps à s'exécuter, cela peut entraîner une sauvegarde des requêtes en attente d'exécution pour votre projet, ce qui amène Monarch à limiter les requêtes.

Pour résoudre ce problème, vous devez augmenter l'intervalle d'évaluation de vos règles de longue période d'analyse afin qu'elles ne s'exécutent pas toutes les minutes. Il est inutile d'exécuter une requête pour un taux sur quatre semaines toutes les minutes. En effet, il y a 40 320 minutes en quatre semaines. Chaque minute ne vous donne donc presque aucun signal supplémentaire (vos données changent au maximum de 1/40 320e). Un intervalle d'évaluation d'une heure devrait suffire pour une requête qui demande un taux sur quatre semaines.

Une fois que vous aurez résolu le goulot d'étranglement causé par des requêtes de longue durée inefficaces qui s'exécutent trop fréquemment, ce problème devrait se résoudre de lui-même.

Types de valeurs incompatibles

Si l'erreur suivante s'affiche lors de l'ingestion ou de l'exécution d'une requête, cela signifie que vos métriques présentent une incompatibilité de type de valeur :

"Le type de valeur de la métrique prometheus.googleapis.com/metric_name/gauge doit être INT64, mais est DOUBLE"
"Le type de valeur de la métrique prometheus.googleapis.com/metric_name/gauge doit être DOUBLE, mais il est INT64"
"Une ou plusieurs séries temporelles n'ont pas pu être écrites : le type de valeur de la métrique prometheus.googleapis.com/target_info/gauge est en conflit avec le type de valeur existant (INT64)"

Cette erreur peut s'afficher lors de l'ingestion, car Monarch n'accepte pas l'écriture de données de type DOUBLE dans des métriques de type INT64 ni l'écriture de données de type INT64 dans des métriques de type DOUBLE. Cette erreur peut également s'afficher lors d'une requête utilisant un champ d'application de métriques multiprojets, car Monarch ne peut pas unir les métriques de type DOUBLE d'un projet avec des métriques de type INT64 d'un autre projet.

Cette erreur ne se produit que lorsque des collecteurs OpenTelemetry envoient des données. Elle est plus susceptible de se produire si vous avez à la fois OpenTelemetry (à l'aide de l'exportateur googlemanagedprometheus) et Prometheus qui envoient des données pour la même métrique, comme c'est souvent le cas pour la métrique target_info.

La cause est probablement l'une des suivantes :

Vous collectez des métriques OTLP, et la bibliothèque de métriques OTLP a modifié son type de valeur de DOUBLE à INT64, comme cela s'est produit avec les métriques Java d'OpenTelemetry. La nouvelle version de la bibliothèque de métriques n'est plus compatible avec le type de valeur de métrique créé par l'ancienne version de la bibliothèque de métriques.
Vous collectez la métrique target_info à l'aide de Prometheus et d'OpenTelemetry. Prometheus collecte cette métrique avec le type DOUBLE, tandis qu'OpenTelemetry la collecte avec le type INT64. Vos collecteurs écrivent maintenant deux types de valeurs dans la même métrique du même projet, et seul le collecteur qui a créé le descripteur de la métrique réussit.
Vous collectez target_info à l'aide d'OpenTelemetry avec le type INT64 dans un projet et target_info à l'aide de Prometheus avec le type DOUBLE dans un autre projet. Si vous ajoutez les deux métriques à la même portée de métriques, puis que vous interrogez cette métrique via la portée de métriques, une union non valide est créée entre des types de valeurs de métriques incompatibles.

Pour résoudre ce problème, forcez tous les types de valeurs de métrique vers le type DOUBLE en procédant comme suit :

Reconfigurez vos collecteurs OpenTelemetry pour forcer toutes les métriques vers le type DOUBLE en activant l'option exporter.googlemanagedprometheus.intToDouble de la fonctionnalité.
Supprimez tous les descripteurs de métrique INT64 et laissez-les être recréés avec le type DOUBLE. Vous pouvez utiliser le script delete_metric_descriptors.go pour automatiser cette opération.

En suivant ces étapes, vous supprimerez toutes les données stockées en tant que métrique INT64. Il n'existe aucune autre solution que la suppression des métriques INT64 pour résoudre complètement ce problème.

Résoudre des problèmes liés au service géré pour Prometheus Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Problèmes côté requête

Secrets mal configurés ou mal orthographiés

Méthode HTTP incorrecte pour Grafana

Délais avant expiration des requêtes volumineuses ou de longue durée

Erreurs de validation de libellés

Quota dépassé

Métriques de plusieurs projets

Aucun type de ressource surveillée spécifié

Les valeurs brutes de compteur, d'histogramme et de récapitulatif ne correspondent pas entre l'interface utilisateur du collecteur et la console Google Cloud

Données de compteur manquantes ou histogrammes défectueux

Données Grafana non conservées après le redémarrage du pod

Résultats de requêtes ou de règles d'alerte incohérents qui se corrigent automatiquement

Importer des tableaux de bord Grafana

Problèmes côté ingestion

L'état du point de terminaison est manquant ou trop ancien

La fraction des collecteurs est inférieure à 1

Cibles non opérationnelles

Point de terminaison de récupération non autorisé

Quota dépassé

Autorisation manquante sur le compte de service par défaut du nœud

Compte de service mal configuré

Configuration de scraping non valide

Le webhook d'admission ne parvient pas à analyser la configuration du client HTTP ou celle-ci n'est pas valide

Problèmes liés aux intervalles et aux délais d'inactivité de scraping

TYPE manquant dans la métrique

Conflits de séries temporelles

Dépassement de la limite du nombre d'étiquettes

Limitation du débit pour la création et la mise à jour des métriques et des étiquettes

Limites sur le nombre de descripteurs de métriques

Il manque certaines métriques pour les cibles à exécution courte

Problèmes liés à la collecte par les exportateurs

Erreurs de mémoire insuffisante (OOM) du collecteur

Erreurs de mémoire insuffisante (OOM) de l'opérateur

Trop de séries temporelles ou augmentation des réponses 503 et des erreurs de délai de contexte dépassé, en particulier en période de pointe

Aucune erreur et aucune métrique

Pare-feu

Erreur concernant les modifications simultanées

Requêtes bloquées et annulées par Monarch

Types de valeurs incompatibles

Résoudre des problèmes liés au service géré pour Prometheus