Présentation de l'observabilité

L'observabilité fait référence à la surveillance, à la journalisation, aux alertes et à d'autres informations de suivi du système permettant de visualiser l'état et l'intégrité de l'infrastructure et des services. Les composants d'observabilité de l'appliance Google Distributed Cloud (GDC) sous air gap collectent des journaux et des métriques qui deviennent visibles dans les tableaux de bord Grafana et que vous pouvez interroger pour identifier les problèmes opérationnels.

Les administrateurs de plate-forme peuvent utiliser la plate-forme d'observabilité pour surveiller les clusters système et d'utilisateur, et visualiser les journaux et les métriques dans l'interface utilisateur (UI) Grafana. Les opérateurs d'application peuvent collecter des données de surveillance et opérationnelles sous forme de journaux, de métriques et d'événements pour leurs applications.

La plate-forme d'observabilité déploie les composants de sa pile dans les clusters d'administrateur et d'utilisateur. L'instance Grafana pour les administrateurs de plate-forme inclut des métriques au niveau de l'organisation, telles que l'utilisation du processeur et la consommation de stockage, ainsi que des alertes, des journaux et des métriques provenant des composants opérationnels des clusters d'administrateur, système et utilisateur dans GDC.

L'instance Grafana pour les opérateurs d'application n'inclut aucun tableau de bord ni aucun journal par défaut pour votre projet. Lorsque vous créez des tableaux de bord, ils ne sont visibles que si vous activez la collecte de métriques pour votre projet.

Composants des plates-formes

Les piles de surveillance et de journalisation GDC incluent des services Open Source dans la plate-forme Observability. Ces services collectent les journaux des pods Kubernetes, des machines physiques, des commutateurs réseau et des appliances de stockage.

Consultez le tableau suivant pour en savoir plus sur chaque composant d'observabilité.

Composant Type Cluster Description
anthos-prometheus-k8s StatefulSet Système uniquement Prometheus (https://prometheus.io/docs/introduction/overview ) :
Base de données de séries temporelles permettant de collecter et de stocker des métriques, et d'évaluer les alertes. Il ajoute des libellés sous forme de paires clé/valeur et collecte des métriques à partir des nœuds Kubernetes, des pods, des machines physiques, des commutateurs réseau et des appliances de stockage. La base de données stocke les métriques du cluster d'utilisateur dans le même cluster et agrège les métriques de tous les clusters dans le cluster d'administrateur.
grafana StatefulSet Système uniquement Grafana (https://grafana.com/docs/grafana/latest/) :
Interface utilisateur permettant de visualiser les tableaux de bord des métriques et des alertes. Affichez les métriques collectées par Prometheus et interrogez les journaux de Loki. Il permet aux utilisateurs de visualiser des tableaux de bord de métriques et d'alertes.
alertmanager StatefulSet Système uniquement Alertmanager (https://prometheus.io/docs/alerting/latest/alertmanager/) :
Gestionnaire défini par l'utilisateur qui envoie des alertes lorsque les journaux ou les métriques indiquent que les composants du système sont défaillants ou ne fonctionnent pas normalement. Il gère le routage, la désactivation et l'agrégation des alertes Prometheus.
loki StatefulSet Système uniquement Loki (https://grafana.com/docs/loki/latest/) :
Base de données de séries temporelles permettant de stocker les journaux de différents composants et d'agréger les journaux de tous les clusters.
audit-logs-loki StatefulSet Système uniquement Loki :
Instance secondaire pour collecter les journaux à long terme nécessaires à des fins d'audit. Il agrège les journaux de tous les clusters.
anthos-log-forwarder DaemonSet Tous les clusters Fluent Bit (https://docs.fluentbit.io/manual) :
Processeur qui extrait les journaux de différents composants et les injecte dans Loki. Il collecte les journaux à partir de différents emplacements, puis les traite et les transfère. Il s'exécute sur chaque nœud de tous les clusters.
anthos-audit-logs-forwarder DaemonSet Tous les clusters Fluent Bit :
Instance secondaire pour charger les journaux de longue durée à des fins d'audit.
audit-log-failure-detector DaemonSet Tous les clusters Composant GDC qui détecte et signale les échecs de collecte des journaux d'audit. Il s'exécute sur chaque nœud de tous les clusters.
logmon-operator Déploiement Tous les clusters Opérateur Logmon GDC qui déploie les composants de la pile d'observabilité.

GDC utilise également des ressources personnalisées que GKE Enterprise a développées pour configurer la journalisation et la surveillance. Ces ressources personnalisées vous permettent de configurer les cibles de scrape et les règles d'alerte Prometheus, les configurations Alertmanager, les tableaux de bord Grafana et les cibles de scrape des journaux.