Panoramica sull'osservabilità

L'osservabilità si riferisce al monitoraggio, al logging, agli avvisi e ad altre informazioni di monitoraggio del sistema per visualizzare lo stato e l'integrità di infrastruttura e servizi. I componenti di osservabilità dell'appliance con air gap di Google Distributed Cloud (GDC) raccolgono log e metriche che diventano visibili nelle dashboard Grafana e che puoi interrogare per individuare problemi operativi.

Gli amministratori della piattaforma possono utilizzare la piattaforma di osservabilità per monitorare i cluster di sistema e utente e visualizzare i log e le metriche nell'interfaccia utente (UI) di Grafana. Gli operatori delle applicazioni possono raccogliere dati operativi e di monitoraggio sotto forma di log, metriche ed eventi per le loro applicazioni.

La piattaforma di osservabilità esegue il deployment dei componenti dello stack nei cluster di amministrazione e utente. L'istanza Grafana per gli amministratori della piattaforma include metriche a livello di organizzazione, come l'utilizzo della CPU e il consumo di spazio di archiviazione, nonché avvisi, log e metriche dei componenti operativi dei cluster di amministrazione, di sistema e utente in GDC.

L'istanza Grafana per gli operatori di applicazioni non include dashboard o log predefiniti per il tuo progetto. Quando crei dashboard, queste sono visibili solo se abiliti la raccolta delle metriche per il tuo progetto.

Componenti della piattaforma

Gli stack di monitoraggio e logging di GDC includono servizi open source come parte della piattaforma di osservabilità. Questi servizi raccolgono i log da pod Kubernetes, macchine bare metal, switch di rete e appliance di archiviazione.

Consulta la seguente tabella per i dettagli su ciascun componente di osservabilità.

Componente Tipo Cluster Descrizione
anthos-prometheus-k8s StatefulSet Solo sistema Prometheus (https://prometheus.io/docs/introduction/overview ):
Un database di serie temporali per la raccolta e l'archiviazione delle metriche e la valutazione degli avvisi. Aggiunge etichette come coppie chiave-valore e raccoglie metriche da nodi Kubernetes, pod, macchine bare metal, switch di rete e appliance di archiviazione. Il database memorizza le metriche del cluster utente nello stesso cluster e aggrega le metriche di tutti i cluster nel cluster di amministrazione.
grafana StatefulSet Solo sistema Grafana (https://grafana.com/docs/grafana/latest/):
Un'interfaccia utente per visualizzare dashboard di metriche e avvisi. Visualizza le metriche raccolte da Prometheus ed esegui query sui log da Loki. Consente agli utenti di visualizzare le dashboard di metriche e avvisi.
alertmanager StatefulSet Solo sistema Alertmanager (https://prometheus.io/docs/alerting/latest/alertmanager/):
Un gestore definito dall'utente che invia avvisi quando i log o le metriche indicano che i componenti di sistema non funzionano o non funzionano normalmente. Gestisce il routing, la disattivazione e l'aggregazione degli avvisi di Prometheus.
loki StatefulSet Solo sistema Loki (https://grafana.com/docs/loki/latest/):
Un database di serie temporali per archiviare i log di vari componenti e aggregare i log di tutti i cluster.
audit-logs-loki StatefulSet Solo sistema Loki:
Un'istanza secondaria per la raccolta dei log a lungo termine necessari per scopi di controllo. Aggrega i log di tutti i cluster.
anthos-log-forwarder DaemonSet Tutti i cluster Fluent Bit (https://docs.fluentbit.io/manual):
Un processore che estrae i log da vari componenti e li inserisce in Loki. Raccoglie i log da varie posizioni, quindi li elabora e li inoltra. Viene eseguito su ogni nodo di tutti i cluster.
anthos-audit-logs-forwarder DaemonSet Tutti i cluster Fluent Bit:
Un'istanza secondaria per caricare log più duraturi a scopo di controllo.
audit-log-failure-detector DaemonSet Tutti i cluster Un componente di GDC che rileva e segnala gli errori di raccolta dei log di controllo. Viene eseguito su ogni nodo di tutti i cluster.
logmon-operator Deployment Tutti i cluster L'operatore GDC Logmon che esegue il deployment dei componenti dello stack di osservabilità.

GDC utilizza anche risorse personalizzate sviluppate da GKE Enterprise per configurare il logging e il monitoraggio. Queste risorse personalizzate consentono di configurare le regole di avviso e gli obiettivi di scraping di Prometheus, le configurazioni di Alertmanager, le dashboard di Grafana e gli obiettivi di scraping dei log.