L'osservabilità si riferisce al monitoraggio, al logging, agli avvisi e ad altre informazioni di monitoraggio del sistema per visualizzare lo stato e l'integrità di infrastruttura e servizi. I componenti di osservabilità dell'appliance con air gap di Google Distributed Cloud (GDC) raccolgono log e metriche che diventano visibili nelle dashboard Grafana e che puoi interrogare per individuare problemi operativi.
Gli amministratori della piattaforma possono utilizzare la piattaforma di osservabilità per monitorare i cluster di sistema e utente e visualizzare i log e le metriche nell'interfaccia utente (UI) di Grafana. Gli operatori delle applicazioni possono raccogliere dati operativi e di monitoraggio sotto forma di log, metriche ed eventi per le loro applicazioni.
La piattaforma di osservabilità esegue il deployment dei componenti dello stack nei cluster di amministrazione e utente. L'istanza Grafana per gli amministratori della piattaforma include metriche a livello di organizzazione, come l'utilizzo della CPU e il consumo di spazio di archiviazione, nonché avvisi, log e metriche dei componenti operativi dei cluster di amministrazione, di sistema e utente in GDC.
L'istanza Grafana per gli operatori di applicazioni non include dashboard o log predefiniti per il tuo progetto. Quando crei dashboard, queste sono visibili solo se abiliti la raccolta delle metriche per il tuo progetto.
Componenti della piattaforma
Gli stack di monitoraggio e logging di GDC includono servizi open source come parte della piattaforma di osservabilità. Questi servizi raccolgono i log da pod Kubernetes, macchine bare metal, switch di rete e appliance di archiviazione.
Consulta la seguente tabella per i dettagli su ciascun componente di osservabilità.
Componente | Tipo | Cluster | Descrizione |
---|---|---|---|
anthos-prometheus-k8s |
StatefulSet | Solo sistema | Prometheus (https://prometheus.io/docs/introduction/overview ): Un database di serie temporali per la raccolta e l'archiviazione delle metriche e la valutazione degli avvisi. Aggiunge etichette come coppie chiave-valore e raccoglie metriche da nodi Kubernetes, pod, macchine bare metal, switch di rete e appliance di archiviazione. Il database memorizza le metriche del cluster utente nello stesso cluster e aggrega le metriche di tutti i cluster nel cluster di amministrazione. |
grafana |
StatefulSet | Solo sistema | Grafana (https://grafana.com/docs/grafana/latest/): Un'interfaccia utente per visualizzare dashboard di metriche e avvisi. Visualizza le metriche raccolte da Prometheus ed esegui query sui log da Loki. Consente agli utenti di visualizzare le dashboard di metriche e avvisi. |
alertmanager |
StatefulSet | Solo sistema | Alertmanager (https://prometheus.io/docs/alerting/latest/alertmanager/): Un gestore definito dall'utente che invia avvisi quando i log o le metriche indicano che i componenti di sistema non funzionano o non funzionano normalmente. Gestisce il routing, la disattivazione e l'aggregazione degli avvisi di Prometheus. |
loki |
StatefulSet | Solo sistema | Loki (https://grafana.com/docs/loki/latest/): Un database di serie temporali per archiviare i log di vari componenti e aggregare i log di tutti i cluster. |
audit-logs-loki |
StatefulSet | Solo sistema | Loki: Un'istanza secondaria per la raccolta dei log a lungo termine necessari per scopi di controllo. Aggrega i log di tutti i cluster. |
anthos-log-forwarder |
DaemonSet | Tutti i cluster | Fluent Bit (https://docs.fluentbit.io/manual): Un processore che estrae i log da vari componenti e li inserisce in Loki. Raccoglie i log da varie posizioni, quindi li elabora e li inoltra. Viene eseguito su ogni nodo di tutti i cluster. |
anthos-audit-logs-forwarder |
DaemonSet | Tutti i cluster | Fluent Bit: Un'istanza secondaria per caricare log più duraturi a scopo di controllo. |
audit-log-failure-detector |
DaemonSet | Tutti i cluster | Un componente di GDC che rileva e segnala gli errori di raccolta dei log di controllo. Viene eseguito su ogni nodo di tutti i cluster. |
logmon-operator |
Deployment | Tutti i cluster | L'operatore GDC Logmon che esegue il deployment dei componenti dello stack di osservabilità. |
GDC utilizza anche risorse personalizzate sviluppate da GKE Enterprise per configurare il logging e il monitoraggio. Queste risorse personalizzate consentono di configurare le regole di avviso e gli obiettivi di scraping di Prometheus, le configurazioni di Alertmanager, le dashboard di Grafana e gli obiettivi di scraping dei log.