Google Distributed Cloud (solo software) per bare metal supporta più opzioni per il logging e il monitoraggio dei cluster, compresi i servizi gestiti basati su cloud, strumenti di origine e compatibilità convalidata con soluzioni commerciali di terze parti. Questa pagina illustra queste opzioni e fornisce alcune indicazioni di base per la selezione la soluzione adeguata per il tuo ambiente.
Questa pagina è rivolta agli amministratori, agli architetti e agli operatori che vogliono di monitorare l'integrità delle applicazioni o dei servizi di cui è stato eseguito il deployment, ad esempio per la conformità all'obiettivo di livello (SLO). Per scoprire di più sui ruoli comuni ed esempi a cui facciamo riferimento nei contenuti di Google Cloud, Ruoli e attività utente comuni di GKE Enterprise.
Opzioni per Google Distributed Cloud
Sono disponibili diverse opzioni di logging e monitoraggio per il cluster:
- Cloud Logging e Cloud Monitoring, abilitati per impostazione predefinita sui componenti di sistema bare metal.
- Prometheus e Grafana sono disponibili su Cloud Marketplace.
- Configurazioni convalidate con soluzioni di terze parti.
Cloud Logging e Cloud Monitoring
Google Cloud Observability è la soluzione di osservabilità integrata in Google Cloud. Offre una soluzione di logging completamente gestita, metriche raccolta, monitoraggio, creazione di dashboard e avvisi. Cloud Monitoring monitora i cluster Google Distributed Cloud in modo simile a quelli basati su cloud cluster GKE.
Cloud Logging e Cloud Monitoring sono abilitati per impostazione predefinita quando crei i cluster con gli account di servizio e i ruoli IAM richiesti. Non puoi disattivare Cloud Logging e Cloud Monitoring. Per ulteriori informazioni, sugli account di servizio e i ruoli richiesti, consulta Configurare il servizio Google Cloud.
Gli agenti possono essere configurati per modificare l'ambito del logging e monitoraggio, nonché il livello di metriche raccolte:
- L'ambito della registrazione e del monitoraggio può essere impostato solo sui componenti di sistema (valore predefinito) o per i componenti di sistema e le applicazioni.
- Il livello di metriche raccolte può essere configurato per un insieme ottimizzato di metriche (impostazione predefinita) o per le metriche complete.
Per ulteriori informazioni, consulta la sezione Configurare gli agenti Stackdriver per Google Distributed Cloud in questo documento.
Logging e monitoraggio forniscono un'unica soluzione di osservabilità basata su cloud, potente e facile da configurare. Abbiamo moltissimo consigliamo Logging e Monitoring durante l'esecuzione carichi di lavoro standard su Google Distributed Cloud. Per le applicazioni con componenti in esecuzione su Google Distributed Cloud e sull'infrastruttura on-premise standard, puoi valutare altre soluzioni per una visualizzazione end-to-end di queste applicazioni.
Per maggiori dettagli sull'architettura, sulla configurazione e sui dati replicati al tuo progetto Google Cloud per impostazione predefinita, scopri come Logging e Il monitoraggio per Google Distributed Cloud funziona.
Per ulteriori informazioni su Logging, consulta la documentazione di Cloud Logging.
Per ulteriori informazioni sul monitoraggio, consulta la documentazione di Cloud Monitoring.
Scopri come visualizzare e utilizzare l'utilizzo delle risorse di Cloud Monitoring. di Google Distributed Cloud a livello di parco risorse, consulta Utilizzare il Versione Google Kubernetes Engine (GKE) Enterprise Panoramica.
Prometheus e Grafana
Prometheus e Grafana sono due popolari prodotti di monitoraggio open source disponibili nel Cloud Marketplace:
Prometheus raccoglie metriche di sistema e dell'applicazione.
Gestione avvisi gestisce l'invio di avvisi con diversi meccanismi di avviso.
Grafana è una dashboard lo strumento a riga di comando gcloud.
Ti consigliamo di utilizzare Google Cloud Managed Service per Prometheus, basato su Cloud Monitoring, per tutte le tue esigenze di monitoraggio. Con Google Cloud Managed Service per Prometheus puoi monitorare i componenti di sistema senza costi. Google Cloud Managed Service per Prometheus è compatibile anche con Grafana. Tuttavia, se Se preferisci un sistema di monitoraggio locale puro, puoi scegliere di installare Prometheus e Grafana nei tuoi cluster.
Se hai installato Prometheus in locale e vuoi raccogliere metriche dal sistema devi concedere l'autorizzazione all'istanza Prometheus locale per accedi agli endpoint delle metriche dei componenti del sistema:
Associa l'account di servizio per l'istanza Prometheus al ruolo predefinito
gke-metrics-agent
ClusterRole e utilizza il token dell'account di servizio come credenziale per eseguire lo scraping delle metriche dai seguenti componenti di sistema:kube-apiserver
kube-scheduler
kube-controller-manager
kubelet
node-exporter
Utilizza la chiave e il certificato client archiviati
kube-system/stackdriver-prometheus-etcd-scrape
secret per autenticare il scraping delle metriche da etcd.Crea un NetworkPolicy per consentire l'accesso dal tuo spazio dei nomi a kube-state-metrics.
Soluzioni di terze parti
Google ha collaborato con diverse soluzioni di logging e monitoraggio di terze parti in modo che i loro prodotti funzionino bene con Google Distributed Cloud. Questi includono: Datadog, Elastic e Splunk. Verranno aggiunte altre terze parti convalidate in futuro.
Per l'utilizzo di soluzioni di terze parti con Google Distributed Cloud sono disponibili le seguenti guide alle soluzioni:
- Monitoraggio di Google Distributed Cloud con lo stack Elastic
- Raccogliere log su Google Distributed Cloud con Splunk Connect
Come funzionano il logging e il monitoraggio per Google Distributed Cloud
Cloud Logging e Cloud Monitoring vengono installati e attivati in ogni cluster quando crei un nuovo cluster di amministrazione o utente.
Gli agenti Stackdriver includono diversi componenti su ogni cluster:
Stackdriver Operator (
stackdriver-operator-*
). Gestisce il ciclo di vita di tutti gli altri agenti Stackdriver di cui è stato eseguito il deployment nel cluster.Risorsa personalizzata Stackdriver. Si tratta di una risorsa creata automaticamente parte del processo di installazione di Google Distributed Cloud.
Agente delle metriche di GKE (
gke-metrics-agent-*
). Un raccoglitore OpenTelemetry basato su DaemonSet che esegue lo scraping delle metriche da ciascun nodo in Cloud Monitoring. Anche un deployment DaemonSetnode-exporter
ekube-state-metrics
incluso per fornire più metriche sul cluster.Stackdriver Log Forwarder (
stackdriver-log-forwarder-*
). Un DaemonSet Fluent Bit che inoltra i log da ogni macchina a Cloud Logging. Il forwarder dei log memorizza in buffer le voci di log sul nodo localmente e le invia di nuovo per un massimo di 4 ore. Se il buffer si riempie o se il servizio di inoltro log non riesce quando raggiungono l'API Cloud Logging per più di quattro ore, i log vengono eliminati.Agente metadati (
stackdriver-metadata-agent-
). Un deployment invia metadati per risorse Kubernetes come pod, deployment o nodi all'API Config Monitoring for Ops; Questi dati vengono utilizzati per arricchire le metriche query in base al nome del deployment, al nome del nodo o il nome del servizio Kubernetes.
Puoi vedere gli agenti installati da Stackdriver eseguendo questo comando: :
kubectl -n kube-system get pods -l "managed-by=stackdriver"
L'output di questo comando è simile al seguente:
kube-system gke-metrics-agent-4th8r 1/1 Running 1 (40h ago) 40h
kube-system gke-metrics-agent-8lt4s 1/1 Running 1 (40h ago) 40h
kube-system gke-metrics-agent-dhxld 1/1 Running 1 (40h ago) 40h
kube-system gke-metrics-agent-lbkl2 1/1 Running 1 (40h ago) 40h
kube-system gke-metrics-agent-pblfk 1/1 Running 1 (40h ago) 40h
kube-system gke-metrics-agent-qfwft 1/1 Running 1 (40h ago) 40h
kube-system kube-state-metrics-9948b86dd-6chhh 1/1 Running 1 (40h ago) 40h
kube-system node-exporter-5s4pg 1/1 Running 1 (40h ago) 40h
kube-system node-exporter-d9gwv 1/1 Running 2 (40h ago) 40h
kube-system node-exporter-fhbql 1/1 Running 1 (40h ago) 40h
kube-system node-exporter-gzf8t 1/1 Running 1 (40h ago) 40h
kube-system node-exporter-tsrpp 1/1 Running 1 (40h ago) 40h
kube-system node-exporter-xzww7 1/1 Running 1 (40h ago) 40h
kube-system stackdriver-log-forwarder-8lwxh 1/1 Running 1 (40h ago) 40h
kube-system stackdriver-log-forwarder-f7cgf 1/1 Running 2 (40h ago) 40h
kube-system stackdriver-log-forwarder-fl5gf 1/1 Running 1 (40h ago) 40h
kube-system stackdriver-log-forwarder-q5lq8 1/1 Running 2 (40h ago) 40h
kube-system stackdriver-log-forwarder-www4b 1/1 Running 1 (40h ago) 40h
kube-system stackdriver-log-forwarder-xqgjc 1/1 Running 1 (40h ago) 40h
kube-system stackdriver-metadata-agent-cluster-level-5bb5b6d6bc-z9rx7 1/1 Running 1 (40h ago) 40h
Metriche di Cloud Monitoring
Per un elenco delle metriche raccolte da Cloud Monitoring, consulta Visualizzare le metriche di Google Distributed Cloud.
Configurazione di agenti Stackdriver per Google Distributed Cloud
Gli agenti Stackdriver installati con Google Distributed Cloud raccolgono dati sui componenti di sistema allo scopo di eseguire la manutenzione e problemi con i cluster. Le seguenti sezioni descrivono Stackdriver la configurazione e le modalità operative.
Solo componenti di sistema (modalità predefinita)
Al momento dell'installazione, gli agenti Stackdriver sono configurati per impostazione predefinita per raccogliere i log e metriche, inclusi i dettagli sulle prestazioni (ad esempio CPU e memoria sull'utilizzo) e metadati simili per i componenti di sistema forniti da Google. Questi includono tutti i carichi di lavoro nel cluster di amministrazione e, per i cluster utente, i carichi di lavoro kube-system, gke-system, gke-connect, istio-system e config-management di sistema.
Componenti e applicazioni di sistema
Per attivare il logging e il monitoraggio delle applicazioni in aggiunta alla modalità predefinita, segui i passaggi descritti in Abilitare il logging e il monitoraggio delle applicazioni.
Metriche ottimizzate (metriche predefinite)
Per impostazione predefinita, i deployment kube-state-metrics
in esecuzione nel cluster raccolgono e segnalano un
un set ottimizzato di metriche Kubernetes a Google Cloud Observability (in precedenza Stackdriver).
Per raccogliere questo insieme ottimizzato di metriche sono necessarie meno risorse, il che migliora le prestazioni e la scalabilità complessive.
Per disabilitare le metriche ottimizzate (opzione non consigliata), esegui l'override dell'impostazione predefinita nella risorsa personalizzata di Stackdriver.
Utilizzare Google Cloud Managed Service per Prometheus per componenti di sistema selezionati
Google Cloud Managed Service per Prometheus fa parte di Cloud Monitoring ed è disponibile come opzione per i componenti di sistema. I vantaggi di Google Cloud Managed Service per Prometheus includono:
Puoi continuare a utilizzare il monitoraggio basato su Prometheus esistente senza modificare gli avvisi e le dashboard di Grafana.
Se utilizzi sia GKE sia Google Distributed Cloud, puoi utilizzare lo stesso linguaggio di query Prometheus (PromQL) per le metriche su tutti i tuoi cluster. Puoi anche utilizzare la scheda PromQL in Esplora metriche nella console Google Cloud.
Abilita e disabilita Google Cloud Managed Service per Prometheus
Google Cloud Managed Service per Prometheus è abilitato per impostazione predefinita in Google Distributed Cloud.
Per disattivare Google Cloud Managed Service per Prometheus:
Apri l'oggetto Stackdriver denominato
stackdriver
per la modifica:kubectl --kubeconfig CLUSTER_KUBECONFIG --namespace kube-system \ edit stackdriver stackdriver
Aggiungi il gate di funzionalità
enableGMPForSystemMetrics
e impostalo sufalse
:apiVersion: addons.gke.io/v1alpha1 kind: Stackdriver metadata: name: stackdriver namespace: kube-system spec: featureGates: enableGMPForSystemMetrics: false
Chiudi la sessione di modifica.
Visualizzare i dati delle metriche
Quando enableGMPForSystemMetrics
è impostato su true
, le metriche per i seguenti
componenti hanno un formato diverso per la modalità di archiviazione e query in
Cloud Monitoring:
- kube-apiserver
- kube-scheduler
- kube-controller-manager
- kubelet e cadvisor
- kube-state-metrics
- node-exporter
Nel nuovo formato puoi eseguire query sulle metriche precedenti utilizzando PromQL o Monitoraggio di Query Language (MQL):
PromQL
Query PromQL di esempio:
histogram_quantile(0.95, sum(rate(apiserver_request_duration_seconds_bucket[5m])) by (le))
MQL
Per utilizzare MQL, imposta la risorsa monitorata su prometheus_target
, usa la metrica
nome con prefisso kubernetes.io/anthos
e aggiungi il tipo Prometheus come
al nome della metrica.
fetch prometheus_target
| metric 'kubernetes.io/anthos/apiserver_request_duration_seconds/histogram'
| align delta(5m)
| every 5m
| group_by [], [value_histogram_percentile: percentile(value.histogram, 95)]
Configurazione delle dashboard di Grafana con Google Cloud Managed Service per Prometheus
Per utilizzare Grafana con i dati delle metriche di Google Cloud Managed Service per Prometheus,
devi prima configurare e autenticare l'origine dati Grafana. Per configurare
autenticare l'origine dati, occorre utilizzare lo strumento di sincronizzazione
(datasource-syncer
) per generare le credenziali OAuth2 e sincronizzarle con Grafana
tramite l'API dell'origine dati Grafana. Lo strumento di sincronizzazione dell'origine dati imposta
API Cloud Monitoring come URL del server Prometheus (il valore dell'URL inizia con
https://monitoring.googleapis.com
) nell'origine dati in Grafana.
Segui i passaggi descritti in Eseguire query utilizzando Grafana per autenticare e configurare un'origine dati Grafana in modo da eseguire query sui dati di Google Cloud Managed Service per Prometheus.
Un insieme di dashboard Grafana di esempio è fornito nel repository anthos-samples su GitHub. Per installare le dashboard di esempio, segui questi passaggi:
Scarica i file JSON di esempio:
git clone https://github.com/GoogleCloudPlatform/anthos-samples.git cd anthos-samples/gmp-grafana-dashboards
Se l'origine dati Grafana è stata creata con un nome diverso con
Managed Service for Prometheus
, modifica il campodatasource
in tutti i file JSON:sed -i "s/Managed Service for Prometheus/[DATASOURCE_NAME]/g" ./*.json
Sostituisci [DATASOURCE_NAME] con il nome dell'origine dati in Grafana che rimanda al servizio Prometheus
frontend
.Accedi all'interfaccia utente di Grafana dal tuo browser e seleziona + Importa nel menu Dashboard.
Carica il file JSON oppure copia e incolla i contenuti del file e seleziona Carica. Una volta caricati correttamente i contenuti del file, seleziona Importa. Facoltativamente, puoi anche modificare il nome e l'UID della dashboard prima dell'importazione.
La dashboard importata dovrebbe caricarsi correttamente se Google Distributed Cloud e l'origine dati sono configurati correttamente. Ad esempio, lo screenshot seguente mostra la dashboard configurata da
cluster-capacity.json
.
Risorse aggiuntive
Per ulteriori informazioni su Google Cloud Managed Service per Prometheus, consulta quanto segue:
Le metriche del piano di controllo GKE sono compatibili con PromQL
Utilizzo di Managed Service per Prometheus per le applicazioni utente su Google Distributed Cloud
Configurazione delle risorse dei componenti Stackdriver
Quando crei un cluster, Google Distributed Cloud crea automaticamente una risorsa personalizzata Stackdriver. Puoi modificare la specifica nella risorsa personalizzata per ignorare i valori predefiniti per le richieste e i limiti di CPU e memoria per un componente Stackdriver e puoi ignorare separatamente l'impostazione delle metriche ottimizzate predefinite.
Sostituzione delle richieste e dei limiti di CPU e memoria predefiniti per un componente Stackdriver
I cluster con un'alta densità di pod introducono un logging e un monitoraggio più elevati overhead. In casi estremi, i componenti di Stackdriver potrebbero segnalare vicini alla CPU di utilizzo della memoria e memoria o che possono persino essere soggetti a riavvii costanti a causa delle risorse. In questo caso, per eseguire l'override dei valori predefiniti per CPU e memoria per un componente di Stackdriver, segui questi passaggi:
Esegui il seguente comando per aprire la risorsa personalizzata Stackdriver in un editor a riga di comando:
kubectl -n kube-system edit stackdriver stackdriver
Nella risorsa personalizzata Stackdriver, aggiungi la sezione
resourceAttrOverride
sotto il campospec
:resourceAttrOverride: DAEMONSET_OR_DEPLOYMENT_NAME/CONTAINER_NAME: LIMITS_OR_REQUESTS: RESOURCE: RESOURCE_QUANTITY
Tieni presente che la sezione
resourceAttrOverride
sostituisce tutte le impostazioni predefinite esistenti limiti e richieste per il componente specificato. I seguenti componenti sono supportati daresourceAttrOverride
:gke-metrics-agent/gke-metrics-agent
stackdriver-log-forwarder/stackdriver-log-forwarder
stackdriver-metadata-agent-cluster-level/metadata-agent
node-exporter/node-exporter
kube-state-metrics/kube-state-metrics
Un file di esempio ha il seguente aspetto:
apiVersion: addons.gke.io/v1alpha1 kind: Stackdriver metadata: name: stackdriver namespace: kube-system spec: anthosDistribution: baremetal projectID: my-project clusterName: my-cluster clusterLocation: us-west-1a resourceAttrOverride: gke-metrics-agent/gke-metrics-agent: requests: cpu: 110m memory: 240Mi limits: cpu: 200m memory: 4.5Gi
Per salvare le modifiche alla risorsa personalizzata Stackdriver, salva ed esci dall'editor a riga di comando.
Controlla l'integrità del tuo pod:
kubectl -n kube-system get pods -l "managed-by=stackdriver"
Una risposta per un pod integro è simile alla seguente:
gke-metrics-agent-4th8r 1/1 Running 1 40h
Controlla le specifiche del pod del componente per assicurarti che le risorse siano impostate correttamente.
kubectl -n kube-system describe pod POD_NAME
Sostituisci
POD_NAME
con il nome del pod che hai appena è cambiato. Ad esempio,gke-metrics-agent-4th8r
.La risposta è simile alla seguente:
Name: gke-metrics-agent-4th8r Namespace: kube-system ... Containers: gke-metrics-agent: Limits: cpu: 200m memory: 4.5Gi Requests: cpu: 110m memory: 240Mi ...
Disattiva le metriche ottimizzate
Per impostazione predefinita, i deployment kube-state-metrics
in esecuzione nel cluster raccolgono e segnalano un
un set ottimizzato di metriche Kubernetes a Stackdriver. Se hai bisogno di metriche aggiuntive,
ti consigliamo di cercarne una sostitutiva nell'elenco di Google Distributed Cloud
metriche.
Ecco alcuni esempi di sostituzioni che potresti utilizzare:
Metrica disabilitata | Sostituzioni |
---|---|
kube_pod_start_time |
container/uptime |
kube_pod_container_resource_requests |
container/cpu/request_cores container/memory/request_bytes |
kube_pod_container_resource_limits |
container/cpu/limit_cores container/memory/limit_bytes |
Per disattivare l'impostazione predefinita delle metriche ottimizzate (non consigliata), procedi nel seguente modo:
Apri la risorsa personalizzata di Stackdriver in un editor della riga di comando:
kubectl -n kube-system edit stackdriver stackdriver
Imposta il campo
optimizedMetrics
sufalse
:apiVersion: addons.gke.io/v1alpha1 kind: Stackdriver metadata: name: stackdriver namespace: kube-system spec: anthosDistribution: baremetal projectID: my-project clusterName: my-cluster clusterLocation: us-west-1a optimizedMetrics: false
Salva le modifiche ed esci dall'editor a riga di comando.
Server delle metriche
Server delle metriche è l'origine delle metriche delle risorse container per vari pipeline di dati. Metrics Server recupera le metriche dai Kubelet e le espone tramite l'API Kubernetes Metrics. HPA e VPA utilizzano poi queste metriche per determinare quando attivare la scalabilità automatica. Il server delle metriche viene scalato utilizzando il ridimensionamento dei componenti aggiuntivi.
In casi estremi, in cui una densità elevata dei pod crea un overhead eccessivo per il monitoraggio e la registrazione, Metrics Server potrebbe essere interrotto e riavviato a causa di limitazioni delle risorse. In questo caso, puoi allocare più risorse al server delle metriche modificando il configmap metrics-server-config
nello spazio dei nomi gke-managed-metrics-server e modificando il valore di cpuPerNode
e memoryPerNode
.
kubectl edit cm metrics-server-config -n gke-managed-metrics-server
I contenuti di esempio del ConfigMap sono:
apiVersion: v1
data:
NannyConfiguration: |-
apiVersion: nannyconfig/v1alpha1
kind: NannyConfiguration
cpuPerNode: 3m
memoryPerNode: 20Mi
kind: ConfigMap
Dopo aver aggiornato il ConfigMap, ricrea i pod metrics-server con il seguente comando:
kubectl delete pod -l k8s-app=metrics-server -n gke-managed-metrics-server
Requisiti di configurazione per il logging e il monitoraggio
Esistono diversi requisiti di configurazione per attivare Cloud Logging e Cloud Monitoring con Google Distributed Cloud. Questi passaggi sono inclusi Configurazione di un account di servizio da utilizzare con Logging e Monitoring nella pagina Abilitazione dei servizi Google e nel seguente elenco:
- È necessario creare un'area di lavoro Cloud Monitoring all'interno del progetto Google Cloud. A questo scopo, fai clic su Monitoraggio nella console Google Cloud e seguendo il flusso di lavoro.
Devi abilitare le seguenti API di Stackdriver:
Devi assegnare i seguenti ruoli IAM al servizio utilizzato dagli agenti Stackdriver:
logging.logWriter
monitoring.metricWriter
stackdriver.resourceMetadata.writer
monitoring.dashboardEditor
opsconfigmonitoring.resourceMetadata.writer
Prezzi
Non è previsto alcun costo per i log di sistema e le metriche della versione Google Kubernetes Engine (GKE) Enterprise.
In un cluster Google Distributed Cloud, log di sistema e metriche della versione Google Kubernetes Engine (GKE) Enterprise include:
- Log e metriche di tutti i componenti in un cluster di amministrazione
- Log e metriche dei componenti nei seguenti spazi dei nomi di un cluster utente:
kube-system
,gke-system
,gke-connect
,knative-serving
,istio-system
,monitoring-system
,config-management-system
,gatekeeper-system
,cnrm-system
Per ulteriori informazioni, consulta la pagina Prezzi di Google Cloud Observability.
Per saperne di più sul merito delle metriche di Cloud Logging, contatta il team di vendita per i prezzi.