Configurazione di logging e monitoraggio

Anthos clusters on bare metal include più opzioni per il logging e il monitoraggio dei cluster, inclusi servizi gestiti basati su cloud, strumenti open source e convalida convalidata con soluzioni commerciali di terze parti. In questa pagina vengono illustrate queste opzioni e vengono fornite alcune indicazioni di base sulla scelta della soluzione appropriata per il tuo ambiente.

Opzioni per Anthos clusters on bare metal

Sono disponibili diverse opzioni di logging e monitoraggio per i tuoi cluster Anthos su cluster Bare Metal:

  • Cloud Logging e Cloud Monitoring, abilitati per impostazione predefinita sui componenti di sistema Bare Metal.
  • Prometheus e Grafana sono disponibili in Cloud Marketplace.
  • Configurazioni convalidate con soluzioni di terze parti.

Cloud Logging e Cloud Monitoring

La suite operativa di Google Cloud è la soluzione integrata di osservabilità per Google Cloud. Offre una soluzione di logging completamente gestita, raccolta di metriche, monitoraggio, creazione di dashboard e avvisi. Cloud Monitoring monitora i cluster Anthos su cluster Bare Metal in modo simile ai cluster GKE basati su cloud.

Gli agenti possono essere configurati con due diversi livelli di logging e monitoraggio:

  • Solo componenti di sistema (opzione predefinita).
  • Applicazioni e componenti di sistema.

Logging e Monitoring rappresentano una soluzione ideale se vuoi un'unica soluzione di osservabilità basata su cloud, potente e facile da configurare. Consigliamo vivamente il logging e il monitoraggio quando i carichi di lavoro vengono eseguiti solo su Anthos clusters on bare metal o carichi di lavoro su GKE e Anthos clusters on bare metal. Per le applicazioni con componenti in esecuzione su Anthos clusters on bare metal e la tradizionale infrastruttura on-premise, potresti prendere in considerazione altre soluzioni per una visione end-to-end di queste applicazioni.

Prometheus e Grafana

Prometheus e Grafana sono due popolari prodotti di monitoraggio open source disponibili in Cloud Marketplace:

  • Prometheus raccoglie le metriche di applicazione e di sistema.

  • Alertmanager consente di inviare avvisi con diversi meccanismi di avviso.

  • Grafana è uno strumento di controllo.

Prometheus e Grafana possono essere attivati su ogni cluster di amministrazione e cluster utente. Prometheus e Grafana sono consigliati per i team applicativi con precedenti esperienze con questi prodotti o per i team operativi che preferiscono conservare le metriche delle applicazioni all'interno del cluster e per risolvere i problemi in caso di interruzione della connettività di rete.

Soluzioni di terze parti

Google ha collaborato con diversi provider di soluzioni di logging e monitoraggio di terze parti per aiutare i propri prodotti a funzionare al meglio con Anthos clusters on bare metal. tra cui Datadog, Elastic e Splunk. In futuro verranno aggiunte altre terze parti convalidate.

Sono disponibili le seguenti guide delle soluzioni per l'utilizzo di soluzioni di terze parti con Anthos clusters on bare metal:

Come funzionano Logging e Monitoring per Anthos clusters on bare metal

Cloud Logging e Cloud Monitoring vengono installati e attivati in ogni cluster quando crei un nuovo cluster di amministrazione o utente.

Gli agenti Stackdriver includono diversi componenti in ogni cluster:

  • Operatore Stackdriver (stackdriver-operator-*). Gestisce il ciclo di vita di tutti gli altri agenti Stackdriver di cui è stato eseguito il deployment nel cluster.

  • Risorsa personalizzata di Stackdriver. Una risorsa che viene creata automaticamente nell'ambito del processo di installazione di Anthos clusters on bare metal.

  • Aggregatore di log Stackdriver (stackdriver-log-aggregator-*). Un StatefulSet Fluentd che invia i log all'API Cloud Logging; se non è possibile inviare log, l'aggregatore di log esegue il buffer delle voci di log fino a 200 GB e tenta di inviarli di nuovo per un massimo di 24 ore. Se il buffer si esaurisce o se l'aggregatore di log non riesce a raggiungere l'API Logging per più di 24 ore, i log vengono eliminati.

  • Stackdriver Log Forwarder (stackdriver-log-forwarder-*). Un daemonset Flubebit che inoltra i log da ogni macchina all'aggregatore di log Stackdriver.

  • Stackdriver Metadata Collector (stackdriver-metadata-agent-). Un deployment che invia metadati per risorse Kubernetes come pod, deployment o nodi all'API Stackdriver Resource Metadata; questi dati vengono utilizzati per arricchire le query delle metriche consentendo di eseguire query in base al nome del deployment, al nome del nodo o anche al nome del servizio Kubernetes.

Per visualizzare tutti gli agenti installati da Stackdriver, esegui questo comando:

  kubectl -n kube-system get pods | grep stackdriver

L'output di questo comando è simile al seguente:

stackdriver-log-aggregator-0                  1/1     Running   0   4h31m
stackdriver-log-aggregator-1                  1/1     Running   0   4h28m
stackdriver-log-forwarder-bpf8g               1/1     Running   0   4h31m
stackdriver-log-forwarder-cht4m               1/1     Running   0   4h31m
stackdriver-log-forwarder-fth5s               1/1     Running   0   4h31m
stackdriver-log-forwarder-kw4j2               1/1     Running   0   4h29m
stackdriver-metadata-agent-cluster-level...   1/1     Running   0   4h31m
stackdriver-operator-76ddb64d57-4tcj9         1/1     Running   0   4h37m

Metriche di Cloud Monitoring

Per un elenco delle metriche raccolte da Cloud Monitoring, consulta Anthos on-prem e le metriche Anthos on bare metal.

Configurazione degli agenti Stackdriver per Anthos clusters on bare metal in corso...

Gli agenti Stackdriver installati con i Anthos clusters on bare metal raccolgono i dati sui componenti di sistema, in base alle impostazioni e alla configurazione, allo scopo di gestire e risolvere i problemi con i cluster Anthos su cluster Bare Metal, in una delle modalità seguenti.

Solo componenti di sistema (modalità predefinita)

Al momento dell'installazione, gli agenti Stackdriver sono configurati per impostazione predefinita in modo da raccogliere log e metriche, tra cui dettagli sulle prestazioni (ad esempio utilizzo di CPU e memoria) e metadati simili, per i componenti di sistema forniti da Google. Questi includono tutti i carichi di lavoro nel cluster di amministrazione e per i cluster utente, i carichi di lavoro negli spazi dei nomi di kube-system, gke-system, gke-connect, istio-system e config-management-system.

Stackdriver disabilitato

Gli agenti Stackdriver possono essere disattivati completamente eliminando la risorsa personalizzata Stackdriver. Attenzione: non è consigliabile gestire direttamente le risorse personalizzate di Stackdriver.

Prima di disattivare Stackdriver, consulta la pagina di assistenza per i dettagli sull'impatto degli SLA dell'assistenza Google Cloud.

Per disabilitare i cluster Stackdriver per Anthos su Bare Metal:

kubectl -n kube-system delete stackdrivers stackdriver

Gli agenti Stackdriver acquisiscono i dati archiviati localmente e sono soggetti alla configurazione di archiviazione e conservazione. I dati vengono replicati nel progetto Google Cloud specificato al momento dell'installazione utilizzando un account di servizio autorizzato a scrivere dati nel progetto. Gli agenti Stackdriver possono essere disabilitati in qualsiasi momento, come descritto in precedenza. I dati raccolti dagli agenti Stackdriver possono essere gestiti ed eliminati come qualsiasi altro dato di metrica e log, come descritto nella documentazione di Cloud Monitoring.

Requisiti di configurazione per Logging e Monitoring

Esistono diversi requisiti di configurazione per abilitare Cloud Logging e Cloud Monitoring con Anthos clusters on bare metal. Questi passaggi sono inclusi nella pagina relativa alla configurazione di un account di servizio da utilizzare con Logging e Monitoring nella pagina Attivazione dei servizi Google e nel seguente elenco:

  1. È necessario creare un'area di lavoro Cloud Monitoring all'interno del progetto Google Cloud. Per farlo, fai clic su Monitoraggio nella console Google Cloud e segui il flusso di lavoro.
  2. Devi abilitare le seguenti API Stackdriver:

  3. Devi assegnare i seguenti ruoli IAM all'account di servizio utilizzato dagli agenti Stackdriver:

    • logging.logWriter
    • monitoring.metricWriter
    • stackdriver.resourceMetadata.writer
    • monitoring.dashboardEditor

Prezzi

Non sono previsti costi per i log di sistema e le metriche di Anthos.

In un cluster Anthos clusters on bare metal, i log e le metriche di sistema Anthos includono:

  • Log e metriche di tutti i componenti in un cluster di amministrazione
  • Log e metriche dei componenti negli spazi dei nomi di un cluster utente: kube-system, gke-system, gke-connect, knative-serving, istio-system, monitoring-system, config-management-system, gatekeeper-system, cnrm-system

Per ulteriori informazioni, consulta Prezzi per la suite operativa di Google Cloud.

Per scoprire di più sul credito per le metriche di Cloud Logging, contatta il team di vendita per i prezzi.