Questa pagina è stata tradotta dall'API Cloud Translation.

Monitora Config Sync con Prometheus

La pagina descrive come inviare metriche da Config Sync a Prometheus.

Questa pagina spiega come utilizzare Prometheus per visualizzare le metriche di Config Sync. Ti consigliamo di utilizzare Prometheus (questa pagina) o Cloud Monitoring per esportare le metriche. È anche possibile utilizzare metriche personalizzate.

Config Sync raccoglie ed esporta automaticamente le metriche in Prometheus. Puoi configurare Cloud Monitoring per estrarre metriche personalizzate da Prometheus. Poi puoi visualizzare le metriche personalizzate sia in Prometheus che in Monitoring. Per ulteriori informazioni, consulta la sezione Utilizzo di Prometheus nella documentazione di GKE.

Recuperare le metriche

Tutte le metriche Prometheus sono disponibili per lo scraping sulla porta 8675. Prima di poter recuperare le metriche, devi configurare il cluster per Prometheus in uno dei due modi. Procedi in uno dei seguenti modi:

Segui la documentazione di Prometheus per configurare il cluster per lo scraping o

Utilizza l'operatore Prometheus insieme ai seguenti manifest, che recuperano tutte le metriche di Config Sync ogni 10 secondi.

Crea una directory temporanea per contenere i file manifest.
```
mkdir config-sync-monitor
cd config-sync-monitor
```
Scarica il manifest di Prometheus Operator dal repository CoreOS. repository utilizzando il comando curl:
```
curl -o bundle.yaml https://raw.githubusercontent.com/coreos/prometheus-operator/master/bundle.yaml
```
Questo manifest è configurato per utilizzare lo spazio dei nomi default, che non è consigliato. Il passaggio successivo modifica la configurazione in modo che utilizzi uno spazio dei nomi chiamato monitoring. Per utilizzare uno spazio dei nomi diverso, sostituiscilo a monitoring nei passaggi rimanenti.

Crea un file per aggiornare lo spazio dei nomi di ClusterRoleBinding nel bundle precedente.

# patch-crb.yaml
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: prometheus-operator
subjects:
- kind: ServiceAccount
  name: prometheus-operator
  namespace: monitoring # we are patching from default namespace

Crea un file kustomization.yaml che applichi la patch e modifichi lo spazio dei nomi per altre risorse nel manifest.

# kustomization.yaml
resources:
- bundle.yaml

namespace: monitoring

patchesStrategicMerge:
- patch-crb.yaml

Crea lo spazio dei nomi monitoring se non esiste. Puoi utilizzare un nome diverso per lo spazio dei nomi, ma in questo caso modifica anche il valore di namespace nei manifest YAML dei passaggi precedenti.
```
kubectl create namespace monitoring
```
Applica il manifest Kustomize utilizzando i seguenti comandi:
```
kubectl apply -k .

until kubectl get customresourcedefinitions servicemonitors.monitoring.coreos.com ; \
do date; sleep 1; echo ""; done
```
Il secondo comando viene bloccato finché le CRD non sono disponibili sul cluster.

Crea il manifest per le risorse necessarie per configurare un server Prometheus che recupera le metriche da Config Sync.

# config-sync-monitoring.yaml
apiVersion: v1
kind: ServiceAccount
metadata:
  name: prometheus-config-sync
  namespace: monitoring
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  name: prometheus-config-sync
rules:
- apiGroups: [""]
  resources:
  - nodes
  - services
  - endpoints
  - pods
  verbs: ["get", "list", "watch"]
- apiGroups: [""]
  resources:
  - configmaps
  verbs: ["get"]
- nonResourceURLs: ["/metrics"]
  verbs: ["get"]
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: prometheus-config-sync
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: prometheus-config-sync
subjects:
- kind: ServiceAccount
  name: prometheus-config-sync
  namespace: monitoring
---
apiVersion: monitoring.coreos.com/v1
kind: Prometheus
metadata:
  name: config-sync
  namespace: monitoring
  labels:
    prometheus: config-sync
spec:
  replicas: 2
  serviceAccountName: prometheus-config-sync
  serviceMonitorSelector:
    matchLabels:
      prometheus: config-management
  alerting:
    alertmanagers:
    - namespace: default
      name: alertmanager
      port: web
  resources:
    requests:
      memory: 400Mi
---
apiVersion: v1
kind: Service
metadata:
  name: prometheus-config-sync
  namespace: monitoring
  labels:
    prometheus: config-sync
spec:
  type: NodePort
  ports:
  - name: web
    nodePort: 31900
    port: 9190
    protocol: TCP
    targetPort: web
  selector:
    prometheus: config-sync
--- 
---

Applica il manifest utilizzando i seguenti comandi:

kubectl apply -f config-sync.yaml

until kubectl rollout status statefulset/prometheus-config-sync -n monitoring; \
do sleep 1; done

Il secondo comando viene bloccato finché i pod non sono in esecuzione.

Puoi verificare l'installazione inoltrando la porta web del server Prometheus alla tua macchina locale.
```
kubectl -n monitoring port-forward svc/prometheus-config-sync 9190
```
Ora puoi accedere alla UI web di Prometheus all'indirizzo http://localhost:9190.
Rimuovi la directory temporanea.
```
cd ..
rm -rf config-sync-monitor
```

Metriche Prometheus disponibili

Config Sync raccoglie le seguenti metriche e le rende disponibili a Prometheus. La colonna Etichette elenca tutte le etichette applicabili a ogni metrica. Le metriche senza etichette rappresentano una singola misurazione nel tempo, mentre le metriche con etichette rappresentano più misurazioni, una per ogni combinazione di valori di etichetta.

Se questa tabella non è più sincronizzata, puoi filtrare le metriche per prefisso nell'interfaccia utente di Prometheus. Tutte le metriche iniziano con il prefisso config_sync_.

Nome	Tipo	Etichette	Descrizione
`config_sync_api_duration_seconds_bucket`	Istogramma	stato, operazione	Distribuzione della latenza delle chiamate al server API (distribuite in bucket in base alla durata di ogni ciclo)
`config_sync_api_duration_seconds_count`	Istogramma	stato, operazione	Distribuzione della latenza delle chiamate al server API (ignorando la durata)
`config_sync_api_duration_seconds_sum`	Istogramma	stato, operazione	Somma delle durate di tutte le chiamate al server API
`config_sync_apply_duration_seconds_bucket`	Istogramma	commit, stato	Distribuzione della latenza dell'applicazione delle risorse dichiarate dall'origine attendibile a un cluster (distribuite in bucket in base alla durata di ogni ciclo)
`config_sync_apply_duration_seconds_count`	Istogramma	commit, stato	Distribuzione della latenza dell'applicazione delle risorse dichiarate dalla sorgente attendibile a un cluster (ignorando la durata)
`config_sync_apply_duration_seconds_sum`	Istogramma	commit, stato	Somma delle durate di tutta la latenza dell'applicazione delle risorse dichiarate dalla fonte attendibile a un cluster
`config_sync_apply_operations_total`	Contatore	operazione, stato, controller	Numero di operazioni eseguite per sincronizzare le risorse dall'origine attendibile a un cluster
`config_sync_cluster_scoped_resource_count`	Misuratore	resourcegroup	Numero di risorse con ambito cluster in un ResourceGroup
`config_sync_crd_count`	Misuratore	resourcegroup	Numero di CRD in un ResourceGroup
`config_sync_declared_resources`	Misuratore	commit	Numero di risorse dichiarate analizzate da Git
`config_sync_internal_errors_total`	Contatore	origine	Numero di errori interni attivati da Config Sync. La metrica potrebbe non essere visualizzata se non si è verificato alcun errore interno
`config_sync_kcc_resource_count`	Misuratore	resourcegroup	Numero di risorse Config Connector in un ResourceGroup
`config_sync_last_apply_timestamp`	Misuratore	commit, stato	Timestamp dell'operazione di applicazione più recente
`config_sync_last_sync_timestamp`	Misuratore	commit, stato	Timestamp dell'ultima sincronizzazione da Git
`config_sync_parser_duration_seconds_bucket`	Istogramma	stato, trigger, origine	Distribuzione della latenza delle diverse fasi coinvolte nella sincronizzazione dall'origine attendibile a un cluster
`config_sync_parser_duration_seconds_count`	Istogramma	stato, trigger, origine	Distribuzione della latenza delle diverse fasi coinvolte nella sincronizzazione dall'origine attendibile a un cluster (ignorando la durata)
`config_sync_parser_duration_seconds_sum`	Istogramma	stato, trigger, origine	Somma delle latenze delle diverse fasi coinvolte nella sincronizzazione dall'origine attendibile a un cluster
`config_sync_pipeline_error_observed`	Misuratore	name, reconciler, component	Stato delle risorse personalizzate RootSync e RepoSync. Un valore pari a 1 indica un errore
`config_sync_ready_resource_count`	Misuratore	resourcegroup	Numero totale di risorse pronte in un ResourceGroup
`config_sync_reconcile_duration_seconds_bucket`	Istogramma	stato	Distribuzione della latenza degli eventi di riconciliazione gestiti dal gestore di riconciliazione (distribuiti in bucket in base alla durata di ogni chiamata)
`config_sync_reconcile_duration_seconds_count`	Istogramma	stato	Distribuzione della latenza degli eventi di riconciliazione gestiti da Reconciler Manager (ignorando la durata)
`config_sync_reconcile_duration_seconds_sum`	Istogramma	stato	Somma delle durate di tutti gli eventi di latenza di riconciliazione gestiti dal gestore di riconciliazione
`config_sync_reconciler_errors`	Misuratore	componente, errorclass	Numero di errori riscontrati durante la sincronizzazione delle risorse dall'origine attendibile a un cluster
`config_sync_remediate_duration_seconds_bucket`	Istogramma	stato	Distribuzione della latenza degli eventi di riconciliazione del correttore (distribuiti in bucket per durata)
`config_sync_remediate_duration_seconds_count`	Istogramma	stato	Distribuzione della latenza degli eventi di riconciliazione del correttore (ignorando la durata)
`config_sync_remediate_duration_seconds_sum`	Istogramma	stato	Somma delle durate di tutti gli eventi di riconciliazione del correttore
`config_sync_resource_count`	Misuratore	resourcegroup	Numero di risorse monitorate da un ResourceGroup
`config_sync_resource_conflicts_total`	Contatore	commit	Numero di conflitti di risorse derivanti da una mancata corrispondenza tra le risorse memorizzate nella cache e le risorse del cluster. La metrica potrebbe non essere visualizzata se non si è verificato alcun conflitto di risorse
`config_sync_resource_fights_total`	Contatore		Numero di risorse sincronizzate troppo spesso. La metrica potrebbe non essere visualizzata se non si è verificata alcuna lotta per le risorse
`config_sync_resource_group_total`	Misuratore		Numero di CR ResourceGroup
`config_sync_resource_ns_count`	Misuratore	resourcegroup	Numero di spazi dei nomi utilizzati dalle risorse in un ResourceGroup
`config_sync_rg_reconcile_duration_seconds_bucket`.	Istogramma	stallreason	Distribuzione temporale della riconciliazione di una CR ResourceGroup (distribuita in bucket per durata)
`config_sync_rg_reconcile_duration_seconds_count`	Istogramma	stallreason	Distribuzione temporale della riconciliazione di una RP ResourceGroup (ignorando la durata)
`config_sync_rg_reconcile_duration_seconds_sum`	Istogramma	stallreason	Somma di tutte le riconciliazioni di un CR ResourceGroup
`config_sync_kustomize_build_latency_bucket`	Istogramma		Distribuzione della latenza del tempo di esecuzione di `kustomize build` (distribuito in bucket in base alla durata di ogni operazione)
`config_sync_kustomize_build_latency_count`	Istogramma		Distribuzione della latenza del tempo di esecuzione di `kustomize build` (ignorando la durata)
`config_sync_kustomize_build_latency_sum`	Istogramma		Somma del tempo di esecuzione di tutti i `kustomize build`
`config_sync_kustomize_ordered_top_tier_metrics`	Misuratore	top_tier_field	Utilizzo di risorse, generatori, SecretGenerator, ConfigMapGenerator, trasformatori e validatori
`config_sync_kustomize_builtin_transformers`	Misuratore	k8s_builtin_transformer	Utilizzo di trasformatori integrati correlati ai metadati degli oggetti Kubernetes
`config_sync_kustomize_resource_count`	Misuratore		Numero di risorse generate da `kustomize build`
`config_sync_kustomize_field_count`	Misuratore	field_name	Numero di volte in cui un determinato campo viene utilizzato nei file di personalizzazione
`config_sync_kustomize_patch_count`	Misuratore	patch_field	Numero di patch nei campi `patches`, `patchesStrategicMerge` e `patchesJson6902`
`config_sync_kustomize_base_count`	Misuratore	base_source	Numero di basi remote e locali
`kustomize_deprecating_field_count`	Misuratore	deprecating_field	Utilizzo di campi che potrebbero diventare obsoleti
`kustomize_simplification_adoption_count`	Misuratore	simplification_field	Utilizzo di immagini, repliche e sostituzioni di trasformatori di semplificazione
`kustomize_helm_inflator_count`	Misuratore	helm_inflator	Utilizzo di Helm in Kustomize, tramite i campi integrati o la funzione personalizzata

Esempio di procedure di debug per Prometheus

Gli esempi seguenti illustrano alcuni pattern per l'utilizzo delle metriche Prometheus, dei campi di stato degli oggetti e delle annotazioni degli oggetti per rilevare e diagnosticare i problemi relativi a Config Sync. Questi esempi mostrano come iniziare con un monitoraggio di alto livello che rileva un problema e poi perfezionare progressivamente la ricerca per analizzare in dettaglio e diagnosticare la causa principale del problema.

Configurazioni di query per stato

Il processo reconciler fornisce metriche di alto livello che offrono informazioni utili su una visione generale del funzionamento di Config Sync sul cluster. Puoi vedere se si sono verificati errori e puoi persino configurare avvisi per questi errori.

config_sync_reconciler_errors

Metriche delle query per riconciliatore

Se utilizzi le API RootSync e RepoSync di Config Sync, puoi monitorare gli oggetti RootSync e RepoSync. Gli oggetti RootSync e RepoSync sono strumentati con metriche di alto livello che forniscono informazioni utili sul funzionamento di Config Sync sul cluster. Quasi tutte le metriche sono taggate in base al nome del riconciliatore, in modo da poter verificare se si sono verificati errori e configurare avvisi per questi errori in Prometheus.

Visualizza l'elenco completo delle etichette delle metriche disponibili per il filtraggio.

In Prometheus, puoi utilizzare i seguenti filtri per RootSyncs o RepoSyncs:

# Querying RootSync
config_sync_reconciler_errors{configsync_sync_name=ROOT_SYNC_NAME}

# Querying RepoSync
config_sync_reconciler_errors{configsync_sync_name=REPO_SYNC_NAME}

Eseguire query sulle operazioni di importazione e sincronizzazione in base allo stato

In Prometheus, potresti utilizzare le seguenti query:

# Check for errors that occurred when sourcing configs.
config_sync_reconciler_errors{component="source"}

# Check for errors that occurred when syncing configs to the cluster.
config_sync_reconciler_errors{component="sync"}

Puoi anche controllare le metriche per i processi di origine e sincronizzazione:

config_sync_parser_duration_seconds{status="error"}
config_sync_apply_duration_seconds{status="error"}
config_sync_remediate_duration_seconds{status="error"}

Monitora le risorse con Google Cloud Managed Service per Prometheus

Google Cloud Managed Service per Prometheus è la soluzione multicloud completamente gestita di Google Cloudper le metriche di Prometheus. Supporta due modalità per la raccolta dei dati: raccolta gestita (la modalità consigliata) o raccolta dei dati autogestita. Completa i seguenti passaggi per configurare il monitoraggio di Config Sync con Google Cloud Managed Service per Prometheus in modalità di raccolta gestita.

Abilita Prometheus gestito sul tuo cluster seguendo le istruzioni riportate in Configura la raccolta gestita.
Salva il seguente manifest di esempio come pod-monitoring-config-sync-monitoring.yaml. Questo manifest configura una risorsa PodMonitoring per recuperare le metriche di Config Sync sulla porta 8675 del pod otel-collector-* nello spazio dei nomi config-management-monitoring. La risorsa PodMonitoring utilizza un selettore di etichette Kubernetes per trovare il pod otel-collector-*.
```
apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: config-sync-monitoring
  namespace: config-management-monitoring
spec:
  selector:
    matchLabels:
      app: opentelemetry
      component: otel-collector
  endpoints:
  - port: 8675
    interval: 10s
```

Applica il manifest al cluster:

kubectl apply -f pod-monitoring-config-sync-monitoring.yaml

Verifica che i dati di Prometheus vengano esportati utilizzando la pagina Metrics Explorer di Cloud Monitoring nella console Google Cloud seguendo le istruzioni riportate in Dati di Managed Service per Prometheus in Cloud Monitoring.

Passaggi successivi

Utilizzare le regole di avviso di Prometheus con gli indicatori di livello del servizio (SLI) di Config Sync