Utilizzo del logging e del monitoraggio per i componenti di sistema

Questo documento illustra come configurare il logging e il monitoraggio per i componenti di sistema in Google Distributed Cloud (solo software) per VMware.

Per impostazione predefinita, Cloud Logging, Cloud Monitoring Google Cloud Managed Service per Prometheus è abilitato.

Per ulteriori informazioni sulle opzioni, vedi Panoramica di Logging e monitoraggio.

Risorse monitorate

Le risorse monitorate sono il modo in cui Google rappresenta risorse come cluster, nodi, pod e container. Per scoprire di più, consulta la documentazione relativa ai tipi di risorse monitorate di Cloud Monitoring.

Per eseguire query su log e metriche, devi conoscere almeno questi etichette delle risorse:

  • project_id: ID progetto del progetto di monitoraggio e generazione di log del cluster. Hai fornito questo valore nel campo stackdriver.projectID del file di configurazione del cluster.

  • location: una regione Google Cloud in cui archiviare Log di Cloud Logging e metriche di Cloud Monitoring. È un buon l'idea di scegliere una regione vicina al tuo data center on-premise. Hai fornito durante l'installazione stackdriver.clusterLocation del file di configurazione del cluster.

  • cluster_name: il nome del cluster che hai scelto quando lo hai creato.

    Puoi recuperare il valore cluster_name per l'amministratore o per l'utente mediante l'ispezione della risorsa personalizzata di Stackdriver:

    kubectl get stackdriver stackdriver --namespace kube-system \
    --kubeconfig CLUSTER_KUBECONFIG --output yaml | grep 'clusterName:'
    

    dove

    • CLUSTER_KUBECONFIG è il percorso del file kubeconfig del cluster di amministrazione o del cluster utente per il quale è richiesto il nome del cluster.

Utilizzo di Cloud Logging

Non devi fare nulla per attivare Cloud Logging per un cluster. Tuttavia, devi specificare il progetto Google Cloud in cui vuoi visualizzare i log. Nel file di configurazione del cluster, specifica il progetto Google Cloud nella sezione stackdriver.

Puoi accedere ai log utilizzando Esplora log nella console Google Cloud. Ad esempio, per accedere ai log di un container:

  1. Apri l'app Esplora log nella console Google Cloud per il tuo progetto.
  2. Per trovare i log di un container:
    1. Fai clic sulla casella del menu a discesa del catalogo dei log in alto a sinistra e seleziona Container Kubernetes.
    2. Seleziona il nome del cluster, quindi lo spazio dei nomi e infine un contenitore dalla gerarchia.

Visualizzazione dei log per i controller nel cluster di bootstrap

  1. Trova il nome del pod onprem-admin-cluster-controller/clusterapi-controllers

    Per impostazione predefinita, il nome del cluster di tipo è gkectl-bootstrap-cluster.

    "ADMIN_CLUSTER_NAME"
    resource.type="k8s_container"
    resource.labels.cluster_name="gkectl-bootstrap-cluster"
    
  2. Modifica la query utilizzando il nome del pod che trovi e recupera il log

    resource.type="k8s_container"
    resource.labels.cluster_name="gkectl-bootstrap-cluster"
    resource.labels.pod_name="POD_NAME"
    

Utilizzo di Cloud Monitoring

Non devi intraprendere alcuna azione per abilitare Cloud Monitoring per un cluster. Tuttavia, devi specificare il progetto Google Cloud in cui vuoi visualizzare le metriche. Nel file di configurazione del cluster, specifica il progetto Google Cloud nella sezione stackdriver.

Puoi scegliere tra oltre 1500 metriche utilizzando Metrics Explorer. Per accedere a Metrics Explorer, segui questi passaggi:

  1. Nella console Google Cloud, seleziona Monitoraggio o utilizza il pulsante seguente:

    Vai a Monitoring

  2. Seleziona Risorse > Metrics Explorer.

Puoi anche visualizzare le metriche nelle dashboard della console Google Cloud. Per informazioni sulla creazione di dashboard e sulla visualizzazione delle metriche, consulta Creazione delle dashboard.

Visualizzazione dei dati di monitoraggio a livello di parco risorse

Per una visione complessiva dell'utilizzo delle risorse del tuo parco risorse utilizzando i dati di monitoraggio del cloud, inclusi i cluster Google Distributed Cloud, puoi utilizzare la panoramica di Google Kubernetes Engine nella console Google Cloud. Consulta Gestisci i cluster dalla console Google Cloud per saperne di più.

Limiti di quota predefiniti di Cloud Monitoring

Google Distributed Cloud Monitoring ha un limite predefinito di 6000 chiamate API al minuto per per ogni progetto. Se superi questo limite, le metriche potrebbero non essere visualizzate. Se hai bisogno di un limite di monitoraggio superiore, richiedilo tramite la console Google Cloud.

Utilizzo di Managed Service per Prometheus

Google Cloud Managed Service per Prometheus fa parte di Cloud Monitoring ed è disponibile per impostazione predefinita. I vantaggi di Managed Service per Prometheus includono seguenti:

  • Puoi continuare a utilizzare il monitoraggio basato su Prometheus esistente senza alterare gli avvisi e le dashboard di Grafana.

  • Se utilizzi sia GKE che Google Distributed Cloud, puoi utilizzare lo stesso PromQL per le metriche su tutti i tuoi cluster. Puoi anche utilizzare la scheda PROMQL in Esplora metriche nella console Google Cloud.

Abilitazione e disabilitazione di Managed Service per Prometheus

Managed Service per Prometheus è abilitato per impostazione predefinita in Google Distributed Cloud.

Per disabilitare Managed Service per Prometheus in un cluster:

  1. Apri l'oggetto Stackdriver denominato stackdriver per la modifica:

    kubectl --kubeconfig CLUSTER_KUBECONFIG --namespace kube-system \
        edit stackdriver stackdriver
    
  2. Aggiungi il blocco di caratteristiche enableGMPForSystemMetrics e impostalo su false:

    apiVersion: addons.gke.io/v1alpha1
    kind: Stackdriver
    metadata:
      name: stackdriver
      namespace: kube-system
    spec:
      featureGates:
        enableGMPForSystemMetrics: false
    
  3. Chiudi la sessione di modifica.

Visualizzazione dei dati delle metriche

Quando Managed Service per Prometheus è abilitato, le metriche per i componenti hanno un formato diverso per come vengono archiviati Cloud Monitoring:

  • kube-apiserver
  • kube-scheduler
  • kube-controller-manager
  • kubelet e cadvisor
  • kube-state-metrics
  • node-exporter

Nel nuovo formato, puoi eseguire query sulle metriche precedenti utilizzando PromQL o Monitoring Query Language (MQL).

Esempio di PromQL:

histogram_quantile(0.95, sum(rate(apiserver_request_duration_seconds_bucket[5m])) by (le))

Per utilizzare MQL, imposta la risorsa monitorata su prometheus_target e aggiungi Tipo Prometheus come suffisso della metrica.

Esempio di MQL:

fetch prometheus_target
| metric 'kubernetes.io/anthos/apiserver_request_duration_seconds/histogram'
| align delta(5m)
| every 5m
| group_by [], [value_histogram_percentile: percentile(value.histogram, 95)]

Configurazione delle dashboard di Grafana con Managed Service per Prometheus

Per utilizzare Grafana con i dati delle metriche di Managed Service per Prometheus, segui la procedura descritta in Eseguire query utilizzando Grafana per autenticare e configurare un'origine dati Grafana in modo da eseguire query sui dati di Managed Service per Prometheus.

Un insieme di dashboard Grafana di esempio è fornito nel repository anthos-samples su GitHub. Per installare le dashboard di esempio, segui questi passaggi:

  1. Scarica i file .json di esempio:

    git clone https://github.com/GoogleCloudPlatform/anthos-samples.git
    cd anthos-samples/gmp-grafana-dashboards
    
  2. Se l'origine dati Grafana è stata creata con un nome diverso con Managed Service for Prometheus, modifica il campo datasource in tutti i file .json:

    sed -i "s/Managed Service for Prometheus/[DATASOURCE_NAME]/g" ./*.json
    

    Sostituisci [DATASOURCE_NAME] con il nome dell'origine dati in Grafana che puntava al servizio frontend Prometheus.

  3. Accedi all'interfaccia utente di Grafana dal tuo browser e seleziona + Importa nel menu Dashboard.

    Vai all'importazione delle dashboard in Grafana.

  4. Carica il file .json o copia e incolla i contenuti del file e seleziona Carica. Una volta caricati i contenuti del file, seleziona Importa. Facoltativamente, puoi anche modificare il nome e l'UID della dashboard prima dell'importazione.

    Importazione della dashboard in Grafana.

  5. La dashboard importata dovrebbe caricarsi correttamente se Google Distributed Cloud e l'origine dati sono configurati correttamente. Ad esempio, il seguente screenshot mostra la dashboard configurata da cluster-capacity.json.

    Dashboard della capacità del cluster in Grafana.

Risorse aggiuntive

Per ulteriori informazioni su Managed Service per Prometheus, consulta le seguenti risorse:

Utilizzo di Prometheus e Grafana

A partire dalla versione 1.16, Prometheus e Grafana non sono disponibili nei cluster appena creati. Ti consigliamo di utilizzare Managed Service per Prometheus come sostituzione del monitoraggio all'interno del cluster.

Se esegui l'upgrade a 1.16 di un cluster 1.15 in cui sono abilitati Prometheus e Grafana, Prometheus e Grafana continueranno a funzionare così come sono, ma non verranno aggiornati o non riceveranno patch di sicurezza.

Se vuoi eliminare tutte le risorse Prometheus e Grafana dopo l'upgrade alla versione 1.16, esegui questo comando:

kubectl --kubeconfig KUBECONFIG delete -n kube-system \
    statefulsets,services,configmaps,secrets,serviceaccounts,clusterroles,clusterrolebindings,certificates,deployments \
    -l addons.gke.io/legacy-pg=true

In alternativa all'utilizzo dei componenti Prometheus e Grafana inclusi nelle versioni precedenti di Google Distributed Cloud, puoi passare a una versione della community open source di Prometheus e Grafana.

Problema noto

Nei cluster utente, Prometheus e Grafana vengono disabilitati automaticamente durante upgrade. Tuttavia, i dati di configurazione e metriche non andranno persi.

Per risolvere il problema, dopo l'upgrade apri monitoring-sample per la modifica e imposta enablePrometheus su true.

Accesso alle metriche di monitoraggio dalle dashboard di Grafana

Grafana mostra le metriche raccolte dai tuoi cluster. Per visualizzare queste metriche, accedere alle dashboard di Grafana:

  1. Ottieni il nome del pod Grafana in esecuzione nello spazio dei nomi kube-system di un cluster utente:

    kubectl --kubeconfig [USER_CLUSTER_KUBECONFIG] -n kube-system get pods

    dove [USER_CLUSTER_KUBECONFIG] è il file kubeconfig del cluster utente.

  2. Il pod Grafana ha un server HTTP in ascolto sulla porta localhost TCP 3000. Inoltra una porta locale alla porta 3000 nel pod in modo da poter visualizzare le dashboard di Grafana da un browser web.

    Ad esempio, supponiamo che il nome del pod sia grafana-0. Per inoltrare la porta 50000 alla porta 3000 nel pod, inserisci questo comando:

    kubectl --kubeconfig [USER_CLUSTER_KUBECONFIG] -n kube-system port-forward grafana-0 50000:3000
  3. Da un browser web, vai alla pagina http://localhost:50000.

  4. Nella pagina di accesso, inserisci admin per nome utente e password.

  5. Se l'accesso è andato a buon fine, ti verrà chiesto di cambiare la password. Dopo aver modificato la password predefinita, dovrebbe essere caricata la dashboard della casa di Grafana del cluster di utenti.

  6. Per accedere ad altre dashboard, fai clic sul menu a discesa Home nell'angolo in alto a sinistra della pagina.

Per un esempio di utilizzo di Grafana, vedi Creare una dashboard Grafana.

Accesso agli avvisi

Prometheus Alertmanager raccoglie gli avvisi dal server Prometheus. Puoi visualizzare questi avvisi in una dashboard di Grafana. Per visualizzare gli avvisi, devi accedere alla dashboard:

  1. Il container nel pod alertmanager-0 è in ascolto sulla porta TCP 9093. Inoltra una porta locale alla porta 9093 nel pod:

    kubectl --kubeconfig [USER_CLUSTER_KUBECONFIG] port-forward \
       -n kube-system alertmanager-0 50001:9093
  2. Da un browser web, vai alla pagina http://localhost:50001.

Modifica della configurazione di Prometheus Alertmanager

Puoi modificare la configurazione predefinita di Prometheus Alertmanager modificando il file monitoring.yaml del tuo cluster di utenti. Devi fare in questo modo se vuoi indirizzare verso una destinazione specifica, invece di conservarli nella dashboard. Puoi scoprire come configurare Alertmanager nella documentazione relativa alla configurazione di Prometheus.

Per modificare la configurazione di Alertmanager:

  1. Crea una copia del file manifest monitoring.yaml del cluster utente:

    kubectl --kubeconfig [USER_CLUSTER_KUBECONFIG] -n kube-system \
       get monitoring monitoring-sample -o yaml > monitoring.yaml
  2. Per configurare Alertmanager, apporta modifiche ai campi in spec.alertmanager.yml. Al termine, salva il file manifest modificato.

  3. Applica il manifest al cluster:

    kubectl apply --kubeconfig [USER_CLUSTER_KUBECONIFG] -f monitoring.yaml

Crea una dashboard Grafana

Hai eseguito il deployment di un'applicazione che espone una metrica, ne hai verificato l'esposizione e hai verificato che Prometheus la estrae. Ora puoi aggiungere la metrica a livello di applicazione a una dashboard Grafana personalizzata.

Per creare una dashboard Grafana, segui questi passaggi:

  1. Se necessario, ottieni l'accesso a Grafana.
  2. Nella dashboard della home page, fai clic sul menu a discesa Home nella nell'angolo in alto a sinistra della pagina.
  3. Nel menu a destra, fai clic su Nuova dashboard.
  4. Nella sezione Nuovo riquadro, fai clic su Grafico. Una dashboard grafico vuota .
  5. Fai clic su Titolo riquadro e poi su Modifica. Il riquadro Grafico in basso si apre nella scheda Metriche.
  6. Nel menu a discesa Origine dati, seleziona user. Fai clic su Aggiungi query e inserisci foo nel campo Cerca.
  7. Fai clic sul pulsante Torna alla dashboard nell'angolo in alto a destra della schermo. Viene visualizzata la dashboard.
  8. Per salvare la dashboard, fai clic su Salva dashboard nell'angolo in alto a destra della schermata. Scegli un nome per la dashboard, poi fai clic su Salva.

Disattivazione di Prometheus e Grafana

A partire dalla versione 1.16, Prometheus e Grafana non sono più controllati dal campo enablePrometheus nell'oggetto monitoring-sample. Per maggiori dettagli, vedi Utilizzare Prometheus e Grafana.

Esempio: aggiunta di metriche a livello di applicazione a una dashboard Grafana

Le sezioni seguenti illustrano la procedura per aggiungere metriche per un'applicazione. Nel di questa sezione, completi le seguenti attività:

  • Esegui il deployment di un'applicazione di esempio che espone una metrica denominata foo.
  • Verifica che Prometheus esponga e estragga la metrica.
  • Crea una dashboard Grafana personalizzata.

Esegui il deployment dell'applicazione di esempio

L'applicazione di esempio viene eseguita in un unico pod. Il contenitore del pod espone una metrica, foo, con un valore costante di 40.

Crea il seguente manifest del pod, pro-pod.yaml:

apiVersion: v1
kind: Pod
metadata:
  name: prometheus-example
  annotations:
    prometheus.io/scrape: 'true'
    prometheus.io/port: '8080'
    prometheus.io/path: '/metrics'
spec:
  containers:
  - image: registry.k8s.io/prometheus-dummy-exporter:v0.1.0
    name: prometheus-example
    command:
    - /bin/sh
    - -c
    - ./prometheus_dummy_exporter --metric-name=foo --metric-value=40 --port=8080

Quindi applica il manifest del pod al cluster utente:

kubectl --kubeconfig [USER_CLUSTER_KUBECONFIG] apply -f pro-pod.yaml

Verifica che la metrica sia esposta e sottoposta a scraping

  1. Il container nel pod prometheus-example rimane in ascolto sulla porta TCP 8080. Inoltra una porta locale alla porta 8080 nel pod:

    kubectl --kubeconfig [USER_CLUSTER_KUBECONFIG] port-forward prometheus-example 50002:8080
  2. Per verificare che l'applicazione esponga la metrica, esegui questo comando:

    curl localhost:50002/metrics | grep foo
    

    Il comando restituisce il seguente output:

    # HELP foo Custom metric
    # TYPE foo gauge
    foo 40
  3. Il container nel pod prometheus-0 rimane in ascolto sulla porta TCP 9090. Ala una porta locale alla porta 9090 nel pod:

    kubectl --kubeconfig [USER_CLUSTER_KUBECONFIG] port-forward prometheus-0 50003:9090
  4. Per verificare che Prometheus stia estraendo la metrica, vai a http://localhost:50003/targets, che dovrebbe portarti alla prometheus-0 pod nel gruppo di destinazione prometheus-io-pods.

  5. Per visualizzare le metriche in Prometheus, vai alla pagina http://localhost:50003/graph. Nel campo di ricerca, inserisci foo e fai clic su Esegui. La pagina dovrebbe mostrare la metrica.

Configurazione della risorsa personalizzata di Stackdriver

Quando crei un cluster, Google Distributed Cloud crea automaticamente una risorsa personalizzata Stackdriver. Puoi modificare le specifiche nella risorsa personalizzata per eseguire l'override dei valori predefiniti per CPU e memoria richieste e limiti per un componente di Stackdriver. Puoi anche eseguire l'override separato della dimensione e della classe di archiviazione predefinite.

Esegui l'override dei valori predefiniti per richieste e limiti per CPU e memoria

Per sostituire questi valori predefiniti:

  1. Apri la risorsa personalizzata di Stackdriver in un editor della riga di comando:

    kubectl --kubeconfig=KUBECONFIG -n kube-system edit stackdriver stackdriver

    dove KUBECONFIG è il percorso del file kubeconfig per il cluster. Può essere un cluster di amministrazione o un cluster utente.

  2. Nella risorsa personalizzata Stackdriver, aggiungi il campo resourceAttrOverride nella sezione spec:

    resourceAttrOverride:
          POD_NAME_WITHOUT_RANDOM_SUFFIX/CONTAINER_NAME:
            LIMITS_OR_REQUESTS:
              RESOURCE: RESOURCE_QUANTITY

    Tieni presente che il campo resourceAttrOverride sostituisce tutte le impostazioni predefinite esistenti limiti e richieste per il componente specificato. I seguenti componenti sono supportati da resourceAttrOverride:

    • gke-metrics-agent/gke-metrics-agent
    • stackdriver-log-forwarder/stackdriver-log-forwarder
    • stackdriver-metadata-agent-cluster-level/metadata-agent
    • node-exporter/node-exporter
    • kube-state-metrics/kube-state-metrics

Un file di esempio ha il seguente aspetto

apiVersion: addons.gke.io/v1alpha1
    kind: Stackdriver
    metadata:
      name: stackdriver
      namespace: kube-system
    spec:
      projectID: my-project
      clusterName: my-cluster
      clusterLocation: us-west-1a
      resourceAttrOverride:
        gke-metrics-agent/gke-metrics-agent:
          requests:
            cpu: 110m
            memory: 240Mi
          limits:
            cpu: 200m
            memory: 4.5Gi

  1. Salva le modifiche ed esci dall'editor della riga di comando.

  2. Controlla l'integrità dei tuoi pod:

    kubectl --kubeconfig=KUBECONFIG -n kube-system get pods | grep gke-metrics-agent

    Ad esempio, un pod funzionante ha il seguente aspetto:

    gke-metrics-agent-4th8r                                1/1     Running   0          5d19h
  3. Controlla le specifiche del pod del componente per assicurarti che le risorse siano impostate correttamente.

    kubectl --kubeconfig=KUBECONFIG -n kube-system describe pod POD_NAME

    dove POD_NAME è il nome del pod che hai appena modificato. Ad esempio, stackdriver-prometheus-k8s-0

    La risposta è la seguente:

      Name:         gke-metrics-agent-4th8r
      Namespace:    kube-system
      ...
      Containers:
        gke-metrics-agent:
          Limits:
            cpu: 200m
            memory: 4.5Gi
          Requests:
            cpu: 110m
            memory: 240Mi
          ...
          

Sostituire le dimensioni dello spazio di archiviazione predefinite

Per sostituire questi valori predefiniti:

  1. Apri la risorsa personalizzata Stackdriver in un editor a riga di comando:

    kubectl --kubeconfig=KUBECONFIG -n kube-system edit stackdriver stackdriver
  2. Aggiungi il campo storageSizeOverride nella sezione spec. Puoi utilizzare il componente stackdriver-prometheus-k8s o stackdriver-prometheus-app. La sezione ha questo formato:

    storageSizeOverride:
    STATEFULSET_NAME: SIZE
    

    In questo esempio vengono utilizzati il statefulset stackdriver-prometheus-k8s e la dimensione 120Gi.

    apiVersion: addons.gke.io/v1alpha1
    kind: Stackdriver
    metadata:
      name: stackdriver
      namespace: kube-system
    spec:
      projectID: my-project
      clusterName: my-cluster
      clusterLocation: us-west-1a
      storageSizeOverride:
        stackdriver-prometheus-k8s: 120Gi
      
  3. Salva e esci dall'editor a riga di comando.

  4. Controlla l'integrità dei tuoi pod:

    kubectl --kubeconfig=KUBECONFIG -n kube-system get pods | grep stackdriver
    Ad esempio, un pod funzionante ha il seguente aspetto:
    stackdriver-prometheus-k8s-0                                2/2     Running   0          5d19h
  5. Controlla le specifiche del pod del componente per assicurarti che le dimensioni dello spazio di archiviazione siano state sostituite in modo corretto.

    kubectl --kubeconfig=KUBECONFIG -n kube-system describe statefulset STATEFULSET_NAME

    La risposta è la seguente:

    Volume Claims:
     Name:          my-statefulset-persistent-volume-claim
     StorageClass:  my-storage-class
     Labels:
     Annotations:
     Capacity:      120Gi
     Access Modes:  [ReadWriteOnce]          

Esegui override dei valori predefiniti delle classi di archiviazione

Prerequisito

Devi prima creare un oggetto StorageClass che vuoi utilizzare.

Per eseguire l'override della classe di archiviazione predefinita per i volumi permanenti richiesti dai componenti di logging e monitoraggio:

  1. Apri la risorsa personalizzata Stackdriver in un editor a riga di comando:

    kubectl --kubeconfig=KUBECONFIG -n kube-system edit stackdriver stackdriver

    dove KUBECONFIG è il percorso del file kubeconfig per il cluster. Può essere un cluster di amministrazione o un cluster utente.

  2. Aggiungi il campo storageClassName nella sezione spec:

    storageClassName: STORAGECLASS_NAME

    Tieni presente che il campo storageClassName sostituisce la classe di archiviazione predefinita esistente e si applica a tutti i componenti di monitoraggio e registrazione con volumi permanenti rivendicati. Un file di esempio ha il seguente aspetto:

    apiVersion: addons.gke.io/v1alpha1
    kind: Stackdriver
    metadata:
      name: stackdriver
      namespace: kube-system
    spec:
      projectID: my-project
      clusterName: my-cluster
      clusterLocation: us-west-1a
      proxyConfigSecretName: my-secret-name
      enableVPC: 
      optimizedMetrics: true
      storageClassName: my-storage-class
  3. Salva le modifiche.

  4. Controlla l'integrità dei tuoi pod:

    kubectl --kubeconfig=KUBECONFIG -n kube-system get pods | grep stackdriver

    Ad esempio, un pod integro ha il seguente aspetto:

    stackdriver-prometheus-k8s-0                                1/1     Running   0          5d19h
  5. Controlla le specifiche del pod di un componente per assicurarti che la classe di archiviazione sia impostata correttamente.

    kubectl --kubeconfig=KUBECONFIG -n kube-system describe statefulset STATEFULSET_NAME

    Ad esempio, utilizzando l'insieme stateful stackdriver-prometheus-k8s, la risposta è la seguente:

    Volume Claims:
     Name:          stackdriver-prometheus-data
     StorageClass:  my-storage-class
     Labels:
     Annotations:
     Capacity:      120Gi
     Access Modes:  [ReadWriteOnce]          

Disattivare le metriche ottimizzate

Per impostazione predefinita, gli agenti delle metriche in esecuzione nel cluster raccolgono e segnalano un set ottimizzato di metriche di container, kubelet e kube-state-metrics per Stackdriver. Se hai bisogno di metriche aggiuntive, ti consigliamo di trovarne una di sostituzione nell'elenco delle metriche di GKE Enterprise.

Ecco alcuni esempi di sostituzioni che potresti usare:

Metrica disabilitata Sostituzioni
kube_pod_start_time container/uptime
kube_pod_container_resource_requests container/cpu/request_cores
container/memory/request_bytes
kube_pod_container_resource_limits container/cpu/limit_cores
container/memory/limit_bytes

Per disattivare l'impostazione predefinita delle metriche kube-state-metrics ottimizzate (non consigliata), procedi nel seguente modo:

  1. Apri la risorsa personalizzata Stackdriver in un editor a riga di comando:

    kubectl --kubeconfig=KUBECONFIG -n kube-system edit stackdriver stackdriver

    dove KUBECONFIG è il percorso del file kubeconfig per il cluster. Può trattarsi di un cluster di amministrazione o di un cluster utente.

  2. Imposta il campo optimizedMetrics su false:

    apiVersion: addons.gke.io/v1alpha1
    kind: Stackdriver
    metadata:
      name: stackdriver
      namespace: kube-system
    spec:
      projectID: my-project
      clusterName: my-cluster
      clusterLocation: us-west-1a
      proxyConfigSecretName: my-secret-name
      enableVPC: 
      optimizedMetrics: false
      storageClassName: my-storage-class
  3. Salva le modifiche ed esci dall'editor a riga di comando.

Problema noto: condizione di errore di Cloud Monitoring

(ID problema 159761921)

In determinate condizioni, il pod Cloud Monitoring predefinito, impiegato per impostazione predefinita in ogni nuovo cluster, può non rispondere. Ad esempio, quando viene eseguito l'upgrade dei cluster, i dati di archiviazione possono essere danneggiati quando i pod in statefulset/prometheus-stackdriver-k8s vengono riavviati.

In particolare, il pod di monitoraggio stackdriver-prometheus-k8s-0 può essere bloccato in un loop quando i dati danneggiati impediscono la scrittura prometheus-stackdriver-sidecar nell'archiviazione del cluster PersistentVolume.

Puoi diagnosticare e recuperare manualmente l'errore seguendo i passaggi riportati di seguito.

Diagnostica dell'errore di Cloud Monitoring

Se il pod di monitoraggio ha esito negativo, i log riporteranno quanto segue:

{"log":"level=warn ts=2020-04-08T22:15:44.557Z caller=queue_manager.go:534 component=queue_manager msg=\"Unrecoverable error sending samples to remote storage\" err=\"rpc error: code = InvalidArgument desc = One or more TimeSeries could not be written: One or more points were written more frequently than the maximum sampling period configured for the metric.: timeSeries[0-114]; Unknown metric: kubernetes.io/anthos/scheduler_pending_pods: timeSeries[196-198]\"\n","stream":"stderr","time":"2020-04-08T22:15:44.558246866Z"}

{"log":"level=info ts=2020-04-08T22:15:44.656Z caller=queue_manager.go:229 component=queue_manager msg=\"Remote storage stopped.\"\n","stream":"stderr","time":"2020-04-08T22:15:44.656798666Z"}

{"log":"level=error ts=2020-04-08T22:15:44.663Z caller=main.go:603 err=\"corruption after 29032448 bytes: unexpected non-zero byte in padded page\"\n","stream":"stderr","time":"2020-04-08T22:15:44.663707748Z"}

{"log":"level=info ts=2020-04-08T22:15:44.663Z caller=main.go:605 msg=\"See you next time!\"\n","stream":"stderr","time":"2020-04-08T22:15:44.664000941Z"}

Recupero dall'errore di Cloud Monitoring

Per recuperare manualmente Cloud Monitoring:

  1. Arresta il monitoraggio del cluster. Riduci l'operatore stackdriver per evitare la riconciliazione del monitoraggio:

    kubectl --kubeconfig /ADMIN_CLUSTER_KUBCONFIG --namespace kube-system scale deployment stackdriver-operator --replicas 0

  2. Elimina i carichi di lavoro della pipeline di monitoraggio:

    kubectl --kubeconfig /ADMIN_CLUSTER_KUBCONFIG --namespace kube-system delete statefulset stackdriver-prometheus-k8s

  3. Elimina gli oggetti PersistentVolumeClaim (PVC) della pipeline di monitoraggio:

    kubectl --kubeconfig /ADMIN_CLUSTER_KUBCONFIG --namespace kube-system delete pvc -l app=stackdriver-prometheus-k8s

  4. Riavvia il monitoraggio del cluster. Esegui l'upgrade dell'operatore Stackdriver per reinstallare una nuova pipeline di monitoraggio e riprendere la riconciliazione:

    kubectl --kubeconfig /ADMIN_CLUSTER_KUBCONFIG --namespace kube-system scale deployment stackdriver-operator --replicas=1