Risoluzione dei problemi relativi alle metriche di sistema


Questa pagina mostra come risolvere i problemi relativi alle metriche di sistema sul tuo di Google Kubernetes Engine (GKE).

Se hai bisogno di ulteriore assistenza, contatta Assistenza clienti Google Cloud.

Verifica che l'agente delle metriche abbia memoria sufficiente

Nella maggior parte dei casi, l'allocazione predefinita delle risorse l'agente delle metriche è sufficiente. Tuttavia, se il DaemonSet si arresta ripetutamente in modo anomalo, può verificare il motivo della chiusura seguendo queste istruzioni:

  1. Ottieni i nomi dei pod dell'agente delle metriche GKE:

    kubectl get pods -n kube-system -l component=gke-metrics-agent
    

    Trova il pod con lo stato CrashLoopBackOff.

    L'output è simile al seguente:

    NAME                    READY STATUS           RESTARTS AGE
    gke-metrics-agent-5857x 0/1   CrashLoopBackOff 6        12m
    
  2. Descrivi il pod con lo stato CrashLoopBackOff:

    kubectl describe pod POD_NAME -n kube-system
    

    Sostituisci POD_NAME con il nome del pod nel passaggio precedente.

    Se il motivo dell'arresto del pod è OOMKilled, l'agente deve memoria aggiuntiva.

    L'output è simile al seguente:

      containerStatuses:
      ...
      lastState:
        terminated:
          ...
          exitCode: 1
          finishedAt: "2021-11-22T23:36:32Z"
          reason: OOMKilled
          startedAt: "2021-11-22T23:35:54Z"
    
  3. Aggiungi un'etichetta al nodo con l'agente delle metriche con errori. Puoi utilizza un'etichetta di nodo permanente o temporanea. Ti consigliamo di aggiungere altri 20 MB. Se l'agente continua ad arrestarsi in modo anomalo, puoi eseguire questo comando di nuovo, sostituendo l'etichetta del nodo con una che richiede una quantità maggiore memoria aggiuntiva.

    Per aggiornare un pool di nodi con un'etichetta permanente, esegui questo comando:

    gcloud container node-pools update NODEPOOL_NAME \
        --cluster=CLUSTER_NAME \
        --node-labels=ADDITIONAL_MEMORY_NODE_LABEL \
        --location=COMPUTE_LOCATION
    

    Sostituisci quanto segue:

    • NODEPOOL_NAME: il nome del pool di nodi.
    • CLUSTER_NAME: il nome del cluster esistente.
    • ADDITIONAL_MEMORY_NODE_LABEL: uno degli altri le etichette dei nodi di memoria, utilizza una delle seguenti opzioni:
      • Per aggiungere 10 MB: cloud.google.com/gke-metrics-agent-scaling-level=10
      • Per aggiungere 20 MB: cloud.google.com/gke-metrics-agent-scaling-level=20
      • Per aggiungere 50 MB: cloud.google.com/gke-metrics-agent-scaling-level=50
      • Per aggiungere 100 MB: cloud.google.com/gke-metrics-agent-scaling-level=100
      • Per aggiungere 200 MB: cloud.google.com/gke-metrics-agent-scaling-level=200
      • Per aggiungere 500 MB: cloud.google.com/gke-metrics-agent-scaling-level=500
    • COMPUTE_LOCATION: il valore Località di Compute Engine nel cluster.

    In alternativa, puoi aggiungere un'etichetta del nodo temporanea che vengono mantenuti dopo un upgrade utilizzando il seguente comando:

    kubectl label node/NODE_NAME \
    ADDITIONAL_MEMORY_NODE_LABEL --overwrite
    

    Sostituisci quanto segue:

    • NODE_NAME: il nome del nodo dell'oggetto dell'agente delle metriche.
    • ADDITIONAL_MEMORY_NODE_LABEL: uno degli altri le etichette dei nodi di memoria, utilizza uno dei valori della precedente esempio.

Passaggi successivi

Se hai bisogno di ulteriore assistenza, contatta Assistenza clienti Google Cloud.