Pemecahan masalah metrik sistem


Halaman ini menunjukkan cara menyelesaikan masalah terkait metrik sistem di Cluster Google Kubernetes Engine (GKE).

Jika Anda memerlukan bantuan tambahan, hubungi Cloud Customer Care.

Memastikan bahwa agen metrik memiliki memori yang cukup

Dalam kebanyakan kasus, alokasi default resource ke GKE metrik ini sudah cukup. Namun, jika DaemonSet {i>crash<i} berulang kali, Anda dapat memeriksa alasan penghentian dengan petunjuk berikut:

  1. Mendapatkan nama Pod agen metrik GKE:

    kubectl get pods -n kube-system -l component=gke-metrics-agent
    

    Temukan Pod dengan status CrashLoopBackOff.

    Outputnya mirip dengan hal berikut ini:

    NAME                    READY STATUS           RESTARTS AGE
    gke-metrics-agent-5857x 0/1   CrashLoopBackOff 6        12m
    
  2. Jelaskan Pod yang memiliki status CrashLoopBackOff:

    kubectl describe pod POD_NAME -n kube-system
    

    Ganti POD_NAME dengan nama Pod dari langkah sebelumnya.

    Jika alasan penghentian Pod adalah OOMKilled, agen harus memiliki memori tambahan.

    Outputnya mirip dengan hal berikut ini:

      containerStatuses:
      ...
      lastState:
        terminated:
          ...
          exitCode: 1
          finishedAt: "2021-11-22T23:36:32Z"
          reason: OOMKilled
          startedAt: "2021-11-22T23:35:54Z"
    
  3. Tambahkan label node ke node dengan agen metrik yang gagal. Anda dapat gunakan label {i>node<i} persisten atau sementara. Sebaiknya Anda mencoba menambahkan tambahan sebesar 20 MB. Jika agen terus mengalami error, Anda dapat menjalankan perintah ini sekali lagi, mengganti label {i>node<i} dengan label yang meminta jumlah memiliki memori tambahan.

    Untuk memperbarui kumpulan node dengan label persisten, jalankan perintah berikut:

    gcloud container node-pools update NODEPOOL_NAME \
        --cluster=CLUSTER_NAME \
        --node-labels=ADDITIONAL_MEMORY_NODE_LABEL \
        --location=COMPUTE_LOCATION
    

    Ganti kode berikut:

    • NODEPOOL_NAME: nama node pool.
    • CLUSTER_NAME: nama cluster yang ada.
    • ADDITIONAL_MEMORY_NODE_LABEL: salah satu fitur tambahan label {i>memory node<i}; gunakan salah satu dari berikut ini:
      • Untuk menambahkan 10 MB: cloud.google.com/gke-metrics-agent-scaling-level=10
      • Untuk menambahkan 20 MB: cloud.google.com/gke-metrics-agent-scaling-level=20
      • Untuk menambahkan 50 MB: cloud.google.com/gke-metrics-agent-scaling-level=50
      • Untuk menambahkan 100 MB: cloud.google.com/gke-metrics-agent-scaling-level=100
      • Untuk menambahkan 200 MB: cloud.google.com/gke-metrics-agent-scaling-level=200
      • Untuk menambahkan 500 MB: cloud.google.com/gke-metrics-agent-scaling-level=500
    • COMPUTE_LOCATION: Lokasi Compute Engine dari cluster tersebut.

    Atau, Anda dapat menambahkan label {i>node<i} sementara yang tidak akan tetap ada setelah upgrade menggunakan perintah berikut:

    kubectl label node/NODE_NAME \
    ADDITIONAL_MEMORY_NODE_LABEL --overwrite
    

    Ganti kode berikut:

    • NODE_NAME: nama node yang terpengaruh agen metrik.
    • ADDITIONAL_MEMORY_NODE_LABEL: salah satu fitur tambahan label {i>memory node<i}; gunakan salah satu nilai dari contoh.

Langkah selanjutnya

Jika Anda memerlukan bantuan tambahan, hubungi Cloud Customer Care.