Pemecahan masalah metrik sistem


Halaman ini menunjukkan cara menyelesaikan masalah terkait metrik sistem pada cluster Google Kubernetes Engine (GKE).

Jika Anda memerlukan bantuan lainnya, hubungi Cloud Customer Care.

Pastikan agen metrik memiliki memori yang cukup

Dalam sebagian besar kasus, alokasi default resource ke agen metrik GKE sudah cukup. Namun, jika DaemonSet mengalami error berulang kali, Anda dapat memeriksa alasan penghentian dengan mengikuti petunjuk berikut:

  1. Dapatkan nama-nama Pod agen metrik GKE:

    kubectl get pods -n kube-system -l component=gke-metrics-agent
    

    Temukan Pod dengan status CrashLoopBackOff.

    Outputnya mirip dengan hal berikut ini:

    NAME                    READY STATUS           RESTARTS AGE
    gke-metrics-agent-5857x 0/1   CrashLoopBackOff 6        12m
    
  2. Jelaskan Pod yang memiliki status CrashLoopBackOff:

    kubectl describe pod POD_NAME -n kube-system
    

    Ganti POD_NAME dengan nama Pod dari langkah sebelumnya.

    Jika alasan penghentian Pod adalah OOMKilled, agen memerlukan memori tambahan.

    Outputnya mirip dengan hal berikut ini:

      containerStatuses:
      ...
      lastState:
        terminated:
          ...
          exitCode: 1
          finishedAt: "2021-11-22T23:36:32Z"
          reason: OOMKilled
          startedAt: "2021-11-22T23:35:54Z"
    
  3. Tambahkan label node ke node dengan agen metrik yang gagal. Anda dapat menggunakan label node persisten atau sementara. Sebaiknya coba tambahkan tambahan 20 MB. Jika agen terus mengalami error, Anda dapat menjalankan perintah ini lagi, yang mengganti label node dengan label yang meminta jumlah memori tambahan yang lebih tinggi.

    Untuk mengupdate kumpulan node dengan label persisten, jalankan perintah berikut:

    gcloud container node-pools update NODEPOOL_NAME \
        --cluster=CLUSTER_NAME \
        --node-labels=ADDITIONAL_MEMORY_NODE_LABEL \
        --location=COMPUTE_LOCATION
    

    Ganti kode berikut:

    • NODEPOOL_NAME: nama node pool.
    • CLUSTER_NAME: nama cluster yang ada.
    • ADDITIONAL_MEMORY_NODE_LABEL: salah satu label node memori tambahan; gunakan salah satu label berikut:
      • Untuk menambahkan 10 MB: cloud.google.com/gke-metrics-agent-scaling-level=10
      • Untuk menambahkan 20 MB: cloud.google.com/gke-metrics-agent-scaling-level=20
      • Untuk menambahkan 50 MB: cloud.google.com/gke-metrics-agent-scaling-level=50
      • Untuk menambahkan 100 MB: cloud.google.com/gke-metrics-agent-scaling-level=100
      • Untuk menambahkan 200 MB: cloud.google.com/gke-metrics-agent-scaling-level=200
      • Untuk menambahkan 500 MB: cloud.google.com/gke-metrics-agent-scaling-level=500
    • COMPUTE_LOCATION: lokasi Compute Engine cluster.

    Atau, Anda dapat menambahkan label node sementara yang tidak akan tetap ada setelah upgrade menggunakan perintah berikut:

    kubectl label node/NODE_NAME \
    ADDITIONAL_MEMORY_NODE_LABEL --overwrite
    

    Ganti kode berikut:

    • NODE_NAME: nama node agen metrik yang terpengaruh.
    • ADDITIONAL_MEMORY_NODE_LABEL: salah satu label node memori tambahan; gunakan salah satu nilai dari contoh sebelumnya.

Langkah selanjutnya

Jika Anda memerlukan bantuan lainnya, hubungi Cloud Customer Care.