このページでは、Google Kubernetes Engine(GKE)クラスタでシステム指標関連の問題を解決する方法について説明します。
さらにサポートが必要な場合は、Cloud カスタマーケアにお問い合わせください。指標エージェントに十分なメモリがあることを確認する
ほとんどの場合、GKE 指標エージェントのリソースはデフォルトの割り当てで十分です。ただし、DaemonSet が頻繁にクラッシュする場合は、次の手順で終了の理由を確認できます。
GKE 指標エージェントの Pod の名前を取得します。
kubectl get pods -n kube-system -l component=gke-metrics-agent
ステータスが
CrashLoopBackOff
の Pod を見つけます。出力は次のようになります。
NAME READY STATUS RESTARTS AGE gke-metrics-agent-5857x 0/1 CrashLoopBackOff 6 12m
ステータスが
CrashLoopBackOff
の Pod の説明を取得します。kubectl describe pod POD_NAME -n kube-system
POD_NAME
は、前の手順の Pod の名前に置き換えます。Pod の終了の理由が
OOMKilled
の場合、エージェントに追加のメモリが必要です。出力は次のようになります。
containerStatuses: ... lastState: terminated: ... exitCode: 1 finishedAt: "2021-11-22T23:36:32Z" reason: OOMKilled startedAt: "2021-11-22T23:35:54Z"
失敗した指標エージェントを含むノードにノードラベルを追加します。永続的または一時的なノードラベルを使用できます。20 MB を追加してみることをおすすめします。それでもエージェントがクラッシュし続ける場合は、より大容量の追加メモリをリクエストするノードラベルに置き換えて、もう一度このコマンドを実行します。
永続ラベルを持つノードプールを更新するには、次のコマンドを実行します。
gcloud container node-pools update NODEPOOL_NAME \ --cluster=CLUSTER_NAME \ --node-labels=ADDITIONAL_MEMORY_NODE_LABEL \ --location=COMPUTE_LOCATION
次のように置き換えます。
NODEPOOL_NAME
: ノードプールの名前。CLUSTER_NAME
: 既存のクラスタの名前。ADDITIONAL_MEMORY_NODE_LABEL
: 追加するメモリのノードラベル。次のいずれかを使用します。- 10 MB を追加するには:
cloud.google.com/gke-metrics-agent-scaling-level=10
- 20 MB を追加するには:
cloud.google.com/gke-metrics-agent-scaling-level=20
- 50 MB を追加するには:
cloud.google.com/gke-metrics-agent-scaling-level=50
- 100 MB を追加するには:
cloud.google.com/gke-metrics-agent-scaling-level=100
- 200 MB を追加するには:
cloud.google.com/gke-metrics-agent-scaling-level=200
- 500 MB を追加するには:
cloud.google.com/gke-metrics-agent-scaling-level=500
- 10 MB を追加するには:
COMPUTE_LOCATION
: クラスタの Compute Engine のロケーション。
または、次のコマンドを使用して、アップグレード後に保持されない一時的なノードラベルを追加することもできます。
kubectl label node/NODE_NAME \ ADDITIONAL_MEMORY_NODE_LABEL --overwrite
次のように置き換えます。
NODE_NAME
: 影響を受ける指標エージェントのノードの名前。ADDITIONAL_MEMORY_NODE_LABEL
: 追加するメモリのノードラベル。上記の例のいずれかの値を使用します。