このページは Cloud Translation API によって翻訳されました。

クラスタオートスケーラーがスケールアップしない問題のトラブルシューティング

Autopilot Standard

Google Kubernetes Engine（GKE）の Pod が Pending 状態のままになり、新しいノードが追加されない場合、クラスタオートスケーラーのスケールアップ機能に問題があることがよくあります。この問題により、アプリケーションが需要を満たすようにスケーリングできなくなり、デプロイが遅延し、サービスの可用性に影響する可能性があります。

このページでは、クラスタオートスケーラーが新しいノードを追加できない一般的な問題を診断して解決する方法について説明します。これらの問題を修正すると、Kubernetes スケジューラがワークロードを迅速に配置し、クラスタが負荷の増加に適応できるようになります。

この情報は、アプリケーションとサービスを確実にスケジュールして実行する必要があるアプリケーションデベロッパーと、ワークロード要件を満たすためにクラスタがリソースを動的にプロビジョニングし、サービスレベルを維持できるようにする責任を負うプラットフォーム管理者とオペレーターにとって重要です。 Google Cloud のコンテンツで使用されている一般的なロールとタスクの例の詳細については、一般的な GKE ユーザーのロールとタスクをご覧ください。

クラスタオートスケーラーがノードをスケールアップするタイミングを理解する

トラブルシューティングの手順に進む前に、クラスタオートスケーラーがノードのスケールアップを試みるタイミングを理解しておくと役に立ちます。クラスタオートスケーラーは、既存のリソースが不足している場合にのみノードを追加します。

クラスタオートスケーラーは 10 秒ごとに、スケジュールできない Pod があるかどうかを確認します。Pod がスケジュールできなくなるのは、リソースが不足している、ノードに制約がある、または Pod の要件が満たされていないことが原因で、Kubernetes スケジューラが Pod を既存のノードに配置できない場合です。

クラスタオートスケーラーは、スケジュールできない Pod を検出した場合、ノードの追加により Pod がスケジュール可能になるかどうかを評価します。ノードの追加により Pod がスケジュール可能になる場合、クラスタオートスケーラーはマネージドインスタンスグループ（MIG）に新しいノードを追加します。Kubernetes スケジューラは、新しくプロビジョニングされたノードに Pod をスケジュールできるようになります。

スケジュール不可の Pod があるかどうかを確認する

クラスタのスケールアップが必要かどうかを判断するには、スケジュールされていない Pod を確認します。

Google Cloud コンソールで、[ワークロード] ページに移動します。

[ワークロード] に移動
[フィルタ] フィールドに「unschedulable」と入力して、Enter キーを押します。

リストに Pod が表示される場合は、スケジュール不可の Pod があります。スケジュール不可の Pod のトラブルシューティングを行うには、エラー: Pod unschedulable をご覧ください。多くの場合、スケジューリング不可の Pod の根本的な原因を解決すると、クラスタオートスケーラーがスケールアップできるようになります。クラスタオートスケーラーに固有のエラーを特定して解決するには、この後の各セクションをご覧ください。

リストに Pod が表示されない場合、クラスタオートスケーラーはスケールアップする必要がなく、想定どおりに動作しています。

以前にスケジュール不可の Pod があったかどうかを確認する

過去にクラスタオートスケーラーが失敗した原因を調査している場合は、以前にスケジュール不可の Pod があったかどうかを確認します。

Google Cloud コンソールで、[ログエクスプローラ] ページに移動します。

[ログエクスプローラ] に移動
表示するログエントリの期間を指定します。

クエリペインに次のクエリを入力します。

logName="projects/PROJECT_ID/logs/events"
jsonPayload.source.component="default-scheduler"
jsonPayload.reason="FailedScheduling"

PROJECT_ID は、実際のプロジェクト ID に置き換えます。

[クエリを実行] をクリックします。

リストに結果が表示される場合は、指定した期間にスケジュール不可の Pod があります。

問題の原因が制限事項であるかどうかを確認する

スケジュール不可の Pod があることを確認したら、クラスタオートスケーラーの問題がクラスタオートスケーラーの制限によるものではないことを確認します。

エラーを確認する

多くの場合、エラーメッセージからスケールアップの問題の原因を診断できます。

エラーメッセージが表示されている場合は、エラーメッセージの表でエラーの解決に関するアドバイスを確認してください。
メッセージが表示されていない場合は、次のいずれかを行います。
- 72 時間以内の問題: Google Cloud コンソールでエラー通知を確認します。
- 72 時間以上前の問題: Cloud Logging のイベントでエラーを確認します。

通知でエラーを確認する

問題が発生して 72 時間以内であれば、 Google Cloud コンソールでエラーに関する通知を確認します。これらの通知から、クラスタオートスケーラーがスケールアップしなかった理由に関する貴重な分析情報を確認できます。また、エラーを解決する方法や、関連するログを表示して詳細を調査する方法に関するアドバイスも確認できます。

Google Cloud コンソールで通知を表示するには、次の操作を行います。

Google Cloud コンソールで [Kubernetes クラスタ] ページに移動します。

Kubernetes クラスタに移動
[通知] 列を確認します。次の通知は、スケールアップの問題に関連しています。
- Can't scale up
- Can't scale up pods
- Can't scale up a node pool
関連する通知をクリックすると、問題の原因とその解決に推奨される対応方法の詳細が表示されます。
省略可: このイベントのログを表示するには、[ログ] をクリックします。この操作を行うと、ログエクスプローラが開き、スケーリングイベントの詳細な調査に役立つクエリが自動的に設定されます。スケールアップイベントの仕組みの詳細については、クラスタオートスケーラーイベントを表示するをご覧ください。

通知に表示されたアドバイスを試しても問題が解決しない場合は、エラーメッセージの表を参照してください。

イベントでエラーを確認する

検出された問題が 72 時間以上前に発生している場合は、Cloud Logging でイベントを表示します。多くの場合、発生したエラーはイベントに記録されます。

Google Cloud コンソールでクラスタオートスケーラーのログを表示するには、次の操作を行います。

Google Cloud コンソールで [Kubernetes クラスタ] ページに移動します。

Kubernetes クラスタに移動
調査するクラスタの名前を選択して、[クラスタの詳細] ページを表示します。
[クラスタの詳細] ページで、[ログ] タブをクリックします。
[ログ] タブで、[オートスケーラーログ] タブをクリックしてログを表示します。
省略可: 高度なフィルタを適用して結果を絞り込むには、ページの右側にある矢印のボタンをクリックして、ログエクスプローラでログを表示します。

スケールアップイベントの詳細については、クラスタオートスケーラーイベントを表示するをご覧ください。Cloud Logging の使用方法の例については、次のトラブルシューティングの例をご覧ください。

例: 72 時間以上経過した問題のトラブルシューティング

次の例は、クラスタがスケールアップされない問題を調査して解決する方法を示しています。

シナリオ: 過去 1 時間、Pod がスケジュール不可としてマークされています。クラスタオートスケーラーは、Pod をスケジュールする新しいノードをプロビジョニングしませんでした。

解決策:

問題が発生してから 72 時間以上経過しているため、通知メッセージを確認するのではなく、Cloud Logging を使用して問題を調査します。
Cloud Logging で、イベントのエラーを表示するの説明に従って、クラスタオートスケーラーイベントのロギングの詳細を確認します。
調査対象の Pod を含む scaleUp イベントを triggeringPods フィールドで検索します。特定の JSON フィールド値によるフィルタリングなど、ログエントリをフィルタリングできます。詳細については、高度なログクエリをご覧ください。
スケールアップイベントが見つかりません。見つかった場合は、scaleUp イベントと同じ eventId を含む EventResult を探してみてください。その後、errorMsg フィールドで、有効な scaleUp エラーメッセージ一覧を調べます。
scaleUp イベントは見つからなかったため、引き続き noScaleUp イベントを検索し、次のフィールドを確認します。
- unhandledPodGroups: Pod（または Pod のコントローラ）に関する情報が含まれます。
- reason: スケールアップがブロックされる可能性があることを示す代表的な理由を示します。
- skippedMigs: 一部の MIG がスキップされる可能性がある理由を示します。
Pod の noScaleUp イベントがあります。また、rejectedMigs フィールド内のすべての MIG について、理由メッセージ ID が "no.scale.up.mig.failing.predicate" であり、"NodeAffinity" と "node(s) did not match node selector" の 2 つのパラメータがあります。

解決策:

エラーメッセージ一覧を調べたところ、保留中の Pod のスケジューリングの述語が失敗したため、クラスタオートスケーラーがノードプールをスケールアップできないことがわかりました。パラメータは、失敗した述語の名前と失敗した理由です。

この問題を解決するには、Pod のマニフェストを調べ、クラスタ内の MIG と一致しないノードセレクタが Pod のマニフェストに含まれていることを確認します。Pod のマニフェストからこのセレクタを削除し、Pod を再作成します。クラスタオートスケーラーが新しいノードを追加し、Pod がスケジュールされます。

スケールアップエラーを解決する

エラーを特定したら、次の表を使用して、エラーの原因と解決方法を確認します。

ScaleUp エラー

scaleUp イベントのイベントエラーメッセージは、対応する eventResult イベントの resultInfo.results[].errorMsg フィールドにあります。

割り当て上限を超えたためにスケールアップオペレーションが失敗すると、ノード作成エラーが発生し、システムバックオフ期間がトリガーされます。この期間は最大 30 分間続くことがあります。詳細については、バックオフ期間をご覧ください。

メッセージ	詳細	パラメータ	緩和策
`"scale.up.error.out.of.resources"`	リソースエラーは、GPU や CPU などの Compute Engine リソースが現在利用できないことが原因でリクエストに対応できないゾーンで、新しいリソースをリクエストしようとした場合に発生します。	失敗した MIG ID。	Compute Engine ドキュメントのリソースの可用性に関するトラブルシューティング手順に沿って対応します。
`"scale.up.error.quota.exceeded"`	Compute Engine の割り当て超過で MIG の一部を増やすことができなかったため、scaleUp イベントが失敗しました。	失敗した MIG ID。	Google Cloud コンソールで MIG の [エラー] タブをチェックして、超過している割り当てを確認します。どの割り当てが超過しているかを確認したら、手順に沿って割り当ての増加をリクエストします。
`"scale.up.error.waiting.for.instances.timeout"`	タイムアウトにより、マネージドインスタンスグループのスケールアップに失敗しました。	失敗した MIG ID。	このメッセージは一時的なものです。問題が解決しない場合は、Cloud カスタマーケアにお問い合わせのうえ、さらに調査を依頼してください。
`"scale.up.error.ip.space.exhausted"`	一部のマネージドインスタンスグループ内のインスタンスが IP 不足になったため、スケールアップできませんつまり、新しいノードや Pod の追加に使用する未割り振りの IP アドレス空間がクラスタに不足しています。	失敗した MIG ID。	Pod の空き IP アドレス空間が不足しているのトラブルシューティング手順に沿って対応します。
`"scale.up.error.service.account.deleted"`	サービスアカウントが削除されたため、スケールアップできません。	失敗した MIG ID。	サービスアカウントの削除を取り消すことを試みます。この手順で問題が解決しない場合は、Cloud カスタマーケアにお問い合わせのうえ、さらに調査を依頼してください。

noScaleUp イベントが発生する理由

noScaleUp イベントは、クラスタ内にスケジュール不可の Pod があり、クラスタオートスケーラーが Pod に対応するようにクラスタをスケジュールできない場合に定期的に生成されます。noScaleUp イベントはベストエフォート型であり、考えられるすべてのケースに対応しているわけではありません。

NoScaleUp の最上位の理由

noScaleUp イベントの最上位の理由メッセージが noDecisionStatus.noScaleUp.reason フィールドに表示されます。このメッセージには、クラスタオートスケーラーがクラスタをスケールアップできない最上位の理由が含まれています。

メッセージ	詳細	緩和策
`"no.scale.up.in.backoff"`	スケールアップがバックオフ期間中（一時的にブロック中）であるため、スケールアップされません。これは、多数の Pod のスケールアップイベント中に発生する可能性のあるメッセージです。	このメッセージは一時的なものです。数分後にこのエラーを確認します。このメッセージが続く場合は、Cloud カスタマーケアにお問い合わせのうえ、さらに調査を依頼してください。

NoScaleUp のノード自動プロビジョニングの最上位の理由

noScaleUp イベントに関するノードの自動プロビジョニングの最上位の理由メッセージが noDecisionStatus.noScaleUp.napFailureReason フィールドに表示されます。このメッセージには、クラスタオートスケーラーが新しいノードプールをプロビジョニングできない最上位の理由が含まれています。

メッセージ詳細緩和策

メッセージ	詳細	緩和策
`"no.scale.up.nap.disabled"`	ノードの自動プロビジョニングがクラスタレベルで有効になっていないため、ノードの自動プロビジョニングをスケールアップできませんでした。ノード自動プロビジョニングが無効になっている場合、保留中の Pod に既存のノードプールによって満たすことができない要件があると、新しいノードは自動的にプロビジョニングされません。	クラスタ構成を確認し、ノード自動プロビジョニングの有効化を検討してください。

"no.scale.up.nap.disabled"

ノードの自動プロビジョニングがクラスタレベルで有効になっていないため、ノードの自動プロビジョニングをスケールアップできませんでした。

ノード自動プロビジョニングが無効になっている場合、保留中の Pod に既存のノードプールによって満たすことができない要件があると、新しいノードは自動的にプロビジョニングされません。

クラスタ構成を確認し、ノード自動プロビジョニングの有効化を検討してください。

NoScaleUp の MIG レベルの理由

noScaleUp イベントに関する MIG レベルの理由メッセージが noDecisionStatus.noScaleUp.skippedMigs[].reason フィールドと noDecisionStatus.noScaleUp.unhandledPodGroups[].rejectedMigs[].reason フィールドに表示されます。このメッセージには、クラスタオートスケーラーが特定の MIG のサイズを増やすことができない理由が含まれています。

メッセージ	詳細	パラメータ	緩和策
`"no.scale.up.mig.skipped"`	シミュレーション中に MIG がスキップされたため、MIG をスケールアップできません。	MIG がスキップされた理由（Pod 要件がないなど）。	エラーメッセージに含まれるパラメータを確認し、MIG がスキップされた理由に対応します。
`"no.scale.up.mig.failing.predicate"`	保留中の Pod のスケジューリングの述語に問題があるため、ノードプールをスケールアップできません。	失敗した述語の名前と失敗した理由。	アフィニティルール、taint、toleration、リソース要件などの Pod の要件を確認します

NoScaleUp のノード自動プロビジョニングの Pod グループレベルの理由

noScaleUp イベントに関するノード自動プロビジョニングの Pod グループレベルの理由に関するメッセージが noDecisionStatus.noScaleUp.unhandledPodGroups[].napFailureReasons[] フィールドに表示されます。このメッセージには、クラスタオートスケーラーが特定の Pod グループをスケジュールする新しいノードプールをプロビジョニングできない理由が含まれています。

メッセージ	詳細	パラメータ	緩和策
`"no.scale.up.nap.pod.gpu.no.limit.defined"`	保留中の Pod に GPU リクエストがありますが、GPU リソース上限がクラスタレベルで定義されていないため、ノード自動プロビジョニングでノードグループをプロビジョニングできませんでした。	リクエストされた GPU タイプ。	保留中の Pod の GPU リクエストを確認し、クラスタレベルのノード自動プロビジョニングの GPU 制限についての構成を更新します。
`"no.scale.up.nap.pod.gpu.type.not.supported"`	ノード自動プロビジョニングで不明な GPU タイプに対するリクエストがあったため、Pod のノードグループがプロビジョニングされませんでした。	リクエストされた GPU タイプ。	保留中の Pod の構成で GPU タイプを確認し、サポートされている GPU タイプと一致していることを確認します。
`"no.scale.up.nap.pod.zonal.resources.exceeded"`	ノード自動プロビジョニングでこのゾーン内の Pod のノードグループがプロビジョニングされませんでした。これは、プロビジョニングを実施すると、クラスタ全体の最大リソース上限に違反するか、ゾーン内で使用可能なリソースを超過するか、またはリクエストに対応できるマシンタイプがないためです。	対象ゾーンの名前。	クラスタ全体の最大リソース上限、Pod リソースのリクエスト、またはノード自動プロビジョニングに使用できるゾーンを確認して更新します。
`"no.scale.up.nap.pod.zonal.failing.predicates"`	述語が失敗したため、ノード自動プロビジョニングで、このゾーン内の Pod のノードグループがプロビジョニングされませんでした。	対象ゾーンの名前と、述語が失敗した理由。	アフィニティルール、taint、容認機能、リソースの要件など、保留中の Pod の要件を確認します。

詳細な調査を行う

以降のセクションでは、ログエクスプローラと gcpdiag を使用してエラーに関する追加の分析情報を取得する方法について説明します。

ログエクスプローラでエラーを調査する

エラーメッセージをさらに調査する場合は、エラーに固有のログを確認します。

Google Cloud コンソールで、[ログエクスプローラ] ページに移動します。

[ログエクスプローラ] に移動

クエリペインに次のクエリを入力します。

resource.type="k8s_cluster"
log_id("container.googleapis.com/cluster-autoscaler-visibility")
jsonPayload.resultInfo.results.errorMsg.messageId="ERROR_MESSAGE"

ERROR_MESSAGE は、調査するメッセージに置き換えます。例: scale.up.error.out.of.resources

[クエリを実行] をクリックします。

gcpdiag を使用してエラーをデバッグする

gcpdiag は、 Google Cloudテクニカルエンジニアのサポートを受けて作成されたオープンソースツールです。正式にサポートされている Google Cloud プロダクトではありません。

次のいずれかのエラーメッセージが表示された場合は、gcpdiag を使用して問題のトラブルシューティングを行うことができます。

scale.up.error.out.of.resources
scale.up.error.quota.exceeded
scale.up.error.waiting.for.instances.timeout
scale.up.error.ip.space.exhausted
scale.up.error.service.account.deleted

gcpdiag ツールのフラグの一覧と説明については、gcpdiag の使用手順をご覧ください。

複雑なスケールアップエラーを解決する

以降のセクションでは、緩和策に複数のステップが含まれるエラーと、クラスタオートスケーラーイベントメッセージが関連付けられていないエラーを解決する方法について説明します。

問題: Pod がノードに適合しない

クラスタオートスケーラーは、Pod の要件を満たす十分なリソース（GPU、メモリ、ストレージなど）がある場合のみ、ノードに Pod をスケジュールします。これがクラスタオートスケーラーがスケールアップしなかった理由かどうかを判断するには、リソースリクエストと提供されたリソースを比較します。

次の例は CPU リソースを確認する方法を示していますが、GPU、メモリ、ストレージリソースでも手順は同じです。CPU リクエストとプロビジョニングされた CPU を比較する手順は次のとおりです。

Google Cloud コンソールで、[ワークロード] ページに移動します。

[ワークロード] に移動
PodUnschedulable エラーメッセージをクリックします。
[詳細] ペインで、Pod の名前をクリックします。Pod が複数ある場合は、最初の Pod から始めて、各 Pod に対して次のプロセスを繰り返します。
Pod の詳細ページで、[イベント] タブに移動します。
[イベント] タブで [YAML] タブに移動します。
Pod 内の各コンテナのリソースリクエストをメモして、リソースリクエストの合計を確認します。たとえば、次の Pod 構成では、Pod に 2 つの vCPU が必要です。
```
resources:
  limits:
    cpu: "3"
 requests:
    cpu: "2"
```
スケジュール不可の Pod があるクラスタのノードプールの詳細を表示します。
1. Google Cloud コンソールで [Kubernetes クラスタ] ページに移動します。
  
  Kubernetes クラスタに移動
2. Pods unschedulable エラーメッセージが表示されているクラスタの名前をクリックします。
3. [クラスタの詳細] ページで、[ノード] タブに移動します。
[ノードプール] セクションで、[マシンタイプ] 列の値をメモします。例: n1-standard-1
リソースリクエストを、マシンタイプが示す vCPU と比較します。たとえば、Pod がリクエストする vCPU が 2 つであっても、使用可能なノードのマシンタイプが n1-standard-1 の場合、ノードの vCPU は 1 つだけになります。このような構成では、新しいノードが追加されても、この Pod はノードに適合しないため、クラスタオートスケーラーはスケールアップを実行しません。使用可能なマシンタイプの詳細については、Compute Engine ドキュメントのマシンファミリーのリソースと比較ガイドをご覧ください。

また、合計リソースの一部がシステムコンポーネントの実行に必要なため、ノードの割り当て可能なリソースは合計リソースよりも少なくなります。この計算方法の詳細については、ノード割り当て可能リソースをご覧ください。

この問題を解決するには、ワークロードに定義されたリソースリクエストがニーズに合っているかどうかを判断します。マシンタイプを変更しない場合は、Pod からのリクエストをサポートできるマシンタイプを使用してノードプールを作成します。Pod リソースのリクエストが正確でない場合は、Pod がノードに適合するように Pod の定義を更新します。

問題: 異常なクラスタが原因でスケールアップできない

クラスタが異常であると判断された場合、クラスタオートスケーラーはスケールアップを実行しないことがあります。クラスタの異常は、コントロールプレーンの正常性ではなく、正常なノードと準備完了ノードの比率に基づいています。クラスタ内のノードの 45% が異常であるか、準備ができていない場合、クラスタオートスケーラーはすべてのオペレーションを停止します。

これがクラスタオートスケーラーがスケールアップしない理由である場合、クラスタオートスケーラーの ConfigMap に、タイプが Warning で、理由が ClusterUnhealthy のイベントがあります。

ConfigMap を表示するには、次のコマンドを実行します。

kubectl describe configmap cluster-autoscaler-status -n kube-system

この問題を解決するには、異常なノードの数を減らします。

一部のノードは、実際には準備完了であっても、クラスタオートスケーラーでは準備完了と見なされない可能性もあります。これは、接頭辞 ignore-taint.cluster-autoscaler.kubernetes.io/ の taint がノードにある場合に発生します。クラスタオートスケーラーは、その taint が存在する限り、ノードを NotReady と見なします。

ignore-taint.cluster-autoscaler.kubernetes.io/.* taint の存在が原因でこの動作が発生している場合は、この taint を削除します。

次のステップ

Kubernetes クラスタオートスケーラーに関するよくある質問を確認する。
スケーリングの問題のトラブルシューティングと解決に関する YouTube 動画を見る。
このドキュメントに問題のソリューションが見当たらない場合は、サポートを受けるで、次のトピックに関するアドバイスなど、詳細なヘルプをご覧ください。
- Cloud カスタマーケアに問い合わせて、サポートケースを登録する。
- StackOverflow で質問する、google-kubernetes-engine タグを使用して類似の問題を検索するなどして、コミュニティからサポートを受ける。#kubernetes-engine Slack チャネルに参加して、コミュニティサポートを利用することもできます。
- 公開バグトラッカーを使用して、バグの報告や機能リクエストの登録を行う。

クラスタ オートスケーラーがスケールアップしない問題のトラブルシューティング

クラスタ オートスケーラーがノードをスケールアップするタイミングを理解する