GKE on AWS の既知の問題

このページでは、GKE on AWS の既知の問題と、その影響を軽減するための手順について説明します。

さらにサポートが必要な場合は、Cloud カスタマーケアにお問い合わせください。

オペレーション

クラスタ オートスケーラーが誤ってゼロノードからスケールアップする

この問題の影響を受けるバージョンは次のとおりです。

  • 1.27 より前のすべてのバージョン
  • 1.27.0-gke.0 から 1.27.12-gke.800 より前までの 1.27 のバージョン
  • 1.28.0-gke.0 から 1.28.8-gke.800 より前までの 1.28 のバージョン

カスタムラベルまたは taint を持つノードプールのノードが 0 からスケールアップしても、クラスタ オートスケーラーが正しくスケールアップされません。

この問題は、AWS クラスタ オートスケーラーの GKE が、ノードプールのプロビジョニング中に、対応するノードプールの自動スケーリング グループにノードプールのラベルと taint タグを構成しなかったために発生します。ノードが 0 個のノードプールの場合、タグがないため、クラスタ オートスケーラーはノード テンプレートを正しく作成できません。これにより、Pod が適切なノードにスケジュールされない、不要なノードがプロビジョニングされる、などのスケーリング エラーが発生する可能性があります。詳細については、自動検出の設定をご覧ください。

ネットワーキング

conntrack テーブル挿入エラーによるアプリケーション タイムアウト

この問題の影響を受けるバージョンは次のとおりです。

  • 1.23.8-gke.1700 以降の 1.23 のすべてのバージョン。
  • 1.24.0-gke.0 以降の 1.24 のすべてのバージョン。
  • 1.25.0-gke.0 から 1.25.10-gke.1200 より前までの 1.25 のバージョン。
  • 1.26.0-gke.0 から 1.26.4-gke.2200 より前までのバージョン。

カーネル 5.15 以降を使用する Ubuntu OS で実行されているクラスタは、netfilter 接続トラッキング(conntrack)テーブルの挿入エラーの影響を受けやすくなります。conntrack テーブルに新しいエントリの余地があっても、挿入エラーが発生する可能性があります。このエラーは、チェーン長に基づいてテーブルの挿入を制限するカーネル 5.15 以降の変更が原因で発生しています。

この問題の影響を受けるかどうかを確認するには、次のコマンドでカーネル内の接続トラッキング システムの統計情報を確認します。

sudo conntrack -S

レスポンスは次のようになります。

cpu=0       found=0 invalid=4 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=1       found=0 invalid=0 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=2       found=0 invalid=16 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=3       found=0 invalid=13 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=4       found=0 invalid=9 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=5       found=0 invalid=1 insert=0 insert_failed=0 drop=0 early_drop=0
error=519 search_restart=0 clash_resolve=126 chaintoolong=0

レスポンスの chaintoolong 値がゼロ以外の値の場合、この問題の影響を受けています。

解決策

バージョン 1.26.2-gke.1001 を実行している場合は、バージョン 1.26.4-gke.2200 以降にアップグレードします。

ユーザビリティ

UI での到達不能クラスタ検出のエラー

この問題の影響を受けるバージョンは 1.25.5-gke.1500 と 1.25.4-gke.1300 です。

Google Cloud コンソールの一部の UI サーフェスでクラスタの認証ができず、クラスタが到達不能と表示されることがあります。

解決策

クラスタを、利用可能なバージョン 1.25 の最新のパッチにアップグレードします。この問題はバージョン 1.25.5-gke.2000 で修正されました。

API エラー

Kubernetes 1.22 では、一部の API が非推奨になり、置き換えられています。クラスタをバージョン 1.22 以降にアップグレードした場合、非推奨 API のいずれかに対するアプリケーションからの呼び出しはすべて失敗します。

解決策

アプリケーションをアップグレードして、非推奨の API 呼び出しを新しいものに置き換えます