このページでは、GKE on AWS の既知の問題と、その影響を軽減するための手順について説明します。
さらにサポートが必要な場合は、Cloud カスタマーケアにお問い合わせください。オペレーション
クラスタ オートスケーラーが誤ってゼロノードからスケールアップする
この問題の影響を受けるバージョンは次のとおりです。
- 1.27 より前のすべてのバージョン
- 1.27.0-gke.0 から 1.27.12-gke.800 より前までの 1.27 のバージョン
- 1.28.0-gke.0 から 1.28.8-gke.800 より前までの 1.28 のバージョン
カスタムラベルまたは taint を持つノードプールのノードが 0 からスケールアップしても、クラスタ オートスケーラーが正しくスケールアップされません。
この問題は、AWS クラスタ オートスケーラーの GKE が、ノードプールのプロビジョニング中に、対応するノードプールの自動スケーリング グループにノードプールのラベルと taint タグを構成しなかったために発生します。ノードが 0 個のノードプールの場合、タグがないため、クラスタ オートスケーラーはノード テンプレートを正しく作成できません。これにより、Pod が適切なノードにスケジュールされない、不要なノードがプロビジョニングされる、などのスケーリング エラーが発生する可能性があります。詳細については、自動検出の設定をご覧ください。
ネットワーキング
conntrack テーブル挿入エラーによるアプリケーション タイムアウト
この問題の影響を受けるバージョンは次のとおりです。
- 1.23.8-gke.1700 以降の 1.23 のすべてのバージョン。
- 1.24.0-gke.0 以降の 1.24 のすべてのバージョン。
- 1.25.0-gke.0 から 1.25.10-gke.1200 より前までの 1.25 のバージョン。
- 1.26.0-gke.0 から 1.26.4-gke.2200 より前までのバージョン。
カーネル 5.15 以降を使用する Ubuntu OS で実行されているクラスタは、netfilter 接続トラッキング(conntrack)テーブルの挿入エラーの影響を受けやすくなります。conntrack テーブルに新しいエントリの余地があっても、挿入エラーが発生する可能性があります。このエラーは、チェーン長に基づいてテーブルの挿入を制限するカーネル 5.15 以降の変更が原因で発生しています。
この問題の影響を受けるかどうかを確認するには、次のコマンドでカーネル内の接続トラッキング システムの統計情報を確認します。
sudo conntrack -S
レスポンスは次のようになります。
cpu=0 found=0 invalid=4 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=1 found=0 invalid=0 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=2 found=0 invalid=16 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=3 found=0 invalid=13 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=4 found=0 invalid=9 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=5 found=0 invalid=1 insert=0 insert_failed=0 drop=0 early_drop=0
error=519 search_restart=0 clash_resolve=126 chaintoolong=0
レスポンスの chaintoolong
値がゼロ以外の値の場合、この問題の影響を受けています。
解決策
バージョン 1.26.2-gke.1001 を実行している場合は、バージョン 1.26.4-gke.2200 以降にアップグレードします。
ユーザビリティ
UI での到達不能クラスタ検出のエラー
この問題の影響を受けるバージョンは 1.25.5-gke.1500 と 1.25.4-gke.1300 です。
Google Cloud コンソールの一部の UI サーフェスでクラスタの認証ができず、クラスタが到達不能と表示されることがあります。
解決策
クラスタを、利用可能なバージョン 1.25 の最新のパッチにアップグレードします。この問題はバージョン 1.25.5-gke.2000
で修正されました。
API エラー
Kubernetes 1.22 では、一部の API が非推奨になり、置き換えられています。クラスタをバージョン 1.22 以降にアップグレードした場合、非推奨 API のいずれかに対するアプリケーションからの呼び出しはすべて失敗します。
解決策
アプリケーションをアップグレードして、非推奨の API 呼び出しを新しいものに置き換えます。