セキュリティ & アイデンティティ

Google Kubernetes Engine にセキュリティパッチを適用する際のお客様の課題を解決する方法

2023年6月6日

Google Cloud Japan Team

※この投稿は米国時間 2023 年 5 月 12 日に、Google Cloud blog に投稿されたものの抄訳です。

編集者注: このブログ投稿は、2023 年 4 月版 Threat Horizons レポートから編集されたものです。

クラウドのお客様は、提供される可用性、柔軟性、セキュリティの観点から、Kubernetes クラスタでコンピューティングワークロードを実行することが増えています。他の IT アセットと同様に、これらのクラスタもその機能を最新に保ち、セキュリティやバグの修正をインストールするために定期的にパッチを適用する必要があります。2021 年から 2022 年にかけて収集されたデータを確認したところ、Google Kubernetes Engine（GKE）のお客様でクラスタへのセキュリティパッチの適用が遅れる場合のあることが判明しました。適用を遅らせる主な原因は、パッチ適用によって本番環境のオペレーションが誤って中断されるのではないかという懸念です。セキュリティパッチの適用を遅らせることは、短期的には最も効果的な解決策に見えるかもしれませんが、そうすることで組織が直面するリスクを増大させる可能性があります。

GKE のお客様は、以下の方法でワークロードの可用性を維持し、セキュリティパッチを最新の状態に保つことができます。

Kubernetes 環境の構成とオーケストレーションにより、ビジネスの継続性を維持しながらパッチの適用を加速させる
ビジネスのニーズに合わせて、適切なメンテナンスの時間枠とメンテナンスの除外枠を指定する
通知サービスやスキャンサービスを利用して脆弱性を発見し、セキュリティパッチのインストールを計画する

GKE のお客様は、Kubernetes クラスタの可用性とセキュリティパッチのトレードオフを懸念しています。お客様のワークロードは、ブラックフライデーや大晦日のような重要な本番環境の時間枠に実行する必要があります。セキュリティパッチを適用すると、パッチ適用中にシステムがダウンしたり、さらにはパッチ適用後にサービスが停止したりする可能性があるため、可用性に影響を与える場合があります。たとえば、パッチによって IT 環境全体に誤って新しいバグが発生してしまう可能性があります。

お客様との対話から、セキュリティと可用性のバランスを取るにあたり、セキュリティパッチの適用を長引かせたり遅らせたりした主な理由が明らかとなりました（これらの懸念に対する解決策の提案は、この投稿の最下部に記載されています）。

お客様のアプリケーションで、セッションやその他同様のメカニズムを介して「状態」を維持する必要がある場合、予期せぬパッチ適用によってその状態が損なわれることが懸念されています。これは、固定されたセッションを含むノードホスト型ロードバランサやウェブサーバーをリサイクルする際に発生する可能性があり、そのアプリケーションの実行に影響が及ぶ恐れがあります（この問題はこの投稿の下部で説明されているように、Pod Disruption Budget と Termination Grace Policy で対処できます）。
バッチや AI / ML アプリケーションを実行する他のお客様の場合も、「状態」を維持する必要があるケースと同様です。パッチ適用中に未完成のワークロードが再起動する可能性があるため、ML の「トレーニング」のような作業がパッチ適用によって中断されることが懸念されていました。しかし、このようなクライアントの場合、パッチを適用すること自体ではなく、中断させないことが目的です。クラスタノード（お客様がワークロードを実行する Kubernetes クラスタを構成する仮想マシンなど）が中断することなく終了できる場合、パッチを適用することなく終了させることができます。これらのワークロードは、実質的には「1 回限り」のジョブです（このようなワークロードのパッチ適用に関する懸念は、この投稿の後半で紹介するメンテナンス除外構成によって軽減できます）。
アップグレードによって API に予期せぬ変更をもたらし、アプリケーションの機能が損なわれる可能性があることを懸念したために、セキュリティアップグレードを遅らせたケースもありました。しかし、マイナーバージョン（Kubernetes クラスタ全体の運用環境のバージョン）内でセキュリティアップグレードが発生する際に API は変化しません。アップデートは、現在のマイナーバージョンのみをアップグレードし、より新しいマイナーバージョンにはアップグレードしないように構成できます（アップデートの範囲を制御できるなど）。しかし、この構成オプションは、必ずしもお客様に認知されているわけではありませんでした。
非常に大規模なノードフリートを持つお客様にとっては、パッチ適用に時間がかかり、脆弱なセキュリティ体制の状態が長くなってしまう可能性があります。デフォルトの GKE ノードのパッチ適用メソッドはサージアップグレードで、デフォルトのノードアップデートパラメータである maxSurge は 1 に設定されています。このパラメータを変更することでパッチ適用を高速化できますが、デフォルトの値では、一度に 1 ノードしか更新できないため、パッチ適用のプロセスが長くなります。その結果、環境が脆弱なノードで実行される期間が長くなります。

しかし、セキュリティパッチの適用を長引かせたり遅らせたりすることは、それ自体に課題があります。古い GKE パッチリリースで実行されるクラスタは、新しいパッチリリースで実行されるクラスタと比較して、2 倍、3 倍、またはそれ以上のオープン CVE を有していました。実質的に、管理されていないリスクは時間の経過とともに蓄積されます。

Google は、2022 年 10 月までの 1 年間分のノードパッチ適用データを調べました。この期間、お客様は複数の GKE マイナーバージョンとさまざまな Container-Optimized オペレーティングシステム（COS、マイナーバージョン内でデプロイされる実際の OS イメージ）を実行していました。この時期の GKE マイナーバージョンの一つである 1.20 とそれ以降のマイナーバージョンの一つである 1.22 における COS の中程度と高程度の CVE の相対数を図 1 と図 2 に示します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Figure_1_ifuuWrB.max-1300x1300.max-1300x1300.png

図 1: 各 1.20 自動アップグレードリリースの COS での CVE、最も古い 1.20 自動アップグレードリリース（2021 年 10 月 15 日以降）の COS での CVE の割合

https://storage.googleapis.com/gweb-cloudblog-publish/images/Figure_2_zXWe2uf.max-1300x1300.max-1300x1300.png

図 2: 各 1.22 自動アップグレードリリースの COS での CVE、最も古い 1.22 自動アップグレードリリース（2022 年 2 月 3 日以降）の COS での CVE の割合

このグラフは、「自動アップグレード」プロセスを使用した場合の時間の経過に合わせたパッチのライフサイクルを示すもので、その間、Google は定期的に同じマイナーバージョン内のお客様のクラスタにパッチを自動的にデプロイします。グラフは、相対的な CVE の割合、つまり、ある自動アップグレードリリースの CVE 数を、同じマイナーバージョンの最初の自動アップグレードリリースの CVE 数と比較したものです。ご覧のように、より最新のリリースのクラスタにパッチが適用され、より最新のリリースで見つかる CVE が少なくなるにつれて、その割合は一般的に 2 倍、3 倍、またはそれ以上の倍率で減少しています。

次の提案は、お客様が可用性とセキュリティパッチの適用をより統一された方法で実現する方法を説明するものです。

GKE における可用性とセキュリティパッチ適用のバランスをとるためのソリューション

クラスタがリリースチャンネルにあることを確認します。これは、Google が管理するロールアウトのポリシーで、お客様は適切な関連アップグレードのパスを選択できます。また、このチャンネルは、Kubernetes の新機能、セキュリティ、バグの修正を使用してお客様のクラスタを自動的に維持します。Google Cloud は、3 つのリリースチャンネル（Rapid、Regular、Stable）のうち、セキュリティパッチのスピードと可用性の有用なバランスを提供する Regular チャンネルを推奨しています。どちらにしても、セキュリティに関する修正は 3 つのチャンネルで適時自動的に公開され、パッチが適用されます。
適時行われる適切な期間のメンテナンスの時間枠（環境のアップグレードが許可される時間帯を指定）を使用し、本番環境処理が許可されたときにノードにパッチが適用されるようにします（しかし、大規模なクラスタでは、メンテナンスの時間枠が短いと、1 サイクルでパッチの適用を完全に完了させるには不十分な場合があります）。
メンテナンス除外ウィンドウ（MEW、環境のアップグレードが禁止される時間帯を指定）を使用し、中断できない作業期間にパッチの適用が行われないようにします。除外する時間枠だけでなく、範囲も指定できます。たとえば、特定のマイナーバージョンの更新は続けても、より新しいマイナーバージョンへの移行（たとえば、API の機能が変更される可能性がある移行）は、MEW を使用して除外できます。
デフォルトのノードプールのパッチ適用方法は、従来と同様にサージアップグレードです。非常に大規模なクラスタでサージアップグレードを使用する場合、maxSurge パラメータをデフォルトの 1 より増やすことを検討してください。1 つ以上のノードに同時にパッチが適用されるため、ノードフリートへのパッチ適用を高速化できます。デプロイされるアプリケーションがパッチ適用中の停止にも対応できる場合は、maxUnavailable パラメータをデフォルトの 0 より大きくしてください。これにより、本番環境ノードの一部がダウンする可能性がありますが、これは定義上許容されるべきことで、パッチ適用完了までの時間を短縮します。
ステートフルおよび類似のワークロードの場合、Pod Disruption Budget（PDB）を設定します。Pod は、ノード内で実行されるワークロードのサブタスクです。適切な PDB を設定することで、セッションベースのアプリケーションや同様のアプリケーションで、パッチ適用中も予算で指定された「利用可能な最小数の」Pod を引き続き実行できます。必要な場合は終了猶予期間を長くして、パッチ適用プロセスの間に Pod がシャットダウンされる際、必要に応じてワークロードタスクを正常にシャットダウンするための十分な時間を割り当てられることができます（デフォルトは 30 秒です）。
本番環境ワークロードの可用性をさらに高めるには、お客様は GKE 環境を作成する際にゾーンクラスタではなく、リージョンクラスタを設定する必要があります。ゾーンクラスタのパッチ適用中は Kubernetes API にアクセスできなくなり、Kubernetes に依存している本番環境アプリケーションに影響を与える可能性があります。しかし、リージョンクラスタにはこのような制限はありません。ゾーンクラスタには、Kubernetes クラスタを管理するソフトウェアインフラストラクチャであるコントロールプレーンが 1 つだけあります。

ゾーンクラスタへのパッチ適用中は、API のマネージャー（コントロールプレーン）が使用できないため、Kubernetes API は使用できません。一方、リージョンクラスタは、コントロールプレーンの冗長性が 3 つあり、パッチが適用されると、1 つのコントロールプレーンは利用できなくなりますが、他のコントロールプレーンが利用可能になります。利用可能なコントロールプレーンは、他の機能に加えて、Kubernetes API のオペレーションを維持します。
現在パブリックプレビュー中のセキュリティ対策ダッシュボード（SPD）を使用して、クラスタ内のさまざまなセキュリティ上の懸念を見つけることができます。SPD により、ワークロードの構成ミスやノードで使用されている OS イメージの CVE を探す脆弱性スキャンを開始し、その結果はダッシュボードで提供されます。追加のレポート機能として、脆弱性スキャンの結果も Cloud Logging に提供されます。
さまざまな通知サービスを活用することで、クラスタに関するセキュリティ意識をさらに高めることができます。サポートの終了に関する分析情報と推奨事項を確認して、環境内で変更を軽減する方法の提案を含め、将来的にどの API やその他の GKE 機能が変更されるかを判別することもできます。GKE Pub/Sub に登録すると、実行中の特定のクラスタバージョンに合わせたセキュリティに関する公開情報およびパッチリリース情報を受け取れます。どちらの通知も、プランニングやチェンジマネジメントの目的に使用できます。