GKE: コンテナからエージェントまで、あらゆる最新のワークロードに対応する統合プラットフォーム
Drew Bradstock
Sr. Director of Product Management, Google Kubernetes Engine
※この投稿は米国時間 2025 年 11 月 12 日に、Google Cloud blog に投稿されたものの抄訳です。
クラウド ネイティブ インフラストラクチャのこの 10 年間は、コンテナ化やマイクロサービスから生成 AI の台頭まで、絶え間ない変化によって定義されてきました。あらゆる変化を通じて、Kubernetes は常に安定性を提供し、アプリケーションとインフラストラクチャの両方に対して、均一でスケーラブルな運用モデルを実現しています。
Google Kubernetes Engine(GKE)が 10 周年を迎えるにあたり、Kubernetes との共生関係はこれまで以上に重要になっています。Kubernetes で AI を最大規模で処理する需要が高まる中、Google は Kubernetes のコア機能を強化し、AI と AI 以外の両方のワークロードを向上させるために投資を続けています。今年の KubeCon North America では、以下の包括的な 3 つのアプローチが反映された大きな進展について発表しました。
-
次世代のワークロード向けに Kubernetes OSS のコアを強化 - これには、セキュリティ、ガバナンス、分離のための新しい Kubernetes ネイティブの AgentSandbox API を使用して、エージェントの波にプロアクティブに対応することが含まれます。また最近では、Inference Gateway API や Inference Perf など、推論ワークロードを強化する機能もいくつか追加しました。さらに、Buffers API や HPA などの機能は、すべてのワークロードのプロビジョニング レイテンシにさまざまな角度から対処するのに役立ちます。
-
マネージド Kubernetes の優れたリファレンス実装として GKE を提供 - Google は、高度な Google Cloud サービスを統合し、比類のないスケールとセキュリティを提供する、本番環境対応のフルマネージド プラットフォームへと、Kubernetes に関する専門知識を変換し、新しい機能とベスト プラクティスを絶えず GKE に直接導入しています。このたび Google は、新しい GKE Agent Sandboxを発表しました。また、最近では GKE カスタム コンピューティング クラス、GKE Inference Gateway、GKE Inference Quickstart も発表しています。さらに、大規模なコンピューティングの需要に応えるため、13 万ノードのクラスタをサポートすることで、スケーリングの限界を押し広げています。今年は、クラスタの相互運用性とポータビリティの標準により、Kubernetes 上の AI / ML を簡素化する新しい CNCF Kubernetes Kubernetes AI Conformance プログラムにも参加します。GKE はすでに AI 適合プラットフォームとして認定されています。
-
フレームワークを推進し、運用上の摩擦を軽減 - Google は、オープンソース コミュニティやパートナーと積極的に協力して、Kubernetes 上の Slurm や Ray などの新しいフレームワークのサポートを強化しています。最近では Anyscale とのコラボレーションの下で、Anyscale Platform と Runtime を使用した GKE 向けに最適化されたオープンソースの Ray を発表しました。もっと最近では、パートナーと連携して、大規模な高性能 LLM 推論のための Kubernetes ネイティブの分散型コントロール プレーンを作成するオープンソース プロジェクトの llm-d の創設に貢献しました。
ここからは、こうした進展について詳しくご紹介します。
エージェントの波に対応
エージェント AI の波が押し寄せています。PwC によると、IT 部門のシニア リーダーの 79% がすでに AI エージェントを導入しており、88% がエージェント AI のために今後 12 か月間で IT 予算を増やす計画です。
Kubernetes では、エージェントを大規模にデプロイして管理するための堅牢な基盤が提供されているものの、エージェント AI ワークロードの非決定論的な性質が原因でインフラストラクチャの課題が発生します。エージェントはますます、コードの記述、コンピュータ インターフェースの制御、無数のツールの呼び出しを行えるようになっており、分離、効率、ガバナンスに関するリスクが高まっています。
Google は、Kubernetes の基本的なプリミティブを進化させながら、GKE で実行されるエージェントの優れたパフォーマンスとコンピューティング効率を実現することで、これらの課題に対処しています。そして本日、Kubernetes ネイティブのエージェント コード実行とコンピュータ使用環境のための新しい機能セットである Agent Sandbox のプレビュー版をリリースしました。最初からオープンソースとして設計された Agent Sandbox は、gVisor を使用してエージェント環境を分離するため、LLM で生成されたコードを自信を持って実行し、AI エージェントとやり取りすることができます。
さらに安全で効率的なマネージド エクスペリエンスを実現する新しい GKE Agent Sandbox は、統合されたサンドボックス スナップショットやコンテナ最適化コンピューティングなどの組み込み機能でこの基盤を強化します。Agent Sandbox は、完全に分離されたエージェント ワークロードで 1 秒未満のレイテンシと、コールド スタートと比較して最大 90% の改善を実現します。詳細については、本日公開された GKE でエージェントを強化する方法に関する詳細な発表をご覧ください。
AI ギガワット時代のための比類のない規模
この「ギガワット AI 時代」において、基盤モデルの作成者は前例のないコンピューティング能力に対する需要を増大させています。Google では、試験運用モードのスタックに関する社内テストに基づいて、GKE を使用して 130,000 ノードを持つ最大規模の既知の Kubernetes クラスタを作成しています。
Google Cloud は、緊密に結合されたジョブの単一クラスタのスケーラビリティにも重点を置いており、ジョブのシャーディング(MultiKueue など)向けのマルチクラスタ オーケストレーション機能を開発し、動的な容量再割り当てのための新しいアプローチを設計しています。これらはすべて、AI プラットフォームの開発とスケーリングを簡素化するために、オープンソースの Kubernetes API を拡張する間に行われました。Google は、大規模な AI の背後にあるツールのオープンソース エコシステム(Kueue、JobSet、etcd など)に多大な投資を行っています。同時に、最高のパフォーマンスと信頼性を実現するために、データセンターへの GKE 固有の統合(Spanner での GKE コントロール プレーンの実行など)も行っています。最後に、ハードウェア障害に関連する損失時間と、保存されたチェックポイントからの復旧の遅延を減らすことで、大規模な AI トレーニング ジョブの効率を向上させるように設計された多層チェックポイント処理(MTC)ソリューションをオープンソース化しています。
あらゆるワークロードに対応する優れたコンピューティング
Google が 10 年にわたって Kubernetes に取り組んできたのは、あらゆるワークロードで Kubernetes をさらに利用しやすく、効率的にするためです。しかし、長年にわたって 1 つの大きな課題が残っています。それは、自動スケーリングを使用する場合に、新しいノードのプロビジョニングに数分かかることです。これは、大量のデータを扱う高速スケーリング アプリケーションには十分な速さではありません。今年、Google はこの問題に正面から取り組み、価格とパフォーマンスを最適化しながら、必要なときにほぼリアルタイムでスケーラブルなコンピューティング容量を提供するという使命を達成するために、さまざまな機能強化を行いました。
Autopilot をすべてのお客様に
Google は、GKE Autopilot 向けの完全に再構築された自動スケーリング スタックであるコンテナ最適化コンピューティング プラットフォームを導入しました。推奨される運用モードとして、Autopilot はノード インフラストラクチャの管理とスケーリングを完全に自動化し、パフォーマンスとコストに大きな影響を与えます。LiveX AI の共同創業者である Jia Li 氏は、「LiveX AI は GKE Autopilot を使用して、TCO を 50% 以上、運用コストを 66% 削減し、市場投入までの時間を 25% 短縮しました」と話しています。また最近、Standard クラスタ向けの Autopilot コンピューティング クラスの一般提供が開始されたことで、より多くのデベロッパーがこの操作不要のエクスペリエンスを利用して、ワークロードごとに Autopilot を採用できるようになっています。
あらゆる角度からプロビジョニングのレイテンシに対処
Google は、ノードプールの同時自動プロビジョニングの高速化を導入し、オペレーションを非同期化かつ高度に並列化しました。このシンプルな変更により、異種ワークロードのクラスタ スケーリングが劇的に加速され、デプロイのレイテンシがベンチマークの何倍にも改善されました。また、スケールアップのニーズが厳しい場合は、新しい GKE Buffers API(OSS)を使用して、事前にプロビジョニングされたすぐに使用できるノードのバッファをリクエストし、コンピューティング容量をほぼ即時に利用できます。ノードの準備が整うと、新しいバージョンの GKE コンテナ イメージ ストリーミングにより、コンテナ イメージ全体がダウンロードされる前にアプリケーションを起動できるため、アプリケーションの実行が高速化されます。これは、大規模な AI / ML およびデータ処理ワークロードにとって非常に重要な改善点です。
リソース使用率を向上させる、中断のない自動スケーリング
速度の追求は、ワークロード レベルのスケーリングにも及びます。
-
新しい GKE Standard クラスタでは、パフォーマンス HPA プロファイルがデフォルトで有効になっています。これにより、最大 5,000 個の HPA オブジェクトのサポートや並列処理など、スケーリングが大幅に改善され、より高速で一貫性のある水平スケーリングを行えます。
-
Google は、VPA とインプレース Pod のサイズ変更のプレビュー版を使用して、垂直スケーリングの中断に対処しています。これにより、GKE はコンテナの CPU とメモリのリクエストを自動的にサイズ変更でき、多くの場合に Pod を再作成する必要はありません。
動的なハードウェア効率
最後に、動的な効率性に対する Google の取り組みは、ハードウェアの活用にも及びます。GKE ユーザーは以下を利用できるようになっています。
-
Google Axion プロセッサをベースとする新しい N4A VM(プレビュー版)と、第 5 世代 AMD EPYC プロセッサをベースとする N4D VM(一般提供)。どちらもカスタム マシンタイプ(CMT)をサポートしており、ワークロードに合わせて適切なサイズのノードを作成できます。
-
新しい GKE カスタム コンピューティング クラスにより、VM インスタンス タイプの優先順位リストを定義できるため、手動操作なしで最新かつ最も費用対効果の高いオプションがワークロードで自動的に使用されます。
AI 推論を強化するプラットフォーム
生成 AI 推論に関する真の課題は、組織を破産させることなく、数十億のトークンを超高速で確実に処理することです。
ウェブ アプリケーションとは異なり、LLM のサービングはステートフルであり、計算負荷も高くなります。これに対処するため、Google は Kubernetes への広範なオープンソース投資を推進してきました。これには、LLM 対応ルーティングのための Gateway API Inference Extension、推論パフォーマンス プロジェクト、アクセラレータと HPA スケーリングの指標としきい値に関する綿密なモデル パフォーマンス分析情報のためのベンチマーク標準の提供、Kubernetes の Pod とワークロードへの GPU、TPU、その他のデバイスの割り当てとスケジューリングを合理化および自動化するための Dynamic Resource Allocation(Intel などとの共同開発)が含まれます。また、Red Hat および IBM とともに llm-d プロジェクトを立ち上げ、「SOTA アーキテクチャに到達するまでの時間」を最適化する Kubernetes ネイティブの分散推論スタックを構築しました。
GKE 側では最近、AI ワークロードのサービングのための Kubernetes ネイティブ ソリューションである GKE Inference Gateway の一般提供を発表しました。以下の 2 つのワークロード固有の最適化が利用可能になっています。
-
LLM 対応ルーティング: マルチターン チャットなどのアプリケーションで、キャッシュに保存されたコンテキストを使用するためにリクエストを同じアクセラレータにルーティングして、レイテンシの急増を回避する
-
分離型サービング: 「プレフィル」(プロンプト処理)ステージと「デコード」(トークン生成)ステージを、最適化された別々のマシンプールに分離する
その結果、GKE Inference Gateway では他のマネージド Kubernetes サービスと比較して、ピーク時のスループットで最初のトークンまでの時間(TTFT)のレイテンシを最大 96% 短縮し、トークン費用を最大 25% 削減できるようになっています。
AI 推論サーバーの起動レイテンシは、大規模モデルの起動に数十分かかるという一貫した問題です。このたび、Google は CPU と GPU のワークロードをメモリ スナップショットから復元することで、起動レイテンシが大幅に改善される GKE Pod Snapshots を発表します。これにより、AI 推論の起動時間が最大 80% 短縮され、700 億パラメータのモデルをわずか 80 秒で、80 億パラメータのモデルをわずか 16 秒で読み込むことができます。
推論について語る際は、本番環境グレードの AI インフラストラクチャのデプロイの複雑さ、費用、難しさについて触れないわけにはいきません。GKE Inference Quickstart は、Google Cloud の最新のアクセラレータ、最新のオープンモデル、推論ソフトウェアによって最新の状態に保たれる、継続的な自動ベンチマーク システムを提供します。これらのベンチマーク プロファイルを使用すると、推論固有のパフォーマンス指標の評価、構成、デプロイ、モニタリングのほか、デプロイの動的なファインチューニングにかかる時間を大幅に節約できます。このデータは、こちらの Colab ノートブックで確認できます。
Kubernetes と GKE の次の 10 年
GKE が 10 年にわたる基礎的な取り組みを記念する中、Google は未来をリードするお手伝いができることを誇りに思っています。そして、未来は一緒に築き上げるものだと考えています。コントリビューター コミュニティの取り組みがなければ、今日の Kubernetes は存在しなかったでしょう。このコミュニティには、基盤となる新機能を記述するメンバーから、プロジェクトを成功させるために不可欠な日常業務(「薪割りや水運び」)を行うメンバーまで、全員が含まれます。
Google では、新しい機能や Ironwood TPU などの刺激的な発表の確認、徹底したセッションへの出席、オープンソース インフラストラクチャの未来を形作るための取り組みへの参加など、さまざまな機会をご用意しています。ぜひご利用ください。
-Google Kubernetes Engine、プロダクト管理担当シニア ディレクター、Drew Bradstock
