Next ‘26 で発表された GKE の新機能

Drew Bradstock
Sr. Director, Orchestration and Kubernetes Product Management
Gari Singh
GKE Group Product Manager
※この投稿は米国時間 2026 年 4 月 23 日に、Google Cloud blog に投稿されたものの抄訳です。
今週開催の Google Cloud Next ‘26 では、Google Kubernetes Engine(GKE)の進化についてご紹介しています。GKE は、特に要求が厳しく複雑なワークロードや、次世代の AI アプリケーションとエージェント アプリケーションに対して、優れたパフォーマンス、効率性、セキュリティ、スケーラビリティを提供します。
重要である理由: Kubernetes は AI 時代のオペレーティング システムとして急速に普及しており、GKE は現在、最大規模のフロンティア モデルの構築企業を含む、プラットフォーム上の上位 50 社すべてのお客様の AI ワークロードを支えています。エンタープライズ AI は急速に普及しています。わずか数か月で、マルチエージェント AI ワークフローの数が 327% も急増しました。同時に、組織の 66% が生成 AI アプリやエージェントの強化に Kubernetes を利用しています。
自律型エージェントが大規模に運用されるこの新しい時代には、インフラストラクチャの管理方法に根本的な変革が求められています。これは、ステートレス アプリケーションからステートフル アプリケーションへの移行よりも要求の厳しい変革です。
新機能:
-
GKE Agent Sandbox: 安全でスケーラビリティが高く、低レイテンシのエージェント インフラストラクチャ
-
GKE ハイパークラスタ: Google Cloud リージョン全体で数百万のアクセラレータを管理する、単一の適合 GKE コントロール プレーン
-
推論パフォーマンスの向上: GKE Inference Gateway と KV キャッシュ管理の基盤となる機能強化
-
強化学習(RL)の強化機能: アクセラレータ使用率をスロットリングするボトルネックを解消するネイティブ機能
-
カスタム指標に基づくスケーリング: CPU とメモリ以外のトリガーに基づくインテントベースの自動スケーリングをサポート
GKE に関するこれらのお知らせについて詳しく説明します。
GKE Agent Sandbox: エージェント時代を加速
AI が単純な会話型チャットボットから、エコシステム全体へのプロアクティブで自律的なエージェントへと進化するにつれて、基盤となるインフラストラクチャは、従業員と連携して複雑なタスクを計画、評価、実行するために数百または数千のエージェントを処理できるように適応していく必要があります。大規模なインフラストラクチャでは、パフォーマンス、応答性、厳格なセキュリティが不可欠です。
このたび Google は、業界有数のスケーラビリティと低レイテンシを誇る AI エージェント インフラストラクチャである GKE Agent Sandbox を発表しました。Gemini の保護と同じ gVisor カーネル分離テクノロジーで構築された Agent Sandbox を使用すると、パフォーマンスを犠牲にすることなく、信頼できないコード、ツール、エージェント全体を安全に実行できます。GKE は、完全に分離されたエージェントに対して、1 秒あたり 300 個のサンドボックス、1 秒未満のレイテンシ、Axion で実行した場合の他のハイパースケール クラウドと比較して最大 30% 優れた費用対効果を実現し、業界をリードするスピードと効率性を提供します。
Lovable を使用すると、誰でもアプリやウェブサイトを構築できます。毎日ビルダーによって 20 万件以上の新しいプロジェクトが作成されています。Lovable では、起動の速さとスケーリングの速さ、そして安全な分離が可能なことから、これらの AI 生成アプリケーションを GKE Agent Sandbox で実行しています。
「GKE の最先端のサンドボックス機能により、1 秒あたり数百個の安全なサンドボックスに確実にスケーリングできるため、予測不能な膨大な需要が発生した場合でも、ビルダーをシームレスに支援できます」- Lovable、共同創業者 Fabian Hedin 氏
GKE ハイパークラスタがスケーラビリティの上限を再定義
基盤となる AI モデルが指数関数的に成長し、アクセラレータの需要が高い状態が続いているため、組織は Kubernetes コンピューティング インフラストラクチャを数百の切断されたクラスタに分割する手段をとっており、これは、運用上の大きな負担につながる可能性があります。この問題を解決するために、Google は GKE ハイパークラスタの限定公開 GA を発表します。これにより、複数の Google Cloud リージョンにまたがる 256,000 個のノードに分散された 100 万個のチップを、Kubernetes に準拠した単一の GKE コントロール プレーンで管理できるようになります。GKE ハイパークラスタを使用すると、広範囲に分散されたインフラストラクチャが、複数の地理的場所にまたがる単一の統合された容量の予備となります。
セキュリティを損なうことなくグローバルにスケーリングするために、GKE ハイパークラスタは Google の Titanium Intelligence Enclave を利用しています。これは、プライベート AI コンピューティングを提供するソフトウェア強化型のセキュリティ エンジンです。この「管理者権限なし」モデルは、ハードウェア証明済みの Pod レベルの分離を提供するため、独自のモデルの重みとプロンプトは、プラットフォーム管理者とインフラストラクチャ レイヤから暗号的にシールされたままになります。
最先端の推論を強化
最先端の推論を実現するには、数か月にわたる複雑なパフォーマンス チューニングが必要です。この手間を軽減するために、GKE では TPU と GPU 全体で「SOTA までの時間」をわずか数分に短縮しました。これを実現するために、以下の新機能を提供しています。
-
GKE Inference Gateway の ML を活用した予測レイテンシ ブースト。ヒューリスティックな推測をリアルタイムの容量を考慮したルーティングに置き換えることで、最初のトークンまでの時間(TTFT)のレイテンシを最大 70% 削減できます。手動によるチューニングは必要ありません。
-
RAM、ローカル SSD、GCS/Lustre 間での自動 KV キャッシュ ストレージ ティアリングにより、長いコンテキストのメモリ ボトルネックが解消されます。KV キャッシュを RAM にオフロードすると、システム プロンプトの長さが 10,000 の場合、TTFT が 40% 以上短縮され、スループットが 50% 向上しました。KV キャッシュをローカル SSD にオフロードすると、システム プロンプトの長さが 50,000 の場合、スループットがほぼ 70% 向上しました。これらのベンチマークについて詳しくは、llm-d Offloading Prefix Cache to Shared Storage guide をご覧ください。
レイヤ化されたコンポーズ可能なスイートの一部として構築されたこれらの新しい GKE 機能は、現在公式の CNCF サンドボックス プロジェクトである llm-d を活用しています。最大限の柔軟性を実現するため、Google は NVIDIA と緊密に連携して Dynamo をシームレスに統合し、大規模な混合エキスパート(MoE)モデルをスケーリングできるようにしました。どのツールを選択しても、GKE は、あらゆる最先端の AI ワークロードを安全に実行するために必要な、高度に最適化された柔軟なインフラストラクチャを提供します。これには、新しく発表された Gemma 4 の高度なエージェント機能も含まれます。
RL コンピューティングのボトルネックの解消
強化学習(RL)は AI コンピューティング需要の重要な推進力であり、RL ジョブにはサンプリング、報酬、トレーニングの順次処理が含まれます。これらの RL ステップの間では GPU および TPU アクセラレータがアイドル状態になる可能性があります。RL を効率化するために、新しい GKE 機能をプレビュー版として追加しています。
-
RL スケジューラは「ストラグラー効果」とバッチ間のテールレイテンシを解決し、インテリジェントなルーティングによってスループットを最大化します。
-
RL Sandbox は、ツール呼び出しと報酬評価のためにカーネルレベルの分離を提供し、ミリ秒単位でプロビジョニングします。RL サンプリングと報酬のステップとの統合は簡単です。
-
RL のオブザーバビリティと信頼性のダッシュボードは、RL ループ全体のトラブルシューティングと最適化を即座に、すぐに使える状態で実行するために必要な詳細な可視性を提供します。
GKE レシピの RL、特に Verl と NeMo RL の実装をご確認ください。
カスタム指標に基づくインテントベースの自動スケーリング
従来、アプリケーションの健全性に基づいて AI ワークロードをスケーリングするには、「カスタム指標税」が課せられていました。基本的なコンピューティングやメモリ使用率以外の要素に基づいてシステムをスケーリングするには、組織は複雑なモニタリング システムと IAM ロールを管理する必要があります。これにより、運用上のリスクが生じます。外部のオブザーバビリティ スタックに障害が発生すると、自動スケーリングも機能しなくなります。
インテント ベースの自動スケーリングでは、GKE の HorizontalPodAutoscaler(HPA)のネイティブなカスタム指標サポート により、このオーバーヘッドが解消されます。このエージェントレス アーキテクチャは、Pod から直接指標を取得することで外部依存関係を回避し、信頼性を高めながらコストを削減します。重要なのは、反応時間が 25 秒からわずか 5 秒に短縮されたことです。これは、インフラストラクチャの弾力性がほぼ瞬時に発揮されることを意味し、パフォーマンスが 5 倍向上しています。
新しいワークロード、変わらないミッション
GKE は 10 年以上にわたり、スケーラブルなインフラストラクチャの標準を確立してきました。エージェント AI と自律型 AI の時代を迎えても、Google の使命は変わりません。それは、運用上の摩擦を排除し、お客様がイノベーションに集中できるようにすることです。Next '26 で発表する機能(GKE ハイパークラスタ、Agent Sandbox、超高速推論、インテント ベースの自動スケーリングなど)は、意欲的な AI ワークロードを成功させるために必要な、安全で効率的かつ強力なエンジンを提供します。AI ワークロードに GKE を使用する方法について詳しくは、GKE Inference Quickstart をご覧ください。
- オーケストレーションおよび Kubernetes プロダクト管理担当シニア ディレクター Drew Bradstock
- GKE グループ プロダクト マネージャー Gari Singh

