AI インフラストラクチャとしての Kubernetes: Google Cloud、llm-d、CNCF
Sean Horgan
Product Manager
Abdel Sghiouar
Senior Cloud Developer Advocate
※この投稿は米国時間 2026 年 3 月 25 日に、Google Cloud blog に投稿されたものの抄訳です。
Google Cloud は、大規模な基盤モデルのビルダーや AI ネイティブ企業の膨大なニーズに応えることを、当社の AI インフラストラクチャ戦略の最優先事項としています。生成 AI の利用がミッション クリティカルな本番環境へと移行する中、このようなイノベーターは、複雑なオーケストレーションの課題を克服し、エージェント主導の未来を推進できる、動的かつ絶え間なく効率的なインフラストラクチャを必要としています。
こうした状況を鑑み、このたび、llm-d が Cloud Native Computing Foundation(CNCF)のサンドボックス プロジェクトとして正式に承認されたことを大変嬉しく思います。Google Cloud は、Red Hat、IBM Research、CoreWeave、NVIDIA とともに、llm-d の創設メンバーとして貢献できることを誇りに思います。私たちは、業界を定義する明確なビジョン「あらゆるモデル、あらゆるアクセラレータ、あらゆるクラウド」の下に団結しています。
この貢献は、オープンソースのイノベーションにおける Google の長年のリーダーシップを裏付けるものです。私たちはまた、Linux Foundation の信頼できる管理の下、分散 AI 推論の未来が、閉ざされた環境ではなくオープン スタンダードに基づいて構築されるよう支援しています。これにより、基盤モデルのビルダーは、ベンダーに縛られることなくモデルをグローバルにデプロイできるという確信を得られるとともに、これらのオープン テクノロジーの実装を高度に最適化したうえで Google Cloud で直接行えるようになります。


推論のための Kubernetes の強化
Kubernetes は、オーケストレーションの業界標準として揺るぎない地位を確立しています。強固な基盤を提供しますが、元々は、LLM 推論のために構築されたものではなく、高度にステートフルで動的な要求には対応できませんでした。GKE Inference Gateway は、こうした新しいタイプのワークロードに対応するために Kubernetes を進化させたもので、単純なロード バランシングをはるかに超えるネイティブ API を提供します。このゲートウェイの内部では、スケジューリング インテリジェンスのために llm-d Endpoint Picker(EPP)を活用しています。このシステムでは、ルーティングの決定を llm-d に委任することで、リアルタイムの KV キャッシュ ヒット率、処理中のリクエスト数、インスタンス キューの深さを考慮した多目的ポリシーを適用し、各リクエストを処理に最適なバックエンドにルーティングします。
大規模に運用する基盤モデルのビルダーにとって、こうしたモデル対応のルーティングがもたらす現実世界への影響は画期的です。最近、Google の Vertex AI チームは本番環境でこのアーキテクチャを検証し、脆弱なカスタム スケジューラに依存することなく、予測が非常に難しいトラフィックを処理できることを証明しました。Qwen Coder を使用したコンテキストを多用するコーディング タスクでは、最初のトークンまでの時間(TTFT)のレイテンシが 35% 以上短縮されました。また、研究目的に DeepSeek を使用してバースト性が高く確率的なチャット ワークロードを処理した場合には、P95 テール レイテンシが 52% 改善され、深刻な負荷変動を効果的に吸収できました。特に重要なのは、このゲートウェイのルーティング インテリジェンスにより、Vertex AI の接頭辞キャッシュ ヒット率が 35% から 70% に倍増したことであり、これにより、再計算のオーバーヘッドとトークンあたりの費用が大幅に削減されました。


インテリジェントなルーティングに加えて、マルチノード AI デプロイをオーケストレートするには、堅牢な基盤となるプリミティブが必要です。そのため、Google では Kubernetes LeaderWorkerSet(LWS)API の開発を主導しています。LWS により、llm-d は広範なエキスパート並列処理をオーケストレートし、計算負荷の高いプリフィル フェーズとメモリ負荷の高いデコード フェーズを、個別にスケーリング可能な Pod に分離できます。業界で広く採用されている LWS は、今では、急速に拡大する本番環境の AI ワークロードのフットプリントをオーケストレートし、グローバル規模で TPU と GPU の大規模なフリートを管理しています。このオーケストレーションを補完するものとして、Google は最近、Cloud TPU 向けに vLLM をネイティブに拡張しました。PyTorch と JAX の統合バックエンドに加え、Ragged Paged Attention v3 などの革新的な機能を備えたこのインテグレーションにより、昨年初めにリリースした最初のバージョンと比較して、スループットが最大 5 倍向上しました。Google Cloud TPU や NVIDIA GPU のどちらでスケールする場合でも、これらの進歩により、最先端の AI サービングが高度に最適化され、アクセラレータに依存しない機能として維持されます。
次世代の AI インフラストラクチャを共同で構築
究極の AI インフラストラクチャを構築するには、クラウドネイティブな Kubernetes オーケストレーションと最先端の AI 研究との間のギャップを埋める必要があります。本番環境レベルの生成 AI への移行には、信頼性と透明性を備えたエンジンが必要であり、可能性の限界を押し広げる AI / ML リーダーとの緊密なコラボレーションも求められます。
私たちは、Linux Foundation、CNCF、PyTorch Foundation、その他のオープンソース コミュニティとともに、次世代の AI インフラストラクチャを構築できることを大変嬉しく思っています。「well-lit paths」(現実的な負荷の下でエンドツーエンドにテストされた、実証済みで再現可能なブループリント)を確立することで、高性能な AI がオープンで誰もがアクセスできるエコシステムとして発展し、境界のないイノベーションを促進できるようにしています。
AI 推論のオープンな未来を一緒に形作りましょう。大規模基盤モデルのビルダー、AI ネイティブ企業、プラットフォーム エンジニア、AI 研究者の皆様の参加を心よりお待ちしております。
-
「well-lit paths」を確認する: llm-d ガイドを参照し、ご自身のインフラストラクチャに SOTA 推論スタックを今すぐデプロイしましょう。
-
詳細: 公式ウェブサイト(https://llm-d.ai/)をご覧ください。
-
ご協力のお願い: Slack のコミュニティに参加し、GitHub リポジトリ(https://github.com/llm-d/)での活動にご協力ください。
llm-d の CNCF サンドボックス プロジェクトへの参加をお待ちしております。皆様とともにこのエンジンを発展させていくことを楽しみにしています。
- プロダクト マネージャー、Sean Horgan
- シニア クラウド デベロッパー アドボケイト、Abdel Sghiouar

