llm-d が実現する次世代の AI 推論
Mark Lohmeyer
VP & GM, AI & Computing Infrastructure
Gabe Monroy
VP & GM, Cloud Runtimes
※この投稿は米国時間 2025 年 5 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。
世界が AI ソリューションのプロトタイピングから、本格的な大規模導入へと移行するなかで、AI 推論の効率性が導入の制限要因となりつつあります。2 年前は AI モデルのサイズの肥大化が課題でしたが、クラウド インフラストラクチャ プロバイダは、飛躍的に増大するコンピューティングとデータのニーズに応えることで、この課題に対処しました。そして現在、エージェントベースの AI ワークフローや推論モデルによってきわめて多様な要求が生じており、処理負荷がまたもや指数関数的に増加しています。その結果、推論プロセスが容易に行き詰り、ユーザー エクスペリエンスが損なわれています。クラウド インフラストラクチャは、こうした変化に対応すべく、再び進化を求められています。
この課題を解決するにあたり、vLLM などのオープンソース推論エンジンは重要な役割を果たします。4 月に開催された Google Cloud Next '25 において、Google は Google Kubernetes Engine(GKE)、Google Compute Engine、Vertex AI、Cloud Run における Cloud TPU 上での vLLM の完全サポートを発表しました。また、推論ワークロードのオーケストレーションに Kubernetes が広く活用されている現状を踏まえ、Kubernetes に AI ネイティブなルーティング機能を追加するオープンソース プロジェクト Gateway API Inference Extension を導入し、GKE Inference Gateway にて公開を開始しました。Snap、Samsung、BentoML をはじめとするお客様は、これらのソリューションを活用して優れた成果を上げています。さらに今年後半には、これらのソリューションが第 7 世代の Ironwood TPU 上で利用できるようになります。この TPU は、推論モデルの構築と提供に特化した設計になっており、最大 9,216 個の液冷チップを革新的なチップ間相互接続(ICI)で単一のポッドに統合することで、大規模かつ高効率な AI 推論を可能にしています。ですが、イノベーションをさらに進め、価値を一層高めるための取り組みが現在進められています。
現在、Google は Kubernetes ネイティブな分散型かつ分離型推論により vLLM を完全にスケーラブルにすることで、推論をさらに簡便かつ費用対効果の高いものにしようとしています。この新しいプロジェクトは llm-d と呼ばれています。Google Cloud は、Red Hat、IBM Research、NVIDIA、CoreWeave とともにその創設に貢献しており、その他にも AMD、Cisco、Hugging Face、Intel、Lambda、Mistral AI といった業界リーダーも参加しています。Google には、Kubernetes、JAX、Istio など、クラウドの発展を支えてきた主要なオープンソース プロジェクトを立ち上げ、貢献してきた長い歴史があり、現在も AI 開発に最適なプラットフォームとなるために尽力しています。Google は、llm-d をオープンソース化し、コミュニティ主導で運営することが、広くユーザーに活用されるための最適な方法であると考えています。あらゆる環境で実行できるだけでなく、強力なコミュニティによるサポートが受けられるという安心感も生まれます。
llm-d は vLLM の非常に効率的な推論エンジンを基盤としており、10 億人規模のユーザーに対して AI を安全かつコスト効率よく提供してきた、Google の実績あるテクノロジーと豊富な経験が組み込まれています。llm-d には 3 つの画期的な特長が備わっています。1 つ目は、従来のラウンドロビン方式のロード バランシングではなく、vLLM を認識する推論スケジューラを搭載していることです。これにより、プレフィックス キャッシュにヒットし、かつ負荷の低いインスタンスに対してリクエストを効率的にルーティングできるため、より少ないハードウェア リソースでレイテンシに関する SLO を達成できるようになります。2 つ目は、llm-d が分離型サービングを採用していることです。これは、LLM 推論におけるプレフィルとデコードの処理を、それぞれ別々のインスタンスで分担する仕組みであり、長いリクエストをより高スループットかつ低レイテンシで処理できるようになります。3 つ目は、llm-d が中間的な値(プレフィックス)に対応する多層構造の KV キャッシュを導入していることです。これにより、異なるストレージ階層間での応答速度が向上し、ストレージ コストも削減されます。また llm-d は、現時点では PyTorch、今年後半には JAX といった複数のフレームワーク、および GPU と TPU 両方のアクセラレータに対応しており、ユーザーに高い柔軟性と選択肢を提供します。


Google は、コミュニティと連携して、お客様のビジネスにおいて AI をコスト効率良くスケーリングできることを嬉しく思っています。llm-d は、最先端の分散サービング テクノロジーを、簡単にデプロイ可能な Kubernetes スタックに組み込んでいます。llm-d を Google Cloud 上にデプロイすることで、Google Cloud の広大なグローバル ネットワーク、GKE における AI 機能、ソフトウェア アクセラレータおよびハードウェア アクセラレータ全体に統合された AI Hypercomputer を活用できるようになり、低レイテンシかつ高パフォーマンスな推論を実現できます。Google Cloud が実施した初期テストでは、llm-d の活用により、コード補完などのユースケースにおいて最初のトークンが生成されるまでの時間が 2 倍高速化され、アプリケーションの応答性向上に大きく寄与することが確認されています。
llm-d プロジェクトのページにアクセスして、詳細をご確認ください。プロジェクトへの参加や、すぐに利用を開始いただくことも歓迎しております。
ー AI およびコンピューティング インフラストラクチャ担当バイス プレジデント兼ゼネラル マネージャー Mark Lohmeyer
ー Cloud ランタイム担当バイス プレジデント兼ゼネラル マネージャー Gabe Monroy