コンピューティング

AI Hypercomputer 上で新しい NVIDIA Dynamo レシピを使用して高速かつ効率的な AI 推論を実現

2025年10月1日

Deepak Patil

Group Product Manager, Google Cloud

Amr Elmeleegy

Principal Product Marketing Manager, NVIDIA

※この投稿は米国時間 2025 年 9 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。

生成 AI が普及するにつれて、開発者や ML エンジニアが、効率的な AI 推論を実現するインフラストラクチャを容易に構成できるようになることが重要です。効率的な AI 推論とは、トレーニング済みの AI モデルを使用して、新しい、これまで見たことのないデータに基づいて予測や意思決定を行うことです。従来の GPU ベースのサービングアーキテクチャは、モデルのトレーニングには優れていますが、推論の「マルチターン」という特性とは相性が良くありません。マルチターンとは、モデルがコンテキストを維持し、ユーザーの意図を理解する必要がある、堂々巡りの会話を特徴とするものです。さらに、大規模な生成 AI モデルのデプロイは複雑で、リソースを大量に消費する可能性があります。

Google Cloud は、AI に対するお客様のニーズに最適な選択肢を提供することに取り組んでいます。そこで、さまざまな AI モデルに対応する高性能かつ低レイテンシのプラットフォームである NVIDIA Dynamo を使用した、分散型推論の新しいレシピを発表いたします。分散型推論では、モデル処理フェーズが分離されるため、パフォーマンスと費用対効果が大幅に向上します。

具体的には、このレシピを使用すると、Google Kubernetes Engine（GKE）、vLLM 推論エンジン、NVIDIA H200 GPU を搭載した A3 Ultra GPU アクセラレータインスタンスなど、Google Cloud の AI Hypercomputer に NVIDIA Dynamo をデプロイするのが簡単になります。Google Cloud でレシピを実行することで、AI アプリケーションのレイテンシ要件を満たしながら、より高いパフォーマンスとより優れた推論効率を実現できます。このレシピは、その他のリソースとともに、GitHub 上の拡張し続ける AI Hypercomputer リソースリポジトリで確認できます。

では、そのデプロイ方法を見てみましょう。

推論の 2 つのフェーズ

LLM 推論は単一のタスクではなく、2 つの異なる計算フェーズで構成されています。1 つ目は入力プロンプトが処理される、プリフィル（またはコンテキスト）フェーズです。この段階は計算集約型であるため、大規模な並列処理能力を利用することにメリットがあります。プリフィルに続くのは、自己回帰ループでトークンごとに回答を生成する、デコード（または生成）フェーズです。この段階はメモリ集約型であり、メモリの帯域幅によって制限され、モデルの重みと KV キャッシュへの非常に高速なアクセスが必要になります。

従来のアーキテクチャでは、これらの 2 つのフェーズが同じ GPU で実行されるため、リソースの競合が発生します。計算負荷が高い長いプリフィルは、迅速かつ反復的なデコードステップをブロックする可能性があり、GPU 使用率の低下、推論コストの増加、すべてのユーザーにおけるレイテンシの増加につながります。

特別な分散型推論アーキテクチャ

Google の新しいソリューションは、プリフィルステージとデコードステージを、個別に管理される別々の GPU プールに分散（または物理的に分離）することで、この課題に正面から取り組んでいます。

コンポーネントが連携して動作する仕組みは次のとおりです。

A3 Ultra インスタンスと GKE: このレシピでは、GKE を使用して NVIDIA H200 GPU を搭載した A3 Ultra インスタンスの個別のノードプールをオーケストレートします。これにより、特別なリソースプールが作成されます。1 つは計算負荷が高いプリフィルタスク向けに最適化されており、もう 1 つはメモリ集約型のデコードタスク向けに最適化されています。
NVIDIA Dynamo: 推論サーバーとして機能する NVIDIA Dynamo のモジュール式フロントエンドと KV キャッシュ対応ルーターが、受信リクエストを処理します。そして、プリフィルとデコードの GKE ノードプールの GPU をペアリングし、それらの間でワークロードの実行をオーケストレートして、プリフィルプールで生成された KV キャッシュをデコードプールに転送し、トークンの生成を開始します。
vLLM: 各 GKE プール内の Pod で実行される vLLM 推論エンジンは、PagedAttention などのイノベーションを使用して各ノードのスループットを最大化し、実際のコンピューティングでクラス最高のパフォーマンスを確実に発揮します。

この分散型アプローチにより、各フェーズをリアルタイムな需要に基づいて個別にスケーリングできるため、計算負荷の高いプロンプト処理が高速なトークン生成を妨げないようにすることが可能です。Dynamo は、SGLang、TensorRT-LLM、vLLM などの一般的な推論エンジンに対応しています。その結果、全体的なスループットが大幅に向上し、すべての GPU の使用率が最大化されます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_lTFF8Zu.max-1600x1600.png

Google Cloud 向け Dynamo レシピを試す

再現可能なレシピでは、オーケストレーションに GKE を使用し、推論エンジンとして vLLM を使用し、Google Cloud の A3 Ultra（H200）VM 上で NVIDIA Dynamo を使用して分散型推論を展開する手順を示しています。シングルノードのレシピでは、A3 Ultra の 1 つのノードで、プリフィルに 4 つの GPU、デコードに 4 つの GPU を使用した分散型推論を示しています。マルチノードレシピでは、Llama-3.3-70B-Instruct モデルのプリフィルに A3 Ultra の 1 ノードを使用し、デコードに A3 Ultra の 1 ノードを使用した、分散型推論を示しています。

今後のレシピでは、ほかの NVIDIA GPU（A4、A4X など）と、モデルの対象範囲が拡大された推論エンジンに対応する予定です。

このレシピでは、次の主な手順に焦点を当てています。

初期設定を行う - 環境変数と Secret を設定します。これは 1 回だけ実行する必要があります。
Dynamo プラットフォームと CRD をインストールする - さまざまな Dynamo Kubernetes コンポーネントを設定します。これは 1 回だけ実行する必要があります。
特定のモデルワークロードの推論バックエンドをデプロイする - ここで、特定のモデルワークロードの Dynamo 分散型推論用の推論バックエンドとして vLLM/SGLang をデプロイします。新しいモデル推論ワークロードをデプロイするごとに、この手順を繰り返します。
推論リクエストを処理する - 推論用にモデルがデプロイされると、受信クエリが処理され、ユーザーに回答が提供されます。

サーバーが起動すると、リクエストを処理するプライマリインターフェースとして機能するフロントエンド Pod とともに、プリフィルワーカーとデコードワーカーが表示されます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_JsYfFJV.max-1900x1900.png

このように、サーバーにリクエストを送信して、すべてが意図したとおりに動作するかどうかを確認できます。回答が生成され、max_tokens まで切り捨てられます。

読み込んでいます...

今すぐ使ってみる

新しい分散型推論レシピは、従来のサービングの制約を超えて、効率的でスケーラブルな LLM 推論の未来を象徴しています。これにより、特定のタスクごとにリソースを適切なサイズに設定できるため、最も要求の厳しい生成 AI アプリケーションで新しいパフォーマンスパラダイムが実現し、大幅なコスト削減が可能になります。このレシピを活用して、次世代の AI 搭載サービスを構築していただけることを楽しみにしています。推奨される構成と簡単な手順が記載されている Dynamo 分散型推論レシピを出発点としてお試しください。ぜひお試しいただき、フィードバックをお寄せくださいますよう、お願い申し上げます。

ー Google Cloud、グループプロダクトマネージャー、Deepak Patil

ー NVIDIA、プリンシパルプロダクトマーケティングマネージャー、Amr Elmeleegy 氏

投稿先