コンテンツに移動
コンピューティング

LLM から画像生成まで: AI Hypercomputer で推論ワークロードを高速化

2025年5月19日
Reena Singhal Lee

Group Product Manager, AI Infrastructure

Try Gemini 2.5

Our most intelligent model is now available on Vertex AI

Try now

※この投稿は米国時間 2025 年 5 月 10 日に、Google Cloud blog に投稿されたものの抄訳です。

小売、ゲーム、コード生成、カスタマーケアなど、さまざまな分野で LLM ベースのアプリケーションを運用する組織が増えており、現在では 78% の組織が開発または本番環境での運用を開始しています。生成 AI アプリケーションの数が増加し、ユーザーの規模が拡大する中で、パフォーマンスが高く、スケーラブルで使いやすい推論テクノロジーのニーズが高まっています。Google Cloud は、急速に進化する AI を次の段階に導く道を AI Hypercomputer によって切り開いています。

Google Cloud Next 25 では、AI Hypercomputer の推論機能に関する多くの最新情報を共有し、推論専用に設計された最新の Tensor Processing Unit(TPU)である Ironwood を発表しました。また、TPU で vLLM を使用するシンプルでパフォーマンスに優れた推論などのソフトウェアの機能強化や、最新の GKE 推論機能である GKE Inference Gateway と GKE Inference Quickstart についてもお伝えしました。

Google は、AI Hypercomputer により、最適化されたソフトウェアのパフォーマンスの限界にも挑戦し続けており、その成果は強力なベンチマークによって裏付けられています。

  • Google の JetStream 推論エンジンは、新しいパフォーマンス最適化を組み込み、Pathways を統合して超低レイテンシ、分離型のマルチホスト サービングを実現します。

  • MaxDiffusion は、Google の潜在拡散モデルのリファレンス実装であり、TPU 上でコンピューティング負荷の高い画像生成ワークロード向けに優れたパフォーマンスを発揮します。また、過去最大規模のテキスト画像変換生成モデルの一つである Flux に対応しました。

  • MLPerf™ Inference v5.0 の最新のパフォーマンス結果から、Google Cloud の A3 Ultra(NVIDIA H200)VM と A4(NVIDIA HGX B200)VM の推論に関する性能と汎用性の高さが明らかになっています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault_BqQVLB4.max-1300x1300.jpg

Google の JAX 推論エンジン JetStream のパフォーマンスを最適化

Google は、パフォーマンスを最大化し、推論費用を削減するために、TPU で LLM をサービングする際の選択肢を増やします。そのために、JetStream をさらに強化し、LLM サービング用の高速かつ効率的なライブラリとして広く採用されている vLLM を TPU でサポートします。TPU 上の vLLM と JetStream の両方により、優れた価格性能比が実現します。それを可能にするのは、低レイテンシかつ高スループットの推論と、オープンソースの貢献と Google AI エキスパートによるコミュニティ サポートです。

JetStream は、スループットとメモリが最適化された Google のオープンソースの推論エンジンです。TPU 専用に構築されており、Gemini モデルのサービングに使用されているものと同じ推論スタックを基盤としています。昨年 4 月に JetStream を発表して以来、Google は幅広いオープンモデルでそのパフォーマンスをさらに向上させるために多大な投資を行ってきました。JetStream で第 6 世代の Trillium TPU を使用する場合、TPU v5e と比較して、Llama 2 70B で 2.9 倍、Mixtral 8x7B で 2.8 倍のスループット パフォーマンスを達成しています(リファレンス実装 MaxText を使用)。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_iM39ujT.max-1200x1200.png

図 1: JetStream のスループット(1 秒あたりの出力トークン数)。Google 内部データ。Cloud TPU v5e-8 と Trillium 8 チップで Llama2-70B(MaxText)を使用し、Cloud TPU v5e-4 と Trillium 4 チップで Mixtral 8x7B(MaxText)を使用して測定。入力最大文字数: 1024、出力最大文字数: 1024。2025 年 4 月現在。

Google Cloud のお客様には初公開となる Google の Pathways ランタイムが JetStream に統合され、マルチホスト推論と分離型サービングが可能になりました。この 2 つの機能は、モデルの規模が急速に拡大し、生成 AI の需要が高まるなかで重要な役割を担います。

Pathways を使用したマルチホスト推論では、サービング時にモデルが複数のアクセラレータ ホストに分散されます。これにより、単一のホストに収まらない大規模なモデルの推論が可能になります。マルチホスト推論の場合、JetStream は Trillium 上の Llama 3.1 405B で毎秒 1,703 トークンを処理します。TPU v5e と比較すると、1 ドルで処理できる推論の量が 3 倍になっています。

さらに、Pathways の分離型サービング機能により、ワークロードが LLM 推論のデコードとプレフィルのステージを個別かつ動的にスケールできるようになります。その結果、リソースの利用率が向上し、特に大規模なモデルのパフォーマンスと効率が改善されます。Llama2-70B の場合、分離型サービングで複数のホストを使用すると、Trillium 上の同じサーバーで LLM リクエスト処理のプレフィルとデコードのステージをインターリーブした場合と比較して、プレフィル(最初のトークンまでの時間、TTFT)オペレーションで 7 倍、トークン生成(出力トークンあたりの時間、TPOT)で約 3 倍のパフォーマンスが得られます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Figure2_TTFT.max-900x900.png
https://storage.googleapis.com/gweb-cloudblog-publish/images/Figure2_TPOT.max-900x900.png

図 2: Cloud TPU Trillium 16 チップ(8 チップをプレフィル サーバーに、8 チップをデコード サーバーに割り当て)で Llama2-70B(MaxText)を使用し、OpenOrca データセットを使用して測定。入力最大文字数: 1024、出力最大文字数: 1024。2025 年 4 月現在。

Osmos をはじめとするお客様は、TPU を使用して大規模な推論の費用効率を最大限に高めています。

「Osmos は世界初の AI データ エンジニアを構築しています。そのためには、現時点で可能な限り最先端の AI テクノロジーを導入する必要があります。トレーニングと推論のための AI インフラストラクチャとして Google TPU を基盤とし、当社の取り組みを継続できることを嬉しく思います。vLLM と JetStream を Trillium 上のスケールした本番環境デプロイメントに導入することで、700 億クラスのモデルのシーケンス長が大きい推論において、v6e ノードあたり毎秒 3,500 トークンを超える業界トップクラスのパフォーマンスを達成しています。これにより、業界でも高水準の 1 ドルあたりのトークン/秒を実現し、他のハードウェア インフラストラクチャだけでなく、フルマネージド推論サービスにも匹敵するレベルに達しました。TPU を利用でき、AI Hypercomputer に容易にデプロイできるため、自信を持ってエンタープライズ ソフトウェア サービスを構築できます。」- Osmos、CEO、Kirat Pandya 氏

MaxDiffusion: 高パフォーマンスの拡散モデル推論

Trillium は、LLM 以外に、画像生成などコンピューティング負荷の高いワークロードでも優れたパフォーマンスを発揮します。MaxDiffusion は、さまざまな潜在拡散モデルのリファレンス実装のコレクションを提供します。また、Stable Diffusion 推論に加えて、Flux にも対応するように拡張しました。120 億個のパラメータを備える Flux は、過去最大規模のオープンソースのテキスト画像変換モデルの一つです。

MLPerf 5.0 で実証されたように、Trillium では、その前世代である TPU v5e の最新のパフォーマンス ラウンドと比較して、Stable Diffusion XL(SDXL)での 1 秒あたりのクエリのスループットが 3.5 倍に向上しています。これにより、MLPerf 4.1 の提出値以降、スループットがさらに 12% 向上しました。

https://storage.googleapis.com/gweb-cloudblog-publish/images/4_6ek9LHl.max-1200x1200.png

図 3: MaxDiffusion のスループット(1 秒あたりの画像数)。Google 内部データ。Cloud TPU v5e-4 と Trillium 4 チップで SDXL モデルを使用して測定。解像度: 1024x1024、デバイスあたりのバッチサイズ: 16、デコード ステップ数: 20。2025 年 4 月現在。

高スループットの MaxDiffusion は、費用効率の高いソリューションとなります。Trillium では、1,000 枚の画像を生成するために必要な費用が 22 セントで、TPU v5e と比較して 35% も低くなっています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/5_AQdKyIu.max-1200x1200.png

図 4: 1,000 枚の画像を生成するために必要な Diffusion の費用。Google 内部データ。Cloud TPU v5e-4 と Cloud TPU Trillium 4 チップで SDXL モデルを使用して測定。解像度: 1024x1024、デバイスあたりのバッチサイズ: 2、デコード ステップ数: 4。費用は米国における Cloud TPU v5e-4 と Cloud TPU Trillium 4 チップの CUD 3 年の価格に基づきます。2025 年 4 月現在。

A3 Ultra VM と A4 VM の MLPerf 5.0 Inference の結果

MLPerf™ Inference v5.0 では、A3 Ultra(NVIDIA H200)VM と A4(NVIDIA HGX B200)VM を初めて使用した結果を含む 15 件の結果を提出しました。A3 Ultra VM は 8 個の NVIDIA H200 Tensor Core GPU を搭載し、3.2 Tbps の GPU 間ノンブロッキング ネットワーク帯域幅を提供します。また、NVIDIA H100 GPU を搭載した A3 Mega と比較して、高帯域幅メモリ(HBM)が 2 倍となっています。Google Cloud の A3 Ultra は非常に競争力のあるパフォーマンスを示しており、LLM、MoE、画像、レコメンデーションの各モデルにわたり NVIDIA のピーク GPU 提出値に匹敵する結果を達成しました。

Google Cloud は、NVIDIA HGX B200 GPU の結果を提出した唯一のクラウド プロバイダであり、Llama 3.1 405B(MLPerf 5.0 で導入された新しいベンチマーク)を含む LLM のサービングにおいて A4 VM で優れたパフォーマンスを示しました。A3 Ultra VM と A4 VM はどちらも強力な推論パフォーマンスを発揮します。これは、Google が NVIDIA と緊密に連携し、最も要求の厳しい AI ワークロードに対応できるインフラストラクチャを提供していることの証です。

JetBrains をはじめとするお客様は、Google Cloud GPU インスタンスを使用して推論ワークロードを高速化しています。

「Google Cloud で NVIDIA H100 Tensor Core GPU を搭載した A3 Mega VM を使用して、複数のリージョンにわたって LLM 推論を実行してきました。今後は、NVIDIA HGX B200 GPU を搭載した A4 VM の使用を開始する予定です。これにより、レイテンシがさらに低下し、JetBrains IDE での AI の応答性が向上すると期待しています。」- JetBrains、AI 担当ディレクター、Vladislav Tankov 氏

AI Hypercomputer が AI 推論の時代を牽引

Google Cloud TPU と NVIDIA GPU のハードウェアの進歩を含む、AI 推論に関する Google のイノベーションに、JetStream、MaxText、MaxDiffusion などのソフトウェアのイノベーションが加わり、ソフトウェア フレームワークとハードウェア アクセラレータが統合されることで、AI が飛躍的に進化します。AI Hypercomputer を使用した推論の詳細をご確認のうえ、JetStreamMaxDiffusion のレシピを確認し、今すぐ導入をご検討ください。

-AI Infrastructure 担当グループ プロダクト マネージャー Reena Singhal Lee

投稿先