AI Hypercomputer の最新情報: TPU 上の vLLM など
Brittany Rockwell
Product Manager, AI and Computing
Kaan Akoz
Product Strategy Principal, AI and Computing
AI インフラストラクチャのデプロイを簡素化し、パフォーマンスを向上させ、費用を最適化する新しい方法。
※この投稿は米国時間 2025 年 10 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。
Google Cloud AI Hypercomputer は、AI に最適化されたハードウェア、最先端のソフトウェア、柔軟な消費モデルを組み合わせて、あらゆる AI ワークロードへの効率的な対応を実現しています。Google は 3 か月ごとに、AI Hypercomputer に関する最新のニュース、リソース、イベント、学習機会などをまとめてご紹介しています。今回は、AI 活用をさらに迅速で効率的かつ有益なものにするための最新の開発状況をご紹介します。まずは、推論に関するグッドニュースから始めましょう。


新しい vLLM TPU の発表


大規模言語モデル(LLM)を扱う ML 実務担当者にとって、優れた費用対効果を維持した推論ワークロードのサービングは究極の目標です。そこで、Google は今四半期最大のアップデートとして、業界をリードする Google Cloud TPU と JAX のパフォーマンスを、最も人気のあるオープンソース LLM 推論エンジンである vLLM にもたらすことを発表します。
vLLM TPU は、JAX と PyTorch を単一のランタイムで統合する、表現力豊かで強力な新しいハードウェア プラグインである tpu-inference を搭載しています。前世代の vLLM TPU よりも高速であるだけでなく、より幅広いモデルをカバー(例: Gemma、Llama、Qwen)と機能サポート。vLLM TPU は、開発者が次のことを行うためのフレームワークです。
-
オープンソースで TPU ハードウェアのパフォーマンスの限界を押し上げる
-
TPU 上で PyTorch モデル定義を高パフォーマンスで実行し、JAX のネイティブ サポートも拡張されたことで、JAX と PyTorch のユーザーに柔軟性を提供。追加のコード変更は不要
-
vLLM の標準化を維持: 同一のユーザー エクスペリエンス、テレメトリー、インターフェースを確保
現在、vLLM TPU は、2025 年 2 月にリリースした最初の TPU バックエンド プロトタイプよりもパフォーマンスが大幅に向上しており、モデルのサポートと機能の網羅率が改善されています。この新しい基盤の整備により、わずかな構成変更だけで、オープンソース環境における TPU 推論性能をこれまで以上に引き出せるようになります。
技術的な詳細については、vLLM の最新のブログ投稿をご覧ください。
AI ツールキットを拡充
AI Hypercomputer の追加アップデートにより、制御、分析情報、選択肢がさらに広がります。
改良された XProf プロファイラでボトルネックをより迅速に発見して修正ML 開発において、パフォーマンスのデバッグは最も時間のかかる作業の一つです。これを簡単にするために、Google は XProf プロファイラを強化し、新しい Cloud Diagnostics XProf ライブラリをリリースしました。これにより、JAX と PyTorch / XLA 全体で統合された高度なプロファイリング エクスペリエンスが提供され、これまで Google の社内チームだけが使っていた強力なツールでモデルのボトルネックを特定できます。パフォーマンスの問題の特定にかかる時間が短縮され、その分をイノベーションに投資できるようになります。
オープンネスの実現: NVIDIA Dynamo の新しいレシピ
Google は、選択の原則に基づいて AI Hypercomputer を構築し、お客様が手元の作業に最適なツールを使用できるようにしたいと考えています。これを目的として、AI Hypercomputer の新しい NVIDIA Dynamo を使用する AI 推論レシピでは、GKE で管理される個別の GPU プールに「プリフィル」フェーズと「デコード」フェーズを分離し、分散型推論アーキテクチャをデプロイする方法を紹介しています。これは、Google のオープン アーキテクチャによって、エコシステム全体から最高水準のテクノロジーを組み合わせて複雑な課題を解決できることを示す強力なデモンストレーションです。
NVIDIA NeMo RL で強化学習を加速
強化学習(RL)は、高度な推論を必要とする複雑な AI エージェントやワークフローに不可欠なトレーニング手法として急速に普及しています。強化学習でパフォーマンスの強化を目指すチーム向けに、Google Cloud で NVIDIA NeMo RL を使い始めるための再現性のある新しいレシピが提供されています。NeMo RL は、RL ワークロードに固有の複雑なスケーリングとレイテンシの課題に対処するために設計された高性能フレームワークです。このフレームワークでは、最適化された GRPO や PPO などの主要アルゴリズムにより、大規模モデルのトレーニングが容易になります。新しいレシピは、GKE と vLLM を使用した A4 VM(NVIDIA HGX B200 搭載)で実行され、Llama 3.1 8B や Qwen2.5 1.5B などのモデルの RL 開発サイクルを簡単に設定、スケーリングできます。
費用対効果の高い方法で高パフォーマンスの推論をスケーリング生成 AI アプリケーションの使いやすさは、リクエストに対する迅速な初期応答と、完了までのスムーズなレスポンス ストリーミングの両方に大きく依存します。LLM サービングを合理化して標準化するために、GKE Inference Gateway と Quickstart の一般提供が開始されました。Inference Gateway は、は、プレフィックス対応のロード バランシングなどの新機能により、シンプルなサービス提供を可能にします。これにより、繰り返しプロンプトを使用するワークロードのレイテンシが大幅に向上します。Inference Quickstart では、モデルに最適な費用対効果の高いハードウェアとソフトウェアの構成を見つけられるようになり、手動評価に数か月を費やす必要がなくなります。これらの新機能により、AI Hypercomputer のファースト トークンまでの時間(TTFT)と出力トークンあたりの時間(TPOT)が改善されました。
包括的なシステムで未来を築く
本日ご紹介した進歩(vLLM の TPU への導入から、高度なプロファイリングやサードパーティとの統合の実現まで)はすべて、AI Hypercomputer が次世代 AI の需要を満たすために常に進化するスーパーコンピューティング システムであるという考え方に基づいています。
Google は、Gemini のトレーニングから毎月数京のトークンの処理まで、運用で得た知見に基づいて、AI Hypercomputer を更新・最適化していきます。AI Hypercomputer を独自の AI ワークロードに使用する方法について詳しくは、こちらをご覧ください。Google Cloud のコミュニティでは、Google の進歩について最新情報を確認したり、質問することが可能です。また、GitHub で拡張し続ける AI Hypercomputer リソース リポジトリにアクセスすることもおすすめします。AI Hypercomputer を構築のために活用していただければ幸いです。
-AI およびコンピューティング担当プロダクト マネージャー Brittany Rockwell
-AI およびコンピューティング担当プロダクト戦略プリンシパル Kaan Akoz

