新年、AI Hypercomputer を新たにアップデート
Chelsie Czop
Senior Product Manager, AI Infrastructure
Mohan Pichika
Group Product Manager, AI Infrastructure
※この投稿は米国時間 2025 年 1 月 17 日に、Google Cloud blog に投稿されたものの抄訳です。
2024 年最後の数週間は、Google の第 6 世代 TPU である Trillium の一般提供、NVIDIA H200 GPU を搭載した A3 Ultra VM、Google Kubernetes Engine(GKE)による最大 65,000 ノードのサポート、Parallelstore(HPC ワークロードや AI ワークロードに不可欠な低レイテンシ、高スループットのストレージを提供する分散ファイル システム サービス)など、AI インフラストラクチャにおけるさまざまな進歩を皆様にお届けする、刺激的な日々となりました。皆様がこれらの新機能を活用してどのようなものを構築するか、楽しみにしています。
これらのイノベーションを集約したものが AI Hypercomputerです。AI Hypercomputer は、何十億ものユーザーに AI エクスペリエンスを提供してきた Google の長年の経験から生まれたシステムレベルでのアプローチであり、パフォーマンスが最適化されたハードウェア、オープンなソフトウェアとフレームワーク、柔軟性の高い消費モデルが融合しています。そのため、Google Cloud で AI ソリューションを構築する際は、連携して機能するように設計された専用のインフラストラクチャ コンポーネントのセットから選択できます。このように特定のワークロードのニーズに合わせて適切なソリューションを自由に選択できることが、Google のアプローチの基本となっています。
ここでは、新しいインフラストラクチャ コンポーネントに基づく前四半期の AI Hypercomputer の主なアップデートと、それらが特定の AI ユースケースをどのように実現するかをご紹介します。
分散(マルチノード)ワークロードの実行
大規模な AI トレーニングや HPC ワークロードのようなマルチノード(マルチホスト)アプリケーションのパフォーマンスは、ネットワークの接続性の影響を非常に受けやすい場合があり、精密な設定とプロアクティブなモニタリングを必要とします。Google は、お客様が GPU 上で大規模なマルチノード ワークロードをより簡単に実行できるようにしたいと考え、A3 Ultra VM とスケーラビリティの高い新たなクラスタリング システムの Hypercompute Cluster をリリースしました。どちらのプロダクトも、2024 年末に一般提供を開始しています。
NVIDIA H200 GPU を搭載した A3 Ultra は、NVIDIA Hopper GPU で高速化した VM を抱える A3 ファミリーに新たに追加された VM です。NVIDIA H100 GPU を搭載した A3 Mega と比較して、GPU 間ネットワーク帯域幅と高帯域幅メモリ(HBM)がそれぞれ 2 倍になっています。A3 Ultra VM は、A3 ファミリーの中で最も高いパフォーマンスを発揮します。Google の新しい Titanium ML ネットワーク アダプタを使って構築された A3 Ultra VM には、NVIDIA ConnectX-7 ネットワーク インターフェース カード(NIC)が組み込まれており、安全かつパフォーマンスの高いクラウド エクスペリエンスを AI ワークロードにもたらします。Google のデータセンター全体を網羅する 4 方向のレールに沿ったネットワークと組み合わせると、A3 Ultra VM は、RDMA over Converged Ethernet(RoCE)で、GPU 間での最大 3.2 Tbps のノンブロッキング通信を達成します。
A3 Ultra VM は GKE からも利用でき、移植可能かつ拡張可能でスケーラビリティに優れたオープンなプラットフォームを、AI ワークロードのトレーニングとサービングに役立てられます。A3 Ultra VM を試してみるには、GKE でクラスタを簡単に作成するか、こちらの事前トレーニング用 GPU レシピをお試しください。
一方、Hypercompute Cluster は、AI Hypercomputer 上に構築されたスーパーコンピューティング サービス プラットフォームで、多数のアクセラレータを 1 つのユニットとしてデプロイ、管理することができます。Hypercompute Cluster は、超低レイテンシ ネットワーキングでの高密度なリソースのコロケーション、ターゲット設定によるワークロード配置、ワークロード停止を最小限に抑える高度なメンテナンス管理、Slurm や GKE のような一般的なスケジューラに統合された、トポロジを考慮したスケジューリングといった特長を備えており、お客様のスループットとレジリエンスの目標達成を支援するために構築されました。事前に構成された検証済みのテンプレートと単一の API 呼び出しを使用して、信頼性と再現性のあるデプロイが可能です。また、クラスタレベルのオブザーバビリティ、健全性モニタリング、診断ツールにより、最も要求の厳しいワークロードも Google Cloud 上で簡単に実行できます。このたび、Hypercompute Cluster を A3 Ultra VM で使用できるようになりました。
LG AI Research は Google Cloud インフラストラクチャのアクティブ ユーザーであり、大規模言語モデル Exaone 3.0 のトレーニングに使用していました。また、A3 Ultra VM と Hypercompute Cluster のアーリー アドプターでもあり、次のイノベーションの推進に活用しています。
「NVIDIA H200 GPU を搭載した Google Cloud の A3 Ultra で Hypercompute Cluster を使い始めた瞬間から、AI ワークロードのパフォーマンスの並外れた向上とシームレスなスケーラビリティに驚かされました。さらに印象的だったのは、クラスタを稼働させてコードを実行するまでに 1 日もかからなかったことです。以前は 10 日かかっていたのが大幅に改善されました。この先進的なインフラストラクチャの可能性をさらに追求し、当社の AI イニシアチブを推進していくことを楽しみにしています。」- LG AI Research、AI インフラ シニア エンジニア、Jiyeon Jung 氏
TPU での推論を容易にする
複雑な複数のステップの推論ができる次世代の AI エージェントを実現するには、こうした高度なモデルの厳しいコンピューティング要件に対処できるよう設計されたアクセラレータが必要です。Trillium TPU は推論ワークロードに大きな進歩をもたらし、前世代の TPU v5e と比較して推論スループットが最大 3 倍に向上しました。
Google Cloud TPU を AI 推論に活用する方法は、ユーザーのニーズに応じて複数用意されています。これを実現するには、Vertex AI を使用します。Vertex AI は、生成 AI を構築して使用するためのフルマネージドな統合 AI 開発プラットフォームであり、内部で AI Hypercomputer アーキテクチャを活用しています。ただし、より詳細に管理する必要がある場合は、Cloud TPU 上でのサービングを最適化できるよう設計されたオプションがスタックの下位レベルに用意されています。JetStream は、LLM 向けにメモリとスループットを最適化したサービング エンジンで、MaxDiffusion は、拡散モデルの入門にご利用いただけます。また、Hugging Face コミュニティのために Hugging Face と緊密に協力して、Cloud TPU 上のサービングを容易にする Optimum TPU と Hugging Face TGI をリリースしました。
最近では、PyTorch/XLA 2.5 において、TPU で vLLM を実験的にサポートすることを発表しました。この人気のサービング オプションに対する大きな反響に突き動かされ、Google は Cloud TPU のパフォーマンス(とコスト パフォーマンス)の利点を vLLM に提供できるよう、少数のお客様とプレビューを行ってきました。
Google の目標は、お客様が既存の vLLM 環境で Cloud TPU を簡単に試せるようにすることです。構成を少し変えるだけで、Compute Engine、GKE、Vertex AI、Dataflow でパフォーマンスと効率性の利点を確認できます。こちらのチュートリアルでは Trillium TPU 上で vLLM をお試しいただけます。このイノベーションはすべてオープンな環境で進行しています。皆様からのご協力をお待ちしております。
また、Google Colab で Cloud TPU(TPU v5e)がサポート対象となり、お客様のプロジェクトで TPU を試せるようになりました。
AI インフラストラクチャの限界を押し広げる
Google Cloud は 2025 年も、AI Hypercomputer で AI インフラストラクチャの限界に引き続き挑戦してまいります。ご紹介したアップデートには、お客様による AI への取り組みを加速するために必要なパフォーマンス、効率性、使いやすさを提供するという Google の継続的なコミットメントが表れています。皆様がこれらの新機能を活用してどのような成果を達成されるのか、今後を楽しみにしています。