Blackwell の登場 - NVIDIA B200 搭載の新しい A4 VM のプレビュー版公開
George Elissaios
VP Product Management, Compute and AI Infrastructure
Roy Kim
Director Product Management, Cloud GPUs
※この投稿は米国時間 2025 年 2 月 1 日に、Google Cloud blog に投稿されたものの抄訳です。
最新の AI ワークロードでは、ますます多様化するモデルサイズやモダリティに対して高度なモデル アーキテクチャを実行するために、強力なアクセラレータと高速の相互接続が求められます。こうした複雑なモデルには、大規模なトレーニングに加え、ファインチューニングや推論に最新のハイ パフォーマンス コンピューティング ソリューションが必要です。
このたび、NVIDIA HGX B200 搭載の A4 VM のプレビュー版公開により、待望の NVIDIA Blackwell GPU が Google Cloud に登場しました。A4 VM では、8 個の Blackwell GPU が第 5 世代の NVIDIA NVLink によって相互接続され、旧世代の A3 High VM と比べてパフォーマンスが大幅に向上しています。GPU はそれぞれピーク時の コンピューティング パフォーマンスが 2.25 倍、HBM キャパシティが 2.25 倍であるため、A4 VM は幅広いモデル アーキテクチャのトレーニングとファインチューニング用として汎用性の高いオプションとなります。また、コンピューティング パフォーマンスと HBM キャパシティの向上により、低レイテンシのサービングにも最適になっています。
A4 VM は Google のインフラストラクチャにおけるイノベーションを Blackwell GPU と統合しており、スケーラビリティ、パフォーマンス、使いやすさ、費用の最適化の面において、Google Cloud のお客様は最高の状態でクラウドをご利用いただけます。このイノベーションには、以下のものが含まれます。
-
ネットワーク機能の強化: A4 VM は Titanium ML ネットワーク アダプタを備えたサーバー上に構築されています。このネットワーク アダプタは、NVIDIA ConnectX-7 ネットワーク インターフェース カード(NIC)を基盤として、AI ワークロードのために安全で高パフォーマンスなクラウド環境を提供できるように最適化されています。A4 VM は、Google のデータセンター全体を網羅する 4 方向のレールに沿ったネットワークと組み合わせると、RDMA over Converged Ethernet(RoCE)により、GPU 間で 3.2 Tbps の非ブロッキング トラフィックを達成します。お客様は 13 ペタビット/秒の二分割帯域幅を実現する Jupiter ネットワーク ファブリックにより、数万 GPU までスケールできます。
-
Google Kubernetes Engine: クラスタあたり最大 65,000 ノードに対応する GKE は、お客様が堅牢でプロダクション レディな AI プラットフォームを実装するのに、最もスケーラビリティに優れ、完全に自動化された Kubernetes サービスとなります。A4 VM はデフォルトの状態で GKE とネイティブに統合されています。GKE は他の Google Cloud サービスとの統合が可能で、AI のワークロードを支えるデータ処理と分散型コンピューティングのための堅牢な環境を実現できます。
-
Vertex AI: A4 VM は Vertex AI を通じてアクセス可能になります。Vertex AI は、生成 AI を構築して使用するためのフルマネージドな統合 AI 開発プラットフォームであり、内部で AI Hypercomputer アーキテクチャを利用しています。
-
オープン ソフトウェア: Google Cloud は PyTorch と CUDA に加え、NVIDIA とも緊密に連携し、JAX と XLA を最適化することで、GPU 上での集合的な通信と演算処理のオーバーラップを可能にしています。また、XLA フラグを有効にした GPU のために最適化されたモデル構成とサンプル スクリプトを追加しました。
-
Hypercompute Cluster: Google Cloud のスケーラビリティに優れた新しいクラスタリング システムが、GKE と Slurm の緊密な統合により、インフラストラクチャやワークロードのプロビジョニング、そして AI スーパーコンピュータの継続的な運用を効率化します。
-
複数の利用モデル: オンデマンド、確約利用割引、スポットの各利用モデルに加え、Dynamic Workload Scheduler と AI ワークロードを併用するという固有のニーズに合わせてクラウドの利用を見直しました。Dynamic Workload Scheduler では、ワークロードに応じて 2 つのモードを使用できます。Flex Start モードは取得可能性と経済性を高め、Calendar モードはジョブの開始日時と継続期間を予測可能にします。
マルチアセット クラスの定量取引を行う Hudson River Trading は、A4 VM を利用して次世代の資本市場モデル調査のトレーニングを行う予定です。GPU 間の接続性と高帯域幅のメモリが強化された A4 VM は、より大規模なデータセットや高度なアルゴリズムのニーズに最適であり、Hudson River Trading の市場対応を迅速化できます。
「NVIDIA の Blackwell B200 GPU を搭載した A4 の利用を楽しみにしています。低レイテンシでの取引の判断を可能にし、複数の市場にわたりモデルを強化するには、最先端の AI Infrastructure でワークロードを実行することが不可欠です。Hypercompute Cluster のイノベーションを活用することで、定量ベースのアルゴリズム取引を実現する当社の最新モデルのトレーニングのデプロイを加速できると期待しています。」- Hudson River Trading、コンピューティング リード Gerard Bernabeu Altayo 氏
「NVIDIA と Google Cloud の長期にわたるパートナーシップを通じて、当社最新の GPU で高速化された AI インフラストラクチャをお客様に提供します。Blackwell アーキテクチャは、AI 業界にとって大きな一歩となるので、新しい A4 VM で B200 GPU が利用可能になったことをうれしく思っています。お客様が新しい Google Cloud サービスを利用してそれぞれの AI ミッションをどのように加速させるのか楽しみにしています。」- NVIDIA、バイスプレジデント兼 Hyperscale および HPC 担当ゼネラル マネージャー Ian Buck 氏
A4 VM と Hypercompute Cluster を組み合わせるメリット
AI モデルのトレーニングを効果的にスケールするには、インフラストラクチャ リソースの正確でスケーラブルなオーケストレーションが必要です。こうしたワークロードは多くの場合、数千台の VM にまたがり、コンピューティング、ストレージ、ネットワークを限界まで使います。
Hypercompute Cluster を使用すると、コンピューティング、ストレージ、ネットワークを 1 つのユニットとして、A4 VM の大規模なクラスタをデプロイおよび管理できます。これにより、複雑さを容易に管理しながら、大規模な分散型ワークロード向けに極めて高いパフォーマンスとレジリエンスを実現できます。Hypercompute Cluster は次のように設計されています。
-
密集させた複数の A4 VM のコロケーションによって最適なワークロード配置を可能にし、高いパフォーマンスを達成する
-
トポロジを考慮したスケジューリングなどのインテリジェントな機能が満載の GKE と Slurm により、リソースのスケジューリングとワークロードのパフォーマンスを最適化する
-
組み込みの自己回復機能、先を見越したヘルスチェック、障害からの自動復旧によって信頼性を高める
-
タイムリーでカスタマイズされた分析情報のオブザーバビリティとモニタリングを強化する
-
GKE と Slurm に統合されたプロビジョニング、構成、スケーリングを自動化する
Google Cloud が、NVIDIA Blackwell B200 ベースのサービスのプレビュー版を公開する最初のハイパースケーラーであることをうれしく思っています。A4 VM と Hypercompute Cluster を組み合わせることで、あらゆる業種にわたり組織が AI ソリューションを簡単に作成し、提供できるようになります。詳細については、Google Cloud の担当者にお問い合わせください。