コンピューティング

Blackwell の登場 - NVIDIA B200 搭載の新しい A4 VM のプレビュー版公開

2025年2月10日

George Elissaios

VP Product Management, Compute and AI Infrastructure

Roy Kim

Director Product Management, Cloud GPUs

Join us at Google Cloud Next

Early bird pricing available now through Feb 14th.

※この投稿は米国時間 2025 年 2 月 1 日に、Google Cloud blog に投稿されたものの抄訳です。

最新の AI ワークロードでは、ますます多様化するモデルサイズやモダリティに対して高度なモデルアーキテクチャを実行するために、強力なアクセラレータと高速の相互接続が求められます。こうした複雑なモデルには、大規模なトレーニングに加え、ファインチューニングや推論に最新のハイパフォーマンスコンピューティングソリューションが必要です。

このたび、NVIDIA HGX B200 搭載の A4 VM のプレビュー版公開により、待望の NVIDIA Blackwell GPU が Google Cloud に登場しました。A4 VM では、8 個の Blackwell GPU が第 5 世代の NVIDIA NVLink によって相互接続され、旧世代の A3 High VM と比べてパフォーマンスが大幅に向上しています。GPU はそれぞれピーク時のコンピューティングパフォーマンスが 2.25 倍、HBM キャパシティが 2.25 倍であるため、A4 VM は幅広いモデルアーキテクチャのトレーニングとファインチューニング用として汎用性の高いオプションとなります。また、コンピューティングパフォーマンスと HBM キャパシティの向上により、低レイテンシのサービングにも最適になっています。

A4 VM は Google のインフラストラクチャにおけるイノベーションを Blackwell GPU と統合しており、スケーラビリティ、パフォーマンス、使いやすさ、費用の最適化の面において、Google Cloud のお客様は最高の状態でクラウドをご利用いただけます。このイノベーションには、以下のものが含まれます。

ネットワーク機能の強化: A4 VM は Titanium ML ネットワークアダプタを備えたサーバー上に構築されています。このネットワークアダプタは、NVIDIA ConnectX-7 ネットワークインターフェースカード（NIC）を基盤として、AI ワークロードのために安全で高パフォーマンスなクラウド環境を提供できるように最適化されています。A4 VM は、Google のデータセンター全体を網羅する 4 方向のレールに沿ったネットワークと組み合わせると、RDMA over Converged Ethernet（RoCE）により、GPU 間で 3.2 Tbps の非ブロッキングトラフィックを達成します。お客様は 13 ペタビット/秒の二分割帯域幅を実現する Jupiter ネットワークファブリックにより、数万 GPU までスケールできます。
Google Kubernetes Engine: クラスタあたり最大 65,000 ノードに対応する GKE は、お客様が堅牢でプロダクションレディな AI プラットフォームを実装するのに、最もスケーラビリティに優れ、完全に自動化された Kubernetes サービスとなります。A4 VM はデフォルトの状態で GKE とネイティブに統合されています。GKE は他の Google Cloud サービスとの統合が可能で、AI のワークロードを支えるデータ処理と分散型コンピューティングのための堅牢な環境を実現できます。
Vertex AI: A4 VM は Vertex AI を通じてアクセス可能になります。Vertex AI は、生成 AI を構築して使用するためのフルマネージドな統合 AI 開発プラットフォームであり、内部で AI Hypercomputer アーキテクチャを利用しています。
オープン ソフトウェア: Google Cloud は PyTorch と CUDA に加え、NVIDIA とも緊密に連携し、JAX と XLA を最適化することで、GPU 上での集合的な通信と演算処理のオーバーラップを可能にしています。また、XLA フラグを有効にした GPU のために最適化されたモデル構成とサンプルスクリプトを追加しました。
Hypercompute Cluster: Google Cloud のスケーラビリティに優れた新しいクラスタリングシステムが、GKE と Slurm の緊密な統合により、インフラストラクチャやワークロードのプロビジョニング、そして AI スーパーコンピュータの継続的な運用を効率化します。
複数の利用モデル: オンデマンド、確約利用割引、スポットの各利用モデルに加え、Dynamic Workload Scheduler と AI ワークロードを併用するという固有のニーズに合わせてクラウドの利用を見直しました。Dynamic Workload Scheduler では、ワークロードに応じて 2 つのモードを使用できます。Flex Start モードは取得可能性と経済性を高め、Calendar モードはジョブの開始日時と継続期間を予測可能にします。

マルチアセットクラスの定量取引を行う Hudson River Trading は、A4 VM を利用して次世代の資本市場モデル調査のトレーニングを行う予定です。GPU 間の接続性と高帯域幅のメモリが強化された A4 VM は、より大規模なデータセットや高度なアルゴリズムのニーズに最適であり、Hudson River Trading の市場対応を迅速化できます。

「NVIDIA の Blackwell B200 GPU を搭載した A4 の利用を楽しみにしています。低レイテンシでの取引の判断を可能にし、複数の市場にわたりモデルを強化するには、最先端の AI Infrastructure でワークロードを実行することが不可欠です。Hypercompute Cluster のイノベーションを活用することで、定量ベースのアルゴリズム取引を実現する当社の最新モデルのトレーニングのデプロイを加速できると期待しています。」- Hudson River Trading、コンピューティングリード Gerard Bernabeu Altayo 氏

「NVIDIA と Google Cloud の長期にわたるパートナーシップを通じて、当社最新の GPU で高速化された AI インフラストラクチャをお客様に提供します。Blackwell アーキテクチャは、AI 業界にとって大きな一歩となるので、新しい A4 VM で B200 GPU が利用可能になったことをうれしく思っています。お客様が新しい Google Cloud サービスを利用してそれぞれの AI ミッションをどのように加速させるのか楽しみにしています。」- NVIDIA、バイスプレジデント兼 Hyperscale および HPC 担当ゼネラルマネージャー Ian Buck 氏

A4 VM と Hypercompute Cluster を組み合わせるメリット

AI モデルのトレーニングを効果的にスケールするには、インフラストラクチャリソースの正確でスケーラブルなオーケストレーションが必要です。こうしたワークロードは多くの場合、数千台の VM にまたがり、コンピューティング、ストレージ、ネットワークを限界まで使います。

Hypercompute Cluster を使用すると、コンピューティング、ストレージ、ネットワークを 1 つのユニットとして、A4 VM の大規模なクラスタをデプロイおよび管理できます。これにより、複雑さを容易に管理しながら、大規模な分散型ワークロード向けに極めて高いパフォーマンスとレジリエンスを実現できます。Hypercompute Cluster は次のように設計されています。

密集させた複数の A4 VM のコロケーションによって最適なワークロード配置を可能にし、高いパフォーマンスを達成する
トポロジを考慮したスケジューリングなどのインテリジェントな機能が満載の GKE と Slurm により、リソースのスケジューリングとワークロードのパフォーマンスを最適化する
組み込みの自己回復機能、先を見越したヘルスチェック、障害からの自動復旧によって信頼性を高める
タイムリーでカスタマイズされた分析情報のオブザーバビリティとモニタリングを強化する
GKE と Slurm に統合されたプロビジョニング、構成、スケーリングを自動化する

Google Cloud が、NVIDIA Blackwell B200 ベースのサービスのプレビュー版を公開する最初のハイパースケーラーであることをうれしく思っています。A4 VM と Hypercompute Cluster を組み合わせることで、あらゆる業種にわたり組織が AI ソリューションを簡単に作成し、提供できるようになります。詳細については、Google Cloud の担当者にお問い合わせください。

-プロダクトマネジメント、コンピューティング、AI Infrastructure 担当バイスプレジデント George Elissaios
-プロダクトマネジメント、クラウド GPU 担当ディレクター Roy Kim

投稿先

AI & Machine Learning

PyTorch デベロッパー向け JAX 基礎ガイド

執筆者: Anfal Siddiqui • 所要時間: 12 分

Compute

新年、AI Hypercomputer を新たにアップデート

執筆者: Chelsie Czop • 所要時間: 10 分

https://storage.googleapis.com/gweb-cloudblog-publish/images/hero_image_jalinfotec_horizontal.max-700x700.jpg

Customers

JALインフォテック: オンプレミス刷新と生成 AI 導入による Lift & Transform で、業務効率化や人材育成などを推進

執筆者: Google Cloud Japan Team • 所要時間: 4 分