コンテンツに移動
コンピューティング

NVIDIA GB200 搭載 A4X VM のご紹介 — プレビュー版公開

2025年2月28日
George Elissaios

VP AI Infrastructure and Compute, Google Cloud

Roy Kim

Director Cloud GPUs, Google Cloud

Join us at Google Cloud Next

April 9-11 in Las Vegas

Register

※この投稿は米国時間 2025 年 2 月 20 日に、Google Cloud blog に投稿されたものの抄訳です。

AI の次なるフロンティアは、推論中に批判的に思考し学習することで、複雑な問題を解決する推論モデルです。この新しいクラスのモデルをトレーニングし運用するには、膨大なデータセットとコンテキスト ウィンドウを扱えるだけでなく、迅速で信頼性の高いレスポンスを実現できる、パフォーマンスと効率性を備えたインフラストラクチャが必要です。限界を押し広げていくためには、未知の要求にも対応できるように構築されたシステムが求められます。

このたび、NVIDIA GB200 NVL72 搭載 A4X VM のプレビュー版をリリースしましたのでお知らせいたします。このシステムは 72 個の NVIDIA Blackwell GPU と 36 個の Arm ベースの NVIDIA Grace CPU を、第 5 世代の NVIDIA NVLinkによって接続した構成となっています。この統合システムによって、A4X VM は Chain-of-Thought を使った推論モデルの膨大なコンピューティングとメモリの要求を直接満たし、AI のパフォーマンスと精度を新たなレベルへと引き上げます。

Google Cloud は現在、NVIDIA B200 GPU 搭載の A4 VM と NVIDIA GB200 NVL72 搭載の A4X VM の両方を提供する初めてかつ唯一のクラウド プロバイダです。

A4X の主な特徴と機能

A4X VM は、AI の次なるフロンティアを実現するために、いくつかの重要なイノベーションに基づいて構築されています。

  • NVIDIA GB200 NVL72: この構成によって、72 個の Blackwell GPU が、共有メモリと高帯域幅通信を備えた単一の統合コンピューティング ユニットとして機能します。たとえば、この統合アーキテクチャは、並列推論リクエストにおけるマルチモーダル推論の低レイテンシのレスポンスを実現するのに役立ちます。

  • NVIDIA Grace CPU: これらのカスタム Arm チップは、Blackwell GPU への NVLink チップ間(C2C)接続を備えており、モデルやオプティマイザの状態のチェックポイント作成、オフロード、再マテリアライズを効率的に行うことで、最大規模のモデルのトレーニングと運用を可能にします。

  • トレーニング パフォーマンスの強化: GB200 NVL72 システムあたり 1 エクサフロップを超える性能を備えた A4X は、NVIDIA H100 GPU 搭載の A3 VM と比べて、LLM のトレーニング パフォーマンスが 4 倍向上しています。

  • スケーラビリティと並列化: A4X VM は、最新のシャーディングおよびパイプライン化戦略を活用して GPU 使用率を最大化することで、何万もの Blackwell GPU にわたるモデルのデプロイを容易にします。Google Cloud のハイパフォーマンス ネットワーキングは、RDMA over Converged Ethernet(RoCE)を基盤としており、数万の GPU を備えた単一のレール整列型非ブロッキング クラスタに NVL72 ラックを統合します。これにより、単に規模を実現するだけではなく、高度に複雑なモデルを効率的にスケールできます。

  • 推論の最適化: 72 個の GPU を備えた NVLink ドメインを持つ A4X アーキテクチャは、低レイテンシの推論、中でも Chain-of-Thought 手法を使った推論モデルに特化して設計されています。72 個すべての GPU 間でメモリとワークロードを共有できる(長大なコンテキストのモデルのための KVCache を含む)ことにより、低レイテンシが実現します。一方で、大規模な NVLink ドメインによってバッチサイズのスケーリングが容易になり TCO を抑えられるため、より多くの同時実行ユーザー リクエストに応えることができます。

Google Cloud のメリット

A4X VM は、Google のスーパーコンピューティング アーキテクチャである AI Hypercomputer の一部であり、Google Cloud のデータセンター、インフラストラクチャ、ソフトウェアの専門性が活かされています。AI Hypercomputer により、A4X のお客様は以下のようなメリットを活用できます。

  • Hypercompute Cluster: Hypercompute Cluster によって、コンピューティング、ストレージ、ネットワーキングを単一のユニットとして扱い、大規模な A4X VM のクラスタをデプロイおよび管理できます。これにより、複雑さを抑えながら、大規模な分散型ワークロード向けに極めて高いパフォーマンスとレジリエンスを実現できます。A4X では、Hypercompute Cluster のトポロジ認識スケジューリング アルゴリズムがNVL72 ドメインを認識し、ワークロードが高帯域幅の NVLink を活用できるように最適化します。また、NCCL プロファイリングを含む GPU、NVLink ネットワーク、DC ネットワーキング ファブリック全体のオブザーバビリティを提供し、インフラストラクチャ チームが問題を速やかに検出し解決できるようサポートします。

  • ハイパフォーマンス ネットワーキング ファブリック: A4X VM には、NVVIDIA ConnectX-7 ネットワーク インターフェース カード(NIC)に基づく Titanium ML ネットワーク アダプタが含まれています。Titanium ML アダプタは、ML ワークロードに必要なパフォーマンスを損なうことなく Google Cloud のアジリティとセキュリティを提供します。A4X システムは、RoCE を使用して 28.8 Tbps(72 × 400 Gbps)の非ブロッキング GPU 間トラフィックを実現します。A4X はレール最適化されたネットワーク設計を採用しており、GPU コレクティブのレイテンシを減少させ、パフォーマンスを向上させます。さらに、Jupiter ネットワーク ファブリックが、NVL72 ドメインを統合して単一の非ブロッキング クラスタで数万の GPU までスケールできるようにします。

  • 高度な液体冷却: A4X VM は、Google の第 3 世代液体冷却インフラストラクチャによって冷却されます。一貫した効率的な冷却は、サーマル スロットリングを防ぎ、ピークのコンピューティング パフォーマンスを維持するために不可欠です。Google の液体冷却インフラストラクチャは、何年にもわたる世界規模での運用経験から得た知見に基づいており、Google はその複雑になりがちな大規模デプロイと管理をマスターしました。A4X のパワフルな技術は、Google Cloud の広範なリージョンで利用できるようになり、世界中のお客様に急速に採用されていくでしょう。

  • ソフトウェア エコシステムの最適化: 特に Arm ベースのホストを搭載した A4X システムでは、ソフトウェアの選択が重要です。NVIDIA と協力し、PyTorch や JAX のような人気のフレームワークと相性の良いライブラリやドライバを含む、パフォーマンス最適化されたソフトウェアにアクセスできるようにしています。推論やトレーニング ワークロードの開始に役立つ、GPU レシピをご覧ください。

Google Cloud でのネイティブ統合

A4X は、Google Cloud のさまざまなプロダクトやサービスとの統合を容易にします。

  • ストレージ:  A4X VM は、Cloud Storage FUSE とネイティブに統合されており、ネイティブな ML フレームワークのデータローダーと比較して 2.9 倍のトレーニング スループット向上を実現しています。また、Hyperdisk ML は、一般的な代替手段と比較してモデルの読み込み時間を最大 11.9 倍高速化します。

  • Google Kubernetes Engine(GKE): Google Cloud の業界をリードするコンテナ管理プラットフォームの一部として、GKE と A4X VM は強力な組み合わせとなり、AI / ML のトレーニングおよび推論ワークロードをスケーリングしながらリソース使用率を最大化します。クラスタあたり最大 65,000 ノードを処理できるこの組み合わせにより、72 個の GPU 間で低レイテンシ推論およびワークロード共有を行って超大規模な AI ワークロードを実行することが可能となり、AI パフォーマンスの新たな可能性が開かれます。

  • Vertex AI Platform: Vertex AI は、AI プロジェクトの加速を支援するオープンなフルマネージド型の統合 AI 開発プラットフォームです。Google の最新の Gemini モデルにアクセスして ML モデルを簡単にトレーニング、チューニング、デプロイできるほか、さまざまなモデルやオープンモデルから選択することもできます。

戦略的パートナーシップ

さらに、フルマネージド型 AI プラットフォームである NVIDIA DGX Cloud が A4X VM 上で近日中に利用可能となり、お客様の AI イニシアチブを加速します。

「開発者と研究者には、特定のアプリケーションや業界向けの AI モデルをトレーニングしデプロイするために、最新技術が必要です。NVIDIA の Google とのコラボレーションにより、お客様には、強化されたパフォーマンスとスケーラビリティを活かして要求の厳しい生成 AI、LLM、および科学コンピューティングのワークロードに取り組み、その中で Google Cloud の使いやすさとグローバルなリーチを活用していただけます。」- NVIDIA、NVIDIA DGX Cloud バイス プレジデント、Alexis Bjorlin 氏

Magic は、独自の最先端モデルを Google Cloud の A4X VM 上に構築することを選びました。

「Google と NVIDIA とパートナーになり、Google Cloud 上で次世代の AI スーパーコンピュータを構築できることを嬉しく思います。NVIDIA の GB200 NLV72 システムを搭載した Google Cloud の A4X VM は、当社のモデルの推論とトレーニング効率を大幅に向上させます。また、Google Cloud はスケーリングの最速タイムラインと豊富なクラウド サービスのエコシステムを提供してくれます。– Magic、最高経営責任者 / 共同創業者、Eric Steinberger 氏

適切な VM の選択: A4 と A4X の比較

Google Cloud は NVIDIA B200 GPU を搭載した A4 VM と NVIDIA GB200 NVL72 を搭載した新しい A4X VM の両方を提供しています。ワークロードに最適なものを選ぶためのヒントをご紹介します。

  • A4X VM(NVIDIA GB200 NVL72 GPU 搭載): 特に推論モデル、長いコンテキスト ウィンドウを持つ大規模言語モデル、大規模な同時実行処理が必要なシナリオなど、最も要求の厳しい超大規模 AI ワークロードのトレーニングとサービング(推論)のために特別に設計されています。これは、大規模な GPU ドメイン全体で統合されたメモリによって実現されています。

  • A4 VM(NVIDIA B200 GPU 搭載): A4 は、トレーニング、ファインチューニング、サービングを含む、多様な AI モデル アーキテクチャとワークロードに対して優れたパフォーマンスと汎用性を提供します。A4 は、前世代の Cloud GPU からスムーズに移行できる点と、さまざまなスケールのトレーニング ジョブに最適化されたパフォーマンスを提供します。

A4X の詳細については、Google Cloud の担当者にお問い合わせください。A4X をビジネスに役立てる方法について、詳しくは Google Cloud Next をご覧ください。

 

-Google Cloud、AI インフラストラクチャおよびコンピューティング担当バイスプレジデント、George Elissaios

-Google Cloud、クラウド GPU 担当ディレクター、Roy Kim

投稿先