GTC での Google Cloud: A4 VM が一般提供に、A4X VM がプレビュー版に
Nirav Mehta
VP, Google Cloud Compute Platform
Roy Kim
Director, Google Cloud AI Infrastructure
※この投稿は米国時間 2025 年 3 月 19 日に、Google Cloud blog に投稿されたものの抄訳です。
Google Cloud は、今年の 3 月 17 日~21 日にカリフォルニア州サンノゼで開催される NVIDIA の GTC AI Conference に、過去最大規模での参加を予定しています。この年次カンファレンスでは、何千人ものデベロッパー、イノベーター、ビジネス リーダーが集まり、AI と高速コンピューティングが人類の複雑な課題の解決にどのように役立っているかを体験します。また、最適化されたトレーニングと推論による AI の構築とデプロイや、現実のソリューションへの AI の適用について説明します。インタラクティブなデモによる AI の体験も可能です。ぜひご参加ください。
Google Cloud は、A4 VM と A4X VM で NVIDIA の HGX B200 と GB200 NVL72 の両方をお客様に提供した最初のハイパースケーラーです。このたび、A4 VM の一般提供が開始されました。また、A4X VM のプレビュー版も公開され、まもなく一般提供が開始されます。
-
A4X VM: NVIDIA GB200 NVL72 GPU で高速化された A4X VM は、最も要求の厳しい超大規模 AI ワークロードのトレーニングとサービングに特化して設計されています。特に、推論モデル、長いコンテキスト ウィンドウを持つ大規模言語モデル(LLM)、大規模な同時実行処理が必要なシナリオなどに向いています。これは、大規模な GPU ドメイン全体で統合されたメモリと、超低レイテンシの GPU 間接続によって実現されています。各 A4X VM は 4 つの GPU を搭載、72 個の GPU システム全体を第 5 世代 NVLink によって接続しており、720 ペタフロップスのパフォーマンス(FP8)を実現します。A4X は、Llama 2 70b を実行するフル NVL72 で、1 秒あたり 86 万トークンの推論パフォーマンスを達成しました。
-
A4 VM: NVIDIA HGX B200 GPU を搭載した A4 VM は、トレーニング、ファインチューニング、サービングを含む、多様な AI モデル アーキテクチャとワークロードに対して優れたパフォーマンスと汎用性を提供します。各 A4 VM には 8 個の GPU が搭載されており、合計 72 ペタフロップスのパフォーマンス(FP8)を実現します。A4 は、前世代の Cloud GPU からスムーズに移行できるため、A3 Mega(NVIDIA H100 GPU)よりもトレーニング パフォーマンスが 2.2 倍向上するアップグレードが容易になります。
「NVIDIA Blackwell GPU と Google Cloud の AI Hypercomputer アーキテクチャを搭載した A4 VM をいち早くテストできたことを嬉しく思います。コンピューティングとメモリの単純な進化に加え、NVLink を介した 3.2 Tbps の GPU 間相互接続と Titanium ML ネットワーク アダプタは、モデルのトレーニングに不可欠です。Cluster Director を活用することで、大規模なトレーニング ワークロードのデプロイと管理が簡素化されます。これにより研究のスピードと柔軟性が増すことで、取引モデルをより効率的にテスト、イテレーション、改良できるようになります。」- Hudson River Trading、コンピューティング リード Gerard Bernabeu Altayo 氏
Google Cloud のメリット
A4 VM および A4X VM は、Google Cloud の AI Hypercomputer の一部です。これは、AI ワークロードの高パフォーマンス、信頼性、効率性を実現するために設計された Google のスーパーコンピューティング アーキテクチャです。AI Hypercomputer は、Google Cloud のワークロードに最適化されたハードウェア、オープン ソフトウェア、柔軟な消費モデルを組み合わせることで、デプロイの簡素化、パフォーマンスの向上、費用の最適化を実現します。A4 VM と A4X VM は、AI Hypercomputer の次の機能を活用します。
-
AI に最適化されたアーキテクチャ: A4 VM と A4X VM は、Titanium ML ネットワーク アダプタを備えたサーバー上に構築されています。このネットワーク アダプタは、NVIDIA ConnectX-7 ネットワーク インターフェース カード(NIC)を基盤に構築されており、AI ワークロードのための安全で高パフォーマンスなクラウド環境を提供します。A4 VM は、Google のデータセンター全体を網羅する 4 方向のレールに沿ったネットワークと組み合わせると、RDMA over Converged Ethernet(RoCE)により、GPU 間で 3.2 Tbps の非ブロッキング トラフィックを達成します。13 ペタビット/秒の二分割帯域幅を実現する Jupiter ネットワーク ファブリックにより、数万台の NVIDIA Blackwell GPU までスケールできます。
-
事前構築済みソリューションによるデプロイの簡素化: 大規模なトレーニング ワークロードの場合、Cluster Director はアクセラレータ リソースの高密度なコロケーションを提供し、ホストマシンが物理的に互いに近い場所に割り当てられ、リソースのブロックとしてプロビジョニングされるようにします。また、ネットワーク ホップを最小限に抑え、レイテンシが最小限になるように最適化された動的 ML ネットワーク ファブリックによってホストマシンを相互接続します。
-
スケーラブルなインフラストラクチャ: クラスタあたり最大 65,000 ノードに対応する Google Kubernetes Engine(GKE)は、AI Hypercomputer で実行される最もスケーラブルな Kubernetes サービスであり、堅牢でプロダクション レディな AI プラットフォームを実装できます。A4 VM と A4X VM は、GKE とネイティブに統合されています。また、ストレージ用の Hyperdisk ML やデータ ウェアハウスとしての BigQuery など、他の Google Cloud サービスとの統合により、GKE は AI ワークロードのデータ処理と分散コンピューティングを促進します。
-
完全に統合されたオープン ソフトウェア: CUDA のサポートに加え、Google は NVIDIA と緊密に連携して、PyTorch や JAX(リファレンス実装である MaxText を含む)などの一般的なフレームワークを XLA で最適化し、GPU インフラストラクチャのパフォーマンスを向上させています。デベロッパーは、レイテンシ隠蔽スケジューラなどの優れた手法を簡単に組み込むことで、通信のオーバーヘッドを最小限に抑えることができます(XLA の最適化を参照)。
- 柔軟な利用モデル: オンデマンド、確約利用割引、スポットの各利用モデルに加え、Dynamic Workload Scheduler と AI ワークロードを併用するという固有のニーズに合わせてクラウドの利用を見直しました。Dynamic Workload Scheduler では、ワークロードに応じて 2 つのモードを使用できます。Flex Start モードは取得可能性と経済性を高め、Calendar モードはジョブの開始日時と継続期間を予測可能にします。Dynamic Workload Scheduler により、同時に必要となるすべてのアクセラレータをスケジューリングすることで、AI アクセラレータ リソースへのアクセス向上、費用の最適化の実現をサポートし、トレーニングやファインチューニング ジョブなどのワークロードを改善します。
NVIDIA と Google Cloud: 効果的なコラボレーション
NVIDIA と Google Cloud は、共通のお客様に最適化されたエクスペリエンスを提供するために、継続的に協力しています。最近のコラボレーションの一つは、AI を活用した創薬を加速させるためのソフトウェア イノベーションの統合です。NVIDIA BioNeMo Framework と GKE のブループリント、PyTorch Lightning を使用して、ドメイン固有のタスクにすぐに使用できるリファレンス ワークフローを提供しています。NVIDIA BioNeMo Framework は、生体分子 AI モデルのトレーニングとファインチューニングに最適化された環境を実現します。詳しくはこちらをご覧ください。
Google Cloud の紹介
Google Cloud とつながるには、NVIDIA GTC のブース #914 にお越しいただくか、以下に記載されているエキスパート主導のセッションにご参加ください。個別ミーティングをご希望の場合は、メールで Google までお問い合わせください。Google Cloud 担当者と初めて話すという方も、NVIDIA GTC で Google Cloud のセッションに参加するのが初めてという方も、お会いできることを楽しみにしています。
エキスパートによるセッションで AI を深く掘り下げる
エキスパートが主導するセッションに参加して、Google での AI 開発に関する詳細な知識と実践的なスキルを身に付けましょう。
3 月 18 日(火曜日)
MoE モデルによる広告の未来の最適化時間: 午後 2:00~2:40(太平洋夏時間)講演者: Google DeepMind、プロダクト マネジメント担当ディレクター Tris Warkentin
AI のためのネットワーク: 10 万以上の GPU AI データセンターとクラウドのネットワーキングから学んだこと時間: 午後 4:00~5:00(太平洋夏時間)講演者: Google、ネットワーキング担当バイス プレジデント Dan Lenoski、その他の業界リーダー
3 月 19 日(水曜日)
AI を加速: Google Cloud を使用してパフォーマンスと効率を高める時間: 午前 10:00~10:40(太平洋夏時間)講演者: Google Cloud GPU 担当ディレクター Roy Kim および Augment Code 最高経営責任者 Scott Dietzen 氏
ワークロードをラックスケール相互接続 GPU システム用に最適化時間: 午後 3:00~3:40(太平洋夏時間)講演者: Google Cloud、ソフトウェア エンジニア Jon Olson および Google、プロダクト マネージャー Pramod Ramarao
3 月 20 日(木曜日)
Gemini のコーディング アシスタントでデータ サイエンス ワークフローのスピードを向上時間: 午前 8:00~8:40(太平洋夏時間)講演者: Google、デベロッパーリレーションズ担当エンジニアリング マネージャー Paige Bailey
DOCA アクセラレーション ネットワーキングによる次世代 AI ファクトリーの構築時間: 午前 9:00~9:40(太平洋夏時間)講演者: Google Cloud、シニア スタッフ ソフトウェア エンジニア Valas Valancius、NVIDIA、プロダクト管理担当ディレクター Ariel Kit 氏、Google Cloud、上級エンジニア David Wetherall
ヒューマノイド向け物理 AI: Google ロボティクスがシミュレーションを使用してヒューマノイド ロボットのトレーニングを加速する方法時間: 午前 9:00~9:40(太平洋夏時間)講演者: Google、主任研究員 Erik Frey
AlphaFold 3 による合理的な医薬品設計に向けて時間: 午前 10:00~10:40(太平洋夏時間)講演者: Isomorphic Labs(DeepMind)、最高 AI 責任者 Max Jaderberg および Isomorphic Labs(DeepMind)、最高技術責任者 Sergei Yakneen
AI の実践: AI インフラストラクチャの最適化時間: 午前 11:00~11:40(太平洋夏時間)講演者: Google Cloud、シニア プロダクト マネージャー Chelsie Czop、Shopify、ML エンジニア Kshetrajna Raghavan 氏、Palo Alto Networks、プリンシパル ML エンジニア Ashwin Kannan 氏、Livex.AI、最高 AI 責任者 Jia Li 氏
JAX を使用した LLM トレーニングの水平スケーリング 時間: 午後 2:00~2:40(太平洋夏時間)講演者: Google、シニア エンジニアリング マネージャー Andi Gavrilescu、Google、リサーチ サイエンティスト Matthew JohnsonGoogle、シニア ディープ ラーニング アーキテクト Abhinav Goel
オンデマンド、バーチャル セッション
S74318: Google で、NVIDIA GPU を使用して AI と HPC をデプロイ講演者: Google Cloud、HPC グループ プロダクト マネージャー Annie Ma-Weaver、Google Cloud、HPC および AI ソリューション マネージャー Wyatt Gorman、Google Cloud、HPC ソフトウェア エンジニア Sam Skillman
S74319: Google Cloud AI Hypercomputer で大規模 AI を強化講演者: Google Cloud、ML ソフトウェア担当プロダクト管理リード Rajesh Anantharaman および Google Cloud、プロダクト マネージャー Deepak Patil
NVIDIA GTC でのエキスパートによるセッションに加えて、以下のオンサイトのイベントにもぜひご参加ください(定員には限りがあります)。
-
エグゼクティブ円卓会議、3 月 19 日(水)午前 8 時
-
DGX Cloud に関する Google Cloud 円卓会議、3 月 20 日(木)午前 8 時
-
デベロッパー向けハンズオンラボ、3 月 20 日(木)午前 10 時
-Google Cloud、プロダクト管理担当シニア ディレクター Nirav Mehta
-Google Cloud AI Infrastructure 担当ディレクター、Roy Kim