コンテンツに移動
コンピューティング

NVIDIA とのパートナーシップを拡大: A4X Max、Vertex AI Training などの提供を開始

2025年10月31日
Mark Lohmeyer

VP & GM, Compute and AI Infrastructure

Try Gemini 3

Our most intelligent model is now available on Vertex AI and Gemini Enterprise

Try now

※この投稿は米国時間 2025 年 10 月 29 日に、Google Cloud blog に投稿されたものの抄訳です。

今日の AI モデルは、数十億パラメータから数兆パラメータに進化し、複雑なマルチモーダル推論が可能になっています。この飛躍的な高度化に対応するには、次世代モデルの膨大なコンピューティング要件とメモリ要件を処理するための、専用に構築された新しいクラスのインフラストラクチャとソフトウェアが必要です。

Google Cloud は、デベロッパーや組織が AI の未来を構築、デプロイできるよう支援することに注力しています。そして本日、NVIDIA とのパートナーシップをさらに深め、AI ライフサイクル全体に対応するプラットフォームを強化する一連の新機能を発表しました。

  • NVIDIA の GB300 NVL72 を搭載した新しい A4X Max インスタンス(マルチモーダル AI 推論向けに設計)

  • Google Kubernetes Engine(GKE)で Dynamic Resource Allocation Kubernetes Network Driver DRANET がサポートされ、分散 AI/ML ワークロードの帯域幅が向上

  • GKE Inference Gateway  が  NVIDIA NeMo Guardrails と統合

  • Vertex AI Model Garden で NVIDIA Nemotron モデルを提供

  • NVIDIA NeMo フレームワークと NeMo-RL をベースにした Vertex AI Training レシピ

では、これらの機能について詳しく見ていきましょう。

NVIDIA GB300 GPU 搭載 A4X Max

A4X Max が本番環境で提供開始されました。NVIDIA GB300 NVL72 を搭載したこれらの新しいインスタンスは、最も要求の厳しいマルチモーダル AI 推論ワークロード向けに最適化されています。A4X Max には、NVIDIA の第 5 世代高速 GPU インターコネクトである NVIDIA NVLink で接続された 72 個の Blackwell Ultra GPU と 36 個の NVIDIA Grace CPU が含まれており、共有メモリと高帯域幅通信を備えた単一の統合コンピューティング プラットフォームとして機能します。Google の Titanium ML アダプタと Google Cloud の Jupiter ネットワーク ファブリックを組み合わせた A4X Max は、非ブロッキングのレール最適化クラスタで数万個の GPU にスケールするように設計されています。NVIDIA GB200 NVL72 を搭載した A4X と比較して、A4X Max は各システムで 2 倍のネットワーク帯域幅を実現します。

A4X Max は Google Cloud の Cluster Director を活用し、最適化されたコンピューティング、ネットワーキング、Google のストレージ サービスを組み合わせて、まとまりのある、パフォーマンスの高い、管理しやすい環境を実現します。Cluster Director は、NVL72 ドメインにおけるプロビジョニングから、トポロジを考慮した配置、強力な可観測性と耐障害性の提供まで、A4X Max クラスタのライフサイクル全体を管理します。Managed Lustre などの最適化されたストレージ ソリューションと統合されており、事前構成されたマネージド Slurm 環境は、A4X Max のフォールト トレラントでスケーラブルなジョブ スケジューリングを提供します。Cluster Director は、GPU、NVLink、DC ネットワーキング ファブリック全体にわたるジョブとシステム パフォーマンスの詳細なオブザーバビリティも提供します。スループットを最大化するために、Cluster Director は、自動ストラグラー検出やジョブ内復元などの機能で高い信頼性を確保します。トポロジを考慮したスケジューリング、メンテナンス管理、障害のあるノードの報告などの Cluster Director 機能も、Google Kubernetes Engine(GKE)を通じて透過的に利用できるため、お客様は A4X Max を実行しながら GKE 環境に留まることができます。

これらの変更がワークロードにもたらすメリット:

  • 推論の最適化: 72 個の GPU を備えた NVLink ドメインにより、A4X と比較して 1.5 倍の FP4 FLOP、1.5 倍の HBM メモリ容量、2 倍のネットワーク帯域幅を実現する A4X Max は、低レイテンシの推論、特に最大規模の推論モデルに特化して設計されています。GKE Inference Gateway と統合すると、プレフィックス対応のロード バランシングのメリットが得られ、プレフィックスを多用するワークロードの最初のトークンまでのレイテンシが短縮されます。また、分離型サービングを有効にすることで、パフォーマンスをさらに最適化できます。これは、推論ゲートウェイ、llm-d、vLLM を組み合わせて活用することで実現され、スループットが大幅に向上します。

  • トレーニングとサービングのパフォーマンスの強化: GB300 NVL72 システムあたり 1.4 エクサフロップを超える性能を備えた A4X Max は、NVIDIA H100 GPU 搭載の A3 VM と比べて、LLM のトレーニングとサービングのパフォーマンスが 4 倍向上しています。

  • 最大のスケーラビリティと並列化: RDMA over Converged Ethernet(RoCE)を基盤とする A4X Max のネットワーキング ファブリックは、分散トレーニングと分離型サービング ワークロード向けに、低レイテンシで高性能な GPU 間コレクティブを提供します。新しいデータセンター スケーリング設計を活用することで、A4X Max クラスタは A4X クラスタの 2 倍の規模に拡張できます。

A4X Max インスタンスのプレビューは、NVIDIA RTX PRO 6000 Blackwell Server エディション GPU を搭載した新しい G4 VM と NVIDIA Omniverse ライブラリのサポートに続くものです。これらの取り組みを総合すると、あらゆる AI ワークロードに対応するエンドツーエンドのプラットフォームを提供するという Google のコミットメントが明確になります。さらに、NVIDIA とのパートナーシップを深めることで、次世代の AI を支える強力で包括的なエコシステムを実現します。

GKE DRANET で RDMA のパフォーマンスが向上

本日、Google は、A4X Max を皮切りに、マネージド DRANET を本番環境にデプロイします。DRANET は、GPU と RDMA ネットワーク インターフェース カードのトポロジを認識したスケジューリングを可能にすることで、分散 AI/ML ワークロードにおける all-gather および all-reduce オペレーションのバス帯域幅を向上させます。これにより、VM の利用率が向上し、費用対効果が高まります。これは、RDMA デバイスと GPU の接続が可能な限り最適なノードに GKE Pod をスケジュールすることで実現されます。DRANET は、RDMA デバイスを GKE 内のファーストクラスのネイティブ リソースとして扱うことで、RDMA 管理を簡素化します。GKE の DRANET の詳細については、こちらをご覧ください。

GKE と NVIDIA NeMo Guardrails

組織が AI モデルを本番環境にデプロイする際には、安全性、セキュリティ、責任ある動作を確保する必要があります。このたび、NVIDIA NeMo Guardrails と GKE Inference Gateway の統合を発表いたします。GKE Inference Gateway は、生成 AI アプリケーションの提供を目的として GKE Gateway を拡張したものです。

GKE Inference Gateway は、モデル対応ルーティングや自動スケーリングなどの機能でモデル提供を最適化します。一方、NeMo Guardrails は安全面で重要なレイヤを追加し、モデルが望ましくないトピックに関与したり、悪意のあるプロンプトに応答したりすることを防ぎます。これらを組み合わせることで、安全でスケーラブルかつ管理しやすい推論ソリューションが実現し、AI イニシアチブを加速させることができます。

Vertex AI Model Garden に NVIDIA Nemotron モデルが追加

デベロッパーの選択肢とパフォーマンスを向上させるため、 Vertex AI Model Garden は、NVIDIA NIM マイクロサービスとして NVIDIA の Nemotron ファミリーのオープンモデルをまもなくサポートする予定です。この統合により、NVIDIA Llama Nemotron Super v1.5 モデルの提供開始を皮切りに、デベロッパーや組織は Vertex AI 内から直接 NVIDIA の最新のオープンウェイト モデルにアクセスできるようになります。Vertex AI のマネージド デプロイを使用すると、パフォーマンス、費用、コンプライアンスを管理しながら、Nemotron モデルを搭載したカスタム AI エージェントを迅速に開発、デプロイできます。

Vertex AI を通じてデプロイされたモデルには、次のようなメリットがあります。

  • デプロイに対してきめ細かい制御が可能で、幅広いマシンタイプや Google Cloud リージョンを選択することで、パフォーマンスやコストを最適化できます。

  • モデルを完全に独自の VPC 内にデプロイし、VPC-SC ポリシーを遵守することで、堅牢なセキュリティを実現します。

  • 使いやすさは抜群で、最先端のモデルを数回クリックするだけで発見、ライセンス取得、デプロイできます。

NVIDIA NeMo との統合による Vertex AI Training

Vertex AI Training は、企業が基盤モデルを自社データに適応させるために必要な制御と柔軟性を提供します。Google では、高精度のプロプライエタリ モデルをより迅速に作成できるよう、大規模モデルの開発への道を簡素化し、加速する Vertex AI Training の拡張機能を発表します。

お客様は、大規模なトレーニングを簡素化する、フルマネージドで復元力のある Slurm 環境を利用できます。自動化された復元機能により、クラスタの稼働時間が向上し、Google の包括的なデータ サイエンス ツールにより、複雑なモデル開発における推測の多くが不要になります。最後に、NVIDIA NeMo や NeMo-RL などの標準化されたフレームワーク上に構築された、キュレート済みかつ最適化された事前・事後トレーニングのレシピにより、開発者は新しいアイデアから本番環境に対応したドメイン特化型モデルへの移行を、より迅速かつ効率的に行うことができます。

次のステップ

これらのアップデートにより、AI ワークロードを実行するための Google Cloud プラットフォームの機能性と柔軟性がさらに強化されます。Google Compute Engine または Cluster Director を使用した GKE による Infrastructure as a Service(IaaS)の柔軟性と制御、あるいは、モデルのトレーニング、チューニング、管理のための安全でスケーラブルかつ簡素化されたワークフローを提供する Vertex AI のフルマネージド エンドツーエンド エクスペリエンスのいずれかを選択できます。

これらのインフラストラクチャのイノベーションは、AI の開発とデプロイのための完全なプラットフォームを提供するという Google の使命を大きく前進させるものです。Google Cloud のインフラストラクチャと NVIDIA の最新テクノロジーを組み合わせることで、次世代の AI アプリケーションを構築するための強固な基盤が提供されます。

A4X Max プレビューの利用を開始するには、Google Cloud の営業担当者にお問い合わせください。一方、Vertex AI Training には、モデルをビジネス上の優位性を定義する独自の資産に変えるために必要なものがすべて揃っています。エンタープライズ グレードのセキュリティと効率性で AI モデルを大規模にデプロイ、管理するには、GKE Inference Gateway が推論ワークロードの処理にどのように役立つかをご覧ください。皆様がどのようなものを構築されるか楽しみにしております。

-コンピューティングおよび AI Infrastructure 担当、バイス プレジデント兼ゼネラル マネージャー Mark Lohmeyer

投稿先