コンテンツに移動
コンピューティング

NVIDIA H100 GPU 搭載の AI に特化した A3 スーパーコンピュータの発表

2023年5月16日
Google Cloud Japan Team

※この投稿は米国時間 2023 年 5 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。

最先端の AI や ML のモデルを実装するためには、基盤となるモデルのトレーニングとトレーニング済みモデルの提供の両方で大規模な計算能力が必要とされます。こうしたワークロードの要求に対応するには、画一的なアプローチでは不十分で、AI に特化したインフラストラクチャが必要となります。

Google は、パートナーとの協力で、大規模言語モデル(LLM)、ジェネレーティブ AI、拡散モデルなどの ML のユースケースに向けて幅広いコンピューティング オプションを提供しています。最近では、G2 VM を発表しており、クラウド プロバイダとして初めて、新たに発表された NVIDIA L4 Tensor コア GPU をジェネレーティブ AI ワークロードのサービング向けに提供しています。このたび、このポートフォリオを拡張すべく、次世代 A3 GPU スーパーコンピュータの限定公開プレビュー版の提供を開始したことをお知らせいたします。これで Google Cloud では、ML モデルのトレーニングおよび推論用にあらゆる GPU をご利用いただけるようになりました。

Google Compute Engine A3 スーパーコンピュータは、今日のジェネレーティブ AI や大規模言語モデルにおけるイノベーションを実現する、最も要求の厳しい AI モデルのトレーニングやサービングに特化して構築されています。A3 VM は NVIDIA H100 Tensor コア GPU と Google の最先端ネットワーキングを組み合わせて、あらゆる規模のお客様に対応します。

  • A3 は独自設計の 200 Gbps の IPU を利用する初の GPU インスタンスで、GPU 間のデータ転送はホスト CPU をバイパスし、他の VM ネットワークやデータ トラフィックから独立したインターフェースを流れます。これにより、A2 VM と比較すると最大 10 倍のネットワーク帯域幅が得られ、テール レイテンシが下がり、帯域幅の安定性が高まります。

  • 業界でも珍しいインテリジェントな Jupiter データセンターのネットワーク ファブリックは、数万個規模の相互接続された GPU までスケールでき、トポロジをオンデマンドで調整できる全帯域幅で再構成可能な光リンクを実現できます。ほぼすべての構成のワークロードに対し、高価な市販のノンブロッキング ネットワーク ファブリックと区別がつかないほどのワークロード帯域幅を実現することができるので、TCO を低減できます。

  • A3 スーパーコンピュータの規模は最高 26 エクサフロップスの AI 性能まで対応可能で、大規模な ML モデルのトレーニングにかかる時間と費用を大幅に改善できます。  

各企業の主眼は ML モデルのトレーニングからサービングに転換していきますが、A3 VM は推論のワークロードにも良く適しており、NVIDIA A100 Tensor コア GPU* を使用している A2 VM と比較すると最大 30 倍の推論性能向上が確認できています。

パフォーマンスと規模に特化

A3 GPU VM は最新の ML ワークロードのトレーニングで最良のパフォーマンスを発揮するという目的に特化しており、最新の CPU、改善版ホストメモリ、次世代 NVIDIA GPU、大規模に改善したネットワークを備えています。A3 の主な特長は次のようなものです。

  • NVIDIA の Hopper アーキテクチャを利用した 8 基の H100 GPU で 3 倍の計算スループットを実現

  • A3 の 8 基の GPU 間の二分割帯域幅は NVIDIA NVSwitch と NVLink 4.0 を介して 3.6 TB/秒

  • 最先端の第 4 世代 Intel Xeon スケーラブル プロセッサ

  • 2 TB のホストメモリを 4800 MHz の DDR5 DIMM で提供

  • ハードウェアに合わせ特化された IPU、特別設計のサーバ間 GPU 通信スタック、NCCL 最適化によって 10 倍のネットワーク帯域幅を実現

A3 GPU VM は最先端の ML モデルを開発するお客様に前進をもたらすものです。ML モデルのトレーニングと推論処理の大幅な高速化により、A3 VM では複雑な ML モデルを高速にトレーニングできるため、大規模言語モデル(LLM)、ジェネレーティブ AI、拡散モデルの構築が可能となり、業務を最適化し競争において一歩先に立つことができます。

今回の発表は、NVIDIA とのパートナーシップに基づき、ML モデルのトレーニングと推論処理に対して幅広い GPU の選択肢を提供するものです。

NVIDIA のハイパースケール / ハイ パフォーマンス コンピューティングのバイス プレジデントである Ian Buck 氏はこう語っています。「最先端の NVIDIA H100 GPU を搭載した Google Cloud A3 VM によって、ジェネレーティブ AI アプリケーションのトレーニングとサービングが加速されるでしょう。Google Cloud が最近発表した G2 インスタンスに留まらず、当社の Google Cloud との協業は継続しており、AI に特化して構築されたインフラストラクチャを提供し、世界中の企業の変革を支援していきます。」

パフォーマンスと費用を重視して最適化されたフルマネージド AI インフラストラクチャ

メンテナンス不要の複雑な ML モデルの開発を検討しているのであれば、Vertex AI の上に A3 VM をデプロイするのが良いでしょう。Vertex AI は、低レイテンシのサービングと高パフォーマンスのトレーニングに特化したフルマネージドのインフラストラクチャの上に ML モデルを構築できるエンドツーエンドのプラットフォームです。本日、Google I/O 2023 で、こうしたプロダクトを基盤に Vertex AI でのジェネレーティブ AI サポートの提供範囲を拡大し、新機能および基盤モデルを導入することを発表しました。

独自のソフトウェア スタックの設計を検討されているお客様であれば、A3 VM を Google Kubernetes Engine(GKE)と Compute Engine の上にデプロイすれば、最新の基盤モデルのトレーニングおよびサービングができる上、自動スケーリング、ワークロード オーケストレーション、自動アップグレードのサポートも受けられます。

「Google Cloud の A3 VM インスタンスであれば、当社でのトレーニングと推論の最も厳しいワークロードが要求する計算能力や規模に対応できます。その AI 分野における専門知識と大規模なインフラストラクチャにおけるリーダーシップを活用して、ML ワークロードに対応する強固なプラットフォームを構築したいと考えています。」Character.AI、CEO Noam Shazeer 氏

AI は、Google Cloud の DNA に刻み込まれていると言っても過言ではないでしょう。数十年にわたりグローバル スケールのコンピューティングを実行してきた経験を AI に適応しています。多様な AI のワークロードの実行のためにスケールおよび最適化できるインフラストラクチャを設計しました。このたび、このインフラストラクチャをより多くのお客様にご利用いただけるようになりました。A3 プレビューの順番待ちリストにエントリするには、こちらのリンクから登録をお願いします。


*データソース: https://www.nvidia.com/en-us/data-center/h100/


- Google Cloud、プロダクト マネジメント担当ディレクター Roy Kim
- Google Cloud、グループ プロダクト マネージャー Chris Kleban
投稿先