コンピューティング

GPU と TPU を使用して、高パフォーマンスで費用対効果の高い大規模な AI 推論の実現をサポート

2023年9月20日

Google Cloud Japan Team

※この投稿は米国時間 2023 年 9 月 12 日に、Google Cloud blog に投稿されたものの抄訳です。

AI モデルアーキテクチャの進歩のペースは驚異的です。これを推進しているのは、Transformer などの画期的な発明と、高品質のトレーニングデータの急速な増加です。たとえば、生成 AI では、大規模言語モデル（LLM）の規模は 1 年につき 10 倍も増大しています。組織は、世界中のユーザーに AI モデルを確実かつ効率的に提供するために、こうした AI モデルを製品やサービスにデプロイしています。これにより、AI トレーニングと推論のための AI で高速化したコンピューティングの需要が飛躍的に増加しています。

最新の MLPerf™ 3.1 Inference の結果1 は、Google のシステムの画期的な進歩によって、お客様が最新の AI モデルの増え続けるコンピューティング需要にどのように対応できるかを示しています。Google Cloud の推論システムは、既存のサービスと比較してパフォーマンスは 2～4 倍、費用対効果は 2 倍以上向上します。Google Cloud は、NVIDIA GPU と Google Cloud の専用 Tensor Processor Unit（TPU）の両方を搭載した、高パフォーマンスで費用対効果が高く、スケーラブルな AI 推論サービスを幅広く提供する唯一のクラウドプロバイダであることを誇りに思います。

Google Cloud での GPU アクセラレーションによる AI 推論

Google Cloud と NVIDIA は、最先端の GPU アクセラレーションによる推論プラットフォームをお客様に提供できるよう、協力関係を継続しています。Google Cloud は最近、NVIDIA の A100 GPU を搭載した A2 VM に加えて、NVIDIA L4 Tensor コア GPU を搭載したクラウド業界初で唯一のサービス、G2 VM を発表しました。さらに、H100 GPU を搭載した次世代 A3 VM は現在限定公開プレビュー版で提供されており、来月には一般提供が開始される予定です。Google Cloud は、これら 3 つの NVIDIA 搭載 AI アクセラレータをすべて提供する唯一のクラウドプロバイダです。

H100 GPU に対する MLPerf™ 3.1 Inference Closed の素晴らしい結果では、A3 VM は、要求の厳しい推論ワークロードに対し、A2 VM と比べてパフォーマンスが 1.7～3.9 倍向上しています。一方、L4 GPU を搭載した Google Cloud G2 VM は、推論の費用対効果の最適化を検討しているお客様にとって最適な選択肢です。L4 GPU に対する NVIDIA の MLPerf™ 3.1 の結果は、G2 の強みを示しています。G2 は同等のパブリッククラウド推論サービスと比較して、1 ドルあたりのパフォーマンスが最大 1.8 倍向上します。Bending Spoons などの Google Cloud のお客様は、G2 VM を使用して、AI を活用した新しいエクスペリエンスをエンドユーザーに提供しています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Figure_1_iRBu6O3.max-1300x1300.png

図 1: 推論サービスの 1 ドルあたりの相対的なパフォーマンス。すべての数値はチップごとに正規化されています。Oracle BM GPU v2.8（NVIDIA A100 搭載）は、縦軸で 1 になるよう正規化されています。棒グラフが高いほど、パフォーマンスが優れていることを示します。MLPerf™ 3.1 Inference Closed 結果、シナリオ: オフライン、精度: 99%、テキストで説明。Oracle システムでは 8 個のチップ、L4 システムでは 1 個のチップが使用されました。2023 年 9 月時点

このブログ投稿全体で使用している 1 ドルあたりのパフォーマンス指標は、MLPerf™ v3.1 Inference Closed の結果から導出しました。すべての価格は本稿公開時点の最新のものです。1 ドルあたりのパフォーマンスは MLPerf™ の公式指標ではなく、MLCommons® Association による検証は行われていません。

Cloud TPU を使用した費用対効果の高い大規模な AI 推論

Google Cloud Next で発表された新しい Cloud TPU v5e では、最新の LLM や生成 AI モデルなど、幅広い AI ワークロードに対して高パフォーマンスで費用対効果の高い推論を行えます。効率的でスケーラブルかつ汎用的になるよう設計された Cloud TPU v5e では、高スループットで低レイテンシの推論パフォーマンスが実現します。各 TPU v5e チップは int8 演算を 1 秒あたり最大 393 兆回（TOPS）行うため、極めて複雑なモデルで素早く予測できます。

高速チップ間相互接続（ICI）により、Cloud TPU v5e は複数の TPU が緊密に連携して動作する最大のモデルにスケールアウトできます。MLPerf™ 3.1 の推論結果では、4 個の TPU v5e チップを使用して、60 億のパラメータがある GPT-J LLM ベンチマークを実行しています。TPU v5e は、TPU v4 と比較して 1 ドルあたり 2.7 倍のパフォーマンスを実現します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Figure_2_Z9GHaDh.max-1200x1200.png

図 2: Cloud TPU v4 と比較した Google Cloud TPU v5e の 1 ドルあたりのスループット。すべての数値はチップごとに正規化されています。TPU v4 は、縦軸で 1 になるよう正規化されています。棒グラフが高いほど、パフォーマンスが優れていることを示します。v5e については MLPerf™ 3.1 Inference Closed の結果、v4 については社内 Google Cloud 結果。2023 年 9 月時点

G2 の 1 ドルあたりのパフォーマンス指標と同様に、TPU3 の 1 ドルあたりのパフォーマンス指標も、MLPerf™ v3.1 Inference Closed の結果から導出しました。すべての価格は本稿公開時点の最新のものです。1 ドルあたりのパフォーマンスは MLPerf™ の公式指標ではなく、MLCommons® Association による検証は行われていません2。

パワフルな TPU v5e ハードウェアを最大限に活用する最適化された推論ソフトウェアスタックのおかげで、1 ドルあたりのパフォーマンスが 2.7 倍向上し、GPT-J LLM ベンチマークで Cloud TPU v4 システムの QPS と一致するようになります。推論スタックは、高パフォーマンスの AI 推論のために Google DeepMind によって作成されたシステム、SAX と、Google の AI コンパイラ、XLA を使用します。主な最適化には、次のようなものがあります。

XLA の最適化と Transformer 演算子の融合
int8 の精度によるトレーニング後重み量子化
GSPMD を使用した 2x2 トポロジ全体にわたる高パフォーマンスシャーディング
SAX でのプレフィックス計算とデコードのバッチのバケット化された実行
SAX での動的バッチ処理

これらの結果は 4 個のチップ構成での推論パフォーマンスを示していますが、TPU v5e は ICI によりチップが 1 個から 256 個までシームレスに拡張するため、プラットフォームはさまざまな推論とトレーニングの要件を柔軟にサポートできます。以下に示すように、256 個のチップを備えた 16x16 TPU v5e トポロジは、最大 2 兆個のパラメータモデルの推論をサポートします。新しく利用可能になったマルチスライストレーニングとマルチホスト推論ソフトウェアを使用すると、Cloud TPU v5e はさらに 256 個のチップを備えた複数の Pod に拡張できます。そのためお客様は Google が社内で使用しているのと同じテクノロジーを活用して、最大かつ最も複雑なモデルのトレーニングシステムとサービングシステムの要件を満たすことができます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Figure_3.max-1600x1600.png

図 3: Google 内部データ。2023 年 8 月。バッチサイズ = 1。マルチヘッドアテンションベースのデコーダのみの言語モデル: プレフィックス長 = 2,048、デコードステップ数 = 256、ビームサイズ = 32（サンプリング）。

AI イノベーションを大規模に加速

GPU と TPU を搭載した高パフォーマンスで費用対効果の高い AI 推論の幅広い選択肢を備えた Google Cloud は、組織が AI ワークロードを大規模に加速できるようにする唯一無二の立場にあります。

「当社のチームは Google Cloud の AI Infrastructure ソリューションの大ファンで、AI 写真アプリ Remini の「AI フィルタ」機能に Google Cloud G2 GPU VM を使用しています。最新のフィルタ「バービーとケン」もそうです。G2 VM を使用することで、処理のレイテンシー時間を大幅に短縮でき、その時間はタスクあたり最大 15 秒になりました。また、Google Cloud のおかげで、Remini アプリが米国のアプリストアで総合第 1 位に急上昇したときなど、ピーク時には 32,000 GPU までシームレスにスケールアップでき、1 日平均では 2,000 GPU までスケールダウンできました。」 — Bending Spoons CEO / 共同創業者 Luca Ferrari 氏

「Cloud TPU v5e は、当社の本番環境モデルで推論を実行する際に、市販の同等のソリューションと比較して、1 ドルあたり最大 4 倍のパフォーマンスを一貫して実現しました。Google Cloud のソフトウェアスタックは高パフォーマンスと効率を実現するよう最適化されており、最先端の AI モデルと ML モデルを高速化することに特化した TPU v5e ハードウェアを最大限に活用します。このハードウェアとソフトウェアのパワフルで汎用性の高い組み合わせにより、解決までの時間が劇的に短縮されました。何週間もかけてカスタムカーネルを手作業で調整するのではなく、数時間以内にモデルを最適化して推論パフォーマンスの目標を達成し、上回ることができました。」 — AssemblyAI テクノロジー担当バイスプレジデント Domenic Donato 氏

「YouTube は TPU v5e プラットフォームを使用して、YouTube のトップページと WatchNext で何十億ものユーザーにおすすめを提供しています。TPU v5e は、前の世代と比較して、同じ費用で最大 2.5 倍のクエリを実行します。」 — YouTube、プロダクト管理ディレクター Todd Beaupré 氏

Google Cloud GPU と TPU の使用を開始するには、担当の Google Cloud アカウントマネージャーか、Google Cloud セールスにお問い合わせください。

^{1. MLPerf™ v3.1 Inference Closed、表示した複数のベンチマーク、オフライン、99%。2023 年 9 月 11 日に mlcommons.org から取得。結果 3.1-0106、3.1-0107、3.1-0120、3.1-0143。1 ドルあたりのパフォーマンスは MLPerf の指標ではありません。TPU v4 の結果は未検証: MLCommons Association による検証は行われていません。MLPerf™ の名前とロゴは、米国および他の国々における MLCommons Association の商標です。権利はすべて同組織が有しており、無断使用は固く禁じられています。詳しくは、www.mlcommons.org をご覧ください。
2. Oracle BM GPU v2.8 の 1 ドルあたりのパフォーマンスを導出するために、A100 の結果として Oracle から提出された QPS を $32.00（一般公開されている 1 時間あたりのサーバー料金（米ドル））で割りました。Oracle システムでは 8 個のチップが使用されました。G2 の 1 ドルあたりのパフォーマンスを導出するために、L4 の結果から得た QPS を $0.85（us-central1 リージョンの g2-standard-8（一般に入手可能な価格帯の同等の Google インスタンスタイプ）の一般公開されているチップ時間あたりのオンデマンド料金（米ドル））で割りました。L4 システムでは 1 個のチップが使用されました。
3. TPU v5e の 1 ドルあたりのパフォーマンスを導出するために、使用したチップの数（4 個）に $1.20（us-west4 リージョンの TPU v5e の一般公開されているチップ時間あたりのオンデマンド料金（米ドル））を乗じた数で QPS を割りました。TPU v4 の 1 ドルあたりのパフォーマンスを導出するために、チップの数に $3.22（us-central2 リージョンの TPU v4 の一般公開されているチップ時間あたりのオンデマンド料金（米ドル））を乗じた数で QPS（Google Cloud の内部結果であり、MLCommons Association によって検証されたものではない）を割りました。}

- ML、システム、Cloud AI 担当バイスプレジデント兼ゼネラルマネージャー Amin Vahdat
- コンピューティングおよび ML インフラストラクチャ部門バイスプレジデント兼ゼネラルマネージャー Mark Lohmeyer

投稿先