コンテンツに移動
コンピューティング

AI に最適化されたインフラストラクチャ ポートフォリオを拡大: Cloud TPU v5e の導入と A3 の一般提供開始

2023年9月8日
https://storage.googleapis.com/gweb-cloudblog-publish/images/TPU_v5L_Pod.max-2500x2500.jpg
Google Cloud Japan Team

※この投稿は米国時間 2023 年 8 月 30 日に、Google Cloud blog に投稿されたものの抄訳です。

私たちは、コンピューティングにおける一世代に一度の転換期を迎えています。従来のようなコンピューティング インフラストラクチャの設計方法や構築方法は、生成 AI や LLM などのワークロードの急激に増大する需要に対応できなくなっています。実際に LLM のパラメータ数は、過去 5 年間、毎年 10 倍ずつ増加してきました。そのためお客様は、優れた費用対効果とスケーラビリティを備えた、AI に最適化されたインフラストラクチャを必要としています。

Google は 20 年にわたり、業界をリードする AI 機能のいくつかを構築してきました。それらは、生成 AI を可能にする Google の Transformer アーキテクチャから、YouTube、Gmail、Google マップ、Google Play、Android など、何十億ものユーザーにサービスを提供する Google プロダクトに必要なグローバルな規模とパフォーマンスを実現する、AI に最適化されたインフラストラクチャの構築にまで及びます。AI における革新的な機会を追求する Google Cloud のお客様に、数十年にわたるイノベーションと研究成果を提供できることは、私たちの喜びです。Google は、AI に最適化されたコンピューティング インフラストラクチャから、モデルのトレーニング、チューニング、グローバル規模でのサービングというライフサイクル全体をサポートするエンドツーエンドのソフトウェアとサービスまで、AI のための完全なソリューションを提供します。

Google Cloud は、TPU と GPU という最先端の AI インフラストラクチャ テクノロジーを備えていますが、本日、両プロダクト ポートフォリオの大幅な強化を発表いたします。まず、かつてなく費用対効果が高く、汎用性とスケーラビリティに優れた Cloud TPU である Cloud TPU v5e をプレビュー版として提供開始し、AI に最適化されたインフラストラクチャのポートフォリオを拡充させます。TPU v5e は、Google Kubernetes Engine(GKE)、Vertex AI、主要なフレームワーク(Pytorch、JAX、TensorFlow など)とのインテグレーションが可能であるため、使いやすく、見慣れたインターフェースで利用を開始できます。また、大規模 AI モデルを強化する、NVIDIA H100 GPU ベースの GPU スーパーコンピュータとして提供されている Google の A3 VM を、来月から一般提供することをお知らせいたします。

TPU v5e: パフォーマンスと費用対効果のスイート スポット

Cloud TPU v5e は、中規模および大規模なトレーニングや推論に必要な優れた費用対効果とパフォーマンスを実現するために開発されました。TPU v5e は Cloud TPU v4 と比較して、LLM と生成 AI モデルにおいて、1 ドルあたりのトレーニング パフォーマンスが最大 2 倍、推論パフォーマンスが最大 2.5 倍向上しています。TPU v5e を使用すると、TPU v4 の半分以下の費用で、より多くの組織が大規模かつ複雑な AI モデルをトレーニング、デプロイできるようになります。

こうした費用に関するメリットがある一方で、パフォーマンスや柔軟性も犠牲になっていません。TPU v5e Pod は、パフォーマンス、柔軟性、効率のバランスに優れており、最大 256 個のチップを 400 Tb/秒以上の総帯域幅と INT8 で 100 petaOPS のパフォーマンスで相互接続できます。また TPU v5e は汎用性も非常に高く、1 つのスライスで 1 つのチップから 250 以上のチップまで、8 種類の仮想マシン(VM)構成をサポートします。これによりお客様は、幅広い LLM および生成 AI モデルのサイズに対応する適切な構成を選択できます。

「Cloud TPU v5e は、当社の本番環境 ASR モデルで推論を実行する際に、市場にある同等のソリューションと比較して、1 ドルあたり最大 4 倍のパフォーマンスを一貫して実現しました。Google Cloud ソフトウェア スタックは本番環境の AI ワークロードに適しており、高度なディープ ラーニング モデルの実行に特化した TPU v5e ハードウェアを最大限に活用できます。このハードウェアとソフトウェアの強力な組み合わせにより、当社では費用対効果の高い AI ソリューションをお客様に提供する能力が劇的に向上しました」- AssemblyAI、テクノロジー担当バイス プレジデント、Domenic Donato 氏

「当社の速度ベンチマークでは、Google Cloud TPU v5e でのトレーニングと実行の際に、AI モデルの速度が 5 倍向上することが実証されています。また、推論指標の規模も大幅に拡大し、社内の音声入力および感情予測モデルでは、リアルタイム 1 秒で 1,000 秒を処理できるようになりました。これは 6 倍の改善です」- Gridspace、ML 責任者、Wonkyum Lee 氏

TPU v5e: 使いやすさ、汎用性、スケーラビリティ

従来、インフラストラクチャのスケールアウトにより大規模な AI ワークロードをオーケストレーションするには、障害処理、ロギング、モニタリング、その他の基本的な操作を手作業で行う必要がありました。今回、業界で最もスケーラブルな主要 Kubernetes サービスである GKE で Cloud TPU が一般提供されることで、TPU の操作がより簡単になりました1。お客様は GKE を活用して、Cloud TPU v4 と同様に Cloud TPU v5e 上で大規模な AI ワークロードのオーケストレーションを管理することで、AI 開発の生産性を向上できるようになります。

また、マネージド サービスの手軽さを求める組織向けに、Vertex AI では現在、Cloud TPU VM を使用したさまざまなフレームワークやライブラリによるトレーニングを提供しています。

さらに Cloud TPU v5e は、Hugging Face の Transformers と Accelerate、PyTorch Lightning、Ray などの人気のオープンソース ツールに加え、JAX、PyTorch、TensorFlow といった主要な AI フレームワークの組み込みサポートも提供しています。今回、来たる PyTorch/XLA 2.1 のリリースに伴い、Pytorch のさらなるサポート強化をお知らせします。これには、Cloud TPU v5e のサポートや、大規模モデル トレーニングのためのモデルとデータの並列処理などの新機能が含まれます。

最後に、トレーニング ジョブのスケールアップをさらに簡単にするために、プレビューでマルチスライス テクノロジーを導入します。これにより、ユーザーは物理的な TPU Pod の枠を超えて、最大数万の Cloud TPU v5e または TPU v4 のチップに簡単に AI モデルをスケールできるようになります。これまで、TPU を使用するトレーニング ジョブは、TPU チップの 1 つのスライスに制限されており、TPU v4 での最大ジョブサイズは最大スライスサイズであるチップ 3,072 個でした。マルチスライスを使用すると、デベロッパーは単一 Pod 内のチップ間相互接続(ICI)を介して、またはデータセンター ネットワーク(DCN)上の複数の Pod 間でワークロードを最大数万のチップまで拡張できます。マルチスライス テクノロジーは、Google 最先端の PaLM モデルの作成に貢献しました。今回、このイノベーションを Google Cloud のお客様にもお届けできるようになりました。

「開発チームにとって最も有意義な機能の一つは、統合されたツールセットです。異なるツールを組み合わせる必要がないため、無駄な時間や手間が省け、AI のアイデアからトレーニング、デプロイまでのプロセスが効率化されます。たとえば、AI モデルを Google Cloud TPU インフラストラクチャとともに Google Kubernetes Engine と Google Compute Engine に構成してデプロイすることで、チームは自動スケーリング、ワークロード オーケストレーション、自動アップグレードのサポートを受けつつ、最新の基盤モデルのトレーニングと推論を大規模に高速化できます」- Lightricks、コア生成 AI チームリーダー、Yoav HaCohen 氏

Google の TPU がこれまで以上に利用しやすくなりました。以下の動画では、これらすべてを可能にする物理データセンター インフラストラクチャの内側をご紹介します。

Video Thumbnail

A3 VM: 生成 AI ワークロード向けに GPU スーパーコンピュータを強化

お客様が AI の急速な進歩を活用できるように、Google Cloud は NVIDIA と緊密に提携し、新しい AI クラウド インフラストラクチャの提供、NVIDIA GPU 向けの最先端オープンソース ツールの開発、生成 AI に特化したワークロードに最適化されたエンドツーエンド ソリューションの構築を行っています。Google Cloud と NVIDIA は、幅広いワークロードで AI をさらに利用しやすくすることを目指しており、そのビジョンは現在実現しつつあります。その一例として、今年 Google Cloud は、G2 VM をリリースし、NVIDIA L4 Tensor Core GPU を提供する最初のクラウド プロバイダとなりました。

今回、A3 VM の一般提供を来月から開始することをお知らせいたします。A3 VM は、兆パラメータ モデルに対応する Transformer Engine を備えた NVIDIA H100 Tensor Core GPU、NVIDIA の H100 GPU を搭載しており、特に要求の厳しい生成 AI ワークロードや LLM のトレーニングとサービングに特化して構築されています。NVIDIA GPU と Google Cloud の最先端のインフラストラクチャ テクノロジーを組み合わせることで、大規模なスケーリングとパフォーマンスを提供し、スーパーコンピューティング能力が大きく飛躍しています。前世代と比較してトレーニング速度は 3 倍、ネットワーク帯域幅は 10 倍に向上しています。また、A3 はスケーラブルな運用が可能で、ユーザーはモデルを何万台もの NVIDIA H100 GPU に拡張できます。

A3 VM は、2 基の最先端第 4 世代 Intel Xeon スケーラブル プロセッサ、VM あたり 8 基の NVIDIA H100 GPU、2 TB のホストメモリを搭載しています。最新の NVIDIA HGX H100 プラットフォーム上に構築された A3 VM は、第 4 世代 NVIDIA NVLink テクノロジーにより、8 つの GPU 間で 3.6 TB/秒の二分割帯域幅を実現します。A3 のネットワーク帯域幅の向上は、Google の Titanium ネットワーク アダプタと NVIDIA Collective Communications Library(NCCL)の最適化によって実現されています。このように A3 は、最先端の AI モデルの構築を目指す AI イノベーターや企業を大きく後押しするものです。

「Midjourney は、思考の新しい媒体を探求し、人類の想像力を拡張する独立した研究所です。私たちのプラットフォームは、Google Cloud の最新の G2 と A3 GPU を搭載しています。G2 では T4 より 15% 効率が向上し、A3 では A100 より 2 倍速く生成できるようになりました。この改善のおかげで、ユーザーは探索や制作中にスムーズな動作を維持できています」- Midjourney、創業者 / CEO、David Holz 氏

Google Cloud AI インフラストラクチャによる柔軟な選択

AI ワークロードに関しては、万能なものはありません。Anthropic、Character.AI、Midjourney のような革新的なお客様は、パフォーマンス、価格、スケール、使いやすさの向上だけでなく、それぞれのワークロードに最適化されたインフラストラクチャを選択できる柔軟性も常に求めています。そのため、NVIDIA、Intel、AMD、Arm などの業界ハードウェア パートナーと協力し、特にコンピューティング負荷の高いモデルのトレーニングやサービングを実現するため、TPUGPUCPU といった幅広い AI 最適化コンピューティングのオプションをお客様に提供しています。
Video Thumbnail

「Anthropic は AI の安全性を追求し研究を行う会社です。信頼性が高く、解釈と制御が可能な AI システムの構築を専門としています。Google Cloud とは、当社のモデルを効率的にトレーニング、デプロイ、共有するために協力してきました。Google Kubernetes Engine(GKE)により、GPU と TPU インフラストラクチャを大規模に実行し最適化できるようになり、また Vertex AI により、Vertex AI Model Garden を通じて当社のモデルを顧客に配布できるようになります。A3 とマルチスライス機能付き TPU v5e を搭載した Google の次世代 AI インフラストラクチャは、AI の次の波を構築し続ける当社のワークロードにコスト パフォーマンスのメリットをもたらすでしょう」- Anthropic、共同設立者、Tom Brown 氏

Cloud TPU v5e へのアクセスをリクエストする場合は、Google Cloud アカウント マネージャーにお問い合わせください。また、A3 VM にご関心がある場合は、こちらのフォームにご登録ください


1. 2023 年 8 月時点。


- システムおよびクラウド AI 部門バイス プレジデント兼ゼネラル マネージャー、Amin Vahdat
- コンピューティングおよび ML インフラストラクチャ部門バイス プレジデント兼ゼネラル マネージャー、Mark Lohmeyer

投稿先