ガイド: AI Hypercomputer の主なユースケース 4 件、リファレンス アーキテクチャ、チュートリアル

Duncan Campbell
Developer Advocate, Google Cloud
Jarrad Swain
Product Marketing, Google Cloud
※この投稿は米国時間 2025 年 3 月 8 日に、Google Cloud blog に投稿されたものの抄訳です。
AI Hypercomputer は、完全に統合された AI ワークロード向けのスーパーコンピューティング アーキテクチャであり、使い方は意外と簡単です。このブログでは、4 件の一般的なユースケースを、リファレンス アーキテクチャやチュートリアルとともに紹介します。ただし、これらは現在 AI Hypercomputer で使用できる多くの方法のほんの一例にすぎません。
以下に概要をまとめます。
-
手頃な料金の推論: JAX、Google Kubernetes Engine(GKE)、NVIDIA Triton Inference Server は優れた組み合わせであり、特に Spot VM とともに使用すると、最大 90% の費用削減を実現できます。Llama 3.1 405B などの LLM を GKE でサービングする方法に関するこちらなど、さまざまなチュートリアルを提供しています。
-
大規模で超低レイテンシのトレーニング クラスタ: Hypercompute Cluster では、物理的に同じ場所に配置されたアクセラレータ、ターゲットを絞ったワークロード配置、ワークロードの停止を最小限に抑える高度なメンテナンス制御、トポロジーを考慮したスケジューリングを実現できます。利用を開始するには、GKE でクラスタを作成するか、こちらの事前トレーニング用 NVIDIA GPU レシピをお試しください。
-
信頼性の高い推論: カスタム指標や Service Extensions などの Cloud Load Balancing の新機能を GKE Autopilot と組み合わせて使用できます。Autopilot には、異常なノードを自動的に置き換えるノードの自動修復や、アプリケーションの需要に基づいてリソースを調整する水平 Pod 自動スケーリングなどの機能が備わっています。
-
クラスタのセットアップを簡素化: オープンソースの Cluster Toolkit では、迅速かつ再現性のあるクラスタ デプロイを実現するために、事前構築済みのブループリントとモジュールが用意されています。AI / ML ブループリントのいずれかを使用して、すぐに使い始めることができます。
-
AI Hypercomputer GitHub でより広範なリファレンス実装、ベンチマーク、レシピを紹介していますので、ご参照ください。
AI Hypercomputer が重要である理由AI アプリケーションのデプロイと管理は困難です。適切なインフラストラクチャを選択し、費用を管理し、デリバリーのボトルネックを低減する必要があります。AI Hypercomputer を使用すると、未調整のハードウェアやチップを購入するよりも効率的に、迅速かつ簡単に AI アプリケーションをデプロイできます。
たとえば、Moloco では、AI Hypercomputer アーキテクチャを使用することで、モデルのトレーニング時間を 10 倍高速化し、費用を半分から 4 分の 1 削減しました。
それでは、各ユースケースについて詳しく見ていきましょう。
1. 信頼性の高い AI 推論
Futurum によると、2023 年の Google のサービス停止時間は Azure や AWS の約 3 分の 1 でした。これらの数値は時間とともに変動しますが、高可用性を維持することはどのプロバイダにとっても重要な課題です。AI Hypercomputer アーキテクチャは、信頼性の高い推論のための完全に統合された機能を提供します。
多くのお客様が GKE Autopilot から開始しますが、それは Pod レベルの 99.95% の稼働率が SLA によって保証されているからです。Autopilot は、ノードの自動管理(プロビジョニング、スケーリング、アップグレード、修復)やセキュリティのベスト プラクティスの適用によって信頼性を高め、手動のインフラストラクチャ タスクを排除します。この自動化と、リソースの最適化および統合モニタリングを組み合わせることで、ダウンタイムを最小限に抑え、アプリケーションをスムーズかつ安全に実行できるようになります。
利用可能な構成はいくつかありますが、このリファレンス アーキテクチャでは、推論を高速化するために JetStream Engine で TPU を使用し、モデルの重みの読み込みを高速化するために JAX、GCS Fuse、SSD(Hyperdisk ML など)を使用します。高い信頼性を実現するため、このスタックには Service Extensions とカスタム指標の 2 つの機能が追加されています。
-
Service Extensions: 独自のコード(プラグインとして記述)をデータパスに挿入することで Cloud ロードバランサの動作をカスタマイズでき、高度なトラフィック管理と操作を実現できます。
カスタム指標: Open Request Cost Aggregation(ORCA)プロトコルを利用して、ワークロード固有のパフォーマンス データ(モデル推論のレイテンシなど)をアプリケーションから Cloud ロードバランサに送信できます。この情報は、Cloud ロードバランサでルーティングとスケーリングに関するインテリジェントな意思決定を行うために使用されます。


実際に試してみましょう。ロード バランシングの指標を定義する、Service Extensions を使用してプラグインを作成する、またはフルマネージドの Kubernetes クラスタを Autopilot でスピンアップすることから始めてみてください。その他のアイデアについては、生成 AI アプリケーション向けの最新のネットワーキング機能の強化に関するこちらのブログをご覧ください。
2. 大規模な AI トレーニング
大規模な AI モデルのトレーニングでは、膨大なコンピューティング能力を効率的にスケーリングすることが求められます。Hypercompute Cluster は、AI Hypercomputer を基盤とするスーパーコンピューティング ソリューションであり、単一の API 呼び出しを使用して、多数のアクセラレータを 1 つのユニットとしてデプロイおよび管理できます。Hypercompute Cluster の主な特長は以下のとおりです。
-
超低レイテンシのネットワーキングを実現するため、クラスタを物理的に密集させて配置しています。信頼性と再現性のあるデプロイを実現する検証された事前構成済みテンプレート、クラスタレベルのオブザーバビリティ、ヘルス モニタリング、診断ツールが備わっています。
-
Hypercompute Cluster は、管理を簡素化するために、GKE や Slurm などのオーケストレーターと統合できるように設計されており、Cluster Toolkit を使用してデプロイされます。GKE では、単一の ML モデルのトレーニングに 50,000 個以上の TPU チップを使用できます。
このリファレンス アーキテクチャでは、GKE Autopilot と A3 Ultra VM を使用します。
-
GKE は最大 65,000 ノードをサポートします。これは、他の大手パブリック クラウド プロバイダ 2 社の 10 倍以上の規模です。
A3 Ultra は NVIDIA H200 GPU を搭載しており、A3 Mega GPU と比較して GPU 間ネットワーク帯域幅と高帯域幅メモリ(HBM)がそれぞれ 2 倍になっています。Google の新しい Titanium ML ネットワーク アダプタを使って構築され、NVIDIA ConnectX-7 ネットワーク インターフェース カード(NIC)が組み込まれており、安全かつ高パフォーマンスのクラウド エクスペリエンスを実現します。GPU での大規模なマルチノード ワークロードに最適です。


実際に試してみましょう。GKE で Hypercompute Cluster を作成するか、こちらの事前トレーニング用 NVIDIA GPU レシピをお試しください。
3. 手頃な料金の AI 推論
AI、特に大規模言語モデル(LLM)のサービングは、非常に高額になる可能性がありますが、AI Hypercomputer は、オープン ソフトウェア、柔軟な消費モデル、幅広い専用ハードウェアを組み合わせることで、費用を最小限に抑えます。
-
費用削減の余地は至る所にあります。チュートリアル以外にも、費用対効果の高いデプロイモデルが 2 つあります。GKE Autopilot は、実際のニーズに基づいてリソースを自動的にスケーリングすることで、標準的な GKE と比較してコンテナの実行費用を最大 40% 削減できます。また、Spot VM では、バッチジョブやフォールト トレラント ジョブで最大 90% の削減が可能です。これら 2 つを組み合わせるとさらに費用を削減できます。GKE Autopilot では、そのために Spot Pod を利用可能です。
このリファレンス アーキテクチャでは、JAX でトレーニングを実行した後、推論のために NVIDIA の FasterTransformer 形式に変換します。最適化されたモデルは、GKE Autopilot 上の NVIDIA Triton を使用してサービングされます。Triton のマルチモデル サポートにより、進化するモデル アーキテクチャに簡単に適応でき、ビルド済みの NeMo コンテナによりセットアップが簡素化されます。


実際に試してみましょう。まず、GKE で単一の NVIDIA GPU でモデルをサービングする方法を確認してみてください。また、Hugging Face TGI を使用して Gemma オープンモデルをサービングしたり、DeepSeek-R1 671B や Llama 3.1 405B などの LLM をサービングしたりできます。
4. クラスタのセットアップとデプロイを簡素化
インフラストラクチャのセットアップを複雑にするのではなく、簡素化するツールが必要です。オープンソースの Cluster Toolkit では、迅速かつ再現性のあるクラスタ デプロイを実現するために、事前構築済みのブループリントとモジュールを利用できます。JAX、PyTorch、Keras との統合も容易です。Slurm、GKE、Google Batch によって管理が簡素化され、Dynamic Workload Scheduler などの柔軟な消費モデルや幅広いハードウェア オプションを利用できるため、プラットフォーム チームに多くのメリットがもたらされます。このリファレンス アーキテクチャでは、Slurm を使用して A3 Ultra クラスタをセットアップします。


実際に試してみましょう。GitHub リポジトリから入手可能な使いやすい AI / ML のブループリントのいずれかを選択し、それを使用してクラスタをセットアップできます。また、ドキュメント、クイックスタート、動画など、開始するのに役立つさまざまなリソースもご用意しています。
-Google Cloud、デベロッパー アドボケイト Duncan Campbell
-Google Cloud、プロダクト マーケティング Jarrad Swain