AI Hypercomputer のロゴ

AI スーパーコンピュータで、トレーニング、チューニング、サービングまで一括対応

AI Hypercomputer は、Google Cloud 上のあらゆる AI ワークロードを支える統合型スーパーコンピューティング システムです。このシステムは、AI のデプロイを簡素化し、システムレベルの効率を向上させ、費用を最適化するように設計されたハードウェア、ソフトウェア、消費モデルで構成されています。

概要

AI に最適化されたハードウェア

スループットの向上、レイテンシの短縮、結果出力までの時間の短縮、TCO の削減など、ワークロード レベルの細かな目標に合わせて最適化されたコンピューティング、ストレージ、ネットワーキングのオプションから選択できます。Google Cloud TPUGoogle Cloud GPU の詳細に加え、ストレージネットワーキングの最新情報をご覧ください。

最先端のソフトウェアとオープン フレームワーク

業界最先端のソフトウェアと、オープンなフレームワーク、ライブラリ、コンパイラとの連携により、ハードウェアを最大限に活用し、AI の開発、統合、管理をより効率的に行えます。

  • PyTorchJAXKerasvLLM、Megatron-LM、NeMo Megatron、MaxText、MaxDiffusion など、幅広いフレームワークをサポートしています。
  • XLA コンパイラとの緊密な統合により、さまざまなアクセラレータ間の相互運用が可能になります。また、Pathways on Cloud を使用すると、Google 社内の大規模なトレーニングと推論のインフラストラクチャを支えているのと同じ分散ランタイムを使用できます。
  • これらはすべて、Google Kubernetes EngineCluster DirectorGoogle Compute Engine など、選択した環境にデプロイできます。

柔軟な消費モデル

使用量に応じた柔軟なオプションにより、お客様はビジネスニーズに合わせて、確約利用割引による固定費を選択することも、動的なオンデマンド モデルを選択することもできます。Dynamic Workload SchedulerSpot VM を活用すれば、リソースを過剰に割り当てることなく必要な容量を確保できます。さらに、Google Cloud の費用最適化ツールを使えば、リソースの使用状況を自動的に管理してエンジニアの手作業を減らすことができます。

仕組み

Google は、TensorFlow などの技術を開発している AI のリーダーです。Google のテクノロジーをご自身のプロジェクトに活用できます。AI インフラストラクチャにおける Google のイノベーションの歴史と、AI インフラストラクチャをワークロードに活用する方法について説明します。

Google Cloud の AI ハイパーコンピュータ アーキテクチャの図と Google Cloud プロダクト マネージャー Chelsie の写真

一般的な使用例

大規模な AI トレーニングと事前トレーニングの実行

強力かつスケーラブルで効率的な AI トレーニング

トレーニング ワークロードは、緊密に結合されたクラスタ内の数千ノードにわたって、高度に同期されたジョブとして実行する必要があります。1 つのノードがデグレードしただけで、ジョブ全体が中断され、製品化に遅れが生じる可能性があります。次の操作を行う必要があります。

  • クラスタを迅速にセットアップし、対象のワークロードに合わせてチューニングする
  • 障害を予測して迅速にトラブルシューティングする
  • 障害が発生した場合でもワークロードを継続する

Google は、お客様が Google Cloud でトレーニング ワークロードを非常に簡単にデプロイし、スケーリングできるようにすることを目指しています。

    強力かつスケーラブルで効率的な AI トレーニング

    トレーニング ワークロードは、緊密に結合されたクラスタ内の数千ノードにわたって、高度に同期されたジョブとして実行する必要があります。1 つのノードがデグレードしただけで、ジョブ全体が中断され、製品化に遅れが生じる可能性があります。次の操作を行う必要があります。

    • クラスタを迅速にセットアップし、対象のワークロードに合わせてチューニングする
    • 障害を予測して迅速にトラブルシューティングする
    • 障害が発生した場合でもワークロードを継続する

    Google は、お客様が Google Cloud でトレーニング ワークロードを非常に簡単にデプロイし、スケーリングできるようにすることを目指しています。

      強力かつスケーラブルで効率的な AI トレーニング

      AI クラスタの作成を開始するには、以下のチュートリアルのいずれかをご活用ください。

      Character AI は Google Cloud を活用してスケールアップを実現

      「ユーザーのメッセージに対する回答を生成するには GPU が必要です。また、プラットフォームのユーザー数が増えるにつれ、それに応えるための GPU も増え続けています。そのため、Google Cloud では、特定のワークロードに適したプラットフォームを見つけるためにテストを実施することができます。最も価値のあるソリューションを柔軟に選択できることは素晴らしいことです。」 Character.AI、創設エンジニア、Myle Ott 氏

      AI アプリケーションのデプロイとオーケストレーション

      最先端の AI オーケストレーション ソフトウェアとオープン フレームワークを活用して、AI によるエクスペリエンスを実現

      Google Cloud は、一般的なオペレーティング システム、フレームワーク、ライブラリ、ドライバを含むイメージを提供します。AI Hypercomputer は、これらの事前構成されたイメージを最適化して、AI ワークロードをサポートします。

      • AI および ML のフレームワークとライブラリ: ディープ ラーニング ソフトウェア レイヤ(DLSL)Docker イメージを使用して、Google Kubernetes Engine(GKE)クラスタで NeMO や MaxText などの ML モデルを実行します。
      • クラスタのデプロイと AI オーケストレーション: AI ワークロードを GKE クラスタ、Slurm クラスタ、または Compute Engine インスタンスにデプロイできます。詳しくは、VM とクラスタの作成の概要をご覧ください。

      最先端の AI オーケストレーション ソフトウェアとオープン フレームワークを活用して、AI によるエクスペリエンスを実現

      Google Cloud は、一般的なオペレーティング システム、フレームワーク、ライブラリ、ドライバを含むイメージを提供します。AI Hypercomputer は、これらの事前構成されたイメージを最適化して、AI ワークロードをサポートします。

      • AI および ML のフレームワークとライブラリ: ディープ ラーニング ソフトウェア レイヤ(DLSL)Docker イメージを使用して、Google Kubernetes Engine(GKE)クラスタで NeMO や MaxText などの ML モデルを実行します。
      • クラスタのデプロイと AI オーケストレーション: AI ワークロードを GKE クラスタ、Slurm クラスタ、または Compute Engine インスタンスにデプロイできます。詳しくは、VM とクラスタの作成の概要をご覧ください。

      ソフトウェア リソースを見る

      Priceline: 旅行者がユニークな体験をキュレートできるよう支援

      現在は、Google Cloud を使って生成 AI を組み込むことで、chatbot 内に独自の旅行コンシェルジュを作成できます。お客様に旅行の計画という枠を超えていただけるよう、ユニークな旅行体験のキュレートをサポートしています。」Priceline、CTO、Martin Brodbeck 氏

      Priceline のロゴ

      費用対効果の高いモデルのサービングを大規模に実現

      推論ワークロードの費用対効果と信頼性を最大化

      推論は急速に多様化、複雑化しており、主に以下の 3 つの領域で進化しています。

      • 第 1 に、AI との関わり方が変化しています。会話のコンテキストの長さと多様性が増すようになりました。
      • 第 2 に、高度な推論と多段階推論により、混合エキスパート(MoE)モデルが一般化していることです。これにより、初期入力から最終出力までのメモリとコンピューティングのスケーリング方法が一変しています。
      • 第 3 に、真の価値は、費用あたりのトークン数だけでなく、回答の有用性にあることが明らかになっています。モデルに適切な専門知識が蓄積されているか?ビジネス上の重要な質問に正しく回答できたか?そのため、お客様はプロセッサの価格ではなく、システム運用の総費用に焦点を当てた、より優れた測定基準を必要としていると Google は考えています。

      推論ワークロードの費用対効果と信頼性を最大化

      推論は急速に多様化、複雑化しており、主に以下の 3 つの領域で進化しています。

      • 第 1 に、AI との関わり方が変化しています。会話のコンテキストの長さと多様性が増すようになりました。
      • 第 2 に、高度な推論と多段階推論により、混合エキスパート(MoE)モデルが一般化していることです。これにより、初期入力から最終出力までのメモリとコンピューティングのスケーリング方法が一変しています。
      • 第 3 に、真の価値は、費用あたりのトークン数だけでなく、回答の有用性にあることが明らかになっています。モデルに適切な専門知識が蓄積されているか?ビジネス上の重要な質問に正しく回答できたか?そのため、お客様はプロセッサの価格ではなく、システム運用の総費用に焦点を当てた、より優れた測定基準を必要としていると Google は考えています。

      AI 推論のリソース

        Assembly AI は Google Cloud を活用して費用対効果を改善

        「テストの結果、モデルの大規模な推論を実行する場合に最も費用対効果が高かったアクセラレータは Cloud TPU v5e であることが判明しました。G2 インスタンスに比べて 1 ドルあたり 2.7 倍のパフォーマンスを、A2 インスタンスに比べて 1 ドルあたり 4.2 倍のパフォーマンスを達成しました」Domenic Donato 氏

        AssemblyAI、テクノロジー担当バイス プレジデント


        AssemblyAI ロゴ
        ソリューションの生成
        解決したい問題は何ですか?
        What you'll get:
        手順ガイド
        リファレンス アーキテクチャ
        利用可能な事前構築済みソリューション
        このサービスは Vertex AI を使用して構築されました。ご利用いただけるのは 18 歳以上のユーザーのみです。機密情報や個人情報は入力しないでください。

        Google Cloud 上のオープンソース モデル

        単一の GPU で GKE を使用してモデルを提供する

        GPU を使用して一般的なモデルをトレーニングする

        複数の GPU へのモデルのサービングをスケールする

        GKE で Saxml を実行してマルチホスト TPU を使用して LLM を提供する

        NVIDIA Nemo フレームワークを使用して大規模にトレーニングする

        よくある質問

        AI Hypercomputer は、Google Cloud で AI ワークロードを始める最も簡単な方法ですか?

        ほとんどのお客様にとって、Vertex AI のようなマネージド AI プラットフォームは、ツール、テンプレート、モデルがすべて組み込まれているため、AI を使い始めるうえで最も簡単な方法です。さらに、Vertex AI は、ユーザーのために最適化された AI Hypercomputer を基盤としています。Vertex AI は最もシンプルなエクスペリエンスであるため、AI を最も簡単に始められます。インフラストラクチャのすべてのコンポーネントを構成して最適化したい場合は、AI Hypercomputer のコンポーネントにインフラストラクチャとしてアクセスし、ニーズに合わせて組み立てることができます。

        個々のサービスは特定の機能を提供しますが、AI Hypercomputer は、ハードウェア、ソフトウェア、消費モデルが最適に連携するように設計された統合システムを提供します。この統合により、パフォーマンス、費用、製品化までの時間において、個別のサービスを組み合わせるだけでは実現が難しいシステムレベルの効率性を達成できます。複雑さを軽減し、AI インフラストラクチャに対する包括的なアプローチを提供します。



        はい、AI Hypercomputer は柔軟性を念頭に設計されています。Cross-Cloud Interconnect などのテクノロジーは、オンプレミス データセンターや他のクラウドへの高帯域幅接続を提供し、ハイブリッド AI 戦略やマルチクラウド AI 戦略を促進します。オープン スタンダードで運用し、一般的なサードパーティ ソフトウェアと統合することで、複数の環境にまたがるソリューションの構築や、サービスを自由に変更できる環境を提供しています。

        セキュリティは AI Hypercomputer の中核的な側面です。Google Cloud の多層セキュリティ モデルのメリットを享受できます。具体的な機能としては、Titan セキュリティ マイクロコントローラ(システムが信頼できる状態から起動することを保証)、RDMA ファイアウォール(トレーニング時の TPU / GPU 間のゼロトラスト ネットワーキング用)、AI の安全性を確保する Model Armor などのソリューションとの統合などがあります。これらは、セキュア AI フレームワークなどの堅牢なインフラストラクチャ セキュリティのポリシーと原則によって補完されます。

        • VM の管理を避けたい場合は、Google Kubernetes Engine(GKE)から始めることをおすすめします。
        • 複数のスケジューラを使用する必要がある場合や、GKE を使用できない場合は、Cluster Director を使用することをおすすめします。
        • インフラストラクチャを完全に制御したい場合は、VM を直接操作する以外に方法はありません。そのためには、Google Compute Engine が最適な選択肢です。


        いいえ。AI Hypercomputer は、あらゆる規模のワークロードに使用できます。小規模なワークロードでも、効率性やデプロイの簡素化など、統合システムのあらゆるメリットを実現できます。AI Hypercomputer は、小規模な概念実証やテストから大規模な本番環境へのデプロイまで、お客様のビジネスの拡大に合わせてサポートします。

        はい、GitHub にレシピ ライブラリを構築しています。また、Cluster Toolkit を使用して、事前構築済みのクラスタ ブループリントを利用することもできます。

        AI に最適化されたハードウェア

        ストレージ

        • トレーニング: Managed Lustre は、高スループットとペタバイト規模の容量を必要とする、要求の厳しい AI トレーニングに最適です。GCS Fuse(オプションで Anywhere Cache を使用)は、レイテンシがそれほど厳しくない、より大容量のニーズに適しています。どちらも GKE と Cluster Director と統合されています。
        • 推論: GCS Fuse と Anywhere Cache を併用することで、シンプルなソリューションを実現します。より高いパフォーマンスが必要な場合は、Hyperdisk ML をご検討ください。同じゾーンで Managed Lustre をトレーニングに使用する場合、推論にも使用できます。

        ネットワーキング

        • トレーニング: VPC での RDMA ネットワーキングや、高速データ転送を実現する高帯域幅の Cloud Interconnect と Cross-Cloud Interconnect などのテクノロジーを活用できます。
        • 推論: GKE Inference Gateway や強化された Cloud Load Balancing などのソリューションを利用して、低レイテンシのサービスを提供します。Model Armor を統合することで AI の安全性とセキュリティを確保できます。

        コンピューティング: Google Cloud TPU(Trillium)、NVIDIA GPU(Blackwell)、CPU(Axion)にアクセスします。これにより、スループット、レイテンシ、TCO に関する特定のワークロードのニーズに基づいて最適化できます。

        最先端のソフトウェアとオープン フレームワーク

        • ML フレームワークとライブラリ: PyTorch、JAX、TensorFlow、Keras、vLLM、JetStream、MaxText、LangChain、Hugging Face、NVIDIA(CUDA、NeMo、Triton)など、さまざまなオープンソースとサードパーティのオプションがあります。
        • コンパイラ、ランタイム、ツール: XLA(パフォーマンスと相互運用性向け)、Pathways on Cloud、マルチスライス トレーニング、Cluster Toolkit(事前構築済みクラスタ ブループリント向け)など、さまざまなオープンソースとサードパーティ オプションがあります。
        • オーケストレーション: Google Kubernetes Engine(GKE)、Cluster Director(Slurm、非マネージド Kubernetes、BYO スケジューラ向け)、Google Compute Engine(GCE)。

        消費モデル:

        • オンデマンド: 従量課金制。
        • 確約利用割引(CUD): 長期契約で大幅な割引(最大 70%)が適用されます。
        • Spot VM: フォールト トレラントなバッチジョブに最適で、大幅な割引(最大 91%)が適用されます。
        • Dynamic Workload Scheduler(DWS): バッチジョブ / フォールト トレラント ジョブで最大 50% の費用を削減します。
        • Google Cloud プロダクト
        • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
        Google Cloud