AI Hypercomputer は、Google Cloud 上のあらゆる AI ワークロードを支える統合型スーパーコンピューティング システムです。このシステムは、AI のデプロイを簡素化し、システムレベルの効率を向上させ、費用を最適化するように設計されたハードウェア、ソフトウェア、消費モデルで構成されています。
概要
業界最先端のソフトウェアと、オープンなフレームワーク、ライブラリ、コンパイラとの連携により、ハードウェアを最大限に活用し、AI の開発、統合、管理をより効率的に行えます。
使用量に応じた柔軟なオプションにより、お客様はビジネスニーズに合わせて、確約利用割引による固定費を選択することも、動的なオンデマンド モデルを選択することもできます。Dynamic Workload Scheduler と Spot VM を活用すれば、リソースを過剰に割り当てることなく必要な容量を確保できます。さらに、Google Cloud の費用最適化ツールを使えば、リソースの使用状況を自動的に管理してエンジニアの手作業を減らすことができます。
一般的な使用例
推論は急速に多様化、複雑化しており、主に以下の 3 つの領域で進化しています。
PUMA は、統合 AI インフラストラクチャ(AI Hypercomputer)を活用するために Google Cloud と提携しました。これにより、ユーザー プロンプトに Gemini を使用できるほか、Dynamic Workload Scheduler を使用して GPU で推論を動的にスケーリングできるため、費用と生成時間が大幅に削減されました。
対象:
推論は急速に多様化、複雑化しており、主に以下の 3 つの領域で進化しています。
PUMA は、統合 AI インフラストラクチャ(AI Hypercomputer)を活用するために Google Cloud と提携しました。これにより、ユーザー プロンプトに Gemini を使用できるほか、Dynamic Workload Scheduler を使用して GPU で推論を動的にスケーリングできるため、費用と生成時間が大幅に削減されました。
対象:
トレーニング ワークロードは、緊密に結合されたクラスタ内の数千ノードにわたって、高度に同期されたジョブとして実行する必要があります。1 つのノードがデグレードしただけで、ジョブ全体が中断され、製品化に遅れが生じる可能性があります。次の操作を行う必要があります。
Google は、お客様が Google Cloud でトレーニング ワークロードを非常に簡単にデプロイし、スケーリングできるようにすることを目指しています。
AI クラスタの作成を開始するには、以下のチュートリアルのいずれかをご活用ください。
Moloco は、AI Hypercomputer の完全に統合されたスタックを利用して、TPU や GPU などの高度なハードウェアで自動的にスケーリングしました。これにより、Moloco のエンジニアは他の作業に集中できるようになりました。また、Google の業界をリードするデータ プラットフォームとの統合により、AI ワークロードのための包括的なエンドツーエンドのシステムが構築されました。
最初のディープ ラーニング モデルをリリースした後、Moloco はホッケー スティック型の成長と収益化を実現し、2 年半で 5 倍の成長を達成しました。

AssemblyAI
AssemblyAI は Google Cloud を使用してモデルを迅速かつ大規模にトレーニング

LG AI Research は、厳格なデータ セキュリティとデータ所在地に関する要件を遵守しながら、費用を大幅に削減し、開発を加速

Anthropic は、Claude モデルのトレーニングとサービングのために、最大 100 万個の TPU を利用する計画を発表しました。これは、数十億ドルに相当します。では、TPU は Google Cloud 上でどのように実行されているのでしょうか?この動画では、Anthropic が GKE を使用して大規模に AI のコンピューティングの限界を押し広げている様子をご覧いただけます。
トレーニング ワークロードは、緊密に結合されたクラスタ内の数千ノードにわたって、高度に同期されたジョブとして実行する必要があります。1 つのノードがデグレードしただけで、ジョブ全体が中断され、製品化に遅れが生じる可能性があります。次の操作を行う必要があります。
Google は、お客様が Google Cloud でトレーニング ワークロードを非常に簡単にデプロイし、スケーリングできるようにすることを目指しています。
AI クラスタの作成を開始するには、以下のチュートリアルのいずれかをご活用ください。
Moloco は、AI Hypercomputer の完全に統合されたスタックを利用して、TPU や GPU などの高度なハードウェアで自動的にスケーリングしました。これにより、Moloco のエンジニアは他の作業に集中できるようになりました。また、Google の業界をリードするデータ プラットフォームとの統合により、AI ワークロードのための包括的なエンドツーエンドのシステムが構築されました。
最初のディープ ラーニング モデルをリリースした後、Moloco はホッケー スティック型の成長と収益化を実現し、2 年半で 5 倍の成長を達成しました。

AssemblyAI
AssemblyAI は Google Cloud を使用してモデルを迅速かつ大規模にトレーニング

LG AI Research は、厳格なデータ セキュリティとデータ所在地に関する要件を遵守しながら、費用を大幅に削減し、開発を加速

Anthropic は、Claude モデルのトレーニングとサービングのために、最大 100 万個の TPU を利用する計画を発表しました。これは、数十億ドルに相当します。では、TPU は Google Cloud 上でどのように実行されているのでしょうか?この動画では、Anthropic が GKE を使用して大規模に AI のコンピューティングの限界を押し広げている様子をご覧いただけます。
Google Cloud は、一般的なオペレーティング システム、フレームワーク、ライブラリ、ドライバを含むイメージを提供します。AI Hypercomputer は、これらの事前構成されたイメージを最適化して、AI ワークロードをサポートします。
現在は、Google Cloud を使って生成 AI を組み込むことで、chatbot 内に独自の旅行コンシェルジュを作成できます。お客様に旅行の計画という枠を超えていただけるよう、ユニークな旅行体験のキュレートをサポートしています。」Priceline、CTO、Martin Brodbeck 氏
Google Cloud は、一般的なオペレーティング システム、フレームワーク、ライブラリ、ドライバを含むイメージを提供します。AI Hypercomputer は、これらの事前構成されたイメージを最適化して、AI ワークロードをサポートします。
現在は、Google Cloud を使って生成 AI を組み込むことで、chatbot 内に独自の旅行コンシェルジュを作成できます。お客様に旅行の計画という枠を超えていただけるよう、ユニークな旅行体験のキュレートをサポートしています。」Priceline、CTO、Martin Brodbeck 氏
よくある質問
個々のサービスは特定の機能を提供しますが、AI Hypercomputer は、ハードウェア、ソフトウェア、消費モデルが最適に連携するように設計された統合システムを提供します。この統合により、パフォーマンス、費用、製品化までの時間において、個別のサービスを組み合わせるだけでは実現が難しいシステムレベルの効率性を達成できます。複雑さを軽減し、AI インフラストラクチャに対する包括的なアプローチを提供します。
はい、AI Hypercomputer は柔軟性を念頭に設計されています。Cross-Cloud Interconnect などのテクノロジーは、オンプレミス データセンターや他のクラウドへの高帯域幅接続を提供し、ハイブリッド AI 戦略やマルチクラウド AI 戦略を促進します。オープン スタンダードで運用し、一般的なサードパーティ ソフトウェアと統合することで、複数の環境にまたがるソリューションの構築や、サービスを自由に変更できる環境を提供しています。
セキュリティは AI Hypercomputer の中核的な側面です。Google Cloud の多層セキュリティ モデルのメリットを享受できます。具体的な機能としては、Titan セキュリティ マイクロコントローラ(システムが信頼できる状態から起動することを保証)、RDMA ファイアウォール(トレーニング時の TPU / GPU 間のゼロトラスト ネットワーキング用)、AI の安全性を確保する Model Armor などのソリューションとの統合などがあります。これらは、セキュア AI フレームワークなどの堅牢なインフラストラクチャ セキュリティのポリシーと原則によって補完されます。
いいえ。AI Hypercomputer は、あらゆる規模のワークロードに使用できます。小規模なワークロードでも、効率性やデプロイの簡素化など、統合システムのあらゆるメリットを実現できます。AI Hypercomputer は、小規模な概念実証やテストから大規模な本番環境へのデプロイまで、お客様のビジネスの拡大に合わせてサポートします。
ほとんどのお客様にとって、Vertex AI のようなマネージド AI プラットフォームは、ツール、テンプレート、モデルがすべて組み込まれているため、AI を使い始めるうえで最も簡単な方法です。さらに、Vertex AI は、ユーザーのために最適化された AI Hypercomputer を基盤としています。Vertex AI は最もシンプルなエクスペリエンスであるため、AI を最も簡単に始められます。インフラストラクチャのすべてのコンポーネントを構成して最適化したい場合は、AI Hypercomputer のコンポーネントにインフラストラクチャとしてアクセスし、ニーズに合わせて組み立てることができます。
はい、GitHub にレシピ ライブラリを構築しています。また、Cluster Toolkit を使用して、事前構築済みのクラスタ ブループリントを利用することもできます。
AI に最適化されたハードウェア
ストレージ
ネットワーキング
コンピューティング: Google Cloud TPU(Trillium)、NVIDIA GPU(Blackwell)、CPU(Axion)にアクセスします。これにより、スループット、レイテンシ、TCO に関する特定のワークロードのニーズに基づいて最適化できます。
最先端のソフトウェアとオープン フレームワーク
消費モデル: