Google AI インフラストラクチャの次なる展開:エージェンティック時代に向けたスケーリング

Amin Vahdat
SVP and Chief Technologist, AI and Infrastructure
Mark Lohmeyer
VP and GM, AI and Computing Infrastructure
※この投稿は米国時間 2026 年 4 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。
AI は、質問に答える段階から、高度な推論を行い、タスクを実行する段階へと進化しています。今日のエージェンティック時代を牽引する企業には、これらの新しい要件に合わせて設計、最適化されたコンピューティング インフラストラクチャが必要です。本日、Google Cloud Next ‘26 において、イノベーションの加速、魅力的なユーザー体験と顧客体験の提供、そしてコストとエネルギー効率の最適化を大規模に実現する、新しい AI インフラストラクチャ機能を発表します。
エージェンティック インテリジェンスへの移行
エージェンティック時代では、たった一つの意図が連鎖反応を引き起こします。チャットとは異なり、主要な AI エージェントは目標を具体的なタスクへと分解し、専門化されたエージェント群がリアルタイムで連携し、状態を保持し、強化学習を用いて成果を出します 。
このプロセスは、インタラクションごとのインテリジェンスを拡張させる一方、従来のアーキテクチャではコストの急増やパフォーマンスのボトルネックなしには対応できない複雑性をもたらします。効率的かつ効果的にスケールするには、断片化したコンポーネントや技術を手動で統合する段階から脱却しなければなりません。スマートで高速かつ、スケーラブルでコスト効率に優れたエージェンティック体験を提供するには、専用ハードウェア、オープン ソフトウェア、柔軟な利用モデルにまたがる統一されたインフラストラクチャ スタックが必要です。
Google の AI Hypercomputer は、エージェンティック時代のために構築され、これらの新しい要件を満たすように設計された AI 最適化インフラストラクチャです。これは、Google のフラッグシップ モデルである Gemini、コンシューマー向け AI サービス、およびエンタープライズ向け AI ソリューションを支える基盤と同じものです。本日、以下を含む AI インフラストラクチャ ポートフォリオの大幅な拡張を発表します。
-
TPU 8t および TPU 8i:第 8 世代 TPU
-
A5X ベアメタル インスタンス:NVIDIA Vera Rubin NVL72 を搭載
-
Axion N4A VM:カスタム Arm ベース CPU「Axion」を搭載
-
Google Compute Engine 第 4 世代 VM:Intel および AMD の x86 ベース CPU を搭載
-
Virgo ネットワーク:AI ワークロード向けの革新的なデータセンター ファブリック
-
Google Cloud Managed Lustre:高パフォーマンスな並列ファイル システム
-
Z4M VM:大容量のローカル SSD ストレージと、オープンな並列ファイル システム向け RDMA を搭載
-
専用 KV キャッシュ:スケーラブルなストレージ サブシステム
-
ネイティブ PyTorch:TPU をサポート
-
Google Kubernetes Engine (GKE) の新機能:エージェント ネイティブなワークロード運用に対応


これらの機能を組み合わせることで、モデルや複雑なエージェンティック ワークフローの開発を促進し、イノベーションを加速させ、有用でレスポンシブなサービスを顧客に提供しつつ、大規模なコスト削減と責任あるエネルギー利用を実現します 。
詳細をご紹介します。
エージェンティック AI 向けに構築された第 8 世代 TPU システム
本日、エージェンティック時代に特化して設計された第 8 世代 Tensor Processing Unit(TPU)を発表します。今回初めて、用途の異なる 2 つのチップと専用システムが登場します。
TPU 8t は、高スループットの AI ワークロード向けに設計されたトレーニングの原動力です 。AI 開発の規模を再定義し、前世代よりも 3 倍近く高い演算性能を提供することで、大規模モデルのトレーニング時間を短縮します。単一のスーパーポッドに 9,600 個のチップを搭載し、121 エクサフロップスの演算能力と 2 ペタバイトの共有メモリを高速な ICI(チップ間相互接続)でつなぎます。大規模なコンピューティング プール、統合メモリ、そして 2 倍になった ICI 帯域幅により、最も複雑なモデルでもほぼ線形のスケーリングと最大限のシステム利用率を実現します。Pathways と JAX によってオーケストレーションされた単一クラスター内の 100 万以上の TPU チップのパワーで、数ヶ月かかっていたトレーニングを数週間に短縮できます。
TPU 8i は、推論と強化学習(RL)のための革新的な推論システムであり、エージェンティック ワークフローや Mixture of Experts(MoE)モデルに必要な超低遅延を実現します。オンチップ SRAM を 384 MB に 3 倍増、高帯域幅メモリ(HBM)を 288 GB に増強し、大規模な KV キャッシュを完全にシリコン上に保持することで「メモリの壁」を打破しました。これにより、TPU 8i は前世代と比較して推論の価格パフォーマンスを 80% 向上させ、高速でインタラクティブなユーザー体験をコスト効率よく実現します。
TPU 8t および TPU 8i は、まもなく Google Cloud のお客様に提供予定です。アーキテクチャの詳細については、こちらをご覧ください。
NVIDIA Vera Rubin プラットフォームを搭載した A5X
私たちは、一つの手法がすべてに適合するわけではないことを理解しています。お客様ごとにワークロードや要件、ユースケースは異なります。そのため、Google は NVIDIA と深く連携し、最新の GPU プラットフォームを Google Cloud 上で信頼性と拡張性の高いサービスとして提供しています。本年後半に利用可能になる次世代の NVIDIA Vera Rubin プラットフォームに基づいたインスタンスは、いち早く提供予定です。
また、Open Compute Project を通じて、オープンソースの Falcon ネットワーク プロトコルを NVIDIA と共同開発しており、信頼性の高いトランスポート プロトコルの限界に挑んでいます。A5X には Falcon の革新的なコンセプトが数多く実装される予定です。
例えば、Thinking Machine Labs は Google の NVIDIA ベースのインフラストラクチャを活用して、特化型のユースケースに向けたフロンティア モデルの強化学習やファインチューニングを行うオープン プラットフォーム「Tinker」を構築しています。Google の AI Hypercomputer を使用することで、トレーニングとサービングの両方において 2 倍以上の高速化を実現しています。
Axion、Intel、AMD によるエージェンティック ロジックと強化学習の推進
GPU や TPU は AI モデルのトレーニングやサービングに優れていますが、コア AI モデルを取り巻く複雑なロジック、ツール呼び出し、フィードバック ループを処理するには、高パフォーマンスな CPU ベースのサービスで補完する必要があります。新しい Axion 搭載 N4A CPU インスタンスは、これらのエージェント ランタイムに対して優れたコスト パフォーマンスを提供します。実際、Google Axion N4A を搭載した GKE Agent Sandbox は、他のハイパースケーラー上のエージェント ワークロードと比較して、最大 30% 優れた価格パフォーマンスを実現します。
この効率性は、Intel および AMD の最新 x86 インスタンスを搭載した第 4 世代 Compute Engine VM ファミリーを含む、Google のポートフォリオ全体に及んでいます。これらは、RL の報酬計算、エージェント運用、ネストされた可視化など、幅広い RL タスク向けに最適化されており、あらゆる AI ワークロードに対して最適な機能を提供します。
データセンター スケールアウト ファブリックのための Virgo ネットワーク
AI Hypercomputer の一部である Virgo ネットワークは、大規模な AI ワークロードの厳しい要件を満たすよう設計されています。前世代の 4 倍の帯域幅を持つコラプスド ファブリック アーキテクチャにより、「スケーリングにかかるオーバーヘッド」を排除し、驚異的なピーク演算能力を提供します。この性能により、最も野心的な AI ワークロードもほぼ線形の効率でスケールできます。
Virgo ネットワークと TPU 8t を使用することで、一つのデータセンター内で 134,000 個の TPU を単一のファブリックに接続し、複数の拠点にわたって 100 万個以上の TPU を学習クラスターとして接続することが可能です。これにより、世界中に分散したインフラを、実質的に一つのシームレスなスーパーコンピュータへと変革できます。
また、Virgo ネットワークを A5X(NVIDIA Vera Rubin NVL72 搭載)にも提供し、一つのデータセンターで最大 80,000 GPU、複数の拠点にまたがって最大 960,000 GPU をサポートします。
ストレージ:データ ボトルネックの最小化
大規模なコンピューティング クラスタの効果は、データを供給するストレージ システムの性能に依存します。コンピューティングの高速化に伴い、ストレージがボトルネックにならないよう、以下の 4 つの主要な進歩を提供します。
-
トレーニングと推論の加速:Google Cloud Managed Lustre は 10 TB/s の帯域幅を実現しています。これは昨年比で 10 倍の向上、他のハイパースケーラーと比較して最大 20 倍高速化しています。また、容量を 80 ペタバイトまで拡張しました。これらの進歩は、新しい C4NX インスタンスと Hyperdisk Exapools によって実現しています。
-
遅延の最小化:Managed Lustre は、新しい TPUDirect および RDMA を活用し、データがホストをバイパスしてアクセラレータへ直接移動することを可能にしています。この処理オーバーヘッドを排除することで、AI エージェントはユーザーが求めるほぼ瞬時の速度で応答できるようになります。
-
トレーニングのピーク稼働率を維持:Google Cloud Storage の Rapid Buckets は、ミリ秒以下の遅延と毎秒 2,000 万オペレーションにより、オブジェクト ストレージを刷新します。これにより、大規模なトレーニングのチェックポイントとリカバリをほぼ瞬時に実行、アクセラレータの稼働率を 95% 以上に維持できるようになり、トレーニング サイクルを加速させると同時に、貴重な TPU や GPU のコスト効率も向上します。
-
カスタム ソリューションの構築: ストレージ ソリューションを独自に構築したい ISV や組織向けに、Vast Data や Sycomp といった信頼性の高い並列ファイル システムを統合したいお客様向けに特別設計した Z4M インスタンスをリリースします。各 Z4M インスタンスは最大 168 TiB のローカル SSD 容量まで拡張可能で、数千台規模の RDMA クラスタに展開できます。
これらの新しいストレージ オプションは包括的なストレージ ポートフォリオを提供し、AI Hypercomputer スタックの圧倒的なパワーを、各ユースケースに最適なストレージ サービスとともに提供します。
GKE:エージェント ネイティブ ワークロードの運用
エージェンティック時代において、インテリジェンスはスケールできる速度に影響されます。そこで、GKE をエージェント ネイティブなワークロードのための主要なオーケストレーション エンジンへと進化させました。
スタック全体でのレイテンシ削減
レスポンシブなエージェンティック応答をサポートするために、起動およびスケールアウト プロセスのあらゆる瞬間を最適化しています。需要の急増へのインフラストラクチャの対応を合理化することで、GKE はユーザーがシステムに関与した瞬間にエージェントが準備できていることを保証します。GKE の新機能は以下の通りです。
-
ノードおよびポッド起動の高速化:GKE ノードの起動は最大 4 倍高速化、ポッドの起動時間は最大 80% 短縮されました。
-
迅速なモデル ロード:run:AI Model Streamer と Google Cloud Storage の Rapid Cache を活用することで、モデルの読み込み速度が 5 倍向上し、従来のストレージのボトルネックが解消されます。
AI 搭載の Inference Gateway によるインテリジェントなルーティング
昨年公開した GKE Inference Gateway を基盤として、「AI のための AI」で大規模なサービングにおける複雑な課題を解決しています。
Inference Gateway の新しい予測型レイテンシ ブーストは、従来のヒューリスティックな推測を、機械学習によるリアルタイムのキャパシティを考慮したルーティングに置き換えます。このインテリジェントな運用により、手動でのチューニングなしに、Time-to-First-Token(TTFT)の遅延を 70% 以上削減します。企業にとって、より自然な音声会話や、さまざまなユースケースにおけるスムーズでリアルタイムなインタラクションに直結します。
Inference Gateway は、Cloud Native Computing Foundation(CNCF)のサンドボックス プロジェクトとして承認された、Kubernetes ネイティブの高パフォーマンスな分散 LLM 推論フレームワークである llm-d と共にデプロイ可能です。Google Cloud は、Red Hat、IBM Research、CoreWeave、NVIDIA と共に llm-d の創設メンバーであることを誇りに思っています。私たちは、「あらゆるモデル、あらゆるアクセラレータ、あらゆるクラウド」という、業界を定義する明確なビジョンのもとに団結しています。


AI ライフサイクル全体を支えるオープン ソフトウェア エコシステム
ハードウェアは、共同設計されたソフトウェアにより、その潜在能力を発揮します。AI Hypercomputer は、JAX、PyTorch、vLLM などの業界で人気なフレームワークに対してネイティブかつ最適化されたサポートを提供することで、エンジニアの開発スピードを高速化します。このオープンなソフトウェア レイヤーが開発とデプロイの間の摩擦を軽減し、市場投入までの時間の短縮とリソース効率の向上を実現します。
現在、一部のお客様を対象に、TPU 向けのネイティブ PyTorch サポート「TorchTPU」のプレビュー版で提供しています。TorchTPU を使用すると、Eager Mode などのネイティブ PyTorch 機能を完全にサポートしながら、モデルをそのままの形で TPU 上で実行できます。これに TPU 上での vLLM の強固なサポートを組み合わせることで、「オープン性とお客様の選択肢を常に重視して構築する」ことにコミットしています。
エージェンティックな成長のための基盤
エージェンティック時代において、迅速かつコスト効率よくイノベーションを実現するには、パフォーマンスと選択肢を妥協しない統合システムが必要です。それこそが AI Hypercomputer が提供するものです。シリコンからソフトウェアまですべてのレイヤーを共同設計することで、統合の負担を取り除き、お客様のチームがビジネスの推進に集中できるようにします。
AI Hypercomputer は、Google のハイレベル サービスのエコシステム全体を支える強力な基盤としても機能します。この統合されたスタックは、Gemini Enterprise から Gemini Enterprise Agent Platform まで、あらゆるサービスを支えており、これらすべてのインフラストラクチャのイノベーションが直接的なビジネス価値へと変換されることを保証します。サーバーレス トレーニング サービスや新しい Managed RL API などのフルマネージド サービスを活用することで、AI Hypercomputer の圧倒的なパフォーマンス向上を適用して独自のビジネス ロジックで Gemini をカスタマイズし、高度なエージェント ベースのソリューションを実現できます。
この更新および拡張された AI プラットフォームを使って、皆様が次に何を構築されるのか、非常に楽しみにしています。



