コンテンツに移動
インフラストラクチャ

第 8 世代 TPU:エージェンティック時代に向けた 2 つのチップ

2026年4月22日
https://storage.googleapis.com/gweb-cloudblog-publish/images/TPU_XlR9gXd.max-2000x2000.png
Amin Vahdat

SVP and Chief Technologist, AI and Infrastructure

10 年にわたる開発の集大成である TPU 8t および TPU 8i は、次世代のスーパーコンピューティングに効率性と拡張性をもたらすよう、専用に設計されています。

※この投稿は米国時間 2026 年 4 月 22 日に、Keyword に投稿されたものの抄訳です。

本日、Google Cloud Next ‘26 において、 Google Cloud は、第 8 世代となるカスタム Tensor Processor Unit(TPU)を発表しました。トレーニングと推論のそれぞれに特化して設計した 2 つの異なるアーキテクチャ、 TPU 8t と TPU 8i を今後提供開始します。これら 2 つのチップは Google のカスタム スーパーコンピュータ向けに設計されており、最先端のモデル トレーニングやエージェント開発から、大規模な推論ワークロードまで、あらゆる処理を支える基盤となります。TPU は長年にわたり、 Gemini をはじめとする主要な基盤モデルを支えてきました。第 8 世代の TPU は、トレーニング、サービングおよびエージェンティック ワークロードにおいて、スケール、効率性および機能を提供します。

AI エージェントの時代において、モデルは問題解決のための論理的な思考プロセスを構築し、多段階のワークフローを実行し、実行の継続的なループの中で改善する必要があります。こうした進化は、インフラストラクチャに対して新たな要求を課します。TPU 8t と TPU 8i は、Google DeepMind との連携により、極めて要求の厳しい AI ワークロードに対応し、進化し続けるモデル アーキテクチャに大規模に適合するよう設計されました。

TPU は ML に最適化された数値表現、液冷システム、カスタム インターコネクトなど、多くの ML スーパーコンピューティング コンポーネントにおいて基準を確立してきました。第 8 世代の TPU は 10 年以上にわたる開発の集大成です。シリコンを、ハードウェアやネットワーク、さらにはモデル アーキテクチャやアプリケーション要件を含むソフトウェアと最適化された形で設計することで、電力効率と絶対的なパフォーマンスを劇的に向上させるという TPU 独自の設計思想は、現在も Google の基盤となっています。

10 年にわたるイノベーションが、現実世界における画期的な進歩へとつながっていることを、私たちは大変嬉しく思っています。今日、Citadel Securities などの先進的な組織は、自社の最先端な AI ワークロードを支える基盤として TPU を採用し、テクノロジーの可能性を切り拓いています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image3_oyN4M3g.max-1900x1900.png

時代に応える 2 つのチップ

ハードウェアの開発サイクルは、ソフトウェアより長い期間を要します。各世代の TPU の開発にあたり、製品が市場に投入される時期にどのようなテクノロジーと需要が存在するかを予測しなければなりません。Google Cloud は数年前の時点で、最先端 AI モデルが本番環境で大規模に展開されるようになれば、お客様の推論需要が急速に高まると予測していました。そして AI エージェントの台頭を受け、トレーニングとサービングのそれぞれのニーズに特化したチップを提供することが、ユーザーにとって大きな利益になると判断しました。

TPU 8t は、より大きな計算スループットとスケールアップ帯域幅を備え、計算集約的な大規模なトレーニング ワークロードにおいて真価を発揮するよう設計されています。一方、TPU 8i は、レイテンシに敏感な推論ワークロードを処理するために、より多くのメモリ帯域幅を確保するよう設計しました。大規模なエージェント間のやり取りでは、わずかな非効率性の影響が大きいため、この設計は極めて重要です。

重要な点は、両方のチップがあらゆるワークロードに対応しつつも、役割を特化させることで、効率とパフォーマンスを最大限に引き出せることにあります。

TPU 8t:トレーニングの原動力

TPU 8t は、最先端モデルの開発サイクルを数か月から数週間に短縮するために構築しました。高い計算スループット、共有メモリ、チップ間帯域幅と、優れた電力効率および有効計算時間を高いレベルで両立させています。これにより、前世代と比較してポッドあたり約 3 倍優れた演算パフォーマンスを実現し、お客様の迅速なイノベーションを後押しします。

  • 大規模なスケール: 単一の TPU 8t スーパーポッドは 9,600 個のチップと 2 ペタバイトの共有高帯域メモリまで拡張可能で、チップ間帯域幅は前世代の 2 倍に向上しました。 このアーキテクチャは、121 ExaFlops の演算能力を提供し、極めて複雑なモデルであっても大規模なメモリ プールを活用できます。
  • 稼働率の最大化: 10 倍高速なストレージ アクセスを統合し、データを TPU に直接取り込む TPUDirect と組み合わせることで、エンドツーエンド システムの稼働率を最大化します。
  • 線形に近いスケーリング: Google Cloud の新しい Virgo ネットワークと JAX および Pathways ソフトウェアを組み合わせることで、TPU 8t は、単一の論理クラスター内で最大 100 万個のチップに対してほぼリニアなスケーリングを提供することができます。

純粋なパフォーマンスに加え、 TPU 8t は包括的な RAS(信頼性、可用性、保守性)機能を通じて、 97% 以上の「グッドプット(単位時間あたりの有用で生産的な計算時間の割合)」を達成するように設計しました。これには、数万個のチップにわたるリアルタイム テレメトリ、ジョブを中断することなく故障したチップ間相互接続(ICI)リンクを自動検出して回避する機能、および人の介入なしに障害に対してハードウェア構成を再構築する光回路スイッチ(OCS)が含まれます。

ハードウェアの故障、ネットワークの停止、あるいはチェックポイントからの再起動が発生するたびに、クラスターのトレーニングは中断されます。最先端のトレーニング スケールにおいては、わずか 1% の差が数日間のアクティブなトレーニング時間に相当します。

 

Ironwood (2025)

TPU 8t (2026)

ポッド サイズ

9,216

9,600

ポッドあたりの FP4 EFlops

42.5

121

双方向スケールアップ帯域幅 (1 チップあたり Tb/s)

9.6

19.2

スケールアウト ネットワーク 帯域幅 (1 チップあたり Gb/s) 

100

400

TPU 8i:推論エンジン

エージェント時代において、ユーザーは質問をし、タスクを委任し、結果を得ることを期待しています。TPU 8i は、多数の特殊なエージェントが複雑なフローの中で連携し、困難なタスクに対してソリューションや洞察を提供する、複雑で反復的な共同作業を処理するように設計されています。 Google Cloud は、 4 つの主要なイノベーションを通じて、キューでの滞留による遅延を排除するためにスタックを再設計しました。 

  • 「メモリの壁」の打破: プロセッサのアイドル状態を防ぐため、TPU 8i は 288 GB の高帯域メモリと 384 MB のオンチップ SRAM(前世代の 3 倍)を搭載しました。これにより、モデルのアクティブなワーキング セットを完全にオンチップに保持します。 

  • Axion による効率化: サーバーあたりの物理 CPU ホストを 2 倍に増やし、 Google カスタムの Arm ベース CPU である Axion に移行しました。不均一 メモリ アクセス(NUMA)による隔離を行うことで、システム全体のパフォーマンスを最適化しています。 

  • MoE モデルへの最適化: 最新の Mixture of Expert(MoE)モデル向けに、インターコネクト(ICI)帯域幅を 19.2 Tb/s に倍増しました。新しい Boardfly アーキテクチャは最大ネットワーク直径を 50% 以上短縮し、システム全体が低レイテンシで結束した一つのユニットとして機能することを保証します。 

  • ラグの排除: 新しいオンチップの Collectives Acceleration Engine(CAE)がグローバル オペレーションをオフロードし、オンチップ レイテンシを最大 5 分の 1 に短縮することで、ラグを最小限に抑えます。 

このイノベーションにより、前世代と比較してコスト パフォーマンスが 80 % 向上し、企業は同じコストで約 2 倍の顧客リクエストに対応できるようになります。

 

Ironwood (2025)

TPU 8i (2026)

ポッド サイズ

256

1,152

ポッドあたりの FP8 EFlops

1.2

11.6

ポッドあたりの総 HBM 容量 (TB) 

49.2

331.8

双方向スケールアップ帯域幅 (1 チップあたり Tb/s)  

9.6

19.2

https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_nUTI0V5.max-2000x2000.png

TPU 8i の階層的な Boardfly トポロジー。4 つの全結合チップを構成要素とし、8 枚のボードで構成される全結合グループへと拡張、これらのグループ 36 個を全結合することで、1 つの TPU 8i ポッドを構成。

Gemini との共同設計をすべての人へ

第 8 世代 TPU は、 AI の大きな課題を解決するためにあらゆる仕様を構築するという、 Google の共同設計哲学の最新の成果です。

  • 高度な推論モデルの通信要件に合わせて設計された Boardfly トポロジー、が採用されています
  • TPU 8i の SRAM 容量は、プロダクション スケールにおける推論モデルの KV キャッシュ フットプリントに合わせて拡張されていますしました。
  • Virgo ネットワーク ファブリックの帯域幅ターゲットは、兆単位のパラメータを持つトレーニングの並列化要件に最適化されています。

また、初めて両方のチップが Google 独自の Axion Arm ベース CPU ホスト上で動作します。これにより、チップ単体ではなく、システム全体のパフォーマンスと効率を最適化できるようになりました。

両プラットフォームは、JAX、MaxText、PyTorch、SGLang、vLLM といったフレームワークをネイティブにサポートしています。また、ベアメタル アクセスにより、仮想化のオーバーヘッドを排除し、ハードウェアへ直接的なアクセスを可能にしました。MaxText のリファレンス実装や強化学習用の Tunix を含むオープンソースへの貢献を通じて、機能開発から本番環境への展開までを円滑にサポートします。

大規模な電力効率の設計

今日のデータセンターにおいて、電力確保はチップの供給と並ぶ大きな制約となっています。この問題を解決するため、Google はリアルタイムの需要に応じて消費電力を動的に制御する統合電力管理を導入し、スタック全体で効率を最適化しました。その結果、TPU 8t および TPU 8i は、前世代の Ironwood と比較して最大 2 倍の電力効率(ワットあたりのパフォーマンス)を実現しています。

しかし、Google における効率化の取り組みはチップ単体の指標に留まりません。シリコンからデータセンター全体に至るまでのシステム レベルのコミットメントです。例えば、ネットワーク接続と計算機能を同一チップに統合することで、データを移動させる際の電力コストを大幅に削減しました。データセンター自体も TPU に最適化された形で設計されており、ハードウェアとソフトウェアの革新によって、 5 年前と比較して単位電力あたり 6 倍のコンピューティング パワーを提供できるようになりました。

TPU 8t と TPU 8i はその進化を継承しています。両チップとも、第 4 世代の液冷テクノロジーによって提供されています。Axion ホストからアクセラレータまでフルスタックを所有することで、個別に設計されたシステムでは到達できないレベルのエネルギー効率を実現しました。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image5_KCpsFgF.max-1400x1400.jpg

Google Cloud の第 4 世代冷却分配ユニット(CDU)

AI エージェント時代のためのインフラストラクチャ

コンピューティングの転換期には、常にインフラストラクチャの進化が必要です。AI エージェントの時代も例外ではありません。継続的なループの中で推論、計画、実行、学習を行う自律型エージェントの要求に応えるため、インフラストラクチャも合わせて進化し続ける必要があります。

TPU 8t と TPU 8i は、この課題に対する Google の回答です。 AI で何が可能かを再定義するために構築した 2 つの専用アーキテクチャであり、最先端の AI モデルの構築から、高度にオーケストレートされたエージェント群の運用、そして最も複雑な推論タスクの管理に至るまで、あらゆるニーズに応えます。両チップは今年後半に一般提供を開始する予定で、 Google の AI Hypercomputer の一部として利用できます。これは、専用ハードウェア(計算、ストレージ、ネットワーク)、オープン ソフトウェア(フレームワーク、推論エンジン)、および柔軟な消費形態(オーケストレーション、クラスター管理、配信モデル)を統合します。

エージェント型コンピューティングは、可能性を再定義します。この変革を支える最新のイノベーションである TPU 8i および 8t を発表できることを嬉しく思います。詳細をご希望のお客様は、ぜひお問い合わせください

投稿先