概要
TPU は、エージェント、コード生成、大規模言語モデル、メディア コンテンツ生成、合成音声、ビジョン サービス、レコメンデーション エンジン、パーソナライズ モデルなどの AI ワークロードに特化したカスタム設計のアクセラレータです。TPU は Gemini と、検索、フォト、マップなどのすべての Google AI 搭載アプリケーションを支え、10 億人以上のユーザーにサービスを提供しています。
エージェント型 AI への移行には、マルチステップの推論と継続的な強化学習が可能なインフラストラクチャが必要です。TPU は、TPU 8i で拡張されたオンチップ SRAM を利用して、膨大な KV キャッシュを完全にオンシリコンでホストすることで、推論の「メモリの壁」を打ち破ります。通信タスクをオフロードする SparseCore エンジンと組み合わせることで、このアーキテクチャはコアのアイドル時間を短縮します。その結果、複雑な推論ループを強化する、低レイテンシで予測可能なパフォーマンスが実現します。
最先端モデルのトレーニング タイムラインを短縮することで、デプロイ時間を短縮できます。Cloud TPU はグッドプットを最大化し、ほぼすべてのコンピューティング サイクルがアクティブ ラーニングに費やされるようにします。これは、高速のチップ間相互接続、光回路スイッチング、Virgo ネットワークによってサポートされているため、アクセラレータは信頼性の高い統合システムとして動作します。
TPU は、AI の計算要件に焦点を当て、多目的アーキテクチャに見られる運用上のオーバーヘッドを排除することで、価値と消費電力を改善するように設計されています。統合された電力管理機能により、リアルタイムのリクエスト量に合わせて動的に調整され、高いワットあたりのパフォーマンスが実現し、複雑な AI ワークロードをサステナブルにサポートします。
使い慣れたライブラリやツールを使用して、オープンなエコシステム上に構築できます。Cloud TPU は、PyTorch と JAX をネイティブに高パフォーマンスでサポートし、高速推論のための vLLM エンジンをサポートします。Google Kubernetes Engine(GKE)を使用して、これらのデプロイをグローバル クラスタ全体で確実に管理、スケーリングします。
Cloud TPU のバージョン
| Cloud TPU バージョン | 説明 | 可用性 |
|---|---|---|
TPU 8i | TPU 8i は、トレーニング後の処理と推論に最適化されています。また、大規模な MoE モデルの低レイテンシ推論では、前世代と比較して 1 ドルあたりのパフォーマンスが 80% 向上しています。 | 近日提供予定 |
TPU 8t | TPU 8t は、単一のスーパーポッドで 9,600 個のチップという規模で、大規模な事前トレーニングとエンベディングを多用するワークロード向けに構築されています。大規模なトレーニングでは、Ironwood と比較して 1 ドルあたりのパフォーマンスが 2.7 倍向上します。 | 近日提供予定 |
Ironwood | 大規模なトレーニング、推論、推論のために設計された第 7 世代のエネルギー効率の高い TPU。ポッドあたり 9,216 個の液冷チップを搭載し、42.5 エクサフロップの性能と、Trillium と比較してチップあたり 4 倍の性能を実現します。 | Ironwood は北米(中部)とヨーロッパ(西部リージョン)で一般提供されています |
Trillium | トレーニングと推論のエネルギー効率とピーク コンピューティング パフォーマンスが向上した第 6 世代の TPU。前世代の TPU v5e と比較して、エネルギー効率が 67% 向上し、チップあたりのピーク コンピューティング パフォーマンスが 4.7 倍になりました。 | Trillium は、北米(米国東部リージョン)、ヨーロッパ(西部リージョン)、アジア(北東部リージョン)で一般提供されています |
Cloud TPU バージョンに関する追加情報
TPU 8i
TPU 8i は、トレーニング後の処理と推論に最適化されています。また、大規模な MoE モデルの低レイテンシ推論では、前世代と比較して 1 ドルあたりのパフォーマンスが 80% 向上しています。
近日提供予定
TPU 8t
TPU 8t は、単一のスーパーポッドで 9,600 個のチップという規模で、大規模な事前トレーニングとエンベディングを多用するワークロード向けに構築されています。大規模なトレーニングでは、Ironwood と比較して 1 ドルあたりのパフォーマンスが 2.7 倍向上します。
近日提供予定
Ironwood
大規模なトレーニング、推論、推論のために設計された第 7 世代のエネルギー効率の高い TPU。ポッドあたり 9,216 個の液冷チップを搭載し、42.5 エクサフロップの性能と、Trillium と比較してチップあたり 4 倍の性能を実現します。
Ironwood は北米(中部)とヨーロッパ(西部リージョン)で一般提供されています
Trillium
トレーニングと推論のエネルギー効率とピーク コンピューティング パフォーマンスが向上した第 6 世代の TPU。前世代の TPU v5e と比較して、エネルギー効率が 67% 向上し、チップあたりのピーク コンピューティング パフォーマンスが 4.7 倍になりました。
Trillium は、北米(米国東部リージョン)、ヨーロッパ(西部リージョン)、アジア(北東部リージョン)で一般提供されています
Cloud TPU バージョンに関する追加情報
大規模な基盤モデルの事前トレーニングのタイムラインを短縮します。TPU 8t は、単一の Pod 内で高パフォーマンスのコンピューティング能力を備え、Virgo ネットワークを介してスケーリングします。高速なストレージ アクセスと Axion を活用した NUMA 分離を組み合わせることで、このアーキテクチャは高いグッドプットを実現します。これにより、データ転送中やハードウェアのリセット中にアイドル状態になるのではなく、アクティブなモデル構築にコンピューティング サイクルを費やすことができます。
大規模な基盤モデルの事前トレーニングのタイムラインを短縮します。TPU 8t は、単一の Pod 内で高パフォーマンスのコンピューティング能力を備え、Virgo ネットワークを介してスケーリングします。高速なストレージ アクセスと Axion を活用した NUMA 分離を組み合わせることで、このアーキテクチャは高いグッドプットを実現します。これにより、データ転送中やハードウェアのリセット中にアイドル状態になるのではなく、アクティブなモデル構築にコンピューティング サイクルを費やすことができます。
集中的なトレーニング後のワークフローを通じて、ベースモデルをインテリジェント エージェントに組み込みます。第 8 世代の TPU システムは、継続的な強化学習の試行を迅速に処理し、これまでの世代で一般的だったサイクル遅延なしで最適な推論パスに報酬を与えます。これにより、ワールドモデルを効率的にファインチューニングし、エージェントが実世界で実行する前にシミュレートされた環境で推論を改良できるようになります。
集中的なトレーニング後のワークフローを通じて、ベースモデルをインテリジェント エージェントに組み込みます。第 8 世代の TPU システムは、継続的な強化学習の試行を迅速に処理し、これまでの世代で一般的だったサイクル遅延なしで最適な推論パスに報酬を与えます。これにより、ワールドモデルを効率的にファインチューニングし、エージェントが実世界で実行する前にシミュレートされた環境で推論を改良できるようになります。
推論メモリの壁を打ち破る。TPU 8i は、オンチップ SRAM と高帯域幅メモリを拡張し、大容量の KV キャッシュを完全にシリコン上でホストします。SparseCore-Collectives Acceleration Engine(SC-CAE)を使用してグローバル通信タスクをオフロードすることで、このアーキテクチャはオンチップ レイテンシを大幅に削減し、メインのコンピューティング コアを純粋な低レイテンシ トークン生成に解放します。
推論メモリの壁を打ち破る。TPU 8i は、オンチップ SRAM と高帯域幅メモリを拡張し、大容量の KV キャッシュを完全にシリコン上でホストします。SparseCore-Collectives Acceleration Engine(SC-CAE)を使用してグローバル通信タスクをオフロードすることで、このアーキテクチャはオンチップ レイテンシを大幅に削減し、メインのコンピューティング コアを純粋な低レイテンシ トークン生成に解放します。
ビジネスケース
自律推論エージェント
TPU は、リアルタイムのコーディング アシスタント、自律型カスタマー サービス、セキュリティ運用で、継続的なマルチステップの推論ループを実行するために必要なメモリ帯域幅と低レイテンシの推論を実現します。
基盤モデルとマルチモーダル生成 AI
TPU は、継続的かつ高スループットな演算能力を提供し、テキスト、画像、音声、動画といったあらゆるモダリティにおいて、大規模な基盤モデルの効率的な構築とサービングを実現します。
プレシジョン サイエンスとヘルスケア
TPU は、複雑で膨大な行列演算を処理することで、構造生物学、ゲノム解析、創薬のための計算負荷の高いシミュレーションを高速化します。
フィジカル AI
現実世界とやり取りして適応する、物理的なエージェントを構築します。合成データと実世界のデータを活用し、ロボット、自律型エージェント、産業機械のシミュレーションとトレーニングをより短時間で効率的に行えます。