Google Cloud Next Tokyo:7/30、31 東京ビッグサイトにて開催!

Tensor Processing Unit(TPU)

次世代 AI 向けに設計

トレーニング、推論、強化学習のワークロードを構築、最適化、スケーリングして、自律推論エージェントを強化

概要

10 年にわたる Tensor Processing Unit(TPU)

TPU は、エージェント、コード生成、大規模言語モデル、メディア コンテンツ生成、合成音声、ビジョン サービス、レコメンデーション エンジン、パーソナライズ モデルなどの AI ワークロードに特化したカスタム設計のアクセラレータです。TPU は Gemini と、検索、フォト、マップなどのすべての Google AI 搭載アプリケーションを支え、10 億人以上のユーザーにサービスを提供しています。

エージェント型 AI 専用

エージェント型 AI への移行には、マルチステップの推論と継続的な強化学習が可能なインフラストラクチャが必要です。TPU は、TPU 8i で拡張されたオンチップ SRAM を利用して、膨大な KV キャッシュを完全にオンシリコンでホストすることで、推論の「メモリの壁」を打ち破ります。通信タスクをオフロードする SparseCore エンジンと組み合わせることで、このアーキテクチャはコアのアイドル時間を短縮します。その結果、複雑な推論ループを強化する、低レイテンシで予測可能なパフォーマンスが実現します。

妥協のないパフォーマンス

最先端モデルのトレーニング タイムラインを短縮することで、デプロイ時間を短縮できます。Cloud TPU はグッドプットを最大化し、ほぼすべてのコンピューティング サイクルがアクティブ ラーニングに費やされるようにします。これは、高速のチップ間相互接続、光回路スイッチング、Virgo ネットワークによってサポートされているため、アクセラレータは信頼性の高い統合システムとして動作します。

大規模な持続可能な経済

TPU は、AI の計算要件に焦点を当て、多目的アーキテクチャに見られる運用上のオーバーヘッドを排除することで、価値と消費電力を改善するように設計されています。統合された電力管理機能により、リアルタイムのリクエスト量に合わせて動的に調整され、高いワットあたりのパフォーマンスが実現し、複雑な AI ワークロードをサステナブルにサポートします。

オープンで柔軟、信頼性の高い運用

使い慣れたライブラリやツールを使用して、オープンなエコシステム上に構築できます。Cloud TPU は、PyTorch と JAX をネイティブに高パフォーマンスでサポートし、高速推論のための vLLM エンジンをサポートします。Google Kubernetes Engine(GKE)を使用して、これらのデプロイをグローバル クラスタ全体で確実に管理、スケーリングします。

Cloud TPU のバージョン

Cloud TPU バージョン説明可用性

TPU 8i

TPU 8i は、トレーニング後の処理と推論に最適化されています。また、大規模な MoE モデルの低レイテンシ推論では、前世代と比較して 1 ドルあたりのパフォーマンスが 80% 向上しています。

近日提供予定

TPU 8t

TPU 8t は、単一のスーパーポッドで 9,600 個のチップという規模で、大規模な事前トレーニングとエンベディングを多用するワークロード向けに構築されています。大規模なトレーニングでは、Ironwood と比較して 1 ドルあたりのパフォーマンスが 2.7 倍向上します。

近日提供予定

Ironwood

大規模なトレーニング、推論、推論のために設計された第 7 世代のエネルギー効率の高い TPU。ポッドあたり 9,216 個の液冷チップを搭載し、42.5 エクサフロップの性能と、Trillium と比較してチップあたり 4 倍の性能を実現します。

Ironwood は北米(中部)とヨーロッパ(西部リージョン)で一般提供されています

Trillium

トレーニングと推論のエネルギー効率とピーク コンピューティング パフォーマンスが向上した第 6 世代の TPU。前世代の TPU v5e と比較して、エネルギー効率が 67% 向上し、チップあたりのピーク コンピューティング パフォーマンスが 4.7 倍になりました。

Trillium は、北米(米国東部リージョン)、ヨーロッパ(西部リージョン)、アジア(北東部リージョン)で一般提供されています

Cloud TPU バージョンに関する追加情報

TPU 8i

説明

TPU 8i は、トレーニング後の処理と推論に最適化されています。また、大規模な MoE モデルの低レイテンシ推論では、前世代と比較して 1 ドルあたりのパフォーマンスが 80% 向上しています。

可用性

近日提供予定

TPU 8t

説明

TPU 8t は、単一のスーパーポッドで 9,600 個のチップという規模で、大規模な事前トレーニングとエンベディングを多用するワークロード向けに構築されています。大規模なトレーニングでは、Ironwood と比較して 1 ドルあたりのパフォーマンスが 2.7 倍向上します。

可用性

近日提供予定

Ironwood

説明

大規模なトレーニング、推論、推論のために設計された第 7 世代のエネルギー効率の高い TPU。ポッドあたり 9,216 個の液冷チップを搭載し、42.5 エクサフロップの性能と、Trillium と比較してチップあたり 4 倍の性能を実現します。

可用性

Ironwood は北米(中部)とヨーロッパ(西部リージョン)で一般提供されています

Trillium

説明

トレーニングと推論のエネルギー効率とピーク コンピューティング パフォーマンスが向上した第 6 世代の TPU。前世代の TPU v5e と比較して、エネルギー効率が 67% 向上し、チップあたりのピーク コンピューティング パフォーマンスが 4.7 倍になりました。

可用性

Trillium は、北米(米国東部リージョン)、ヨーロッパ(西部リージョン)、アジア(北東部リージョン)で一般提供されています

Cloud TPU バージョンに関する追加情報

仕組み

Google Cloud TPU の優れた機能をぜひご覧ください。すべてが行われるデータセンターの貴重な内部もご紹介します。Cloud TPU は大規模な AI ワークロードの実行にご利用いただいていますが、その処理能力の源はチップだけではありません。この動画では、データセンターのネットワーク、光回線スイッチ、水冷システム、生体認証セキュリティ検証など、TPU システムのコンポーネントについて説明します。


TPU 動画に切り替える
一般的な使用例

大規模な AI トレーニング ワークロードの実行

フロンティア モデルの製品化までの時間を短縮

大規模な基盤モデルの事前トレーニングのタイムラインを短縮します。TPU 8t は、単一の Pod 内で高パフォーマンスのコンピューティング能力を備え、Virgo ネットワークを介してスケーリングします。高速なストレージ アクセスと Axion を活用した NUMA 分離を組み合わせることで、このアーキテクチャは高いグッドプットを実現します。これにより、データ転送中やハードウェアのリセット中にアイドル状態になるのではなく、アクティブなモデル構築にコンピューティング サイクルを費やすことができます。

フロンティア モデルの製品化までの時間を短縮

大規模な基盤モデルの事前トレーニングのタイムラインを短縮します。TPU 8t は、単一の Pod 内で高パフォーマンスのコンピューティング能力を備え、Virgo ネットワークを介してスケーリングします。高速なストレージ アクセスと Axion を活用した NUMA 分離を組み合わせることで、このアーキテクチャは高いグッドプットを実現します。これにより、データ転送中やハードウェアのリセット中にアイドル状態になるのではなく、アクティブなモデル構築にコンピューティング サイクルを費やすことができます。

トレーニング後の効率的な強化学習

強化学習ワークロードを効率的にスケーリング

集中的なトレーニング後のワークフローを通じて、ベースモデルをインテリジェント エージェントに組み込みます。第 8 世代の TPU システムは、継続的な強化学習の試行を迅速に処理し、これまでの世代で一般的だったサイクル遅延なしで最適な推論パスに報酬を与えます。これにより、ワールドモデルを効率的にファインチューニングし、エージェントが実世界で実行する前にシミュレートされた環境で推論を改良できるようになります。


強化学習ワークロードを効率的にスケーリング

集中的なトレーニング後のワークフローを通じて、ベースモデルをインテリジェント エージェントに組み込みます。第 8 世代の TPU システムは、継続的な強化学習の試行を迅速に処理し、これまでの世代で一般的だったサイクル遅延なしで最適な推論パスに報酬を与えます。これにより、ワールドモデルを効率的にファインチューニングし、エージェントが実世界で実行する前にシミュレートされた環境で推論を改良できるようになります。


低レイテンシの AI 推論ワークロードを大規模に実行

高パフォーマンスで費用対効果の高い推論

推論メモリの壁を打ち破る。TPU 8i は、オンチップ SRAM と高帯域幅メモリを拡張し、大容量の KV キャッシュを完全にシリコン上でホストします。SparseCore-Collectives Acceleration Engine(SC-CAE)を使用してグローバル通信タスクをオフロードすることで、このアーキテクチャはオンチップ レイテンシを大幅に削減し、メインのコンピューティング コアを純粋な低レイテンシ トークン生成に解放します。

高パフォーマンスで費用対効果の高い推論

推論メモリの壁を打ち破る。TPU 8i は、オンチップ SRAM と高帯域幅メモリを拡張し、大容量の KV キャッシュを完全にシリコン上でホストします。SparseCore-Collectives Acceleration Engine(SC-CAE)を使用してグローバル通信タスクをオフロードすることで、このアーキテクチャはオンチップ レイテンシを大幅に削減し、メインのコンピューティング コアを純粋な低レイテンシ トークン生成に解放します。

概念実証を開始する

Cloud TPU を無料で試す

Cloud TPU の基本的な使い方を学ぶ

TPU で PyTorch を実行する

TPU で JAX を実行する

TPU で vLLM を使用してサービング

ビジネスケース


自律推論エージェント

TPU は、リアルタイムのコーディング アシスタント、自律型カスタマー サービス、セキュリティ運用で、継続的なマルチステップの推論ループを実行するために必要なメモリ帯域幅と低レイテンシの推論を実現します。

基盤モデルとマルチモーダル生成 AI

TPU は、継続的かつ高スループットな演算能力を提供し、テキスト、画像、音声、動画といったあらゆるモダリティにおいて、大規模な基盤モデルの効率的な構築とサービングを実現します。

プレシジョン サイエンスとヘルスケア

TPU は、複雑で膨大な行列演算を処理することで、構造生物学、ゲノム解析、創薬のための計算負荷の高いシミュレーションを高速化します。



フィジカル AI

現実世界とやり取りして適応する、物理的なエージェントを構築します。合成データと実世界のデータを活用し、ロボット、自律型エージェント、産業機械のシミュレーションとトレーニングをより短時間で効率的に行えます。

  • Google Cloud プロダクト
  • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
Google Cloud