このページは Cloud Translation API によって翻訳されました。

TPU v5p

このドキュメントでは、Cloud TPU v5p のアーキテクチャとサポートされている構成について説明します。

システムアーキテクチャ

このセクションでは、v5p バージョンに固有のシステムアーキテクチャについて説明します。各 TensorCore には、4 つのマトリックス乗算ユニット（MXU）、1 つのベクトルユニット、1 つのスカラーユニットがあります。

1 つの v5p Pod に 8,960 個のチップがあります。スケジュールできる最大のジョブは 96 キューブ（6,144 チップ）のジョブです。

次の表では、v5p の主な仕様を示します。

主な仕様	v5p 値
チップあたりのピークコンピューティング（bf16）	459 TFLOPS
HBM2e の容量と帯域幅	95 GB、2,765 Ggps
TPU Pod のサイズ	8,960 チップ
相互接続トポロジ	3D トーラス *
インターチップ相互接続 BW	4,800 Gbps

構成

TPU v5p Pod は、再構成可能な高速リンクで相互接続された 8,960 個のチップで構成されます。TPU v5p' の柔軟なネットワーキングでは、さまざまな方法で同じサイズのスライスにチップを接続できます。gcloud compute tpus tpu-vm create コマンドを使用して TPU スライスを作成する場合は、AcceleratorType パラメータまたは AcceleratorConfig パラメータを使用してそのタイプとシェイプを指定します。

次の表では、v5p でサポートされている最も一般的なシングルスライスの形状と、1 キューブより大きいほとんどの（全部ではない）キューブの形状を示します。最大の v5p 形状は 16x16x24（6,144 チップ、96 キューブ）です。

スライス形状	VM サイズ	コア数	チップ数	マシン数	キューブ数	Twisted のサポート
2x2x1	フルホスト	8	4	1	なし	なし
2x2x2	フルホスト	16	8	2	なし	なし
2x4x4	フルホスト	64	32	8	なし	なし
4x4x4	フルホスト	128	64	16	1	なし
4x4x8	フルホスト	256	128	32	2	○
4x8x8	フルホスト	512	256	64	4	○
8x8x8	フルホスト	1024	512	128	8	なし
8x8x16	フルホスト	2048	1024	256	16	○
8x16x16	フルホスト	4,096	2048	512	32	○
16x16x16	フルホスト	8,192	4,096	1024	64	なし
16x16x24	フルホスト	12,288	6,144	1,536	96	なし

シングルスライストレーニングは最大 6,144 チップに対応します。マルチスライスを使用すると、18,432 チップまで拡張できます。マルチスライスの詳細については、Cloud TPU マルチスライスの概要をご覧ください。

AcceleratorType パラメータの使用

TPU リソースを割り当てる場合は、--accelerator-type 引数を使用してスライス内の TensorCore 数を指定します。--accelerator-type は、フォーマットされた文字列「v$VERSION_NUMBERp-$CORES_COUNT」です。たとえば、v5p-32 は、32 個の TensorCore（16 チップ）がある v5p TPU スライスを指定します。

v5p トレーニングジョブに TPU をプロビジョニングするには、CLI または TPU API 作成リクエストで次のいずれかのアクセラレータタイプを使用します。

v5p-8
v5p-16
v5p-32
v5p-64
v5p-128（1 フルキューブ/ラック）
v5p-256（2 キューブ）
v5p-512
v5p-1024～v5p-12288

AcceleratorConfig パラメータを使用する

v5p 以降の Cloud TPU バージョンでは、AcceleratorConfig が Cloud TPU v4 の場合とほぼ同じ方法で使用されます。違いは、TPU タイプを --type=v4 として指定する代わりに、使用している TPU バージョン（例: v5p リリースの場合は --type=v5p）として指定することです。

Cloud TPU ICI の復元力

ICI の復元性により、キューブ間で TPU を接続する光リンクと光回路スイッチ（OCS）のフォールトトレランスが向上します。（キューブ内の ICI 接続は影響を受けない銅リンクを使用しています）。ICI 復元力により、ICI 接続は OCS 障害と光 ICI 障害を回避して経路設定されます。その結果、TPU スライスのスケジューリング可用性が改善されますが、ICI のパフォーマンスが一時的に低下するというトレードオフがあります。

Cloud TPU v4 と同様に、1 キューブ以上の v5p スライスでは、ICI の復元力がデフォルトで有効になっています。

v5p-128（アクセラレータタイプを指定する場合）
4x4x4（アクセラレータ構成を指定する場合）

VM、ホスト、スライスのプロパティ

プロパティ	TPU の値
v5p チップの数	4
vCPU の数	208（NUMA バインディングを使用して、クロス NUMA パフォーマンスのペナルティを回避する場合は半分のみ使用可能）
RAM（GB）	448（NUMA バインディングを使用して、クロス NUMA パフォーマンスのペナルティを回避する場合は半分のみ使用可能）
NUMA ノードの数	2
NIC のスループット（Gbps）	200

Pod 内の TensorCore 数、チップ数、ホスト/VM 数、キューブ間の関係:

	コア数	チップ	ホスト/VM	キューブ
ホスト	8	4	1
キューブ（別名ラック）	128	64	16	1
サポートされている最大のスライス	12,288	6,144	1,536	96
v5p フル Pod	17,920	8,960	2,240	140