TPU v5p

このドキュメントでは、Cloud TPU v5p のアーキテクチャとサポートされている構成について説明します。

システムアーキテクチャ

このセクションでは、v5p バージョンに固有のシステムアーキテクチャについて説明します。各 TensorCore には、4 つのマトリックス乗算ユニット（MXU）、1 つのベクトルユニット、1 つのスカラーユニットがあります。

1 つの v5p スライスに 8,960 個のチップがあります。スケジュールできる最大のジョブは 96 キューブ（6,144 チップ）のジョブです。

次の表では、v5p の主な仕様を示します。

主な仕様	v5p 値
チップあたりのピークコンピューティング（bf16）	459 TFLOPS
HBM2e の容量と帯域幅	95GB、2765 GBps
TPU Pod のサイズ	8,960 チップ
相互接続トポロジ	3D トーラス *
インターチップ相互接続 BW	4,800 Gbps

構成

TPU v5p Pod は、再構成可能な高速リンクで相互接続された 8,960 個のチップで構成されます。TPU v5p の柔軟なネットワーキングでは、さまざまな方法で同じサイズのスライスにチップを接続できます。gcloud compute tpus tpu-vm create コマンドを使用して TPU スライスを作成する場合は、AcceleratorType パラメータを使用してそのタイプとシェイプを指定します。

次の表では、v5p でサポートされている最も一般的なシングルスライスの形状と、1 キューブより大きいほとんどの（全部ではない）キューブの形状を示します。最大の v5p 形状は 16x16x24（6,144 チップ、96 キューブ）です。

トポロジ	コア数	チップ	ホスト	キューブ	Twisted のサポート
2x2x1	8	4	1	なし	なし
2x2x2	16	8	2	なし	なし
2x4x4	64	32	8	なし	なし
4x4x4	128	64	16	1	なし
4x4x8	256	128	32	2	あり
4x8x8	512	256	64	4	あり
8x8x8	1024	512	128	8	なし
8x8x16	2048	1024	256	16	あり
8x16x16	4096	2048	512	32	あり
16x16x16	8192	4096	1024	64	なし
16x16x24	12288	6144	1536	96	なし

シングルスライストレーニングは最大 6,144 チップに対応します。マルチスライスを使用すると、最大 18,432 個のチップにスケールアップできます。マルチスライスの詳細については、Cloud TPU マルチスライスの概要をご覧ください。

AcceleratorType パラメータの使用

TPU リソースを割り当てる場合は、--accelerator-type 引数を使用してスライス内の TensorCore 数を指定します。--accelerator-type は、フォーマットされた文字列（v$VERSION_NUMBERp-$CORES_COUNT）です。たとえば、v5p-32 は、32 個の TensorCore（16 チップ）がある v5p TPU スライスを指定します。

v5p トレーニングジョブに TPU をプロビジョニングするには、CLI または TPU API 作成リクエストで次のいずれかのアクセラレータタイプを使用します。

v5p-8
v5p-16
v5p-32
v5p-64
v5p-128（1 フルキューブ/ラック）
v5p-256（2 キューブ）
v5p-512
v5p-1024～v5p-12288

次のコマンドは、トレーニング用に 256 個の v5p TensorCore（128 個のチップ）を備えた v5p TPU スライスを作成します。

  $ gcloud compute tpus tpu-vm create your-tpu-name \
    --zone=us-east5-a \
    --accelerator-type=v5p-256 \
    --version=v2-alpha-tpuv5

TPU の管理の詳細については、TPU の管理をご覧ください。Cloud TPU のシステムアーキテクチャの詳細については、システムアーキテクチャをご覧ください。

Cloud TPU ICI の復元力

ICI の復元力により、キューブ間で TPU を接続する光リンクと光回路スイッチ（OCS）のフォールトトレランスが向上します（キューブ内の ICI 接続は影響を受けない銅リンクを使用しています）。ICI 復元力により、ICI 接続は OCS 障害と光 ICI 障害を回避して経路設定されます。その結果、TPU スライスのスケジューリング可用性が改善されますが、ICI のパフォーマンスが一時的に低下するというトレードオフがあります。

Cloud TPU v4 と同様に、1 キューブ以上の v5p スライスでは、ICI 復元力がデフォルトで有効になります。

v5p-128（アクセラレータタイプを指定する場合）
4x4x4（アクセラレータ構成を指定する場合）

VM、ホスト、スライスのプロパティ

プロパティ	TPU の値
v5p チップの数	4
vCPU の数	208（NUMA バインディングを使用して、クロス NUMA パフォーマンスのペナルティを回避する場合は半分のみ使用可能）
RAM（GB）	448（NUMA バインディングを使用して、クロス NUMA パフォーマンスのペナルティを回避する場合は半分のみ使用可能）
NUMA ノードの数	2
NIC のスループット（Gbps）	200

Pod 内の TensorCore 数、チップ数、ホスト/VM 数、キューブ間の関係:

	コア数	チップ	ホスト/VM	キューブ
ホスト	8	4	1
キューブ（別名ラック）	128	64	16	1
サポートされている最大のスライス	12288	6144	1536	96
v5p フル Pod	17920	8960	2240	140