TPU v5p
このドキュメントでは、Cloud TPU v5p のアーキテクチャとサポートされている構成について説明します。
システム アーキテクチャ
このセクションでは、v5p バージョンに固有のシステム アーキテクチャについて説明します。各 TensorCore には、4 つのマトリックス乗算ユニット(MXU)、1 つのベクトル ユニット、1 つのスカラー ユニットがあります。
1 つの v5p Pod に 8,960 個のチップがあります。スケジュールできる最大のジョブは 96 キューブ(6,144 チップ)のジョブです。
次の表では、v5p の主な仕様を示します。
主な仕様 | v5p 値 |
---|---|
チップあたりのピーク コンピューティング(bf16) | 459 TFLOPS |
HBM2e の容量と帯域幅 | 95 GB、2,765 Ggps |
TPU Pod のサイズ | 8,960 チップ |
相互接続トポロジ | 3D トーラス * |
インターチップ相互接続 BW | 4,800 Gbps |
構成
TPU v5p Pod は、再構成可能な高速リンクで相互接続された 8,960 個のチップで構成されます。TPU v5p' の柔軟なネットワーキングでは、さまざまな方法で同じサイズのスライスにチップを接続できます。gcloud compute tpus tpu-vm create
コマンドを使用して TPU スライスを作成する場合は、AcceleratorType
パラメータまたは AcceleratorConfig
パラメータを使用してそのタイプとシェイプを指定します。
次の表では、v5p でサポートされている最も一般的なシングル スライスの形状と、1 キューブより大きいほとんどの(全部ではない)キューブの形状を示します。最大の v5p 形状は 16x16x24(6,144 チップ、96 キューブ)です。
スライス形状 | VM サイズ | コア数 | チップ数 | マシン数 | キューブ数 | Twisted のサポート |
2x2x1 | フルホスト | 8 | 4 | 1 | なし | なし |
2x2x2 | フルホスト | 16 | 8 | 2 | なし | なし |
2x4x4 | フルホスト | 64 | 32 | 8 | なし | なし |
4x4x4 | フルホスト | 128 | 64 | 16 | 1 | なし |
4x4x8 | フルホスト | 256 | 128 | 32 | 2 | ○ |
4x8x8 | フルホスト | 512 | 256 | 64 | 4 | ○ |
8x8x8 | フルホスト | 1024 | 512 | 128 | 8 | なし |
8x8x16 | フルホスト | 2048 | 1024 | 256 | 16 | ○ |
8x16x16 | フルホスト | 4,096 | 2048 | 512 | 32 | ○ |
16x16x16 | フルホスト | 8,192 | 4,096 | 1024 | 64 | なし |
16x16x24 | フルホスト | 12,288 | 6,144 | 1,536 | 96 | なし |
シングル スライス トレーニングは最大 6,144 チップに対応します。マルチスライスを使用すると、18,432 チップまで拡張できます。マルチスライスの詳細については、Cloud TPU マルチスライスの概要をご覧ください。
AcceleratorType パラメータの使用
TPU リソースを割り当てる場合は、--accelerator-type
引数を使用してスライス内の TensorCore 数を指定します。--accelerator-type
は書式付きの文字列「v$VERSION_NUMBER
v-$CORES_COUNT
」です。たとえば、v5p-32
は、32 個の TensorCore(16 チップ)がある v5p TPU スライスを指定します。
v5p トレーニング ジョブに TPU をプロビジョニングするには、CLI または TPU API 作成リクエストで次のいずれかのアクセラレータ タイプを使用します。
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128(1 フルキューブ/ラック)
- v5p-256(2 キューブ)
- v5p-512
- v5p-1024~v5p-12288
AcceleratorConfig パラメータの使用
v5p 以降の Cloud TPU バージョンでは、AcceleratorConfig が Cloud TPU v4 の場合とほぼ同じ方法で使用されます。違いは、TPU タイプを --type=v4
として指定する代わりに、使用している TPU バージョン(例: v5p リリースの場合は --type=v5p
)として指定することです。
Cloud TPU の ICI の復元性
ICI の復元性により、キューブ間で TPU を接続する光リンクと光回路スイッチ(OCS)のフォールト トレランスが向上します。(キューブ内の ICI 接続では、影響を受けない銅リンクが使用されます)。ICI 復元力により、ICI 接続は OCS 障害と光 ICI 障害を回避して経路設定されます。その結果、TPU スライスのスケジューリング可用性が改善されますが、ICI のパフォーマンスが一時的に低下するというトレードオフがあります。
Cloud TPU v4 と同様に、1 キューブ以上の v5p スライスでは、ICI の復元力がデフォルトで有効になります。
- v5p-128(アクセラレータ タイプを指定する場合)
- 4x4x4(アクセラレータ構成を指定する場合)
VM、ホスト、スライスのプロパティ
プロパティ | TPU の値 |
v5p チップの数 | 4 |
vCPU の数 | 208(NUMA バインディングを使用して、クロス NUMA パフォーマンスのペナルティを回避する場合は半分のみ使用可能) |
RAM(GB) | 448(NUMA バインディングを使用して、クロス NUMA パフォーマンスのペナルティを回避する場合は半分のみ使用可能) |
NUMA ノードの数 | 2 |
NIC のスループット(Gbps) | 200 |
Pod 内の TensorCore 数、チップ数、ホスト/VM 数、キューブ間の関係:
コア数 | チップ | ホスト/VM | キューブ | |
---|---|---|---|---|
ホスト | 8 | 4 | 1 | |
キューブ(別名ラック) | 128 | 64 | 16 | 1 |
サポートされている最大のスライス | 12,288 | 6,144 | 1,536 | 96 |
v5p フル Pod | 17,920 | 8,960 | 2,240 | 140 |