TPU v5p
このドキュメントでは、Cloud TPU v5p のアーキテクチャとサポートされている構成について説明します。
システム アーキテクチャ
このセクションでは、v5p バージョンに固有のシステム アーキテクチャについて説明します。各 TensorCore には、4 つのマトリックス乗算ユニット(MXU)、1 つのベクトル ユニット、1 つのスカラー ユニットがあります。
1 つの v5p スライスには 8,960 個のチップがあります。スケジュールできる最大のジョブは 96 キューブ(6,144 チップ)のジョブです。
次の表では、v5p の主な仕様を示します。
主な仕様 | v5p 値 |
---|---|
チップあたりのピーク コンピューティング(bf16) | 459 TFLOPS |
HBM2e の容量と帯域幅 | 95 GB、2, 765 GBps |
TPU Pod のサイズ | 8,960 チップ |
相互接続トポロジ | 3D トーラス * |
インターチップ相互接続 BW | 4,800 Gbps |
構成
TPU v5p Pod は、再構成可能な高速リンクで相互接続された 8,960 個のチップで構成されます。TPU v5p の柔軟なネットワーキングでは、さまざまな方法で同じサイズのスライスにチップを接続できます。gcloud compute tpus tpu-vm create
コマンドを使用して TPU スライスを作成する場合は、AcceleratorType
パラメータを使用してそのタイプとシェイプを指定します。
次の表では、v5p でサポートされている最も一般的なシングル スライスの形状と、1 キューブより大きいほとんどの(全部ではない)キューブの形状を示します。最大の v5p 形状は 16x16x24(6, 144 チップ、96 キューブ)です。
トポロジ | コア数 | チップ | ホスト | キューブ | Twisted のサポート |
2x2x1 | 8 | 4 | 1 | なし | なし |
2x2x2 | 16 | 8 | 2 | なし | なし |
2x4x4 | 64 | 32 | 8 | なし | なし |
4x4x4 | 128 | 64 | 16 | 1 | なし |
4x4x8 | 256 | 128 | 32 | 2 | ○ |
4x8x8 | 512 | 256 | 64 | 4 | ○ |
8x8x8 | 1024 | 512 | 128 | 8 | なし |
8x8x16 | 2048 | 1024 | 256 | 16 | ○ |
8x16x16 | 4096 | 2048 | 512 | 32 | ○ |
16x16x16 | 8192 | 4096 | 1024 | 64 | なし |
16x16x24 | 12288 | 6144 | 1536 | 96 | なし |
シングル スライス トレーニングは最大 6,144 チップに対応します。マルチスライスを使用すると、18,432 チップまでスケールアップできます。マルチスライスの詳細については、Cloud TPU マルチスライスの概要をご覧ください。
AcceleratorType パラメータの使用
TPU リソースを割り当てる場合は、--accelerator-type
引数を使用してスライス内の TensorCore 数を指定します。--accelerator-type
は、フォーマットされた文字列「v$VERSION_NUMBER
p-$CORES_COUNT
」です。たとえば、v5p-32
は、32 個の TensorCore(16 チップ)がある v5p TPU スライスを指定します。
v5p トレーニング ジョブに TPU をプロビジョニングするには、CLI または TPU API 作成リクエストで次のいずれかのアクセラレータ タイプを使用します。
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128(1 フルキューブ/ラック)
- v5p-256(2 キューブ)
- v5p-512
- v5p-1024~v5p-12288
次のコマンドは、トレーニング用の 256 個の v5p チップを備えた v5p TPU スライスを作成します。
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-east5-a \ --accelerator-type=v5p-256 \ --version=v2-alpha-tpuv5
TPU の管理の詳細については、TPU の管理をご覧ください。Cloud TPU のシステム アーキテクチャの詳細については、システム アーキテクチャをご覧ください。
Cloud TPU ICI の復元力
ICI の復元性により、キューブ間で TPU を接続する光リンクと光回路スイッチ(OCS)のフォールト トレランスが向上します。(キューブ内の ICI 接続は影響を受けない銅リンクを使用しています)。ICI 復元力により、ICI 接続は OCS 障害と光 ICI 障害を回避して経路設定されます。その結果、TPU スライスのスケジューリング可用性が改善されますが、ICI のパフォーマンスが一時的に低下するというトレードオフがあります。
Cloud TPU v4 と同様に、1 キューブ以上の v5p スライスでは、ICI 復元力がデフォルトで有効になります。
- v5p-128(アクセラレータ タイプを指定する場合)
- 4x4x4(アクセラレータ構成を指定する場合)
VM、ホスト、スライスのプロパティ
プロパティ | TPU の値 |
v5p チップの数 | 4 |
vCPU の数 | 208(NUMA バインディングを使用して、クロス NUMA パフォーマンスのペナルティを回避する場合は半分のみ使用可能) |
RAM(GB) | 448(NUMA バインディングを使用して、クロス NUMA パフォーマンスのペナルティを回避する場合は半分のみ使用可能) |
NUMA ノードの数 | 2 |
NIC のスループット(Gbps) | 200 |
Pod 内の TensorCore 数、チップ数、ホスト/VM 数、キューブ間の関係:
コア数 | チップ | ホスト/VM | キューブ | |
---|---|---|---|---|
ホスト | 8 | 4 | 1 | |
キューブ(別名ラック) | 128 | 64 | 16 | 1 |
サポートされている最大のスライス | 12288 | 6144 | 1536 | 96 |
v5p フル Pod | 17920 | 8960 | 2240 | 140 |