TPU v5p

このドキュメントでは、Cloud TPU v5p のアーキテクチャとサポートされている構成について説明します。

システム アーキテクチャ

このセクションでは、v5p バージョンに固有のシステム アーキテクチャについて説明します。各 TensorCore には、4 つのマトリックス乗算ユニット(MXU)、1 つのベクトル ユニット、1 つのスカラー ユニットがあります。

1 つの v5p Pod に 8,960 個のチップがあります。スケジュールできる最大のジョブは 96 キューブ(6,144 チップ)のジョブです。

次の表では、v5p の主な仕様を示します。

主な仕様 v5p 値
チップあたりのピーク コンピューティング(bf16) 459 TFLOPS
HBM2e の容量と帯域幅 95 GB、2,765 Ggps
TPU Pod のサイズ 8,960 チップ
相互接続トポロジ 3D トーラス *
インターチップ相互接続 BW 4,800 Gbps

構成

TPU v5p Pod は、再構成可能な高速リンクで相互接続された 8,960 個のチップで構成されます。TPU v5p' の柔軟なネットワーキングでは、さまざまな方法で同じサイズのスライスにチップを接続できます。gcloud compute tpus tpu-vm create コマンドを使用して TPU スライスを作成する場合は、AcceleratorType パラメータまたは AcceleratorConfig パラメータを使用してそのタイプとシェイプを指定します。

次の表では、v5p でサポートされている最も一般的なシングル スライスの形状と、1 キューブより大きいほとんどの(全部ではない)キューブの形状を示します。最大の v5p 形状は 16x16x24(6,144 チップ、96 キューブ)です。

スライス形状 VM サイズ コア数 チップ数 マシン数 キューブ数 Twisted のサポート
2x2x1 フルホスト 8 4 1 なし なし
2x2x2 フルホスト 16 8 2 なし なし
2x4x4 フルホスト 64 32 8 なし なし
4x4x4 フルホスト 128 64 16 1 なし
4x4x8 フルホスト 256 128 32 2
4x8x8 フルホスト 512 256 64 4
8x8x8 フルホスト 1024 512 128 8 なし
8x8x16 フルホスト 2048 1024 256 16
8x16x16 フルホスト 4,096 2048 512 32
16x16x16 フルホスト 8,192 4,096 1024 64 なし
16x16x24 フルホスト 12,288 6,144 1,536 96 なし

シングル スライス トレーニングは最大 6,144 チップに対応します。マルチスライスを使用すると、18,432 チップまで拡張できます。マルチスライスの詳細については、Cloud TPU マルチスライスの概要をご覧ください。

AcceleratorType パラメータの使用

TPU リソースを割り当てる場合は、--accelerator-type 引数を使用してスライス内の TensorCore 数を指定します。--accelerator-type は、フォーマットされた文字列「v$VERSION_NUMBERp-$CORES_COUNT」です。たとえば、v5p-32 は、32 個の TensorCore(16 チップ)がある v5p TPU スライスを指定します。

v5p トレーニング ジョブに TPU をプロビジョニングするには、CLI または TPU API 作成リクエストで次のいずれかのアクセラレータ タイプを使用します。

  • v5p-8
  • v5p-16
  • v5p-32
  • v5p-64
  • v5p-128(1 フルキューブ/ラック)
  • v5p-256(2 キューブ)
  • v5p-512
  • v5p-1024~v5p-12288

AcceleratorConfig パラメータを使用する

v5p 以降の Cloud TPU バージョンでは、AcceleratorConfig が Cloud TPU v4 の場合とほぼ同じ方法で使用されます。違いは、TPU タイプを --type=v4 として指定する代わりに、使用している TPU バージョン(例: v5p リリースの場合は --type=v5p)として指定することです。

Cloud TPU ICI の復元力

ICI の復元性により、キューブ間で TPU を接続する光リンクと光回路スイッチ(OCS)のフォールト トレランスが向上します。(キューブ内の ICI 接続は影響を受けない銅リンクを使用しています)。ICI 復元力により、ICI 接続は OCS 障害と光 ICI 障害を回避して経路設定されます。その結果、TPU スライスのスケジューリング可用性が改善されますが、ICI のパフォーマンスが一時的に低下するというトレードオフがあります。

Cloud TPU v4 と同様に、1 キューブ以上の v5p スライスでは、ICI の復元力がデフォルトで有効になっています。

  • v5p-128(アクセラレータ タイプを指定する場合)
  • 4x4x4(アクセラレータ構成を指定する場合)

VM、ホスト、スライスのプロパティ

プロパティ TPU の値
v5p チップの数 4
vCPU の数 208(NUMA バインディングを使用して、クロス NUMA パフォーマンスのペナルティを回避する場合は半分のみ使用可能)
RAM(GB) 448(NUMA バインディングを使用して、クロス NUMA パフォーマンスのペナルティを回避する場合は半分のみ使用可能)
NUMA ノードの数 2
NIC のスループット(Gbps) 200

Pod 内の TensorCore 数、チップ数、ホスト/VM 数、キューブ間の関係:

コア数 チップ ホスト/VM キューブ
ホスト 8 4 1
キューブ(別名ラック) 128 64 16 1
サポートされている最大のスライス 12,288 6,144 1,536 96
v5p フル Pod 17,920 8,960 2,240 140