TPU v5p
Dokumen ini menjelaskan arsitektur dan konfigurasi Cloud TPU v5p yang didukung.
Arsitektur sistem
Bagian ini menjelaskan arsitektur sistem khusus untuk versi v5p. Setiap TensorCore memiliki empat Matrix Multiply Unit (MXU), unit vektor, dan unit skalar.
Ada 8.960 chip dalam satu Pod v5p. Tugas terbesar yang dapat dijadwalkan adalah tugas 96 kubus (chip 6144).
Tabel berikut menunjukkan spesifikasi utama untuk v5p.
Spesifikasi utama | Nilai v5p |
---|---|
Komputasi puncak per chip (bf16) | 459 TFLOP |
Kapasitas dan bandwidth HBM2e | 95GB, 2765 GBps |
Ukuran Pod TPU | Chip 8960 |
Topologi interkoneksi | Torus 3D |
BW Interchip Interconnect | 4.800 Gbps |
Konfigurasi
Pod TPU v5p terdiri dari chip 8960 yang saling terhubung dengan link berkecepatan tinggi yang dapat dikonfigurasi ulang. Jaringan fleksibel TPU v5p memungkinkan Anda menghubungkan
chip dalam potongan berukuran sama dengan berbagai cara. Saat membuat potongan TPU menggunakan perintah gcloud compute tpus tpu-vm create
, tentukan
jenis dan bentuknya menggunakan parameter AcceleratorType
atau AcceleratorConfig
.
Tabel berikut menunjukkan bentuk irisan tunggal paling umum yang didukung dengan v5p, ditambah sebagian besar (tetapi tidak semua) bentuk kubus penuh yang lebih besar dari 1 kubus. Bentuk v5p maksimum adalah 16x16x24 (6.144 chip, 96 kubus).
Bentuk Irisan | Ukuran VM | # Core | # Chip | # Komputer | # Kubus | Mendukung Twisted? |
2x2x1 | Host penuh | 8 | 4 | 1 | T/A | T/A |
2x2x2 | Host penuh | 16 | 8 | 2 | T/A | T/A |
2x4x4 | Host penuh | 64 | 32 | 8 | T/A | T/A |
4x4x4 | Host penuh | 128 | 64 | 16 | 1 | T/A |
4x4x8 | Host penuh | 256 | 128 | 32 | 2 | Ya |
4x8x8 | Host penuh | 512 | 256 | 64 | 4 | Ya |
8x8x8 | Host penuh | 1024 | 512 | 128 | 8 | T/A |
8x8x16 | Host penuh | 2048 | 1024 | 256 | 16 | Ya |
8x16x16 | Host penuh | 4096 | 2048 | 512 | 32 | Ya |
16x16x16 | Host penuh | 8192 | 4096 | 1024 | 64 | T/A |
16x16x24 | Host penuh | 12288 | 6144 | 1536 | 96 | T/A |
Pelatihan irisan tunggal didukung hingga 6.144 chip. Ini dapat diperluas hingga {i>chip<i} 18432 menggunakan Multislice. Lihat Ringkasan Multislice Cloud TPU untuk mengetahui detail Multislice.
Menggunakan parameter AcceleratorType
Saat mengalokasikan resource TPU, Anda menggunakan argumen --accelerator-type
untuk menentukan jumlah TensorCore dalam sebuah slice. --accelerator-type
adalah
string berformat
"v$VERSION_NUMBER
p-$CORES_COUNT
".
Misalnya, v5p-32
menentukan slice TPU v5p dengan 32 TensorCore (16 chip).
Guna menyediakan TPU untuk tugas pelatihan v5p, gunakan salah satu jenis akselerator berikut di permintaan pembuatan CLI atau TPU API Anda:
- V5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128 (satu kubus/rak penuh)
- v5p-256 (2 kubus)
- V5p-512
- v5p-1024 ... v5p-12288
Menggunakan parameter AcceleratorConfig
Untuk versi Cloud TPU v5p dan yang lebih baru, AcceleratorConfig
digunakan dengan cara yang hampir sama dengan Cloud TPU v4
Perbedaannya adalah
bukan menentukan jenis TPU sebagai --type=v4
, Anda menetapkannya sebagai
versi TPU yang Anda gunakan (misalnya, --type=v5p
untuk rilis v5p).
Ketahanan ICI Cloud TPU
Ketahanan ICI membantu meningkatkan fault tolerance link optik dan tombol sirkuit optik (OCS) yang menghubungkan TPU antar-kubus. (Koneksi ICI dalam kubus menggunakan link tembaga yang tidak terpengaruh). Ketahanan ICI memungkinkan koneksi ICI dirutekan di sekitar kesalahan OCS dan ICI optik. Hasilnya, hal ini meningkatkan ketersediaan penjadwalan slice TPU, dengan kompromi dari penurunan sementara pada performa ICI.
Serupa dengan Cloud TPU v4, ketahanan ICI diaktifkan secara default untuk slice v5p yang berupa satu kubus atau lebih besar:
- v5p-128 saat menentukan jenis akselerator
- 4x4x4 saat menentukan konfigurasi akselerator
Properti VM, host, dan slice
Properti | Nilai dalam TPU |
# chip v5p | 4 |
# vCPU | 208 (hanya separuh yang dapat digunakan jika menggunakan binding NUMA untuk menghindari penalti performa lintas-NUMA) |
RAM (GB) | 448 (hanya separuh yang dapat digunakan jika menggunakan binding NUMA untuk menghindari penalti performa lintas-NUMA) |
# dari NUMA Node | 2 |
Throughput NIC (Gbps) | 200 |
Hubungan antara jumlah TensorCore, chip, host/VM, dan kubus dalam Pod:
Cores | Chip | Host/VM | Kubus | |
---|---|---|---|---|
Pembawa acara | 8 | 4 | 1 | |
Kubus (alias rak) | 128 | 64 | 16 | 1 |
Slice terbesar yang didukung | 12288 | 6144 | 1536 | 96 |
Pod v5p lengkap | 17920 | 8960 | 2240 | 140 |