TPU v5p
Dokumen ini menjelaskan arsitektur dan konfigurasi yang didukung Cloud TPU v5p.
Arsitektur sistem
Bagian ini menjelaskan arsitektur sistem khusus untuk versi v5p. Setiap TensorCore memiliki empat Matrix Multiply Unit (MXU), unit vektor, dan unit skalar.
Ada 8.960 chip dalam satu slice v5p. Tugas terbesar yang dapat dijadwalkan adalah tugas 96 kubus (6.144 chip).
Tabel berikut menunjukkan spesifikasi utama untuk v5p.
Spesifikasi utama | Nilai v5p |
---|---|
Komputasi puncak per chip (bf16) | 459 TFLOP |
Kapasitas dan bandwidth HBM2e | 95 GB, 2.765 GBps |
Ukuran Pod TPU | 8.960 chip |
Topologi interkoneksi | Torus 3D * |
BW Interkoneksi Interchip | 4.800 Gbps |
Konfigurasi
Pod TPU v5p terdiri dari 8.960 chip yang saling terhubung dengan link berkecepatan tinggi yang dapat dikonfigurasi ulang. Jaringan fleksibel TPU v5p memungkinkan Anda menghubungkan chip dalam
slice berukuran sama dengan beberapa cara. Saat membuat slice TPU menggunakan
perintah gcloud compute tpus tpu-vm create
, Anda menentukan jenis dan bentuknya
menggunakan parameter AcceleratorType
.
Tabel berikut menunjukkan bentuk satu slice paling umum yang didukung dengan v5p, ditambah sebagian besar (tetapi tidak semua) bentuk kubus penuh yang lebih besar dari 1 kubus. Bentuk v5p maksimum adalah 16x16x24 (6144 chip, 96 kubus).
Topologi | Core | Chip | Host | Kubus | Mendukung Twisted? |
2x2x1 | 8 | 4 | 1 | T/A | T/A |
2x2x2 | 16 | 8 | 2 | T/A | T/A |
2x4x4 | 64 | 32 | 8 | T/A | T/A |
4x4x4 | 128 | 64 | 16 | 1 | T/A |
4x4x8 | 256 | 128 | 32 | 2 | Ya |
4x8x8 | 512 | 256 | 64 | 4 | Ya |
8x8x8 | 1024 | 512 | 128 | 8 | T/A |
8x8x16 | 2048 | 1024 | 256 | 16 | Ya |
8x16x16 | 4096 | 2048 | 512 | 32 | Ya |
16x16x16 | 8192 | 4096 | 1024 | 64 | T/A |
16x16x24 | 12288 | 6144 | 1536 | 96 | T/A |
Pelatihan satu slice didukung untuk hingga 6.144 chip. Anda dapat menskalakan hingga 18.432 chip menggunakan Multislice. Untuk mengetahui informasi selengkapnya tentang Multislice, lihat Ringkasan Multislice Cloud TPU.
Menggunakan parameter AcceleratorType
Saat mengalokasikan resource TPU, Anda menggunakan argumen --accelerator-type
untuk menentukan jumlah TensorCore dalam slice. --accelerator-type
adalah
string berformat "v$VERSION_NUMBER
p-$CORES_COUNT
".
Misalnya, v5p-32
menentukan slice TPU v5p dengan 32 TensorCore (16 chip).
Untuk menyediakan TPU untuk tugas pelatihan v5p, gunakan salah satu jenis accelerator berikut dalam permintaan pembuatan CLI atau TPU API:
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128 (satu kubus/rack penuh)
- v5p-256 (2 kubus)
- v5p-512
- v5p-1024 ... v5p-12288
Perintah berikut akan membuat slice TPU v5p dengan 256 chip v5p untuk pelatihan:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-east5-a \ --accelerator-type=v5p-256 \ --version=v2-alpha-tpuv5
Untuk informasi selengkapnya tentang cara mengelola TPU, lihat Mengelola TPU. Untuk mengetahui informasi selengkapnya tentang arsitektur sistem Cloud TPU, lihat Arsitektur sistem.
Resiliensi ICI Cloud TPU
Resiliensi ICI membantu meningkatkan toleransi error link optik dan optical circuit switch (OCS) yang menghubungkan TPU di antara kubus. (Koneksi ICI dalam kubus menggunakan link tembaga yang tidak terpengaruh). Ketahanan ICI memungkinkan koneksi ICI dirutekan di sekitar OCS dan kerusakan ICI optik. Akibatnya, hal ini meningkatkan ketersediaan penjadwalan slice TPU, dengan kompromi penurunan sementara dalam performa ICI.
Serupa dengan Cloud TPU v4, ketahanan ICI diaktifkan secara default untuk slice v5p yang berukuran satu kubus atau lebih besar:
- v5p-128 saat menentukan jenis akselerator
- 4x4x4 saat menentukan konfigurasi akselerator
Properti VM, host, dan slice
Properti | Nilai dalam TPU |
# of v5p chips | 4 |
# vCPUs | 208 (hanya setengahnya yang dapat digunakan jika menggunakan binding NUMA untuk menghindari penalti performa lintas-NUMA) |
RAM (GB) | 448 (hanya setengahnya yang dapat digunakan jika menggunakan binding NUMA untuk menghindari penalti performa lintas-NUMA) |
# of NUMA Nodes | 2 |
Throughput NIC (Gbps) | 200 |
Hubungan antara jumlah TensorCore, chip, host/VM, dan kubus dalam Pod:
Cores | Chip | Host/VM | Kubus | |
---|---|---|---|---|
Host | 8 | 4 | 1 | |
Kubus (alias rak) | 128 | 64 | 16 | 1 |
Potongan terbesar yang didukung | 12288 | 6144 | 1536 | 96 |
Pod lengkap v5p | 17920 | 8960 | 2240 | 140 |