TPU v3
Dokumen ini menjelaskan arsitektur dan konfigurasi Cloud TPU v3 yang didukung.
Arsitektur sistem
Setiap chip TPU v3 berisi dua TensorCore. Setiap TensorCore memiliki dua unit perkalian matriks (MXU), unit vektor, dan unit skalar. Tabel berikut menunjukkan spesifikasi kunci dan nilainya untuk Pod TPU v3.
Spesifikasi utama | Nilai Pod v3 |
---|---|
Komputasi puncak per chip | 123 teraflops (bf16) |
Kapasitas dan bandwidth HBM2 | 32 GiB, 900 GBps |
Daya min/rata-rata/maks yang diukur | 123/220/262 W |
Ukuran Pod TPU | 1024 chip |
Topologi interkoneksi | Torus 2D |
Komputasi puncak per Pod | 126 petaflops (bf16) |
Semua bandwidth yang dikurangi per Pod | 340 TB/dtk |
Bandwidth Bisection per Pod | 6,4 TB/d |
Diagram berikut mengilustrasikan chip TPU v3.
Detail arsitektur dan karakteristik performa TPU v3 tersedia di Superkomputer Spesifik Per Domain untuk Pelatihan Jaringan Neural Dalam.
Manfaat performa TPU v3 dibandingkan v2
Peningkatan FLOPS per TensorCore dan kapasitas memori dalam konfigurasi TPU v3 dapat meningkatkan performa model dengan cara berikut:
Konfigurasi TPU v3 memberikan manfaat performa yang signifikan per TensorCore untuk model terikat komputasi. Model yang terikat memori pada konfigurasi TPU v2 mungkin tidak mencapai peningkatan performa yang sama ini jika juga terikat memori pada konfigurasi TPU v3.
Jika data tidak sesuai dengan memori pada konfigurasi TPU v2, TPU v3 dapat memberikan performa yang lebih baik dan mengurangi penghitungan ulang nilai menengah (rematerialisasi).
Konfigurasi TPU v3 dapat menjalankan model baru dengan ukuran batch yang tidak sesuai dengan konfigurasi TPU v2. Misalnya, TPU v3 mungkin mengizinkan model ResNet yang lebih dalam dan gambar yang lebih besar dengan RetinaNet.
Model yang hampir terikat input ("infeed") di TPU v2 karena langkah pelatihan menunggu input mungkin juga terikat input dengan Cloud TPU v3. Panduan performa pipeline dapat membantu Anda menyelesaikan masalah dalam feed.
Konfigurasi
Pod TPU v3 terdiri dari 1024 chip yang saling terhubung dengan link berkecepatan tinggi. Untuk
membuat perangkat TPU v3 atau slice Pod, gunakan flag --accelerator-type
dalam perintah pembuatan TPU (gcloud compute tpus tpu-vm
). Anda menentukan jenis akselerator dengan menentukan
versi TPU dan jumlah core TPU. Misalnya, untuk satu TPU v3, gunakan --accelerator-type=v3-8
. Untuk slice Pod v3 dengan 128 TensorCore, gunakan
--accelerator-type=v3-128
.
Perintah berikut menunjukkan cara membuat slice Pod TPU v3 dengan 128 TensorCore:
$ gcloud compute tpus tpu-vm create tpu-name \
--zone=zone \
--accelerator-type=v3-128 \
--version=tpu-vm-tf-2.16.1-pjrt
Tabel berikut mencantumkan jenis TPU v3 yang didukung:
Versi TPU | Dukungan berakhir |
---|---|
v3-8 | (Tanggal akhir belum ditetapkan) |
v3-32 | (Tanggal akhir belum ditetapkan) |
v3-128 | (Tanggal akhir belum ditetapkan) |
v3-256 | (Tanggal akhir belum ditetapkan) |
v3-512 | (Tanggal akhir belum ditetapkan) |
v3-1024 | (Tanggal akhir belum ditetapkan) |
v3-2048 | (Tanggal akhir belum ditetapkan) |
Untuk mengetahui informasi selengkapnya tentang cara mengelola TPU, lihat Mengelola TPU. Untuk mengetahui informasi selengkapnya tentang arsitektur sistem Cloud TPU, lihat Arsitektur sistem.