TPU v3

Dokumen ini menjelaskan arsitektur dan konfigurasi Cloud TPU v3 yang didukung.

Arsitektur sistem

Setiap chip TPU v3 berisi dua TensorCore. Setiap TensorCore memiliki dua unit perkalian matriks (MXU), unit vektor, dan unit skalar. Tabel berikut menunjukkan spesifikasi kunci dan nilainya untuk Pod TPU v3.

Spesifikasi utama Nilai Pod v3
Komputasi puncak per chip 123 teraflops (bf16)
Kapasitas dan bandwidth HBM2 32 GiB, 900 GBps
Daya min/rata-rata/maks yang diukur 123/220/262 W
Ukuran Pod TPU 1024 chip
Topologi interkoneksi Torus 2D
Komputasi puncak per Pod 126 petaflops (bf16)
Semua bandwidth yang dikurangi per Pod 340 TB/dtk
Bandwidth Bisection per Pod 6,4 TB/d

Diagram berikut mengilustrasikan chip TPU v3.

Diagram chip TPU v3

Detail arsitektur dan karakteristik performa TPU v3 tersedia di Superkomputer Spesifik Per Domain untuk Pelatihan Jaringan Neural Dalam.

Manfaat performa TPU v3 dibandingkan v2

Peningkatan FLOPS per TensorCore dan kapasitas memori dalam konfigurasi TPU v3 dapat meningkatkan performa model dengan cara berikut:

  • Konfigurasi TPU v3 memberikan manfaat performa yang signifikan per TensorCore untuk model terikat komputasi. Model yang terikat memori pada konfigurasi TPU v2 mungkin tidak mencapai peningkatan performa yang sama ini jika juga terikat memori pada konfigurasi TPU v3.

  • Jika data tidak sesuai dengan memori pada konfigurasi TPU v2, TPU v3 dapat memberikan performa yang lebih baik dan mengurangi penghitungan ulang nilai menengah (rematerialisasi).

  • Konfigurasi TPU v3 dapat menjalankan model baru dengan ukuran batch yang tidak sesuai dengan konfigurasi TPU v2. Misalnya, TPU v3 mungkin mengizinkan model ResNet yang lebih dalam dan gambar yang lebih besar dengan RetinaNet.

Model yang hampir terikat input ("infeed") di TPU v2 karena langkah pelatihan menunggu input mungkin juga terikat input dengan Cloud TPU v3. Panduan performa pipeline dapat membantu Anda menyelesaikan masalah dalam feed.

Konfigurasi

Pod TPU v3 terdiri dari 1024 chip yang saling terhubung dengan link berkecepatan tinggi. Untuk membuat perangkat TPU v3 atau slice Pod, gunakan flag --accelerator-type dalam perintah pembuatan TPU (gcloud compute tpus tpu-vm). Anda menentukan jenis akselerator dengan menentukan versi TPU dan jumlah core TPU. Misalnya, untuk satu TPU v3, gunakan --accelerator-type=v3-8. Untuk slice Pod v3 dengan 128 TensorCore, gunakan --accelerator-type=v3-128.

Perintah berikut menunjukkan cara membuat slice Pod TPU v3 dengan 128 TensorCore:

  $ gcloud compute tpus tpu-vm create tpu-name \
    --zone=zone \
    --accelerator-type=v3-128 \
    --version=tpu-vm-tf-2.16.1-pjrt

Tabel berikut mencantumkan jenis TPU v3 yang didukung:

Versi TPU Dukungan berakhir
v3-8 (Tanggal akhir belum ditetapkan)
v3-32 (Tanggal akhir belum ditetapkan)
v3-128 (Tanggal akhir belum ditetapkan)
v3-256 (Tanggal akhir belum ditetapkan)
v3-512 (Tanggal akhir belum ditetapkan)
v3-1024 (Tanggal akhir belum ditetapkan)
v3-2048 (Tanggal akhir belum ditetapkan)

Untuk mengetahui informasi selengkapnya tentang cara mengelola TPU, lihat Mengelola TPU. Untuk mengetahui informasi selengkapnya tentang arsitektur sistem Cloud TPU, lihat Arsitektur sistem.