TPU v3

Dokumen ini menjelaskan arsitektur dan konfigurasi yang didukung dari Cloud TPU v3.

Arsitektur sistem

Setiap chip TPU v3 berisi dua TensorCore. Setiap TensorCore memiliki dua unit perkalian matriks (MXU), unit vektor, dan unit skalar. Tabel berikut menampilkan spesifikasi utama dan nilainya untuk Pod TPU v3.

Spesifikasi utama Nilai Pod v3
Komputasi puncak per chip 123 teraflop (bf16)
Kapasitas dan bandwidth HBM2 32 GiB, 900 GBps
Daya min/rata-rata/maks yang diukur 123/220/262 W
Ukuran Pod TPU 1.024 chip
Topologi interkoneksi Torus 2D
Komputasi puncak per Pod 126 petaflop (bf16)
Bandwidth all-reduce per Pod 340 TB/dtk
Bandwidth bisection per Pod 6,4 TB/dtk

Diagram berikut mengilustrasikan chip TPU v3.

Diagram chip TPU v3

Detail arsitektur dan karakteristik performa TPU v3 tersedia di Superkomputer Khusus Domain untuk Melatih Jaringan Saraf Dalam.

Manfaat performa TPU v3 dibandingkan v2

Peningkatan FLOPS per TensorCore dan kapasitas memori dalam konfigurasi TPU v3 dapat meningkatkan performa model Anda dengan cara berikut:

  • Konfigurasi TPU v3 memberikan manfaat performa yang signifikan per TensorCore untuk model yang terikat komputasi. Model yang terikat memori pada konfigurasi TPU v2 mungkin tidak mencapai peningkatan performa yang sama jika juga terikat memori pada konfigurasi TPU v3.

  • Jika data tidak sesuai dengan memori pada konfigurasi TPU v2, TPU v3 dapat memberikan performa yang lebih baik dan mengurangi komputasi ulang nilai perantara (rematerialisasi).

  • Konfigurasi TPU v3 dapat menjalankan model baru dengan ukuran batch yang tidak sesuai dengan konfigurasi TPU v2. Misalnya, TPU v3 mungkin mengizinkan model ResNet yang lebih dalam dan gambar yang lebih besar dengan RetinaNet.

Model yang hampir terikat input ("infeed") di TPU v2 karena langkah pelatihan menunggu input mungkin juga terikat input dengan Cloud TPU v3. Panduan performa pipeline dapat membantu Anda menyelesaikan masalah infeed.

Konfigurasi

Pod TPU v3 terdiri dari 1.024 chip yang saling terhubung dengan link berkecepatan tinggi. Untuk membuat perangkat TPU v3 atau slice Pod, gunakan flag --accelerator-type dalam perintah pembuatan TPU (gcloud compute tpus tpu-vm). Anda menentukan jenis akselerator dengan menentukan versi TPU dan jumlah core TPU. Misalnya, untuk satu TPU v3, gunakan --accelerator-type=v3-8. Untuk slice Pod v3 dengan 128 TensorCore, gunakan --accelerator-type=v3-128.

Perintah berikut menunjukkan cara membuat slice Pod TPU v3 dengan 128 TensorCore:

  $ gcloud compute tpus tpu-vm create tpu-name \
    --zone=zone \
    --accelerator-type=v3-128 \
    --version=tpu-vm-tf-2.18.0-pod-pjrt

Tabel berikut mencantumkan jenis TPU v3 yang didukung:

Versi TPU Dukungan berakhir
v3-8 (Tanggal akhir belum ditetapkan)
v3-32 (Tanggal akhir belum ditetapkan)
v3-128 (Tanggal akhir belum ditetapkan)
v3-256 (Tanggal akhir belum ditetapkan)
v3-512 (Tanggal akhir belum ditetapkan)
v3-1024 (Tanggal akhir belum ditetapkan)
v3-2048 (Tanggal akhir belum ditetapkan)

Untuk informasi selengkapnya tentang cara mengelola TPU, lihat Mengelola TPU. Untuk mengetahui informasi selengkapnya tentang arsitektur sistem Cloud TPU, lihat Arsitektur sistem.