TPU v5e

Dokumen ini menjelaskan arsitektur dan konfigurasi yang didukung Cloud TPU v5e.

TPU v5e mendukung pelatihan satu dan multi-host serta inferensi host tunggal. Inferensi multi-host didukung menggunakan Sax. Untuk informasi selengkapnya, lihat Penayangan Model Bahasa Besar.

Arsitektur sistem

Setiap chip v5e berisi satu TensorCore. Setiap TensorCore memiliki empat unit perkalian matriks (MXU), unit vektor, dan unit skalar.

Diagram berikut mengilustrasikan chip TPU v5e.

Diagram chip v5e

Tabel berikut menunjukkan spesifikasi chip utama dan nilainya untuk v5e.

Spesifikasi chip utama Nilai v5e
Komputasi puncak per chip (bf16) 197 TFLOP
Kapasitas dan bandwidth HBM2 16 GB, 819 GBps
BW Interkoneksi Interchip 1.600 Gbps

Tabel berikut menampilkan spesifikasi Pod dan nilainya untuk v5e.

Spesifikasi Pod utama Nilai v5e
Ukuran Pod TPU 256 chip
Topologi interkoneksi Torus 2D
Komputasi puncak per Pod 100 PetaOps(Int8)
Bandwidth all-reduce per Pod 51,2 TB/dtk
Bandwidth bisection per Pod 1,6 TB/dtk
Bandwidth jaringan pusat data per Pod 6,4 Tbps

Konfigurasi

Cloud TPU v5e adalah produk pelatihan dan inferensi (penayangan) gabungan. Untuk membedakan antara lingkungan pelatihan dan inferensi, gunakan flag AcceleratorType atau AcceleratorConfig dengan TPU API atau flag --machine-type saat membuat node pool GKE.

Tugas pelatihan dioptimalkan untuk throughput dan ketersediaan, sedangkan tugas penayangan dioptimalkan untuk latensi. Tugas pelatihan di TPU yang disediakan untuk penayangan dapat memiliki ketersediaan yang lebih rendah dan demikian pula, tugas penayangan yang dijalankan di TPU yang disediakan untuk pelatihan dapat memiliki latensi yang lebih tinggi.

Anda menggunakan AcceleratorType untuk menentukan jumlah TensorCore yang ingin digunakan. Anda menentukan AcceleratorType saat membuat TPU menggunakan gcloud CLI atau Konsol Google Cloud. Nilai yang Anda tentukan untuk AcceleratorType adalah string dengan format: v$VERSION_NUMBER-$CHIP_COUNT.

Anda juga dapat menggunakan AcceleratorConfig untuk menentukan jumlah TensorCore yang ingin Anda gunakan. Namun, karena tidak ada varian topologi 2D kustom untuk TPU v5e, tidak ada perbedaan antara penggunaan AcceleratorConfig dan AcceleratorType.

Untuk mengonfigurasi TPU v5e menggunakan AcceleratorConfig, gunakan flag --version dan --topology. Tetapkan --version ke versi TPU yang ingin Anda gunakan dan --topology ke pengaturan fisik chip TPU dalam slice. Nilai yang Anda tentukan untuk AcceleratorConfig adalah string dengan format AxB, dengan A dan B adalah jumlah chip di setiap arah.

Bentuk slice 2D berikut didukung untuk v5e:

Topologi Jumlah TPU chip Jumlah Penyelenggara
1x1 1 1/8
2x2 4 1/2
2x4 8 1
4x4 16 2
4x8 32 4
8x8 64 8
8x16 128 16
16x16 256 32

Setiap VM TPU dalam slice TPU v5e berisi 1, 4, atau 8 chip. Dalam slice 4 chip dan yang lebih kecil, semua chip TPU memiliki node Non Uniform Memory Access (NUMA) yang sama.

Untuk VM TPU v5e 8 chip, komunikasi CPU-TPU akan lebih efisien dalam partisi NUMA. Misalnya, pada gambar berikut, komunikasi CPU0-Chip0 akan lebih cepat daripada komunikasi CPU0-Chip4.

Komunikasi node NUMA

Jenis Cloud TPU v5e untuk penayangan

Penayangan satu host didukung untuk maksimal 8 chip v5e. Konfigurasi berikut didukung: slice 1x1, 2x2, dan 2x4. Setiap slice memiliki 1, 4, dan 8 chip.

Konfigurasi TPU v5e yang mendukung penayangan: 1x1, 2x2, dan 2x4.

Untuk menyediakan TPU untuk tugas penayangan, gunakan salah satu jenis akselerator berikut dalam permintaan pembuatan TPU CLI atau API:

AcceleratorType (TPU API) Jenis mesin (GKE API)
v5litepod-1 ct5lp-hightpu-1t
v5litepod-4 ct5lp-hightpu-4t
v5litepod-8 ct5lp-hightpu-8t

Penyertaan di lebih dari 8 chip v5e, yang juga disebut penayangan multi-host, didukung menggunakan Sax. Untuk informasi selengkapnya, lihat Penayangan Model Bahasa Besar.

Jenis Cloud TPU v5e untuk pelatihan

Pelatihan didukung untuk maksimal 256 chip.

Untuk menyediakan TPU untuk tugas pelatihan v5e, gunakan salah satu jenis accelerator berikut dalam permintaan pembuatan TPU CLI atau API:

AcceleratorType (TPU API) Jenis mesin (GKE API) Topologi
v5litepod-16 ct5lp-hightpu-4t 4x4
v5litepod-32 ct5lp-hightpu-4t 4x8
v5litepod-64 ct5lp-hightpu-4t 8x8
v5litepod-128 ct5lp-hightpu-4t 8x16
v5litepod-256 ct5lp-hightpu-4t 16x16

Perbandingan jenis VM TPU v5e:

Jenis VM n2d-48-24-v5lite-tpu n2d-192-112-v5lite-tpu n2d-384-224-v5lite-tpu
# of v5e chips 1 4 8
# vCPUs 24 112 224
RAM (GB) 48 192 384
# of NUMA Nodes 1 1 2
Berlaku untuk v5litepod-1 v5litepod-4 v5litepod-8
Gangguan Tinggi Sedang Rendah

Untuk menyediakan ruang bagi workload yang memerlukan lebih banyak chip, penjadwal dapat mengambil alih VM dengan lebih sedikit chip. Jadi, VM 8 chip cenderung akan menggantikan VM 1 dan 4 chip.