TPU v5p

Dokumen ini menjelaskan arsitektur dan konfigurasi yang didukung Cloud TPU v5p.

Arsitektur sistem

Bagian ini menjelaskan arsitektur sistem khusus untuk versi v5p. Setiap TensorCore memiliki empat Matrix Multiply Unit (MXU), unit vektor, dan unit skalar.

Ada 8.960 chip dalam satu Pod v5p. Tugas terbesar yang dapat dijadwalkan adalah tugas 96 kubus (6.144 chip).

Tabel berikut menunjukkan spesifikasi utama untuk v5p.

Spesifikasi utama Nilai v5p
Komputasi puncak per chip (bf16) 459 TFLOP
Kapasitas dan bandwidth HBM2e 95 GB, 2.765 GBps
Ukuran Pod TPU 8.960 chip
Topologi interkoneksi Torus 3D *
BW Interkoneksi Interchip 4.800 Gbps

Konfigurasi

Pod TPU v5p terdiri dari 8.960 chip yang saling terhubung dengan link berkecepatan tinggi yang dapat dikonfigurasi ulang. Jaringan fleksibel TPU v5p memungkinkan Anda menghubungkan chip dalam slice berukuran sama dengan beberapa cara. Saat membuat slice TPU menggunakan perintah gcloud compute tpus tpu-vm create, Anda menentukan jenis dan bentuknya menggunakan parameter AcceleratorType atau AcceleratorConfig.

Tabel berikut menunjukkan bentuk satu slice paling umum yang didukung dengan v5p, ditambah sebagian besar (tetapi tidak semua) bentuk kubus penuh yang lebih besar dari 1 kubus. Bentuk v5p maksimum adalah 16x16x24 (6.144 chip, 96 kubus).

Bentuk Slice Ukuran VM # Cores # Chips # of Machines Jumlah Kubus Mendukung Twisted?
2x2x1 Host penuh 8 4 1 T/A T/A
2x2x2 Host penuh 16 8 2 T/A T/A
2x4x4 Host penuh 64 32 8 T/A T/A
4x4x4 Host penuh 128 64 16 1 T/A
4x4x8 Host penuh 256 128 32 2 Ya
4x8x8 Host penuh 512 256 64 4 Ya
8x8x8 Host penuh 1024 512 128 8 T/A
8x8x16 Host penuh 2048 1024 256 16 Ya
8x16x16 Host penuh 4096 2048 512 32 Ya
16x16x16 Host penuh 8192 4096 1024 64 T/A
16x16x24 Host penuh 12288 6144 1536 96 T/A

Pelatihan satu slice didukung untuk hingga 6.144 chip. Chip ini dapat diperluas ke 18.432 chip menggunakan Multislice. Lihat Ringkasan Multislice Cloud TPU untuk mengetahui detail Multislice.

Menggunakan parameter AcceleratorType

Saat mengalokasikan resource TPU, Anda menggunakan argumen --accelerator-type untuk menentukan jumlah TensorCore dalam slice. --accelerator-type adalah string berformat "v$VERSION_NUMBERp-$CORES_COUNT". Misalnya, v5p-32 menentukan slice TPU v5p dengan 32 TensorCore (16 chip).

Untuk menyediakan TPU untuk tugas pelatihan v5p, gunakan salah satu jenis accelerator berikut dalam permintaan pembuatan CLI atau TPU API:

  • v5p-8
  • v5p-16
  • v5p-32
  • v5p-64
  • v5p-128 (satu kubus/rack penuh)
  • v5p-256 (2 kubus)
  • v5p-512
  • v5p-1024 ... v5p-12288

Menggunakan parameter AcceleratorConfig

Untuk versi Cloud TPU v5p dan yang lebih baru, AcceleratorConfig digunakan dengan cara yang hampir sama dengan Cloud TPU v4 Perbedaannya adalah Anda menentukan versi TPU yang digunakan (misalnya, --type=v5p untuk rilis v5p) bukan menentukan jenis TPU sebagai --type=v4.

Resiliensi ICI Cloud TPU

Resiliensi ICI membantu meningkatkan toleransi error link optik dan switch sirkuit optik (OCS) yang menghubungkan TPU di antara kubus. (Koneksi ICI dalam kubus menggunakan link tembaga yang tidak terpengaruh). Ketahanan ICI memungkinkan koneksi ICI dirutekan di sekitar OCS dan kerusakan ICI optik. Akibatnya, hal ini meningkatkan ketersediaan penjadwalan slice TPU, dengan mengorbankan degradasi sementara pada performa ICI.

Serupa dengan Cloud TPU v4, ketahanan ICI diaktifkan secara default untuk slice v5p yang berukuran satu kubus atau lebih besar:

  • v5p-128 saat menentukan jenis akselerator
  • 4x4x4 saat menentukan konfigurasi akselerator

Properti VM, host, dan slice

Properti Nilai dalam TPU
# of v5p chips 4
# vCPUs 208 (hanya setengahnya yang dapat digunakan jika menggunakan binding NUMA untuk menghindari penalti performa lintas-NUMA)
RAM (GB) 448 (hanya setengahnya yang dapat digunakan jika menggunakan binding NUMA untuk menghindari penalti performa lintas-NUMA)
# of NUMA Nodes 2
Throughput NIC (Gbps) 200

Hubungan antara jumlah TensorCore, chip, host/VM, dan kubus dalam Pod:

Cores Chip Host/VM Kubus
Host 8 4 1
Kubus (alias rak) 128 64 16 1
Potongan terbesar yang didukung 12288 6144 1536 96
Pod lengkap v5p 17920 8960 2240 140