TPU v5p

Questo documento descrive l'architettura e le configurazioni supportate Cloud TPU v5p.

Architettura di sistema

Questa sezione descrive l'architettura di sistema specifica della versione v5p. Ciascuna TensorCore ha quattro MXU (Matrix Multiply Unit), un'unità vettoriale e uno scalare unità.

Ci sono 8960 chip in un singolo pod v5p. Il job più grande che può essere pianificato è un lavoro da 96 cubi (6144 chip).

La tabella seguente mostra le specifiche principali per una V5p.

Specifiche chiave Valori v5p
Picco di computing per chip (bf16) 459 TFLOP
Capacità e larghezza di banda di HBM2e 95 GB, 2765 Gbps
Dimensione pod di TPU 8960 chip
Topologia Interconnect Torus 3D *
BW Interchip Interconnect 4.800 Gbit/s

Configurazioni

Un pod TPU v5p è composto da 8960 chip interconnessi con componenti link ad alta velocità. Il networking flessibile di TPU v5p ti consente di connettere di chip in una sezione delle stesse dimensioni in diversi modi. Quando crei una sezione TPU usando il comando gcloud compute tpus tpu-vm create, devi specificare il tipo e la forma utilizzando AcceleratorType o AcceleratorConfig.

La tabella seguente mostra le le forme più comuni a sezione singola supportate da v5p, più la maggior parte (ma non tutte) forme di un cubo intero maggiore di 1 cubo. La forma massima v5p è 16 x 16 x 24 (6144 chip, 96 cubi).

Forma della sezione Dimensioni VM N. di core N. di chip N. di macchine N. di cubi Supporta Twisted?
2x2x1 Host completo 8 4 1 N/D N/D
2x2x2 Host completo 16 8 2 N/D N/D
2x4x4 Host completo 64 32 8 N/D N/D
4x4x4 Host completo 128 64 16 1 N/D
4x4x8 Host completo 256 128 32 2
4x8x8 Host completo 512 256 64 4
8x8x8 Host completo 1024 512 128 8 N/D
8x8x16 Host completo 2048 1024 256 16
8x16x16 Host completo 4096 2048 512 32
16x16x16 Host completo 8192 4096 1024 64 N/D
16x16x24 Host completo 12288 6144 1536 96 N/D

L'addestramento a sezione singola è supportato per un massimo di 6144 chip. È estensibile a 18432 chip utilizzando l'opzione Multisezione. Per i dettagli su più sezioni, consulta la Panoramica di più sezioni Cloud TPU.

Utilizzo del parametro AcceleratorType

Quando assegni risorse TPU, utilizzi l'argomento --accelerator-type per specificare il numero di TensorCore in una sezione. --accelerator-type è una stringa formattata "v$VERSION_NUMBERp-$CORES_COUNT". Ad esempio, v5p-32 specifica una sezione TPU v5p con 32 TensorCore (16 chip).

Per eseguire il provisioning delle TPU per un job di addestramento v5p, utilizza una delle seguenti opzioni tipi di acceleratori nella richiesta di creazione dell'interfaccia a riga di comando o dell'API TPU:

  • V5p-8
  • v5p-16
  • V5p-32
  • V5p-64
  • v5p-128 (un cubo/rack completo)
  • v5p-256 (2 cubi)
  • v5p-512
  • v5p-1024 ... v5p-12288

Utilizzo del parametro AcceleratorConfig

Per le versioni Cloud TPU v5p e successive, AcceleratorConfig viene utilizzato in modo analogo a Cloud TPU v4 La differenza è che che invece di specificare il tipo di TPU come --type=v4, lo specifichi come la versione della TPU in uso (ad esempio, --type=v5p per la release v5p).

Resilienza ICI di Cloud TPU

La resilienza dell'ICI aiuta a migliorare la tolleranza di errore dei collegamenti ottici e switch a circuito ottico (OCS) che collegano le TPU tra cubi. (Le connessioni ICI all'interno di un cubo utilizzano maglie in rame che non sono interessate). La resilienza di ICI consente di instradare le connessioni ICI intorno a OCS e ICI ottica di errore. Di conseguenza, migliora la disponibilità della pianificazione delle TPU sezioni, con il compromesso di un peggioramento temporaneo delle prestazioni di ICI.

Come per Cloud TPU v4, la resilienza di ICI è abilitata per impostazione predefinita per le sezioni v5p di un cubo o più grandi:

  • v5p-128 quando specifichi il tipo di acceleratore
  • 4:4x4 quando specifichi la configurazione dell'acceleratore

Proprietà di VM, host e sezione

Proprietà Valore in una TPU
N. di chip v5p 4
N. di vCPU 208 (solo la metà è utilizzabile se si utilizza l'associazione NUMA per evitare una penalizzazione del rendimento incrociato da NUMA)
RAM (GB) 448 (solo la metà è utilizzabile se si utilizza l'associazione NUMA per evitare una penalizzazione del rendimento incrociato con NUMA)
N. di nodi NUMA 2
Velocità effettiva NIC (Gbps) 200

Relazione tra il numero di TensorCore, chip, host/VM e cubi in un pod:

Core Chip Host/VM Cubi
Organizzatore 8 4 1
Cubo (noto anche come rack) 128 64 16 1
Sezione più grande supportata 12288 6144 1536 96
Pod completo v5p 17920 8960 2240 140