TPU v5p
Questo documento descrive l'architettura e le configurazioni supportate di Cloud TPU v5p.
Architettura di sistema
Questa sezione descrive l'architettura di sistema specifica per la versione v5p. Ogni TensorCore ha quattro unità di moltiplicazione a matrice (MXU), un'unità vettoriale e un'unità scalare.
Un singolo pod v5p contiene 8960 chip. Il job più grande che può essere pianificato è un job con 96 cube (6144 chip).
La tabella seguente mostra le specifiche principali di un v5p.
Specifiche principali | Valori v5p |
---|---|
Potenza di calcolo di picco per chip (bf16) | 459 TFLOP |
Capacità e larghezza di banda HBM2e | 95 GB, 2765 GB/s |
Dimensioni pod di TPU | 8960 chip |
Topologia di interconnessione | Torus 3D * |
Interchip Interconnect BW | 4800 Gbps |
Configurazioni
Un pod TPU v5p è composto da 8960 chip interconnessi con link ad alta velocità riconfigurabili. La flessibilità della rete della TPU v5p ti consente di collegare i chip in una sezione dello stesso formato in diversi modi. Quando crei una sezione TPU
utilizzando il comando gcloud compute tpus tpu-vm create
, specifichi
il tipo e la forma utilizzando i parametri AcceleratorType
o AcceleratorConfig
.
La tabella seguente mostra le forme con una sola fetta più comuni supportate con la versione 5p, oltre alla maggior parte (ma non tutte) delle forme di cubi completi più grandi di 1 cubo. La forma massima v5p è 16 x 16 x 24 (6144 chip, 96 cubi).
Forma sezione | Dimensioni VM | # Cores | # Chips | # of Machines | # of Cubes | Supporta Twisted? |
2x2x1 | Host completo | 8 | 4 | 1 | N/D | N/D |
2x2x2 | Host completo | 16 | 8 | 2 | N/D | N/D |
2x4x4 | Host completo | 64 | 32 | 8 | N/D | N/D |
4x4x4 | Host completo | 128 | 64 | 16 | 1 | N/D |
4x4x8 | Host completo | 256 | 128 | 32 | 2 | Sì |
4x8x8 | Host completo | 512 | 256 | 64 | 4 | Sì |
8x8x8 | Host completo | 1024 | 512 | 128 | 8 | N/D |
8x8x16 | Host completo | 2048 | 1024 | 256 | 16 | Sì |
8x16x16 | Host completo | 4096 | 2048 | 512 | 32 | Sì |
16x16x16 | Host completo | 8192 | 4096 | 1024 | 64 | N/D |
16x16x24 | Host completo | 12288 | 6144 | 1536 | 96 | N/D |
L'addestramento con un solo slice è supportato per un massimo di 6144 chip. È estendibile a 18432 chip utilizzando Multislice. Per informazioni dettagliate su Multislice, consulta la Panoramica di Cloud TPU Multislice.
Utilizzo del parametro AcceleratorType
Quando alloca le risorse TPU, utilizza l'argomento --accelerator-type
per
specificare il numero di TensorCore in una sezione. --accelerator-type
è
una stringa formattata
"v$VERSION_NUMBER
p-$CORES_COUNT
".
Ad esempio, v5p-32
specifica una sezione TPU v5p con 32 TensorCore (16 chip).
Per eseguire il provisioning delle TPU per un job di addestramento v5p, utilizza uno dei seguenti tipi di acceleratore nella richiesta di creazione dell'API CLI o TPU:
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128 (un cubo/rack completo)
- v5p-256 (2 cubi)
- v5p-512
- v5p-1024 ... v5p-12288
Utilizzo del parametro AcceleratorConfig
Per le versioni Cloud TPU v5p e successive, AcceleratorConfig viene utilizzato in modo molto simile a come avviene con Cloud TPU v4. La differenza è che, anziché specificare il tipo di TPU come --type=v4
, lo specifichi come la versione di TPU in uso (ad esempio --type=v5p
per la release v5p).
Resilienza dell'ICI di Cloud TPU
La resilienza dell'ICI contribuisce a migliorare la tolleranza agli errori dei link ottici e degli interruttori di circuito ottico (OCS) che collegano le TPU tra i cubetti. (le connessioni ICI all'interno di un cubo utilizzano cavi in rame non interessati). La resilienza ICI consente di instradare le connessioni ICI attorno ai guasti dell'OCS e dell'ICI ottico. Di conseguenza, migliora la disponibilità di pianificazione delle sezioni TPU, con il compromesso del degrado temporaneo delle prestazioni dell'ICI.
Come per Cloud TPU v4, la resilienza ICI è abilitata per impostazione predefinita per le sezioni v5p di almeno un cubo:
- v5p-128 quando si specifica il tipo di acceleratore
- 4x4x4 quando specifichi la configurazione dell'acceleratore
Proprietà di VM, host e slice
Proprietà | Valore in una TPU |
N° di chip v5p | 4 |
Numero di vCPU | 208 (solo la metà è utilizzabile se si utilizza il binding NUMA per evitare una penalizzazione delle prestazioni tra NUMA) |
RAM (GB) | 448 (solo la metà è utilizzabile se si utilizza il binding NUMA per evitare una penalizzazione del rendimento tra NUMA) |
# of NUMA Nodes | 2 |
Throughput della scheda di rete (Gbps) | 200 |
Relazione tra il numero di TensorCore, chip, host/VM e cube in un pod:
Core | Chip | Host/VM | Cubi | |
---|---|---|---|---|
Host | 8 | 4 | 1 | |
Cube (noto anche come rack) | 128 | 64 | 16 | 1 |
Spessore massimo supportato | 12288 | 6144 | 1536 | 96 |
Pod completo v5p | 17920 | 8960 | 2240 | 140 |