TPU v5p
Questo documento descrive l'architettura e le configurazioni supportate di Cloud TPU v5p.
Architettura di sistema
In questa sezione viene descritta l'architettura di sistema specifica per la versione v5p. Ogni TensorCore ha quattro unità Matrix Multiply (MXU), un'unità vettoriale e un'unità scalare.
Ci sono 8960 chip in un singolo pod v5p. Il job più grande che può essere pianificato è un job a cubo (6144 chip).
La tabella seguente mostra le specifiche principali per una versione 5p.
Specifiche principali | Valori v5p |
---|---|
Picco calcolo per chip (bf16) | 459 TFLOP |
Capacità e larghezza di banda HBM2e | 95 GB, 2765 GB |
Dimensione pod di TPU | 8960 chip |
Topologia di interconnessione | Toro 3D |
BW di Interchip Interconnect | 4800 Gbit/s |
Configurazioni
Un pod TPU v5p è composto da 8960 chip interconnessi con link ad alta velocità riconfigurabili. Il networking flessibile di TPU v5p consente di connettere i chip
in una sezione delle stesse dimensioni in più modi. Quando crei una sezione TPU utilizzando il comando gcloud compute tpus tpu-vm create
, ne specifichi il tipo e la forma utilizzando i parametri AcceleratorType
o AcceleratorConfig
.
La seguente tabella mostra le forme a sezione singola più comuni supportate con v5p, oltre alla maggior parte delle forme di cubo complete (ma non tutte) maggiori di un cubo. La forma massima v5p è 16 x 16 x 24 (6144 chip, 96 cubi).
Forma della sezione | Dimensioni VM | # core | # chip | N. di macchine | N. di cubi | Supporta Twisted? |
2x2x1 | Host completo | 8 | 4 | 1 | N/D | N/D |
2x2x2 | Host completo | 16 | 8 | 2 | N/D | N/D |
2x4x4 | Host completo | 64 | 32 | 8 | N/D | N/D |
4x4x4 | Host completo | 128 | 64 | 16 | 1 | N/D |
4x4x8 | Host completo | 256 | 128 | 32 | 2 | Sì |
4x8x8 | Host completo | 512 | 256 | 64 | 4 | Sì |
8x8x8 | Host completo | 1024 | 512 | 128 | 8 | N/D |
8x8x16 | Host completo | 2048 | 1024 | 256 | 16 | Sì |
8x16x16 | Host completo | 4096 | 2048 | 512 | 32 | Sì |
16x16x16 | Host completo | 8192 | 4096 | 1024 | 64 | N/D |
16x16x24 | Host completo | 12288 | 6144 | 1536 | 96 | N/D |
L'addestramento su singola fetta è supportato per un massimo di 6144 chip. È estendibile a 18432 chip con multislice. Per informazioni dettagliate, consulta la Panoramica di Cloud TPU Multislice.
Utilizzo del parametro AcceleratorType
Quando assegni risorse TPU, utilizzi l'argomento --accelerator-type
per specificare il numero di TensorCore in una sezione. --accelerator-type
è una stringa formattata
"v$VERSION_NUMBER
p-$CORES_COUNT
".
Ad esempio, v5p-32
specifica una sezione TPU v5p con 32 TensorCore (16 chip).
Per eseguire il provisioning delle TPU per un job di addestramento v5p, utilizza uno dei seguenti tipi di acceleratore nella richiesta di creazione dell'API TPU o dell'interfaccia a riga di comando:
- V5p-8
- v5p-16
- v5p-32
- Versione 5p-64
- v5p-128 (un cubo/rack pieno)
- v5p-256 (2 cubi)
- v5p-512
- v5p-1024 ... v5p-12288
Utilizzo del parametro AcceleratorConfig
Per le versioni Cloud TPU v5p e successive, AcceleratorConfig viene utilizzato più o meno come in Cloud TPU v4. La differenza è che, invece di specificare il tipo di TPU come --type=v4
, lo specifichi come versione di TPU in uso (ad esempio, --type=v5p
per la release v5p).
Resilienza ICI di Cloud TPU
La resilienza ICI aiuta a migliorare la tolleranza di errore dei collegamenti ottici e degli switch di circuito ottici (OCS) che collegano le TPU tra i cubi. (le connessioni ICI all'interno di un cubo usano maglie in rame non interessate). La resilienza ICI consente il routing delle connessioni ICI intorno a OCS e guasti ICI ottici. Di conseguenza, migliora la disponibilità di pianificazione delle sezioni TPU, con il compromesso del degrado temporaneo delle prestazioni ICI.
Analogamente a Cloud TPU v4, la resilienza ICI è abilitata per impostazione predefinita per le sezioni v5p di almeno un cubo:
- v5p-128 quando si specifica il tipo di acceleratore
- 4 x 4 x 4 quando si specifica la configurazione dell'acceleratore
Proprietà di VM, host e sezioni
Proprietà | Valore in una TPU |
N. di chip v5p | 4 |
N. di vCPU | 208 (solo la metà è utilizzabile se si utilizza l'associazione NUMA per evitare una penalizzazione delle prestazioni di più NUMA) |
RAM (GB) | 448 (solo la metà è utilizzabile se si utilizza l'associazione NUMA per evitare una penalizzazione delle prestazioni di più NUMA) |
N. di NUMA nodi | 2 |
Velocità effettiva NIC (Gbps) | 200 |
Relazione tra il numero di TensorCore, chip, host/VM e cubi in un pod:
Core | Chip | Host/VM | Cubi | |
---|---|---|---|---|
Organizzatore | 8 | 4 | 1 | |
Cubo (noto anche come rack) | 128 | 64 | 16 | 1 |
Sezione più grande supportata | 12288 | 6144 | 1536 | 26 |
Pod completo v5p | 17920 | 8960 | 2240 | 140 |