TPU v5p
Questo documento descrive l'architettura e le configurazioni supportate Cloud TPU v5p.
Architettura di sistema
Questa sezione descrive l'architettura di sistema specifica della versione v5p. Ciascuna TensorCore ha quattro MXU (Matrix Multiply Unit), un'unità vettoriale e uno scalare unità.
Ci sono 8960 chip in un singolo pod v5p. Il job più grande che può essere pianificato è un job con 96 cube (6144 chip).
La tabella seguente mostra le specifiche principali per una V5p.
Specifiche principali | Valori v5p |
---|---|
Picco di computing per chip (bf16) | 459 TFLOP |
Capacità e larghezza di banda HBM2e | 95 GB, 2765 GB/s |
Dimensioni del pod TPU | 8960 chip |
Topologia Interconnect | Torus 3D * |
BW Interchip Interconnect | 4.800 Gbit/s |
Configurazioni
Un pod TPU v5p è composto da 8960 chip interconnessi con componenti
link ad alta velocità. La rete flessibile di TPU v5p ti consente di connettere
di chip in una sezione delle stesse dimensioni in diversi modi. Quando crei una sezione TPU
usando il comando gcloud compute tpus tpu-vm create
, devi specificare
il tipo e la forma utilizzando AcceleratorType
o AcceleratorConfig
.
La tabella seguente mostra le le forme più comuni a sezione singola supportate da v5p, più la maggior parte (ma non tutte) forme di un cubo intero maggiore di 1 cubo. La forma massima v5p è 16 x 16 x 24 (6144 chip, 96 cubi).
Forma sezione | Dimensioni VM | # Cores | N. di chip | N. di macchine | N. di cubi | Supporta Twisted? |
2x2x1 | Host completo | 8 | 4 | 1 | N/D | N/D |
2x2x2 | Host completo | 16 | 8 | 2 | N/D | N/D |
2x4x4 | Host completo | 64 | 32 | 8 | N/D | N/D |
4x4x4 | Host completo | 128 | 64 | 16 | 1 | N/D |
4x4x8 | Host completo | 256 | 128 | 32 | 2 | Sì |
4x8x8 | Host completo | 512 | 256 | 64 | 4 | Sì |
8x8x8 | Host completo | 1024 | 512 | 128 | 8 | N/D |
8 x 8 x 16 | Host completo | 2048 | 1024 | 256 | 16 | Sì |
8x16x16 | Host completo | 4096 | 2048 | 512 | 32 | Sì |
16x16x16 | Host completo | 8192 | 4096 | 1024 | 64 | N/D |
16x16x24 | Host completo | 12288 | 6144 | 1536 | 96 | N/D |
L'addestramento con un solo slice è supportato per un massimo di 6144 chip. È estendibile a 18432 chip utilizzando Multislice. Per i dettagli su più sezioni, consulta la Panoramica di più sezioni Cloud TPU.
Utilizzo del parametro AcceleratorType
Quando assegni risorse TPU, utilizzi l'argomento --accelerator-type
per
specificare il numero di TensorCore in una sezione. --accelerator-type
è
una stringa formattata
"v$VERSION_NUMBER
p-$CORES_COUNT
".
Ad esempio, v5p-32
specifica una sezione TPU v5p con 32 TensorCore (16 chip).
Per eseguire il provisioning delle TPU per un job di addestramento v5p, utilizza uno dei seguenti tipi di acceleratore nella richiesta di creazione dell'API CLI o TPU:
- v5p-8
- v5p-16
- V5p-32
- v5p-64
- v5p-128 (un cubo/rack completo)
- v5p-256 (2 cubi)
- v5p-512
- v5p-1024 ... v5p-12288
Utilizzo del parametro AcceleratorConfig
Per le versioni Cloud TPU v5p e successive, AcceleratorConfig
viene utilizzato in modo analogo a Cloud TPU v4
La differenza è che
che invece di specificare il tipo di TPU come --type=v4
, lo specifichi come
la versione della TPU in uso (ad esempio, --type=v5p
per la release v5p).
Resilienza ICI di Cloud TPU
La resilienza dell'ICI aiuta a migliorare la tolleranza di errore dei collegamenti ottici e switch a circuito ottico (OCS) che collegano le TPU tra cubi. (Le connessioni ICI all'interno di un cubo utilizzano maglie in rame che non sono interessate). La resilienza di ICI consente di instradare le connessioni ICI intorno a OCS e ICI ottica di errore. Di conseguenza, migliora la disponibilità della pianificazione delle TPU sezioni, con il compromesso di un peggioramento temporaneo delle prestazioni di ICI.
Come per Cloud TPU v4, la resilienza di ICI è abilitata per impostazione predefinita per le sezioni v5p di un cubo o più grandi:
- v5p-128 quando specifichi il tipo di acceleratore
- 4:4x4 quando specifichi la configurazione dell'acceleratore
Proprietà di VM, host e sezione
Proprietà | Valore in una TPU |
N. di chip v5p | 4 |
N. di vCPU | 208 (solo metà è utilizzabile se si utilizza l'associazione NUMA per evitare una penalizzazione del rendimento incrociato da NUMA) |
RAM (GB) | 448 (solo la metà è utilizzabile se si utilizza il binding NUMA per evitare una penalizzazione delle prestazioni cross-NUMA) |
# of NUMA Nodes | 2 |
Velocità effettiva NIC (Gbps) | 200 |
Relazione tra il numero di TensorCore, chip, host/VM e cubi in un pod:
Core | Chip | Host/VM | Cubi | |
---|---|---|---|---|
Organizzatore | 8 | 4 | 1 | |
Cube (noto anche come rack) | 128 | 64 | 16 | 1 |
Sezione più grande supportata | 12288 | 6144 | 1536 | 96 |
Pod completo v5p | 17920 | 8960 | 2240 | 140 |