TPU v5e

Questo documento descrive l'architettura e le configurazioni supportate Cloud TPU v5e.

TPU v5e supporta l'addestramento con host singolo e multi-host e l'inferenza con host singolo. L'inferenza multi-host è supportata utilizzando Sax. Per ulteriori informazioni, consulta la sezione Pubblicazione di modelli linguistici di grandi dimensioni.

Architettura di sistema

Ogni chip v5e contiene un TensorCore. Ogni Tensor Core ha quattro unità di moltiplicazione a matrice (MXU), un'unità vettoriale e un'unità scalare.

Il seguente diagramma illustra un chip TPU v5e.

Diagramma di un chip v5e

La tabella seguente mostra le specifiche principali del chip e i relativi valori per la versione v5e.

Specifiche dei chip dei tasti Valori v5e
Picco di computing per chip (bf16) 197 TFLOP
Capacità e larghezza di banda di HBM2 16 GB, 819 Gbps
Interchip Interconnect BW 1600 Gbps

La seguente tabella mostra le specifiche dei pod e i relativi valori per la versione 5e.

Specifiche principali del pod Valori v5e
Dimensioni del pod TPU 256 chip
Topologia Interconnect Toroide 2D
Picco di computing per pod 100 PetaOps(Int8)
Larghezza di banda all-reduce per pod 51,2 TB/s
Larghezza di banda bisezione per pod 1,6 TB/s
Larghezza di banda della rete di data center per pod 6,4 Tbps

Configurazioni

Cloud TPU v5e è un prodotto combinato di addestramento e inferenza (pubblicazione). Per distinguere un ambiente di addestramento da un ambiente di inferenza, utilizza i flag AcceleratorType o AcceleratorConfig con l'API TPU o il flag --machine-type quando crei un pool di nodi GKE.

I job di addestramento sono ottimizzati per velocità effettiva e disponibilità, gestendo al contempo i job sono ottimizzati per la latenza. Un job di addestramento sulle TPU di cui è stato eseguito il provisioning per la distribuzione potrebbe avere una disponibilità minore e, allo stesso modo, un job di distribuzione eseguito sulle TPU di cui è stato eseguito il provisioning per l'addestramento potrebbe avere una latenza maggiore.

Utilizza AcceleratorType per specificare il numero di TensorCore che vuoi utilizzare. Puoi specificare AcceleratorType durante la creazione di una TPU utilizzando gcloud CLI o la console Google Cloud. Il valore specificato per AcceleratorType è una stringa con il formato:v$VERSION_NUMBER-$CHIP_COUNT.

Puoi anche utilizzare AcceleratorConfig per specificare il numero di TensorCore che vuoi utilizzare. Tuttavia, poiché non esistono varianti di topologia 2D personalizzate per TPU v5e, non c'è differenza tra l'uso di AcceleratorConfig e AcceleratorType.

Per configurare una TPU v5e utilizzando AcceleratorConfig, utilizza --version e --topology flag. Imposta --version sulla versione di TPU che vuoi utilizzare e --topology sulla disposizione fisica dei chip TPU nella sezione. Il valore specificato per AcceleratorConfig è una stringa con il formato AxB, dove A e B sono i conteggi dei chip in ogni direzione.

La versione v5e supporta le seguenti forme di sezioni 2D:

Topologia Numero di chip TPU Numero di host
1x1 1 8/1
2x2 4 1/2
2x4 8 1
4x4 16 2
4 x 8 32 4
8x8 64 8
8 x 16 128 16
16 x 16 256 32

Ogni VM TPU in una sezione TPU v5e contiene 1, 4 o 8 chip. Nelle sezioni con 4 chip o meno, tutti i chip TPU condividono lo stesso nodo NUMA (Non Uniform Memory Access).

Per le VM TPU v5e a 8 chip, la comunicazione CPU-TPU sarà più efficiente all'interno delle partizioni NUMA. Ad esempio, nella figura seguente, la comunicazione con CPU0-Chip0 più veloce della comunicazione di CPU0-Chip4.

Comunicazione con nodo NUMA

Tipi di Cloud TPU v5e per la pubblicazione

La pubblicazione su host singolo è supportata per un massimo di 8 chip v5e. Le seguenti sono supportate le seguenti configurazioni: 1x1, 2x2 e 2x4 sezioni. Ogni sezione ha rispettivamente 1, 4 e 8 chip.

Configurazioni TPU v5e che supportano la pubblicazione: 1x1, 2x2 e 2x4.

Per eseguire il provisioning delle TPU per un job di pubblicazione, utilizza uno dei seguenti tipi di acceleratore nella richiesta di creazione di TPU tramite l'API o la CLI:

AcceleratorType (API TPU) Tipo di macchina (API GKE)
v5litepod-1 ct5lp-hightpu-1t
v5litepod-4 ct5lp-hightpu-4t
v5litepod-8 ct5lp-hightpu-8t

È supportata la pubblicazione su più di 8 chip v5e, chiamata anche pubblicazione multi-host utilizzando Sax. Per ulteriori informazioni, vedi Large Language Model Serving.

Tipi di Cloud TPU v5e per l'addestramento

L'addestramento è supportato per un massimo di 256 chip.

Per eseguire il provisioning delle TPU per un job di addestramento v5e, utilizza uno dei seguenti acceleratori tipi nella richiesta di creazione dell'interfaccia a riga di comando o di TPU dell'API:

AcceleratorType (API TPU) Tipo di macchina (API GKE) Topologia
v5litepod-16 ct5lp-hightpu-4t 4x4
v5litepod-32 ct5lp-hightpu-4t 4 x 8
v5litepod-64 ct5lp-hightpu-4t 8x8
v5litepod-128 ct5lp-hightpu-4t 8 x 16
v5litepod-256 ct5lp-hightpu-4t 16x16

Confronto dei tipi di VM TPU v5e:

Tipo di VM n2d-48-24-v5lite-tpu n2d-192-112-v5lite-tpu n2d-384-224-v5lite-tpu
N° di chip v5e 1 4 8
N. di vCPU 24 112 224
RAM (GB) 48 192 384
# of NUMA Nodes 1 1 2
Si applica a v5litepod-1 V5litepod-4 V5litepod-8
Interruzione Alta Medie Bassa

Per fare spazio ai carichi di lavoro che richiedono più chip, gli schedulatori possono eseguire l'anticipo delle VM con meno chip. Pertanto, le VM da 8 chip hanno maggiori probabilità di prelevare le VM da 1 e 4 chip.