TPU v5e
Questo documento descrive l'architettura e le configurazioni supportate di Cloud TPU v5e.
TPU v5e supporta l’addestramento su un singolo host e multi-host e l’inferenza con un singolo host. L'inferenza multi-host è supportata utilizzando Sax. Per ulteriori informazioni, consulta la sezione Large Language Model Serving.
Architettura di sistema
Ogni chip v5e contiene un TensorCore. Ogni TensorCore ha quattro unità moltiplicali matrici (MXU), un'unità vettoriale e un'unità scalare.
Il seguente diagramma illustra un chip TPU v5e.
La tabella seguente mostra le specifiche dei chip di chiave e i relativi valori per v5e.
Specifiche dei chip di chiave | Valori v5e |
Picco calcolo per chip (bf16) | 197 TFLOP |
Picco computing per chip (Int8) | 393 TFLOP |
Capacità e larghezza di banda HBM2 | 16 GB, 819 GB/s |
BW di Interchip Interconnect | 1600 Gbit/s |
La tabella seguente mostra le specifiche dei pod e i relativi valori per v5e.
Specifiche principali dei pod | Valori v5e |
Dimensione pod di TPU | 256 chip |
Topologia di interconnessione | Toro 2D |
Picco computing per pod | 100 PetaOps(Int8) |
Riduce completamente la larghezza di banda per pod | 51,2 TB/s |
Larghezza di banda bisezione per pod | 1,6 TB/s |
Larghezza di banda della rete di data center per pod | 6,4 Tbps |
Configurazioni
Cloud TPU v5e è un prodotto combinato di addestramento e inferenza (pubblicazione). Per differenziare tra un ambiente di addestramento e un ambiente di inferenza, utilizza i flag AcceleratorType
o AcceleratorConfig
con l'API TPU o il flag --machine-type
durante la creazione di un pool di nodi GKE.
I job di addestramento sono ottimizzati per velocità effettiva e disponibilità, mentre i job di servizio sono ottimizzati per la latenza. Un job di addestramento sulle TPU di cui è stato eseguito il provisioning potrebbe avere una disponibilità inferiore e, analogamente, un job di gestione eseguito sulle TPU di cui è stato eseguito il provisioning per l'addestramento potrebbe avere una latenza maggiore.
Usa AcceleratorType
per specificare il numero di TensorCore che vuoi utilizzare.
Puoi specificare il AcceleratorType
durante la creazione di una TPU utilizzando
gcloud CLI o la console Google Cloud. Il valore
specificato per AcceleratorType
è una stringa con il formato:
v$VERSION_NUMBER-$CHIP_COUNT
.
Puoi anche usare AcceleratorConfig
per specificare il numero di TensorCore che vuoi utilizzare. Tuttavia, poiché non esistono varianti della topologia 2D personalizzata per TPU v5e, non esiste alcuna differenza tra l'uso di AcceleratorConfig
e AcceleratorType
.
Per configurare una TPU v5e utilizzando AcceleratorConfig
, utilizza i flag --version
e --topology
. Imposta --version
sulla versione TPU che vuoi utilizzare e
--topology
sulla disposizione fisica dei chip TPU nella sezione. Il
valore specificato per AcceleratorConfig
è una stringa con formato AxB
,
dove A
e B
corrispondono al numero di chip in ciascuna direzione.
Le seguenti forme di sezione 2D sono supportate per v5e:
Topologia | Numero di chip TPU | Numero di host |
1x1 | 1 | 8/1 |
2x2 | 4 | 1/2 |
2x4 | 8 | 1 |
4x4 | 16 | 2 |
4x8 | 32 | 4 |
8x8 | 64 | 8 |
8x16 | 128 | 16 |
16x16 | 256 | 32 |
Ogni VM TPU in una sezione TPU v5e contiene 1, 4 o 8 chip. Nelle sezioni a 4 chip o più piccole, tutti i chip TPU condividono lo stesso nodo NUMA (Non Uniform Memory Access).
Per le VM TPU v5e a 8 chip, la comunicazione CPU-TPU sarà più efficiente all'interno di NUMA partizioni. Ad esempio, nella figura seguente, la comunicazione con CPU0-Chip0
sarà più veloce rispetto a quella con CPU0-Chip4
.
Tipi di Cloud TPU v5e per la gestione
La pubblicazione su un singolo host è supportata per un massimo di 8 chip v5e. Sono supportate le seguenti configurazioni: sezioni 1x1, 2x2 e 2x4. Ogni sezione ha rispettivamente 1, 4 e 8 chip.
Per eseguire il provisioning delle TPU per un job di gestione, utilizza uno dei seguenti tipi di acceleratore nella richiesta di creazione di TPU dell'interfaccia a riga di comando o di TPU dell'API:
Tipo di acceleratore (API TPU) | Tipo di macchina (API GKE) |
---|---|
v5litepod-1 |
ct5lp-hightpu-1t |
v5litepod-4 |
ct5lp-hightpu-4t |
v5litepod-8 |
ct5lp-hightpu-8t |
La pubblicazione su più di 8 chip v5e, chiamata anche gestione multi-host, è supportata utilizzando Sax. Per ulteriori informazioni, consulta Pubblicazione di modelli linguistici di grandi dimensioni (Large Language Model Serving).
Tipi di Cloud TPU v5e per l'addestramento
L'addestramento è supportato per un massimo di 256 chip.
Per eseguire il provisioning delle TPU per un job di addestramento v5e, utilizza uno dei seguenti tipi di acceleratore nella richiesta di creazione di TPU dell'interfaccia a riga di comando o di TPU dell'API:
Tipo di acceleratore (API TPU) | Tipo di macchina (API GKE) | Topologia |
---|---|---|
v5litepod-16 |
ct5lp-hightpu-4t |
4x4 |
v5litepod-32 |
ct5lp-hightpu-4t |
4x8 |
v5litepod-64 |
ct5lp-hightpu-4t |
8x8 |
v5litepod-128 |
ct5lp-hightpu-4t |
8x16 |
v5litepod-256 |
ct5lp-hightpu-4t |
16x16 |
Confronto tra i tipi di VM TPU v5e:
Tipo di VM | n2d-48-24-v5lite-tpu | n2d-192-112-v5lite-tpu | n2d-384-224-v5lite-tpu |
N. di chip v5e | 1 | 4 | 8 |
N. di vCPU | 24 | 112 | 224 |
RAM (GB) | 48 | 192 | 384 |
N. di NUMA nodi | 1 | 1 | 2 |
Si applica a | V5litepod-1 | v5litepod-4 | V5litepod-8 |
Interruzione | Alta | Medie | Bassa |
Per fare spazio ai carichi di lavoro che richiedono più chip, gli scheduler potrebbero prerilasciare le VM con meno chip. È probabile quindi che le VM a 8 chip prerilasciano le VM a 1 e 4 chip.