Questa pagina è stata tradotta dall'API Cloud Translation.

TPU v5p

Questo documento descrive l'architettura e le configurazioni supportate di Cloud TPU v5p.

Architettura di sistema

Questa sezione descrive l'architettura di sistema specifica per la versione v5p. Ogni TensorCore ha quattro unità di moltiplicazione a matrice (MXU), un'unità vettoriale e un'unità scalare.

Ci sono 8960 chip in un singolo pod v5p. Il job più grande che può essere pianificato è un job con 96 cube (6144 chip).

La tabella seguente mostra le specifiche principali di un v5p.

Specifiche principali	Valori v5p
Picco di computing per chip (bf16)	459 TFLOP
Capacità e larghezza di banda di HBM2e	95 GB, 2765 GB/s
Dimensione pod di TPU	8960 chip
Topologia dell'interconnessione	Torus 3D *
BW Interchip Interconnect	4.800 Gbit/s

Configurazioni

Un pod TPU v5p è composto da 8960 chip interconnessi con link ad alta velocità riconfigurabili. La flessibilità della rete della TPU v5p ti consente di collegare i chip in una sezione dello stesso formato in diversi modi. Quando crei una sezione TPU usando il comando gcloud compute tpus tpu-vm create, devi specificare il tipo e la forma utilizzando AcceleratorType o AcceleratorConfig.

La tabella seguente mostra le le forme più comuni a sezione singola supportate da v5p, più la maggior parte (ma non tutte) forme di un cubo intero maggiore di 1 cubo. La forma massima v5p è 16 x 16 x 24 (6144 chip, 96 cubi).

Forma della sezione	Dimensioni VM	# Cores	N. di chip	N. di macchine	N. di cubi	Supporta Twisted?
2x2x1	Host completo	8	4	1	N/D	N/D
2x2x2	Host completo	16	8	2	N/D	N/D
2x4x4	Host completo	64	32	8	N/D	N/D
4x4x4	Host completo	128	64	16	1	N/D
4x4x8	Host completo	256	128	32	2	Sì
4x8x8	Host completo	512	256	64	4	Sì
8x8x8	Host completo	1024	512	128	8	N/D
8x8x16	Host completo	2048	1024	256	16	Sì
8 x 16 x 16	Host completo	4096	2048	512	32	Sì
16 x 16 x 16	Host completo	8192	4096	1024	64	N/D
16 x 16 x 24	Host completo	12288	6144	1536	96	N/D

L'addestramento con un solo slice è supportato per un massimo di 6144 chip. È estendibile a 18432 chip utilizzando Multisezione. Per i dettagli su più sezioni, consulta la Panoramica di più sezioni Cloud TPU.

Utilizzo del parametro AcceleratorType

Quando assegni risorse TPU, utilizzi l'argomento --accelerator-type per e specificare il numero di TensorCore in una sezione. --accelerator-type è una stringa formattata "v$VERSION_NUMBERp-$CORES_COUNT". Ad esempio, v5p-32 specifica una sezione TPU v5p con 32 TensorCore (16 chip).

Per eseguire il provisioning delle TPU per un job di addestramento v5p, utilizza una delle seguenti opzioni tipi di acceleratori nella richiesta di creazione dell'interfaccia a riga di comando o dell'API TPU:

V5p-8
v5p-16
v5p-32
v5p-64
v5p-128 (un cubo/rack completo)
v5p-256 (2 cubi)
v5p-512
v5p-1024 ... v5p-12288

Utilizzo del parametro AcceleratorConfig

Per le versioni Cloud TPU v5p e successive, AcceleratorConfig viene utilizzato in modo molto simile a come avviene con Cloud TPU v4. La differenza è che, anziché specificare il tipo di TPU come --type=v4, lo specifichi come la versione di TPU in uso (ad esempio --type=v5p per la release v5p).

Resilienza ICI di Cloud TPU

La resilienza dell'ICI contribuisce a migliorare la tolleranza agli errori dei link ottici e degli interruttori di circuiti ottici (OCS) che collegano le TPU tra i cubetti. (Le connessioni ICI all'interno di un cubo utilizzano maglie in rame che non sono interessate). La resilienza dell'ICI consente di instradare le connessioni ICI attorno ai guasti dell'OCS e dell'ICI ottico. Di conseguenza, migliora la disponibilità della pianificazione delle TPU sezioni, con il compromesso di un peggioramento temporaneo delle prestazioni di ICI.

Come per Cloud TPU v4, la resilienza ICI è abilitata per impostazione predefinita per le sezioni v5p di almeno un cubo:

v5p-128 quando specifichi il tipo di acceleratore
4x4x4 quando specifichi la configurazione dell'acceleratore

Proprietà di VM, host e sezione

Proprietà	Valore in una TPU
N. di chip v5p	4
Numero di vCPU	208 (solo la metà è utilizzabile se si utilizza l'associazione NUMA per evitare una penalizzazione del rendimento incrociato da NUMA)
RAM (GB)	448 (solo la metà è utilizzabile se si utilizza l'associazione NUMA per evitare una penalizzazione del rendimento incrociato da NUMA)
N. di nodi NUMA	2
Velocità effettiva NIC (Gbps)	200

Relazione tra il numero di TensorCore, chip, host/VM e cube in un pod:

	Core	Chip	Host/VM	Cubi
Organizzatore	8	4	1
Cube (noto anche come rack)	128	64	16	1
Spessore massimo supportato	12288	6144	1536	96
Pod completo v5p	17920	8960	2240	140