Questa pagina è stata tradotta dall'API Cloud Translation.

TPU v5p

Questo documento descrive l'architettura e le configurazioni supportate di Cloud TPU v5p.

Architettura di sistema

Questa sezione descrive l'architettura di sistema specifica della versione v5p. Ogni Tensor Core ha quattro unità di moltiplicazione a matrice (MXU), un'unità vettoriale e un'unità scalare.

Ci sono 8960 chip in una singola sezione v5p. Il job più grande che può essere pianificato è un job di 96 cubi (6144 chip).

La tabella seguente mostra le specifiche chiave per un v5p.

Specifiche principali	Valori v5p
Picco di calcolo per chip (bf16)	459 TFLOP
Capacità e larghezza di banda HBM2e	95GB, 2765 GBps
Dimensioni pod di TPU	8960 chip
Topologia di interconnessione	Toro 3D *
Interconnessione interchip BW	4800 Gbps

Configurazioni

Un pod TPU v5p è composto da 8960 chip interconnessi con collegamenti riconfigurabili ad alta velocità. Il networking flessibile di TPU v5p ti consente di connettere i chip in una sezione delle stesse dimensioni in più modi. Quando crei una sezione TPU utilizzando il comando gcloud compute tpus tpu-vm create, specifichi il tipo e la forma utilizzando il parametro AcceleratorType.

La tabella seguente mostra le forme a una sola fetta più comuni supportate con v5p, oltre alla maggior parte (ma non tutte) delle forme a cubo intero maggiori di un cubo. La forma massima v5p è 16x16x24 (6144 chip, 96 cubi).

Topologia	Core	Patatine	Host	Cubetti	Supporta Twisted?
2x2x1	8	4	1	N/D	N/D
2x2x2	16	8	2	N/D	N/D
2x4x4	64	32	8	N/D	N/D
4x4x4	128	64	16	1	N/D
4x4x8	256	128	32	2	Sì
4x8x8	512	256	64	4	Sì
8x8x8	1024	512	128	8	N/D
8x8x16	2048	1024	256	16	Sì
8x16x16	4096	2048	512	32	Sì
16x16x16	8192	4096	1024	64	N/D
16x16x24	12288	6144	1536	96	N/D

L'addestramento a una sola fetta è supportato per un massimo di 6144 chip. Puoi scalare fino a 18.432 chip utilizzando Multislice. Per saperne di più su Multislice, consulta la panoramica di Cloud TPU Multislice.

Utilizzo del parametro AcceleratorType

Quando allochi risorse TPU, utilizzi l'argomento --accelerator-type per specificare il numero di TensorCore in una sezione. --accelerator-type è una stringa formattata "v$VERSION_NUMBERp-$CORES_COUNT". Ad esempio, v5p-32 specifica una sezione TPU v5p con 32 TensorCore (16 chip).

Per eseguire il provisioning delle TPU per un job di addestramento v5p, utilizza uno dei seguenti tipi di acceleratore nella richiesta di creazione dell'API TPU o della CLI:

v5p-8
v5p-16
v5p-32
v5p-64
v5p-128 (un cubo/rack completo)
v5p-256 (2 cubi)
v5p-512
v5p-1024 ... v5p-12288

Il comando seguente crea uno slice TPU v5p con 256 TensorCore v5p (128 chip) per l'addestramento:

  $ gcloud compute tpus tpu-vm create your-tpu-name \
    --zone=us-east5-a \
    --accelerator-type=v5p-256 \
    --version=v2-alpha-tpuv5

Per saperne di più sulla gestione delle TPU, consulta Gestire le TPU. Per ulteriori informazioni sull'architettura di sistema di Cloud TPU, consulta la sezione Architettura di sistema.

Resilienza dell'ICI di Cloud TPU

La resilienza dell'ICI contribuisce a migliorare la tolleranza agli errori dei collegamenti ottici e degli switch di circuiti ottici (OCS) che collegano le TPU tra i cubi. (le connessioni ICI all'interno di un cubo utilizzano collegamenti in rame che non sono interessati). La resilienza ICI consente di instradare le connessioni ICI intorno a OCS e ai guasti ottici ICI. Di conseguenza, migliora la disponibilità di pianificazione degli slice TPU, con il compromesso di un peggioramento temporaneo delle prestazioni dell'ICI.

Analogamente a Cloud TPU v4, la resilienza ICI è abilitata per impostazione predefinita per le sezioni v5p che sono un cubo o più grandi:

v5p-128 quando specifichi il tipo di acceleratore
4x4x4 quando specifichi la configurazione dell'acceleratore

Proprietà di VM, host e slice

Proprietà	Valore di una TPU
Numero di chip v5p	4
Numero di vCPU	208 (solo la metà è utilizzabile se si utilizza il binding NUMA per evitare penalità di prestazioni cross-NUMA)
RAM (GB)	448 (solo la metà è utilizzabile se si utilizza il binding NUMA per evitare penalità di prestazioni cross-NUMA)
# of NUMA Nodes	2
Throughput NIC (Gbps)	200

Relazione tra il numero di Tensor Core, chip, host/VM e cubi in un pod:

	Core	Chip	Host/VM	Cubi
Organizzatore	8	4	1
Cube (aka rack)	128	64	16	1
Fetta più grande supportata	12288	6144	1536	96
v5p full Pod	17920	8960	2240	140