Cette page a été traduite par l'API Cloud Translation.

TPU v5p

Ce document décrit l'architecture et les configurations compatibles de Cloud TPU v5p.

Architecture du système

Cette section décrit l'architecture système spécifique à la version v5p. Chaque TensorCore comporte quatre unités de multiplication de matrices (MXU), une unité vectorielle et une unité scalaire.

Un pod v5p contient 8 960 puces. La plus grande tâche pouvant être planifiée est une tâche de 96 cubes (6 144 chips).

Le tableau suivant présente les principales spécifications d'un v5p.

Principales caractéristiques	Valeurs v5p
Calcul de pointe par puce (bf16)	459 TFLOPS
Capacité et bande passante de la mémoire HBM2e	95 Go, 2 765 Gbit/s
Taille du pod TPU	8 960 chips
Topologie d'interconnexion	Torus 3D *
Bande passante de l'interconnexion entre puces	4 800 Gbit/s

Configurations

Un pod TPU v5p est composé de 8 960 puces interconnectées par des liaisons haut débit reconfigurables. La connectivité flexible du TPU v5p vous permet de connecter les puces d'une tranche de même taille de plusieurs manières. Lorsque vous créez une tranche TPU à l'aide de la commande gcloud compute tpus tpu-vm create, vous spécifiez son type et sa forme à l'aide des paramètres AcceleratorType ou AcceleratorConfig.

Le tableau suivant présente les formes à une seule tranche les plus courantes compatibles avec la version 5p, ainsi que la plupart (mais pas toutes) des formes de cube complet de plus d'un cube. La forme maximale de la v5p est 16x16x24 (6 144 chips, 96 cubes).

Forme de la tranche	Taille de la VM	# Cœurs	# Chips	Nombre de machines	Nombre de cubes	Compatible avec Twisted ?
2x2x1	Hôte complet	8	4	1	ND	ND
2x2x2	Hôte complet	16	8	2	N/A	ND
2x4x4	Hôte complet	64	32	8	ND	ND
4x4x4	Hôte complet	128	64	16	1	ND
4x4x8	Hôte complet	256	128	32	2	Oui
4x8x8	Hôte complet	512	256	64	4	Oui
8x8x8	Hôte complet	1 024	512	128	8	ND
8x8x16	Hôte complet	2 048	1 024	256	16	Oui
8x16x16	Hôte complet	4096	2 048	512	32	Oui
16x16x16	Hôte complet	8 192	4096	1 024	64	ND
16x16x24	Hôte complet	12 288	6144	1536	96	ND

L'entraînement à une seule tranche est compatible avec jusqu'à 6 144 puces. Il peut être étendu à 18 432 chips à l'aide de Multislice. Pour en savoir plus sur Multislice, consultez la présentation de Multislice Cloud TPU.

Utiliser le paramètre AcceleratorType

Lorsque vous allouez des ressources TPU, vous utilisez l'argument --accelerator-type pour spécifier le nombre de TensorCores dans une tranche. --accelerator-type est une chaîne formatée "v$VERSION_NUMBERp-$CORES_COUNT". Par exemple, v5p-32 spécifie une tranche TPU v5p avec 32 TensorCores (16 puces).

Pour provisionner des TPU pour une tâche d'entraînement v5p, utilisez l'un des types d'accélérateurs suivants dans votre demande de création de CLI ou d'API TPU:

v5p-8
v5p-16
v5p-32
v5p-64
v5p-128 (un cube/rack complet)
v5p-256 (2 cubes)
v5p-512
v5p-1024 ... v5p-12288

Utiliser le paramètre AcceleratorConfig

Pour les versions v5p et ultérieures de Cloud TPU, AcceleratorConfig est utilisé de la même manière qu'avec Cloud TPU v4. La différence est qu'au lieu de spécifier le type de TPU en tant que --type=v4, vous le spécifiez en tant que version de TPU que vous utilisez (par exemple, --type=v5p pour la version v5p).

Résilience des ICI Cloud TPU

La résilience ICI permet d'améliorer la tolérance aux pannes des liaisons optiques et des commutateurs de circuits optiques (OCS) qui connectent les TPU entre les cubes. (les connexions ICI au sein d'un cube utilisent des liaisons en cuivre qui ne sont pas affectées). La résilience ICI permet de contourner les défaillances de l'OCS et de l'ICI optique. Par conséquent, il améliore la disponibilité de planification des tranches de TPU, avec le compromis d'une dégradation temporaire des performances de l'ICI.

Comme pour Cloud TPU v4, la résilience ICI est activée par défaut pour les tranches v5p d'un cube ou plus:

v5p-128 lorsque vous spécifiez le type d'accélérateur
4x4x4 lors de la spécification de la configuration de l'accélérateur

Propriétés de la VM, de l'hôte et de la tranche

Propriété	Valeur d'un TPU
Nombre de puces v5p	4
Nombre de vCPU	208 (seulement la moitié est utilisable si vous utilisez la liaison NUMA pour éviter les pénalités de performances entre NUMA)
RAM (Go)	448 (seulement la moitié est utilisable si vous utilisez la liaison NUMA pour éviter les pénalités de performances entre NUMA)
Nombre de nœuds NUMA	2
Débit de la carte réseau (Gbit/s)	200

Relation entre le nombre de TensorCores, de puces, d'hôtes/VM et de cubes dans un pod:

	Cœurs	Microprocesseurs	Hôtes/VM	Cubes
Organisateur	8	4	1
Cube (ou rack)	128	64	16	1
Tranche la plus grande compatible	12 288	6144	1536	96
Pod complet v5p	17920	8960	2240	140