TPU v5p
Ce document décrit l'architecture et les configurations compatibles de Cloud TPU v5p.
Architecture du système
Cette section décrit l'architecture système spécifique à la version v5p. Chaque TensorCore comporte quatre unités de multiplication matricielle (MXU), une unité vectorielle et une unité scalaire.
Un seul pod v5p contient 8 960 puces. La plus grande tâche qui puisse être planifiée est une tâche de 96 cubes (6 144 chips).
Le tableau suivant présente les principales spécifications d'une version v5p.
Caractéristiques clés | Valeurs v5p |
---|---|
Pic de calcul par puce (bf16) | 459 TFLOPs |
Capacité et bande passante HBM2e | 95 Go, 2 765 Go/s |
Taille du pod TPU | 8 960 puces |
Topologie d'interconnexion | 3D Torus |
Interchip Interconnect BW | 4 800 Gbit/s |
Configurations
Un pod TPU v5p est composé de 8 960 puces interconnectées avec des liaisons à haut débit reconfigurables. La mise en réseau flexible de TPU v5p vous permet de connecter les puces d'une tranche de même taille de plusieurs manières. Lorsque vous créez une tranche TPU à l'aide de la commande gcloud compute tpus tpu-vm create
, vous spécifiez son type et sa forme à l'aide des paramètres AcceleratorType
ou AcceleratorConfig
.
Le tableau suivant présente les formes à tranche unique les plus courantes compatibles avec v5p, ainsi que la plupart (mais pas la totalité) des formes de cube complet supérieures à un cube. La forme v5p maximale est de 16 x 16 x 24 (6 144 chips, 96 cubes).
Forme des tranches | Taille de la VM | # cœurs | # chips | Nombre de machines | Nombre de cubes | Compatible avec Twisted ? |
2x2x1 | Hôte complet | 8 | 4 | 1 | Non disponible | Non disponible |
2x2x2 | Hôte complet | 16 | 8 | 2 | Non disponible | Non disponible |
2x4x4 | Hôte complet | 64 | 32 | 8 | Non disponible | Non disponible |
4x4x4 | Hôte complet | 128 | 64 | 16 | 1 | Non disponible |
4x4x8 | Hôte complet | 256 | 128 | 32 | 2 | Oui |
4x8x8 | Hôte complet | 512 | 256 | 64 | 4 | Oui |
8x8x8 | Hôte complet | 1 024 | 512 | 128 | 8 | Non disponible |
8x8x16 | Hôte complet | 2 048 | 1 024 | 256 | 16 | Oui |
8x16x16 | Hôte complet | 4 096 | 2 048 | 512 | 32 | Oui |
16x16x16 | Hôte complet | 8 192 | 4 096 | 1 024 | 64 | Non disponible |
16x16x24 | Hôte complet | 12 288 | 6144 | 1536 | 96 | Non disponible |
L'entraînement sur une seule tranche est compatible avec un maximum de 6 144 chips. Il est extensible jusqu'à 18 432 chips à l'aide de la fonctionnalité Multislice. Pour en savoir plus sur les multitranches, consultez la présentation de Cloud TPU en multitranche.
Utiliser le paramètre AcceleratorType
Lorsque vous allouez des ressources TPU, vous spécifiez le nombre de TensorCore dans une tranche à l'aide de l'argument --accelerator-type
. --accelerator-type
est une chaîne formatée "v$VERSION_NUMBER
p-$CORES_COUNT
".
Par exemple, v5p-32
spécifie une tranche TPU v5p comportant 32 TensorCore (16 puces).
Afin de provisionner des TPU pour une tâche d'entraînement v5p, utilisez l'un des types d'accélérateurs suivants dans votre CLI ou votre requête de création d'API TPU:
- V5P-8
- V5P-16
- V5P-32
- V5P-64
- v5p-128 (un cube/rack complet)
- v5p-256 (2 cubes)
- V5P-512
- v5p-1024 ... v5p-12288
Utiliser le paramètre AcceleratorConfig
Pour les versions v5p et ultérieures de Cloud TPU, AcceleratorConfig est utilisé de la même manière qu'avec Cloud TPU v4. La différence est qu'au lieu de spécifier le type de TPU sur --type=v4
, vous le spécifiez en tant que version de TPU que vous utilisez (par exemple, --type=v5p
pour la version v5p).
Résilience ICI Cloud TPU
La résilience ICI aide à améliorer la tolérance aux pannes des liaisons optiques et des commutateurs de circuit optique (OCS) qui connectent des TPU entre des cubes. (Les connexions ICI à l'intérieur d'un cube utilisent des maillons en cuivre qui ne sont pas affectés.) La résilience ICI permet aux connexions ICI d'être acheminées autour des défaillances OCS et optiques ICI. Par conséquent, il améliore la disponibilité de la planification des tranches de TPU, en contrepartie d'une dégradation temporaire des performances d'ICI.
Comme pour Cloud TPU v4, la résilience ICI est activée par défaut pour les tranches v5p d'un cube ou plus:
- v5p-128 lors de la spécification du type d'accélérateur
- 4 x 4 x 4 lors de la spécification de la configuration de l'accélérateur
Propriétés de VM, d'hôte et de tranche
Propriété | Valeur dans un TPU |
Nombre de chips v5p | 4 |
Nombre de vCPU | 208 (seule la moitié est utilisable si vous utilisez la liaison NUMA pour éviter une pénalité de performances entre NUMA) |
RAM (Go) | 448 (seule la moitié est utilisable si vous utilisez la liaison NUMA pour éviter une pénalité de performances entre NUMA) |
Nombre de nœuds NUMA | 2 |
Débit de la carte d'interface réseau (Gbit/s) | 200 |
Relation entre le nombre de TensorCore, de puces, d'hôtes/VM et de cubes dans un pod:
Cœurs | Microprocesseurs | Hôtes/VM | Cubes | |
---|---|---|---|---|
Organisateur | 8 | 4 | 1 | |
Cube | 128 | 64 | 16 | 1 |
Plus grande tranche compatible | 12 288 | 6144 | 1536 | 96 |
Pod v5p complet | 17920 | 8960 | 2240 | 140 |