TPU v5p
Ce document décrit l'architecture et les configurations compatibles de Cloud TPU v5p.
Architecture du système
Cette section décrit l'architecture du système spécifique à la version v5p. Chaque TensorCore comporte quatre unités matricielles (MXU), une unité vectorielle et une unité scalaire bloc d'annonces.
Un pod v5p contient 8 960 puces. La plus grande tâche pouvant être planifiée est un job de 96 cubes (6144 puces).
Le tableau suivant présente les principales spécifications d'un v5p.
Principales caractéristiques | Valeurs v5p |
---|---|
Pic de calcul par puce (bf16) | 459 TFLOP |
Capacité et bande passante de la mémoire HBM2e | 95 Go, 2 765 Go/s |
Taille du pod TPU | 8960 puces |
Topologie d'interconnexion | Torus 3D * |
Interchip Interconnect BW | 4 800 Gbit/s |
Configurations
Un pod TPU v5p est composé de 8 960 puces interconnectées avec des configurations
les liaisons à haut débit. La connectivité flexible du TPU v5p vous permet de connecter les puces d'une tranche de même taille de plusieurs manières. Lorsque vous créez une tranche TPU
à l'aide de la commande gcloud compute tpus tpu-vm create
, spécifiez
son type et sa forme à l'aide de AcceleratorType
;
ou AcceleratorConfig
.
Le tableau suivant présente les formes à tranche unique les plus courantes compatibles avec v5p, plus la plupart (mais pas toutes) des formes de cubes entiers supérieures à un cube. La forme maximale de la v5p est 16x16x24 (6 144 chips, 96 cubes).
Forme de la tranche | Taille de la VM | # Cœurs | # Chips | Nombre de machines | Nombre de cubes | Compatible avec Twisted ? |
2x2x1 | Hôte complet | 8 | 4 | 1 | ND | ND |
2x2x2 | Hôte complet | 16 | 8 | 2 | N/A | ND |
2x4x4 | Hôte complet | 64 | 32 | 8 | ND | ND |
4x4x4 | Hôte complet | 128 | 64 | 16 | 1 | ND |
4x4x8 | Hôte complet | 256 | 128 | 32 | 2 | Oui |
4x8x8 | Hôte complet | 512 | 256 | 64 | 4 | Oui |
8x8x8 | Hôte complet | 1 024 | 512 | 128 | 8 | ND |
8x8x16 | Hôte complet | 2 048 | 1 024 | 256 | 16 | Oui |
8x16x16 | Hôte complet | 4 096 | 2 048 | 512 | 32 | Oui |
16x16x16 | Hôte complet | 8 192 | 4 096 | 1 024 | 64 | ND |
16x16x24 | Hôte complet | 12 288 | 6144 | 1536 | 96 | ND |
L'entraînement à une seule tranche est compatible avec jusqu'à 6 144 puces. Il peut être étendu à 18 432 chips à l'aide de Multislice. Pour en savoir plus sur Multislice, consultez la présentation de Multislice Cloud TPU.
Utiliser le paramètre AcceleratorType
Lorsque vous allouez des ressources TPU, vous utilisez l'argument --accelerator-type
pour spécifier le nombre de TensorCores dans une tranche. --accelerator-type
est une chaîne formatée "v$VERSION_NUMBER
p-$CORES_COUNT
".
Par exemple, v5p-32
spécifie une tranche TPU v5p avec 32 TensorCores (16 puces).
Pour provisionner des TPU pour une tâche d'entraînement v5p, utilisez l'une des méthodes suivantes : types d'accélérateurs dans votre requête de création de CLI ou d'API TPU:
- v5p-8
- v5p-16
- v5p-32
- V5p-64
- v5p-128 (un bac ou un rack entier)
- v5p-256 (2 cubes)
- v5p-512
- v5p-1024 ... v5p-12288
Utiliser le paramètre AcceleratorConfig
Pour les versions Cloud TPU v5p et ultérieures, AcceleratorConfig
est utilisé de la même façon qu'avec Cloud TPU v4.
La différence est
qu'au lieu de spécifier le type de TPU en tant que --type=v4
, vous le spécifiez en tant que
la version de TPU que vous utilisez (par exemple, --type=v5p
pour la version v5p) ;
Résilience ICI de Cloud TPU
La résilience ICI permet d'améliorer la tolérance aux pannes des liens optiques Commutateurs de circuits optiques (OCS) qui connectent des TPU entre des cubes. (les connexions ICI au sein d'un cube utilisent des liaisons en cuivre qui ne sont pas affectées). La résilience ICI permet de contourner les défaillances de l'OCS et de l'ICI optique. Par conséquent, elle améliore la disponibilité de la programmation pour les TPU et les segments d'application, en contrepartie d'une dégradation temporaire des performances des ICI.
Comme pour Cloud TPU v4, la résilience ICI est activée par défaut pour les tranches v5p d'un cube ou plus :
- v5p-128 lorsque vous spécifiez le type d'accélérateur
- 4x4x4 lors de la spécification de la configuration de l'accélérateur
Propriétés de VM, d'hôte et de tranche
Propriété | Valeur d'un TPU |
Nombre de chips v5p | 4 |
Nombre de vCPU | 208 (seule la moitié est utilisable en cas de liaison NUMA afin d'éviter une pénalité de performances entre NUMA) |
RAM (Go) | 448 (seulement la moitié est utilisable si vous utilisez la liaison NUMA pour éviter les pénalités de performances entre NUMA) |
Nombre de nœuds NUMA | 2 |
Débit de la carte réseau (Gbit/s) | 200 |
Relation entre le nombre de TensorCores, de puces, d'hôtes/VM et de cubes dans un pod :
Cœurs | Microprocesseurs | Hôtes/VM | Cubes | |
---|---|---|---|---|
Organisateur | 8 | 4 | 1 | |
Cube (ou rack) | 128 | 64 | 16 | 1 |
Plus grande tranche compatible | 12 288 | 6144 | 1536 | 96 |
Pod complet v5p | 17920 | 8960 | 2240 | 140 |