TPU v5p
Ce document décrit l'architecture et les configurations compatibles de Cloud TPU v5p.
Architecture du système
Cette section décrit l'architecture système spécifique à la version v5p. Chaque TensorCore comporte quatre unités de multiplication de matrices (MXU), une unité vectorielle et une unité scalaire.
Une seule tranche v5p contient 8 960 puces. La plus grande tâche pouvant être planifiée est une tâche de 96 cubes (6 144 chips).
Le tableau suivant présente les principales spécifications d'un v5p.
Principales caractéristiques | Valeurs v5p |
---|---|
Calcul de pointe par puce (bf16) | 459 TFLOPS |
Capacité et bande passante de la mémoire HBM2e | 95 Go, 2 765 Gbit/s |
Taille du pod TPU | 8 960 chips |
Topologie d'interconnexion | Torus 3D * |
Bande passante de l'interconnexion entre puces | 4 800 Gbit/s |
Configurations
Un pod TPU v5p est composé de 8 960 puces interconnectées par des liaisons haut débit reconfigurables. La flexibilité du réseau TPU v5p vous permet de connecter les puces d'une tranche de même taille de différentes manières. Lorsque vous créez une tranche TPU à l'aide de la commande gcloud compute tpus tpu-vm create
, vous spécifiez son type et sa forme à l'aide du paramètre AcceleratorType
.
Le tableau suivant présente les formes à une seule tranche les plus courantes compatibles avec v5p, ainsi que la plupart (mais pas toutes) des formes de cube complet de plus d'un cube. La forme maximale de v5p est 16x16x24 (6 144 chips, 96 cubes).
Topology | Cœurs | Chips | Hôtes | Cubes | Compatible avec Twisted ? |
2x2x1 | 8 | 4 | 1 | N/A | N/A |
2x2x2 | 16 | 8 | 2 | N/A | N/A |
2x4x4 | 64 | 32 | 8 | N/A | N/A |
4x4x4 | 128 | 64 | 16 | 1 | N/A |
4x4x8 | 256 | 128 | 32 | 2 | Oui |
4x8x8 | 512 | 256 | 64 | 4 | Oui |
8x8x8 | 1 024 | 512 | 128 | 8 | N/A |
8x8x16 | 2 048 | 1 024 | 256 | 16 | Oui |
8x16x16 | 4096 | 2 048 | 512 | 32 | Oui |
16x16x16 | 8 192 | 4096 | 1 024 | 64 | N/A |
16x16x24 | 12 288 | 6144 | 1536 | 96 | N/A |
L'entraînement à une seule tranche est compatible avec jusqu'à 6 144 puces. Vous pouvez faire évoluer votre système jusqu'à 18 432 puces à l'aide de Multislice. Pour en savoir plus sur la multislice, consultez la présentation de la multislice Cloud TPU.
Utiliser le paramètre AcceleratorType
Lorsque vous allouez des ressources TPU, vous utilisez l'argument --accelerator-type
pour spécifier le nombre de TensorCores dans une tranche. --accelerator-type
est une chaîne formatée "v$VERSION_NUMBER
p-$CORES_COUNT
".
Par exemple, v5p-32
spécifie une tranche TPU v5p avec 32 TensorCores (16 puces).
Pour provisionner des TPU pour une tâche d'entraînement v5p, utilisez l'un des types d'accélérateurs suivants dans votre requête de création de CLI ou d'API TPU:
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128 (un cube/rack complet)
- v5p-256 (2 cubes)
- v5p-512
- v5p-1024 ... v5p-12288
La commande suivante crée une tranche TPU v5p avec 256 puces v5p pour l'entraînement:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-east5-a \ --accelerator-type=v5p-256 \ --version=v2-alpha-tpuv5
Pour en savoir plus sur la gestion des TPU, consultez Gérer les TPU. Pour en savoir plus sur l'architecture système de Cloud TPU, consultez la page Architecture du système.
Résilience des ICI Cloud TPU
La résilience ICI permet d'améliorer la tolérance aux pannes des liaisons optiques et des commutateurs de circuits optiques (OCS) qui connectent les TPU entre les cubes. (les connexions ICI au sein d'un cube utilisent des liaisons en cuivre qui ne sont pas affectées). La résilience ICI permet de rediriger les connexions ICI autour des OCS et des pannes ICI optiques. Par conséquent, il améliore la disponibilité de planification des tranches TPU, avec un compromis de dégradation temporaire des performances de l'ICI.
Comme pour Cloud TPU v4, la résilience ICI est activée par défaut pour les tranches v5p d'un cube ou plus:
- v5p-128 lorsque vous spécifiez le type d'accélérateur
- 4x4x4 lors de la spécification de la configuration de l'accélérateur
Propriétés de la VM, de l'hôte et de la tranche
Propriété | Valeur d'un TPU |
Nombre de puces v5p | 4 |
Nombre de vCPU | 208 (seulement la moitié est utilisable si vous utilisez la liaison NUMA pour éviter les pénalités de performances entre NUMA) |
RAM (Go) | 448 (seulement la moitié est utilisable si vous utilisez la liaison NUMA pour éviter les pénalités de performances entre NUMA) |
Nombre de nœuds NUMA | 2 |
Débit de la carte réseau (Gbit/s) | 200 |
Relation entre le nombre de TensorCores, de puces, d'hôtes/VM et de cubes dans un pod:
Cœurs | Microprocesseurs | Hôtes/VM | Cubes | |
---|---|---|---|---|
Organisateur | 8 | 4 | 1 | |
Cube (ou rack) | 128 | 64 | 16 | 1 |
Tranche la plus grande compatible | 12 288 | 6144 | 1536 | 96 |
Pod complet v5p | 17920 | 8960 | 2240 | 140 |