TPU v5p

Ce document décrit l'architecture et les configurations prises en charge de Cloud TPU v5p.

Architecture du système

Cette section décrit l'architecture du système spécifique à la version v5p. Chaque TensorCore comporte quatre unités matricielles (MXU), une unité vectorielle et une unité scalaire bloc d'annonces.

Un pod v5p contient 8 960 puces. La plus grande tâche pouvant être planifiée est un job de 96 cubes (6144 puces).

Le tableau suivant présente les principales caractéristiques techniques de v5p.

Caractéristiques clés Valeurs v5p
Pic de calcul par puce (bf16) 459 TFLOP
Capacité et bande passante HBM2e 95 Go, 2 765 Go/s
Taille du pod TPU 8960 puces
Topologie d'interconnexion Torus 3D *
Interchip Interconnect BW 4 800 Gbit/s

Configurations

Un pod TPU v5p est composé de 8 960 puces interconnectées avec des configurations les liaisons à haut débit. La mise en réseau flexible du TPU v5p vous permet de connecter des chips dans une tranche de la même taille de plusieurs manières. Lorsque vous créez une tranche TPU à l'aide de la commande gcloud compute tpus tpu-vm create, spécifiez son type et sa forme à l'aide de AcceleratorType ; ou AcceleratorConfig.

Le tableau suivant présente les formes à tranche unique les plus courantes compatibles avec v5p, plus la plupart (mais pas toutes) des formes de cubes entiers supérieures à un cube. Forme v5p maximale : 16 x 16 x 24 (6144 chips, 96 cubes).

Forme de tranche Taille de la VM Nombre de cœurs # chips Nombre de machines Nombre de cubes Compatible avec Twisted ?
2x2x1 Hôte complet 8 4 1 ND ND
2x2x2 Hôte complet 16 8 2 N/A ND
2x4x4 Hôte complet 64 32 8 ND ND
4x4x4 Hôte complet 128 64 16 1 ND
4x4x8 Hôte complet 256 128 32 2 Oui
4x8x8 Hôte complet 512 256 64 4 Oui
8x8x8 Hôte complet 1 024 512 128 8 ND
8x8x16 Hôte complet 2 048 1 024 256 16 Oui
8x16x16 Hôte complet 4 096 2 048 512 32 Oui
16x16x16 Hôte complet 8 192 4 096 1 024 64 ND
16x16x24 Hôte complet 12 288 6144 1536 96 ND

L'entraînement sur une seule tranche est compatible avec un maximum de 6 144 puces. Extensible à 18 432 puces à l'aide de la multitranche. Pour en savoir plus sur les multitranches, consultez la page Présentation des tranches multitranches Cloud TPU.

Utiliser le paramètre AcceleratorType

Lorsque vous allouez des ressources TPU, vous utilisez l'argument --accelerator-type pour spécifie le nombre de TensorCores dans une tranche. --accelerator-type correspond à une chaîne formatée "v$VERSION_NUMBERp-$CORES_COUNT". Par exemple, v5p-32 spécifie une tranche de TPU v5p avec 32 TensorCores (16 puces).

Pour provisionner des TPU pour une tâche d'entraînement v5p, utilisez l'une des méthodes suivantes : types d'accélérateurs dans votre requête de création de CLI ou d'API TPU:

  • V5p-8
  • V5p-16
  • V5p-32
  • V5p-64
  • v5p-128 (un bac ou un rack entier)
  • v5p-256 (2 cubes)
  • V5P-512
  • v5p-1024 ... v5p-12288

Utiliser le paramètre AcceleratorConfig

Pour les versions Cloud TPU v5p et ultérieures, AcceleratorConfig est utilisé de la même façon qu'avec Cloud TPU v4. La différence est qu'au lieu de spécifier le type de TPU en tant que --type=v4, vous le spécifiez en tant que la version de TPU que vous utilisez (par exemple, --type=v5p pour la version v5p) ;

Résilience ICI de Cloud TPU

La résilience ICI permet d'améliorer la tolérance aux pannes des liens optiques Commutateurs de circuits optiques (OCS) qui connectent des TPU entre des cubes. (Les connexions ICI dans un cube utilisent des liens en cuivre non affectés.) La résilience ICI permet de router les connexions ICI autour de l'OCS et de l'ICI optique. et des erreurs. Par conséquent, elle améliore la disponibilité de la programmation pour les TPU et les segments d'application, en contrepartie d'une dégradation temporaire des performances des ICI.

Comme pour Cloud TPU v4, la résilience ICI est activée par défaut. Pour les tranches v5p d'un cube ou plus:

  • v5p-128 lorsque vous spécifiez le type d'accélérateur
  • 4x4x4 lors de la spécification de la configuration de l'accélérateur

Propriétés de VM, d'hôte et de tranche

Propriété Valeur d'un TPU
Nombre de chips v5p 4
Nombre de vCPU 208 (seule la moitié est utilisable en cas de liaison NUMA pour éviter toute perte de performances entre NUMA)
RAM (Go) 448 (seule la moitié est utilisable en cas de liaison NUMA pour éviter une pénalité de performances entre NUMA)
Nombre de nœuds sur NUMA 2
Débit de la carte d'interface réseau (Gbit/s) 200

Relation entre le nombre de TensorCores, de chips, d'hôtes/VM et cubes dans un pod:

Cœurs Microprocesseurs Hôtes/VM Cubes
Organisateur 8 4 1
Cube (portant) 128 64 16 1
Plus grande tranche compatible 12 288 6144 1536 96
Pod v5p complet 17920 8960 2240 140