TPU v5p
In diesem Dokument werden die Architektur und die unterstützten Konfigurationen von Cloud TPU v5p beschrieben.
Systemarchitektur
In diesem Abschnitt wird die Systemarchitektur der v5p-Version beschrieben. Jeder TensorCore hat vier Matrix Multiply Units (MXU), eine Vektoreinheit und eine skalare Einheit.
Ein einzelner v5p-Pod enthält 8.960 Chips. Der größte Job, der geplant werden kann, ist ein Job mit 96 Cubes (6144 Chips).
In der folgenden Tabelle sind die wichtigsten Spezifikationen für eine v5p-Datei aufgeführt.
Wichtige Spezifikationen | v5p-Werte |
---|---|
Spitzenwert der Rechenleistung pro Chip (bf16) | 459 TFLOPs |
HBM2e-Kapazität und -Bandbreite | 95 GB, 2.765 GB/s |
TPU-Pod-Größe | 8960-Chips |
Interconnect-Topologie | 3D-Torus * |
Interchip Interconnect BW | 4.800 Gbit/s |
Konfigurationen
Ein TPU v5p-Pod besteht aus 8.960 Chips, die mit rekonfigurierbaren Hochgeschwindigkeitsverbindungen verbunden sind. Mit dem flexiblen Netzwerk von TPU v5p können Sie die Chips in einem Segment gleicher Größe auf mehrere Arten verbinden. Wenn Sie ein TPU-Slice mit dem Befehl gcloud compute tpus tpu-vm create
erstellen, geben Sie dessen Typ und Form mit den Parametern AcceleratorType
oder AcceleratorConfig
an.
Die folgende Tabelle zeigt die gängigsten von v5p unterstützten Einzelsegmentformen sowie die meisten (aber nicht alle) vollständigen Würfelformen, die größer als 1 Würfel sind. Die maximale v5p-Form beträgt 16 × 16 × 24 (6.144 Chips, 96 Würfel).
Segmentform | VM-Größe | Anzahl der Kerne | # Chips | Anzahl der Maschinen | Anzahl Würfel | Unterstützt Twisted? |
2x2x1 | Vollständiger Host | 8 | 4 | 1 | – | – |
2x2x2 | Vollständiger Host | 16 | 8 | 2 | – | – |
2x4x4 | Vollständiger Host | 64 | 32 | 8 | – | – |
4x4x4 | Vollständiger Host | 128 | 64 | 16 | 1 | – |
4x4x8 | Vollständiger Host | 256 | 128 | 32 | 2 | Yes |
4x8x8 | Vollständiger Host | 512 | 256 | 64 | 4 | Yes |
8x8x8 | Vollständiger Host | 1.024 | 512 | 128 | 8 | – |
8x8x16 | Vollständiger Host | 2.048 | 1.024 | 256 | 16 | Yes |
8x16x16 | Vollständiger Host | 4.096 | 2.048 | 512 | 32 | Yes |
16×16×16 | Vollständiger Host | 8.192 | 4.096 | 1.024 | 64 | – |
16×16×24 | Vollständiger Host | 12.288 | 6144 | 1.536 | 96 | – |
Das Training in einem einzelnen Segment wird für bis zu 6.144 Chips unterstützt. Er kann mit „Multislice“ auf 18432-Chips erweitert werden. Weitere Informationen finden Sie in der Übersicht zu Cloud TPU Multislice.
AcceleratorType-Parameter verwenden
Wenn Sie TPU-Ressourcen zuweisen, geben Sie mit dem Argument --accelerator-type
die Anzahl der TensorCores in einem Slice an. --accelerator-type
ist der formatierte String v$VERSION_NUMBER
p-$CORES_COUNT
.
Beispielsweise gibt v5p-32
ein v5p-TPU-Slice mit 32 TensorCores (16 Chips) an.
Verwenden Sie zum Bereitstellen von TPUs für einen v5p-Trainingsjob einen der folgenden Beschleunigertypen in Ihrer Anfrage zum Erstellen der Befehlszeile oder TPU API:
- v5p-8
- v5p–16
- v5p–32
- v5p–64
- v5p-128 (ein kompletter Cube/Rack)
- v5p-256 (2 Cubes)
- v5p-512
- v5p-1024 ... v5p-12288
Parameter „AcceleratorConfig“ verwenden
Bei Cloud TPU-Versionen ab v5p wird AcceleratorConfig fast genauso verwendet wie mit Cloud TPU v4. Der Unterschied besteht darin, dass Sie den TPU-Typ nicht als --type=v4
, sondern als die verwendete TPU-Version angeben (z. B. --type=v5p
für den v5p-Release).
Ausfallsicherheit von Cloud TPU ICI
Die ICI-Resilienz trägt dazu bei, die Fehlertoleranz von optischen Verbindungen und optischen Schaltkreisen (Optical Circuit Switches, OCS) zu verbessern, die TPUs zwischen Cubes verbinden. (ICI-Verbindungen innerhalb eines Cubes verwenden Kupferverbindungen, die nicht betroffen sind.) Dank der ICI-Resilienz können ICI-Verbindungen um OCS- und optische ICI-Fehler weitergeleitet werden. Dadurch wird die Planungsverfügbarkeit von TPU-Slices verbessert, aber die ICI-Leistung wird vorübergehend beeinträchtigt.
Ähnlich wie bei Cloud TPU v4 ist die ICI-Robustheit standardmäßig für v5p-Slices aktiviert, die mindestens einen Cube haben:
- v5p-128 beim Angeben des Beschleunigertyps
- 4x4x4 beim Angeben der Beschleunigerkonfiguration
VM-, Host- und Slice-Attribute
Attribut | Wert in einer TPU |
Anzahl der V5p-Chips | 4 |
Anzahl der vCPUs | 208 (bei Verwendung einer NUMA-Bindung kann nur die Hälfte verwendet werden, um Leistungseinbußen bei NUMA-übergreifenden Werten zu vermeiden) |
RAM (GB) | 448 (bei Verwendung einer NUMA-Bindung kann nur die Hälfte verwendet werden, um Leistungseinbußen bei NUMA-übergreifenden Werten zu vermeiden) |
Anzahl der NUMA-Knoten | 2 |
NIC-Durchsatz (Gbit/s) | 200 |
Beziehung zwischen der Anzahl der TensorCores, Chips, Hosts/VMs und Cubes in einem Pod:
Kerne | Chips | Hosts/VMs | Würfel | |
---|---|---|---|---|
Moderator:in | 8 | 4 | 1 | |
Cube (auch Rack) | 128 | 64 | 16 | 1 |
Größtes unterstütztes Segment | 12.288 | 6144 | 1.536 | 96 |
Vollständiger v5p-Pod | 17920 | 8960 | 2240 | 140 |