TPU v5p
In diesem Dokument werden die Architektur und die unterstützten Konfigurationen von Cloud TPU v5p beschrieben.
Systemarchitektur
In diesem Abschnitt wird die Systemarchitektur beschrieben, die speziell für die Version 5p gilt. Jedes TensorCore hat vier Matrix Multiply Units (MXU), eine Vektoreinheit und einen Skalar Einheit.
Ein einzelner v5p-Pod enthält 8.960 Chips. Der größte Job, der geplant werden kann ein Job mit 96 Würfen (6144 Chips).
In der folgenden Tabelle sind die wichtigsten Spezifikationen für eine v5p aufgeführt.
Wichtige technische Daten | v5p-Werte |
---|---|
Spitzenwert der Verarbeitung pro Chip (bf16) | 459 TFLOPs |
HBM2e-Kapazität und ‑Bandbreite | 95 GB, 2.765 GB/s |
TPU-Pod-Größe | 8960-Chips |
Interconnect-Topologie | 3D-Torus * |
Interchip Interconnect BW | 4.800 Gbit/s |
Konfigurationen
Ein TPU v5p-Pod besteht aus 8.960 Chips, die miteinander verbunden sind.
Hochgeschwindigkeits-Links. Dank des flexiblen Netzwerks von TPU v5p können Sie
Chips in einem Stück gleicher Größe auf mehrere Arten. Wenn Sie ein TPU-Slice erstellen
Mit dem Befehl gcloud compute tpus tpu-vm create
, den Sie angeben
Typ und Form mithilfe der AcceleratorType
oder AcceleratorConfig
-Parameter.
In der folgenden Tabelle sind die gängigsten Formen mit einer einzelnen Scheibe aufgeführt, die mit v5p unterstützt werden, sowie die meisten (aber nicht alle) Formen mit mehreren Würfeln. Die maximale V5P-Form ist 16 × 16 × 24 Pixel groß. (6.144 Chips, 96 Würfel).
Segmentform | VM-Größe | # Kerne | # Chips | Anzahl der Maschinen | Anzahl der Würfel | Unterstützt Twisted? |
2x2x1 | Vollständiger Host | 8 | 4 | 1 | – | – |
2x2x2 | Vollständiger Host | 16 | 8 | 2 | – | – |
2x4x4 | Vollständiger Host | 64 | 32 | 8 | – | – |
4x4x4 | Vollständiger Host | 128 | 64 | 16 | 1 | – |
4x4x8 | Vollständiger Host | 256 | 128 | 32 | 2 | Ja |
4x8x8 | Vollständiger Host | 512 | 256 | 64 | 4 | Ja |
8 × 8 × 8 | Vollständiger Host | 1.024 | 512 | 128 | 8 | – |
8x8x16 | Vollständiger Host | 2.048 | 1.024 | 256 | 16 | Ja |
8x16x16 | Vollständiger Host | 4.096 | 2.048 | 512 | 32 | Ja |
16×16×16 | Vollständiger Host | 8.192 | 4.096 | 1.024 | 64 | – |
16x16x24 | Vollständiger Host | 12.288 | 6144 | 1.536 | 96 | – |
Das Training in einem einzelnen Segment wird für bis zu 6.144 Chips unterstützt. Erweiterbar mit „Multislice“ auf 18.432 Chips um. Weitere Informationen zu Multislice finden Sie im Überblick über Cloud TPU-Multislice.
Parameter „AcceleratorType“ verwenden
Wenn Sie TPU-Ressourcen zuweisen, geben Sie mit dem Argument --accelerator-type
die Anzahl der TensorCores in einem Slice an. --accelerator-type
ist ein formatierter String: „v$VERSION_NUMBER
p-$CORES_COUNT
“.
v5p-32
gibt beispielsweise ein TPU-Segment vom Typ v5p mit 32 TensorCores (16 Chips) an.
Wenn Sie TPUs für einen v5p-Trainingsjob bereitstellen möchten, verwenden Sie in Ihrer CLI oder TPU API-Erstellungsanfrage einen der folgenden Beschleunigertypen:
- v5p-8
- v5p-16
- V5p–32
- v5p-64
- v5p-128 (ein vollständiger Würfel/Rack)
- v5p-256 (2 Cubes)
- v5p-512
- v5p-1024 ... v5p-12288
Parameter „AcceleratorConfig“ verwenden
Für Cloud TPU-Versionen ab v5p wird AcceleratorConfig ähnlich wie bei Cloud TPU v4 verwendet. Der Unterschied besteht darin, dass Sie den TPU-Typ nicht als --type=v4
angeben, sondern als die von Ihnen verwendete TPU-Version (z. B. --type=v5p
für die v5p-Version).
Ausfallsicherheit von Cloud TPU ICI
Die ICI-Resilienz trägt dazu bei, die Fehlertoleranz optischer Verbindungen und optischer Schalter (Optical Circuit Switches, OCS) zu verbessern, die TPUs zwischen den Würfeln verbinden. ICI-Verbindungen innerhalb eines Cubes verwenden Kupferverbindungen, die nicht betroffen sind. Durch die ICI-Ausfallsicherheit können ICI-Verbindungen um OCS- und optische ICI-Fehler herumgeleitet werden. Dadurch wird die Planungsverfügbarkeit von TPU-Scheiben verbessert, was jedoch zu einer vorübergehenden Beeinträchtigung der ICI-Leistung führt.
Ähnlich wie bei Cloud TPU v4 ist ICI-Robustheit standardmäßig aktiviert für V5p-Slices, die mindestens einen Cube sind:
- v5p-128 bei Angabe des Beschleunigertyps
- 4x4x4 bei Angabe der Beschleunigerkonfiguration
VM-, Host- und Sliver-Attribute
Attribut | Wert einer TPU |
Anzahl der v5p-Chips | 4 |
Anzahl der vCPUs | 208 (bei Verwendung einer NUMA-Bindung kann nur die Hälfte verwendet werden, um Leistungseinbußen bei NUMA-übergreifenden Werten zu vermeiden) |
RAM (GB) | 448 (bei Verwendung der NUMA-Bindung ist nur die Hälfte nutzbar, um Leistungseinbußen bei NUMA-übergreifenden Vorgängen zu vermeiden) |
Anzahl der NUMA-Knoten | 2 |
NIC-Durchsatz (Gbit/s) | 200 |
Beziehung zwischen der Anzahl der TensorCores, Chips, Hosts/VMs und Cubes in einem Pod:
Kerne | Chips | Hosts/VMs | Würfel | |
---|---|---|---|---|
Moderator:in | 8 | 4 | 1 | |
Cube (auch Rack) | 128 | 64 | 16 | 1 |
Größtes unterstütztes Segment | 12.288 | 6144 | 1.536 | 96 |
v5p-Voll-Pod | 17920 | 8960 | 2240 | 140 |