TPU v5p

In diesem Dokument werden die Architektur und die unterstützten Konfigurationen von Cloud TPU v5p.

Systemarchitektur

In diesem Abschnitt wird die Systemarchitektur der v5p-Version beschrieben. Jedes TensorCore hat vier Matrix Multiply Units (MXU), eine Vektoreinheit und einen Skalar Einheit.

Ein einzelner v5p-Pod enthält 8.960 Chips. Der größte Job, der geplant werden kann, ist ein Job mit 96 Würfeln (6.144 Chips).

In der folgenden Tabelle sind die wichtigsten Spezifikationen für eine v5p-Datei aufgeführt.

Wichtige Spezifikationen V5p-Werte
Spitzenwert der Rechenleistung pro Chip (bf16) 459 TFLOPs
HBM2e-Kapazität und ‑Bandbreite 95 GB, 2.765 GB/s
TPU-Pod-Größe 8.960 Chips
Interconnect-Topologie 3D-Torus *
Interchip-Interconnect-BW 4.800 Gbit/s

Konfigurationen

Ein TPU v5p-Pod besteht aus 8.960 Chips, die über rekonfigurierbare Hochgeschwindigkeits-Links miteinander verbunden sind. Dank des flexiblen Netzwerks von TPU v5p können Sie Chips in einem Stück gleicher Größe auf mehrere Arten. Wenn Sie ein TPU-Speicher-Slice mit dem Befehl gcloud compute tpus tpu-vm create erstellen, geben Sie den Typ und die Form mit den Parametern AcceleratorType oder AcceleratorConfig an.

In der folgenden Tabelle sehen Sie die gängigsten Single-Slice-Formen, die in v5p unterstützt werden, plus die meisten (aber nicht alle) volle Würfelformen größer als 1 Würfel. Die maximale v5p-Form ist 16 × 16 × 24 (6.144 Chips, 96 Würfel).

Segmentform VM-Größe Anzahl der Kerne # Chips Anzahl der Maschinen Anzahl Würfel Unterstützt Twisted?
2x2x1 Vollständiger Host 8 4 1
2x2x2 Vollständiger Host 16 8 2
2x4x4 Vollständiger Host 64 32 8
4x4x4 Vollständiger Host 128 64 16 1
4x4x8 Vollständiger Host 256 128 32 2 Ja
4x8x8 Vollständiger Host 512 256 64 4 Ja
8x8x8 Vollständiger Host 1.024 512 128 8
8x8x16 Vollständiger Host 2.048 1.024 256 16 Ja
8x16x16 Vollständiger Host 4.096 2.048 512 32 Ja
16×16×16 Vollständiger Host 8.192 4.096 1.024 64
16x16x24 Vollständiger Host 12.288 6144 1.536 96

Das Training mit einer einzelnen Spule wird für bis zu 6.144 Chips unterstützt. Erweiterbar mit „Multislice“ auf 18.432 Chips um. Weitere Informationen zu Multislice finden Sie im Überblick über Cloud TPU-Multislice.

AcceleratorType-Parameter verwenden

Wenn Sie TPU-Ressourcen zuweisen, verwenden Sie das Argument --accelerator-type für und geben die Anzahl der TensorCores in einem Slice an. --accelerator-type ist ein formatierter String: „v$VERSION_NUMBERp-$CORES_COUNT“. v5p-32 gibt beispielsweise ein TPU-Segment vom Typ v5p mit 32 TensorCores (16 Chips) an.

Wenn Sie TPUs für einen v5p-Trainingsjob bereitstellen möchten, verwenden Sie in Ihrer CLI oder TPU API-Erstellungsanfrage einen der folgenden Beschleunigertypen:

  • v5p-8
  • v5p–16
  • V5p–32
  • v5p–64
  • v5p-128 (ein vollständiger Würfel/Rack)
  • v5p-256 (2 Würfel)
  • v5p-512
  • v5p-1024…v5p-12288

Parameter „AcceleratorConfig“ verwenden

Für Cloud TPU-Versionen ab v5p wird AcceleratorConfig ähnlich wie bei Cloud TPU v4 verwendet. Der Unterschied besteht darin, dass Sie den TPU-Typ nicht als --type=v4 angeben, sondern als die von Ihnen verwendete TPU-Version (z. B. --type=v5p für die v5p-Version).

Ausfallsicherheit von Cloud TPU ICI

Ausfallsicherheit von ICI verbessert die Fehlertoleranz optischer Verbindungen Optical Circuit Switches (OCS), die TPUs zwischen Cubes verbinden. ICI-Verbindungen innerhalb eines Cubes verwenden Kupferverbindungen, die nicht betroffen sind. Dank der ICI-Resilienz können ICI-Verbindungen um OCS und optische ICI herum weitergeleitet werden Störungen. Dadurch wird die Planungsverfügbarkeit von TPU-Scheiben verbessert, was jedoch zu einer vorübergehenden Beeinträchtigung der ICI-Leistung führt.

Ähnlich wie bei Cloud TPU v4 ist ICI-Robustheit standardmäßig aktiviert für V5p-Slices, die mindestens einen Cube sind:

  • v5p-128 beim Angeben des Beschleunigertyps
  • 4x4x4 beim Angeben der Beschleunigerkonfiguration

VM-, Host- und Sliver-Attribute

Attribut Wert in einer TPU
Anzahl der v5p-Chips 4
Anzahl der vCPUs 208 (bei Verwendung der NUMA-Bindung nur die Hälfte nutzbar, um Leistungseinbußen bei NUMA-übergreifenden Vorgängen zu vermeiden)
RAM (GB) 448 (bei Verwendung einer NUMA-Bindung kann nur die Hälfte verwendet werden, um Leistungseinbußen bei NUMA-übergreifenden Werten zu vermeiden)
Anzahl der NUMA-Knoten 2
NIC-Durchsatz (Gbit/s) 200

Beziehung zwischen der Anzahl der TensorCores, Chips, Hosts/VMs und Cubes in einem Pod:

Kerne Chips Hosts/VMs Würfel
Moderator:in 8 4 1
Cube (auch Rack) 128 64 16 1
Größtes unterstütztes Segment 12.288 6144 1.536 96
Vollständiger v5p-Pod 17920 8960 2240 140