Diese Seite wurde von der Cloud Translation API übersetzt.

TPU v5p

In diesem Dokument werden die Architektur und die unterstützten Konfigurationen von Cloud TPU v5p beschrieben.

Systemarchitektur

In diesem Abschnitt wird die Systemarchitektur beschrieben, die speziell für die Version 5p gilt. Jeder TensorCore hat vier Matrix Multiply Units (MXU), eine Vektoreinheit und eine Skalareinheit.

Ein einzelner v5p-Pod enthält 8.960 Chips. Der größte Job, der geplant werden kann, ist ein Job mit 96 Würfeln (6.144 Chips).

In der folgenden Tabelle sind die wichtigsten Spezifikationen für eine v5p aufgeführt.

Wichtige technische Daten	V5p-Werte
Maximale Rechenleistung pro Chip (bf16)	459 TFLOPS
HBM2e-Kapazität und ‑Bandbreite	95 GB, 2.765 GB/s
TPU-Pod-Größe	8.960 Chips
Interconnect-Topologie	3D-Torus *
Interchip-Interconnect-BW	4.800 Gbit/s

Konfigurationen

Ein TPU v5p-Pod besteht aus 8.960 Chips, die über rekonfigurierbare Hochgeschwindigkeitsverbindungen miteinander verbunden sind. Dank der flexiblen Vernetzung von TPU v5p können Sie die Chips in einem Slice derselben Größe auf verschiedene Arten verbinden. Wenn Sie ein TPU-Speicher-Slice mit dem Befehl gcloud compute tpus tpu-vm create erstellen, geben Sie den Typ und die Form mit den Parametern AcceleratorType oder AcceleratorConfig an.

In der folgenden Tabelle sind die gängigsten Formen mit einer einzelnen Scheibe aufgeführt, die mit v5p unterstützt werden, sowie die meisten (aber nicht alle) Formen mit mehreren Würfeln. Die maximale v5p-Form ist 16 × 16 × 24 (6.144 Chips, 96 Würfel).

Form des Ausschnitts	VM-Größe	# Kerne	# Chips	Anzahl der Maschinen	Anzahl der Würfel	Unterstützt Twisted?
2x2x1	Vollständiger Host	8	4	1	–	–
2x2x2	Vollständiger Host	16	8	2	–	–
2x4x4	Vollständiger Host	64	32	8	–	–
4x4x4	Vollständiger Host	128	64	16	1	–
4x4x8	Vollständiger Host	256	128	32	2	Ja
4x8x8	Vollständiger Host	512	256	64	4	Ja
8 × 8 × 8	Vollständiger Host	1.024	512	128	8	–
8x8x16	Vollständiger Host	2.048	1.024	256	16	Ja
8x16x16	Vollständiger Host	4.096	2.048	512	32	Ja
16 x 16 x 16	Vollständiger Host	8.192	4.096	1.024	64	–
16x16x24	Vollständiger Host	12.288	6144	1.536	96	–

Das Training mit einer einzelnen Spule wird für bis zu 6.144 Chips unterstützt. Mit Multislice kann die Anzahl auf 18.432 Chips erweitert werden. Weitere Informationen zu Multislice finden Sie im Überblick über Cloud TPU Multislice.

Parameter „AcceleratorType“ verwenden

Wenn Sie TPU-Ressourcen zuweisen, geben Sie mit dem Argument --accelerator-type die Anzahl der TensorCores in einem Slice an. --accelerator-type ist ein formatierter String: v$VERSION_NUMBERp-$CORES_COUNT. v5p-32 gibt beispielsweise ein TPU-Segment vom Typ v5p mit 32 TensorCores (16 Chips) an.

Wenn Sie TPUs für einen v5p-Trainingsjob bereitstellen möchten, verwenden Sie in Ihrer CLI- oder TPU API-Erstellungsanfrage einen der folgenden Beschleunigertypen:

v5p-8
v5p-16
v5p-32
v5p-64
v5p-128 (ein vollständiger Würfel/Rack)
v5p-256 (2 Würfel)
v5p-512
v5p-1024…v5p-12288

Parameter „AcceleratorConfig“ verwenden

Bei Cloud TPU-Versionen ab v5p wird AcceleratorConfig ähnlich wie bei Cloud TPU v4 verwendet. Der Unterschied besteht darin, dass Sie den TPU-Typ nicht als --type=v4 angeben, sondern als die von Ihnen verwendete TPU-Version (z. B. --type=v5p für die v5p-Version).

Cloud TPU-Resilienz bei ICI

Die ICI-Resilienz trägt dazu bei, die Fehlertoleranz optischer Verbindungen und optischer Schalter (Optical Circuit Switches, OCS) zu verbessern, die TPUs zwischen den Würfeln verbinden. ICI-Verbindungen innerhalb eines Cubes verwenden Kupferverbindungen, die nicht betroffen sind. Durch die ICI-Ausfallsicherheit können ICI-Verbindungen um OCS- und optische ICI-Fehler herumgeleitet werden. Dadurch wird die Planungsverfügbarkeit von TPU-Scheiben verbessert, was jedoch zu einer vorübergehenden Beeinträchtigung der ICI-Leistung führt.

Ähnlich wie bei Cloud TPU v4 ist die ICI-Resilienz standardmäßig für v5p-Segmente aktiviert, die mindestens ein Würfel sind:

v5p-128 bei Angabe des Beschleunigertyps
4x4x4 bei Angabe der Beschleunigerkonfiguration

VM-, Host- und Sliver-Attribute

Attribut	Wert einer TPU
Anzahl der v5p-Chips	4
Anzahl der vCPUs	208 (bei Verwendung der NUMA-Bindung nur die Hälfte nutzbar, um NUMA-übergreifende Leistungseinbußen zu vermeiden)
RAM (GB)	448 (bei Verwendung der NUMA-Bindung nur die Hälfte nutzbar, um NUMA-übergreifende Leistungseinbußen zu vermeiden)
Anzahl der NUMA-Knoten	2
NIC-Durchsatz (Gbit/s)	200

Beziehung zwischen der Anzahl der Tensorkerne, Chips, Hosts/VMs und Würfel in einem Pod:

	Kerne	Chips	Hosts/VMs	Würfel
Host	8	4	1
Cube (auch Rack)	128	64	16	1
Größter unterstützter Ausschnitt	12.288	6144	1.536	96
v5p-Voll-Pod	17920	8960	2240	140