Diese Seite wurde von der Cloud Translation API übersetzt.

TPU v5p

In diesem Dokument werden die Architektur und die unterstützten Konfigurationen von Cloud TPU v5p.

Systemarchitektur

In diesem Abschnitt wird die Systemarchitektur der v5p-Version beschrieben. Jedes TensorCore hat vier Matrix Multiply Units (MXU), eine Vektoreinheit und einen Skalar Einheit.

Ein einzelner v5p-Pod enthält 8.960 Chips. Der größte Job, der geplant werden kann ein Job mit 96 Würfen (6144 Chips).

In der folgenden Tabelle sind die wichtigsten Spezifikationen für eine v5p-Datei aufgeführt.

Wichtige Spezifikationen	v5p-Werte
Spitzenwert der Rechenleistung pro Chip (bf16)	459 TFLOPs
HBM2e-Kapazität und -Bandbreite	95 GB, 2.765 GB/s
TPU-Pod-Größe	8960-Chips
Interconnect-Topologie	3D-Torus *
Interchip Interconnect BW	4.800 Gbit/s

Konfigurationen

Ein TPU v5p-Pod besteht aus 8.960 Chips, die miteinander verbunden sind. Hochgeschwindigkeits-Links. Dank des flexiblen Netzwerks von TPU v5p können Sie Chips in einem Stück gleicher Größe auf mehrere Arten. Wenn Sie ein TPU-Slice erstellen Mit dem Befehl gcloud compute tpus tpu-vm create, den Sie angeben Typ und Form mithilfe der AcceleratorType oder AcceleratorConfig-Parameter.

In der folgenden Tabelle sehen Sie die gängigsten Single-Slice-Formen, die in v5p unterstützt werden, plus die meisten (aber nicht alle) volle Würfelformen größer als 1 Würfel. Die maximale v5p-Form ist 16 × 16 × 24 Pixel groß. (6.144 Chips, 96 Würfel).

Segmentform	VM-Größe	Anzahl der Kerne	# Chips	Anzahl der Maschinen	Anzahl Würfel	Unterstützt Twisted?
2x2x1	Vollständiger Host	8	4	1	–	–
2x2x2	Vollständiger Host	16	8	2	–	–
2x4x4	Vollständiger Host	64	32	8	–	–
4x4x4	Vollständiger Host	128	64	16	1	–
4x4x8	Vollständiger Host	256	128	32	2	Ja
4x8x8	Vollständiger Host	512	256	64	4	Ja
8x8x8	Vollständiger Host	1.024	512	128	8	–
8x8x16	Vollständiger Host	2.048	1.024	256	16	Ja
8x16x16	Vollständiger Host	4.096	2.048	512	32	Ja
16×16×16	Vollständiger Host	8.192	4.096	1.024	64	–
16x16x24	Vollständiger Host	12.288	6144	1.536	96	–

Das Training in einem einzelnen Segment wird für bis zu 6.144 Chips unterstützt. Erweiterbar mit „Multislice“ auf 18.432 Chips an. Weitere Informationen finden Sie in der Übersicht zu Cloud TPU Multislice.

AcceleratorType-Parameter verwenden

Wenn Sie TPU-Ressourcen zuweisen, verwenden Sie das Argument --accelerator-type für und geben die Anzahl der TensorCores in einem Slice an. --accelerator-type ist ein formatierter String „v$VERSION_NUMBERp-$CORES_COUNT“. Beispielsweise gibt v5p-32 ein v5p-TPU-Slice mit 32 TensorCores (16 Chips) an.

Verwenden Sie eine der folgenden Optionen, um TPUs für einen v5p-Trainingsjob bereitzustellen Beschleunigertypen in der CLI- oder TPU API-Erstellungsanfrage:

v5p-8
v5p–16
v5p–32
v5p–64
v5p-128 (ein kompletter Cube/Rack)
v5p-256 (2 Cubes)
v5p-512
v5p-1024 ... v5p-12288

Parameter „AcceleratorConfig“ verwenden

Für Cloud TPU-Versionen ab v5p: AcceleratorConfig wird fast genauso wie mit Cloud TPU v4 verwendet. Der Unterschied ist anstatt den TPU-Typ als --type=v4 anzugeben, sondern als Die verwendete TPU-Version (z. B. --type=v5p für den v5p-Release)

Ausfallsicherheit von Cloud TPU ICI

Ausfallsicherheit von ICI verbessert die Fehlertoleranz optischer Verbindungen Optical Circuit Switches (OCS), die TPUs zwischen Cubes verbinden. (ICI-Verbindungen innerhalb eines Cubes verwenden Kupferverbindungen, die nicht betroffen sind.) Dank der ICI-Resilienz können ICI-Verbindungen um OCS und optische ICI herum weitergeleitet werden Störungen. Dadurch wird die Planungsverfügbarkeit von TPU verbessert. mit dem Kompromiss von temporärer Verschlechterung der ICI-Leistung.

Ähnlich wie bei Cloud TPU v4 ist ICI-Robustheit standardmäßig aktiviert für V5p-Slices, die mindestens einen Cube sind:

v5p-128 beim Angeben des Beschleunigertyps
4x4x4 beim Angeben der Beschleunigerkonfiguration

VM-, Host- und Slice-Attribute

Attribut	Wert in einer TPU
Anzahl der V5p-Chips	4
Anzahl der vCPUs	208 (bei Verwendung einer NUMA-Bindung kann nur die Hälfte verwendet werden, um Leistungseinbußen bei NUMA-übergreifenden Werten zu vermeiden)
RAM (GB)	448 (bei Verwendung einer NUMA-Bindung kann nur die Hälfte verwendet werden, um Leistungseinbußen bei NUMA-übergreifenden Werten zu vermeiden)
Anzahl der NUMA-Knoten	2
NIC-Durchsatz (Gbit/s)	200

Beziehung zwischen der Anzahl der TensorCores, Chips, Hosts/VMs und Cubes in einem Pod:

	Kerne	Chips	Hosts/VMs	Würfel
Moderator:in	8	4	1
Cube (auch Rack)	128	64	16	1
Größtes unterstütztes Segment	12.288	6144	1.536	96
Vollständiger v5p-Pod	17920	8960	2240	140