Diese Seite wurde von der Cloud Translation API übersetzt.

TPU v5p

In diesem Dokument werden die Architektur und die unterstützten Konfigurationen von Cloud TPU v5p beschrieben.

Systemarchitektur

In diesem Abschnitt wird die Systemarchitektur speziell für die Version 5p beschrieben. Jeder TensorCore hat vier Matrix Multiply Units (MXU), eine Vektoreinheit und eine Skalareinheit.

Ein einzelner v5p-Slice enthält 8.960 Chips. Der größte Job, der geplant werden kann, ist ein Job mit 96 Cubes (6.144 Chips).

In der folgenden Tabelle sind die wichtigsten Spezifikationen für einen v5p aufgeführt.

Wichtige Spezifikationen	V5P-Werte
Maximale Rechenleistung pro Chip (bf16)	459 TFLOPS
HBM2e-Kapazität und ‑Bandbreite	95 GB, 2.765 GB/s
TPU-Pod-Größe	8.960 Chips
Interconnect-Topologie	3D-Torus *
Interchip Interconnect BW	4.800 Gbit/s

Konfigurationen

Ein TPU v5p-Pod besteht aus 8.960 Chips, die über rekonfigurierbare Hochgeschwindigkeitsverbindungen miteinander verbunden sind. Die flexible Vernetzung von TPU v5p ermöglicht es Ihnen, die Chips in einem Slice derselben Größe auf verschiedene Arten zu verbinden. Wenn Sie mit dem Befehl gcloud compute tpus tpu-vm create ein TPU-Slice erstellen, geben Sie den Typ und die Form mit dem Parameter AcceleratorType an.

In der folgenden Tabelle sind die gängigsten Formen für einzelne Slices aufgeführt, die mit v5p unterstützt werden, sowie die meisten (aber nicht alle) Formen für vollständige Cubes mit mehr als einem Cube. Die maximale v5p-Form ist 16 × 16 × 24 (6.144 Chips, 96 Würfel).

Topologie	Kerne	Chips	Hosts	Cubes	Unterstützt Twisted?
2x2x1	8	4	1	–	–
2x2x2	16	8	2	–	–
2x4x4	64	32	8	–	–
4x4x4	128	64	16	1	–
4x4x8	256	128	32	2	Ja
4x8x8	512	256	64	4	Ja
8x8x8	1.024	512	128	8	–
8x8x16	2.048	1.024	256	16	Ja
8x16x16	4.096	2.048	512	32	Ja
16 x 16 x 16	8.192	4.096	1.024	64	–
16x16x24	12.288	6144	1.536	96	–

Das Training mit einem einzelnen Slice wird für bis zu 6.144 Chips unterstützt. Mit Multislice können Sie bis zu 18.432 Chips skalieren. Weitere Informationen zu Multislice finden Sie unter Cloud TPU Multislice-Übersicht.

Parameter „AcceleratorType“ verwenden

Wenn Sie TPU-Ressourcen zuweisen, verwenden Sie das Argument --accelerator-type, um die Anzahl der Tensor-Kerne in einem Slice anzugeben. --accelerator-type ist ein formatierter String „v$VERSION_NUMBERp-$CORES_COUNT“. v5p-32 gibt beispielsweise ein v5p-TPU-Slice mit 32 TensorCores (16 Chips) an.

Wenn Sie TPUs für einen v5p-Trainingsjob bereitstellen möchten, verwenden Sie einen der folgenden Beschleunigertypen in Ihrer CLI- oder TPU API-Erstellungsanfrage:

v5p-8
v5p-16
v5p-32
v5p-64
v5p-128 (ein vollständiger Cube/ein vollständiges Rack)
v5p-256 (2 Würfel)
v5p-512
v5p-1024 … v5p-12288

Mit dem folgenden Befehl wird ein v5p-TPU-Slice mit 256 v5p-TensorCores (128 Chips) für das Training erstellt:

  $ gcloud compute tpus tpu-vm create your-tpu-name \
    --zone=us-east5-a \
    --accelerator-type=v5p-256 \
    --version=v2-alpha-tpuv5

Weitere Informationen zum Verwalten von TPUs finden Sie unter TPUs verwalten. Weitere Informationen zur Systemarchitektur von Cloud TPU finden Sie unter Systemarchitektur.

Cloud TPU ICI-Resilienz

Die ICI-Ausfallsicherheit trägt zur Verbesserung der Fehlertoleranz von optischen Verbindungen und optischen Schaltern (OCS) bei, die TPUs zwischen Cubes verbinden. (ICI-Verbindungen innerhalb eines Cubes verwenden Kupferverbindungen, die nicht betroffen sind.) Die ICI-Resilienz ermöglicht es, ICI-Verbindungen um OCS- und optische ICI-Fehler herum zu leiten. Dadurch wird die Planungsverfügbarkeit von TPU-Slices verbessert, was jedoch zu einer vorübergehenden Beeinträchtigung der ICI-Leistung führt.

Ähnlich wie bei Cloud TPU v4 ist die ICI-Resilienz standardmäßig für v5p-Slices aktiviert, die mindestens einen Würfel groß sind:

v5p-128 bei Angabe des Beschleunigertyps
4 × 4 × 4 bei der Angabe der Beschleunigerkonfiguration

VM-, Host- und Slice-Attribute

Attribut	Wert in einer TPU
Anzahl der v5p-Chips	4
Anzahl der vCPUs	208 (nur die Hälfte ist nutzbar, wenn NUMA-Bindung verwendet wird, um Leistungseinbußen durch NUMA-Überschreitung zu vermeiden)
RAM (GB)	448 (nur die Hälfte ist nutzbar, wenn NUMA-Bindung verwendet wird, um Leistungseinbußen durch NUMA-übergreifende Vorgänge zu vermeiden)
# of NUMA Nodes (Anzahl der NUMA-Knoten)	2
NIC Throughput (Gbps)	200

Beziehung zwischen der Anzahl der Tensor-Cores, Chips, Hosts/VMs und Cubes in einem Pod:

	Kerne	Chips	Hosts/VMs	Cubes
Moderator:in	8	4	1
Cube (auch Rack genannt)	128	64	16	1
Größter unterstützter Slice	12.288	6144	1.536	96
v5p-Pod	17920	8960	2240	140