TPU v5e

In diesem Dokument werden die Architektur und die unterstützten Konfigurationen von Cloud TPU v5e beschrieben.

TPU v5e unterstützt das Training mit einem und mehreren Hosts sowie die Inferenz mit einem einzelnen Host. Inferenz mit mehreren Hosts wird mit Sax unterstützt. Weitere Informationen finden Sie unter Large Language Model Serving.

Systemarchitektur

Jeder v5e-Chip enthält einen TensorCore. Jeder TensorCore hat vier Matrix-Multiply-Einheiten (MXUs), eine Vektoreinheit und eine Skalareinheit.

Das folgende Diagramm zeigt einen TPU v5e-Chip.

Diagramm eines v5e-Chips

Die folgende Tabelle enthält die Chipspezifikationen und ihre Werte für v5e.

Chipspezifikationen v5e-Werte
Spitzenberechnungen pro Chip (bf16) 197 TFLOPs
Spitzenberechnungen pro Chip (Int8) 393 TFLOPs
HBM2-Kapazität und Bandbreite 16 GB, 819 GB/s
Interchip Interconnect BW 1.600 Gbit/s

Die folgende Tabelle zeigt Pod-Spezifikationen und ihre Werte für v5e.

Wichtige Pod-Spezifikationen v5e-Werte
TPU-Pod-Größe 256 Chips
Interconnect-Topologie 2D Torus
Spitzenberechnungen pro Pod 100 PetaOps(Int8)
Alle Reduzierung der Bandbreite pro Pod 51,2 TB/s
Bandbreite pro Pod aufteilen 1,6 TB/s
Netzwerkbandbreite des Rechenzentrums pro Pod 6,4 Tbit/s

Konfigurationen

Cloud TPU v5e ist ein kombiniertes Trainings- und Inferenzprodukt (Bereitstellung). Verwenden Sie zum Unterscheidung zwischen einer Trainings- und einer Inferenzumgebung das Flag AcceleratorType oder AcceleratorConfig mit der TPU API oder das Flag --machine-type beim Erstellen eines GKE-Knotenpools.

Trainingsjobs sind im Hinblick auf Durchsatz und Verfügbarkeit optimiert, während Bereitstellungsjobs für Latenz optimiert sind. Ein Trainingsjob auf TPUs, die für die Bereitstellung bereitgestellt wurde, kann eine geringere Verfügbarkeit haben. Ähnlich kann ein Bereitstellungsjob, der auf TPUs für das Training ausgeführt wird, eine höhere Latenz haben.

Mit AcceleratorType geben Sie die Anzahl der TensorCores an, die Sie verwenden möchten. Sie geben die AcceleratorType an, wenn Sie eine TPU über die gcloud CLI oder die Google Cloud Console erstellen. Der Wert, den Sie für AcceleratorType angeben, ist ein String im folgenden Format: v$VERSION_NUMBER-$CHIP_COUNT.

Sie können auch AcceleratorConfig verwenden, um die Anzahl der TensorCores anzugeben, die Sie verwenden möchten. Da es jedoch keine benutzerdefinierten 2D-Topologievarianten für TPU v5e gibt, gibt es keinen Unterschied zwischen der Verwendung von AcceleratorConfig und AcceleratorType.

Verwenden Sie die Flags --version und --topology, um eine TPU v5e mit AcceleratorConfig zu konfigurieren. Legen Sie für --version die gewünschte TPU-Version und für --topology die physische Anordnung der TPU-Chips im Slice fest. Der Wert, den Sie für AcceleratorConfig angeben, ist ein String mit dem Format AxB, wobei A und B die Anzahl der Chips in jede Richtung sind.

Die folgenden 2D-Segmentformen werden in v5e unterstützt:

Topologie Anzahl der TPU-Chips Anzahl der Hosts
1x1 1 1/8
2x2 4 2.1.
2x4 8 1
4x4 16 2
4x8 32 4
8x8 64 8
8x16 128 16
16x16 256 32

Jede TPU-VM in einem v5e-TPU-Slice enthält 1, 4 oder 8 Chips. In 4-Chip- und kleineren Segmenten teilen sich alle TPU-Chips denselben NUMA-Knoten (Non Uniform Memory Access).

Bei 8-Chip-v5e-TPU-VMs ist die CPU-TPU-Kommunikation innerhalb von NUMA-Partitionen effizienter. In der folgenden Abbildung ist die CPU0-Chip0-Kommunikation beispielsweise schneller als die CPU0-Chip4-Kommunikation.

Kommunikation mit NUMA-Knoten

Cloud TPU v5e-Typen für die Bereitstellung

Die Bereitstellung auf einem Host wird für bis zu 8 v5e-Chips unterstützt. Die folgenden Konfigurationen werden unterstützt: 1x1-, 2x2- und 2x4-Slices. Jedes Slice hat 1, 4 bzw. 8 Chips.

TPU v5e-Konfigurationen, die die Bereitstellung unterstützen: 1x1, 2x2 und 2x4.

Verwenden Sie zum Bereitstellen von TPUs für einen Bereitstellungsjob einen der folgenden Beschleunigertypen in der Anfrage zum Erstellen einer Befehlszeile oder API-TPU:

AcceleratorType (TPU API) Maschinentyp (GKE API)
v5litepod-1 ct5lp-hightpu-1t
v5litepod-4 ct5lp-hightpu-4t
v5litepod-8 ct5lp-hightpu-8t

Die Bereitstellung auf mehr als 8 v5e-Chips (auch als Multi-Host-Bereitstellung bezeichnet) wird mit Sax unterstützt. Weitere Informationen finden Sie unter Large Language Model Serving.

Cloud TPU v5e-Typen für das Training

Training wird für bis zu 256 Chips unterstützt.

Verwenden Sie zum Bereitstellen von TPUs für einen v5e-Trainingsjob einen der folgenden Beschleunigertypen in Ihrer Anfrage zum Erstellen einer Befehlszeile oder API-TPU:

AcceleratorType (TPU API) Maschinentyp (GKE API) Topologie
v5litepod-16 ct5lp-hightpu-4t 4x4
v5litepod-32 ct5lp-hightpu-4t 4x8
v5litepod-64 ct5lp-hightpu-4t 8x8
v5litepod-128 ct5lp-hightpu-4t 8x16
v5litepod-256 ct5lp-hightpu-4t 16x16

v5e-TPU-VM-Typvergleich:

VM-Typ n2d-48-24-v5lite-tpu n2d-192-112-v5lite-tpu n2d-384-224-v5lite-tpu
Anzahl der V5e-Chips 1 4 8
Anzahl der vCPUs 24 112 224
RAM (GB) 48 192 384
Anzahl von NUMA Knoten 1 1 2
Gilt für v5litepod-1 v5litepod-4 v5litepod-8
Störungen Hoch Mittel Niedrig

Um Platz für Arbeitslasten zu schaffen, die mehr Chips benötigen, können Planer VMs mit weniger Chips vorzeitig beenden. 8-Chip-VMs führen also wahrscheinlich dazu, dass 1- und 4-Chip-VMs vorzeitig beendet werden.