TPU v5e
In diesem Dokument werden die Architektur und die unterstützten Konfigurationen von Cloud TPU v5e beschrieben.
TPU v5e unterstützt das Training mit einem und mehreren Hosts sowie die Inferenz mit einem einzelnen Host. Inferenz mit mehreren Hosts wird mit Sax unterstützt. Weitere Informationen finden Sie unter Large Language Model Serving.
Systemarchitektur
Jeder v5e-Chip enthält einen TensorCore. Jeder TensorCore hat vier Matrix-Multiply-Einheiten (MXUs), eine Vektoreinheit und eine Skalareinheit.
Das folgende Diagramm zeigt einen TPU v5e-Chip.
Die folgende Tabelle enthält die Chipspezifikationen und ihre Werte für v5e.
Chipspezifikationen | v5e-Werte |
Spitzenberechnungen pro Chip (bf16) | 197 TFLOPs |
Spitzenberechnungen pro Chip (Int8) | 393 TFLOPs |
HBM2-Kapazität und Bandbreite | 16 GB, 819 GB/s |
Interchip Interconnect BW | 1.600 Gbit/s |
Die folgende Tabelle zeigt Pod-Spezifikationen und ihre Werte für v5e.
Wichtige Pod-Spezifikationen | v5e-Werte |
TPU-Pod-Größe | 256 Chips |
Interconnect-Topologie | 2D Torus |
Spitzenberechnungen pro Pod | 100 PetaOps(Int8) |
Alle Reduzierung der Bandbreite pro Pod | 51,2 TB/s |
Bandbreite pro Pod aufteilen | 1,6 TB/s |
Netzwerkbandbreite des Rechenzentrums pro Pod | 6,4 Tbit/s |
Konfigurationen
Cloud TPU v5e ist ein kombiniertes Trainings- und Inferenzprodukt (Bereitstellung). Verwenden Sie zum Unterscheidung zwischen einer Trainings- und einer Inferenzumgebung das Flag AcceleratorType
oder AcceleratorConfig
mit der TPU API oder das Flag --machine-type
beim Erstellen eines GKE-Knotenpools.
Trainingsjobs sind im Hinblick auf Durchsatz und Verfügbarkeit optimiert, während Bereitstellungsjobs für Latenz optimiert sind. Ein Trainingsjob auf TPUs, die für die Bereitstellung bereitgestellt wurde, kann eine geringere Verfügbarkeit haben. Ähnlich kann ein Bereitstellungsjob, der auf TPUs für das Training ausgeführt wird, eine höhere Latenz haben.
Mit AcceleratorType
geben Sie die Anzahl der TensorCores an, die Sie verwenden möchten.
Sie geben die AcceleratorType
an, wenn Sie eine TPU über die gcloud CLI oder die Google Cloud Console erstellen. Der Wert, den Sie für AcceleratorType
angeben, ist ein String im folgenden Format: v$VERSION_NUMBER-$CHIP_COUNT
.
Sie können auch AcceleratorConfig
verwenden, um die Anzahl der TensorCores anzugeben, die Sie verwenden möchten. Da es jedoch keine benutzerdefinierten 2D-Topologievarianten für TPU v5e gibt, gibt es keinen Unterschied zwischen der Verwendung von AcceleratorConfig
und AcceleratorType
.
Verwenden Sie die Flags --version
und --topology
, um eine TPU v5e mit AcceleratorConfig
zu konfigurieren. Legen Sie für --version
die gewünschte TPU-Version und für --topology
die physische Anordnung der TPU-Chips im Slice fest. Der Wert, den Sie für AcceleratorConfig
angeben, ist ein String mit dem Format AxB
, wobei A
und B
die Anzahl der Chips in jede Richtung sind.
Die folgenden 2D-Segmentformen werden in v5e unterstützt:
Topologie | Anzahl der TPU-Chips | Anzahl der Hosts |
1x1 | 1 | 1/8 |
2x2 | 4 | 2.1. |
2x4 | 8 | 1 |
4x4 | 16 | 2 |
4x8 | 32 | 4 |
8x8 | 64 | 8 |
8x16 | 128 | 16 |
16x16 | 256 | 32 |
Jede TPU-VM in einem v5e-TPU-Slice enthält 1, 4 oder 8 Chips. In 4-Chip- und kleineren Segmenten teilen sich alle TPU-Chips denselben NUMA-Knoten (Non Uniform Memory Access).
Bei 8-Chip-v5e-TPU-VMs ist die CPU-TPU-Kommunikation innerhalb von NUMA-Partitionen effizienter. In der folgenden Abbildung ist die CPU0-Chip0
-Kommunikation beispielsweise schneller als die CPU0-Chip4
-Kommunikation.
Cloud TPU v5e-Typen für die Bereitstellung
Die Bereitstellung auf einem Host wird für bis zu 8 v5e-Chips unterstützt. Die folgenden Konfigurationen werden unterstützt: 1x1-, 2x2- und 2x4-Slices. Jedes Slice hat 1, 4 bzw. 8 Chips.
Verwenden Sie zum Bereitstellen von TPUs für einen Bereitstellungsjob einen der folgenden Beschleunigertypen in der Anfrage zum Erstellen einer Befehlszeile oder API-TPU:
AcceleratorType (TPU API) | Maschinentyp (GKE API) |
---|---|
v5litepod-1 |
ct5lp-hightpu-1t |
v5litepod-4 |
ct5lp-hightpu-4t |
v5litepod-8 |
ct5lp-hightpu-8t |
Die Bereitstellung auf mehr als 8 v5e-Chips (auch als Multi-Host-Bereitstellung bezeichnet) wird mit Sax unterstützt. Weitere Informationen finden Sie unter Large Language Model Serving.
Cloud TPU v5e-Typen für das Training
Training wird für bis zu 256 Chips unterstützt.
Verwenden Sie zum Bereitstellen von TPUs für einen v5e-Trainingsjob einen der folgenden Beschleunigertypen in Ihrer Anfrage zum Erstellen einer Befehlszeile oder API-TPU:
AcceleratorType (TPU API) | Maschinentyp (GKE API) | Topologie |
---|---|---|
v5litepod-16 |
ct5lp-hightpu-4t |
4x4 |
v5litepod-32 |
ct5lp-hightpu-4t |
4x8 |
v5litepod-64 |
ct5lp-hightpu-4t |
8x8 |
v5litepod-128 |
ct5lp-hightpu-4t |
8x16 |
v5litepod-256 |
ct5lp-hightpu-4t |
16x16 |
v5e-TPU-VM-Typvergleich:
VM-Typ | n2d-48-24-v5lite-tpu | n2d-192-112-v5lite-tpu | n2d-384-224-v5lite-tpu |
Anzahl der V5e-Chips | 1 | 4 | 8 |
Anzahl der vCPUs | 24 | 112 | 224 |
RAM (GB) | 48 | 192 | 384 |
Anzahl von NUMA Knoten | 1 | 1 | 2 |
Gilt für | v5litepod-1 | v5litepod-4 | v5litepod-8 |
Störungen | Hoch | Mittel | Niedrig |
Um Platz für Arbeitslasten zu schaffen, die mehr Chips benötigen, können Planer VMs mit weniger Chips vorzeitig beenden. 8-Chip-VMs führen also wahrscheinlich dazu, dass 1- und 4-Chip-VMs vorzeitig beendet werden.