TPU v3

In diesem Dokument werden die Architektur und die unterstützten Konfigurationen von Cloud TPU v3 beschrieben.

Systemarchitektur

Jeder v3 TPU-Chip enthält zwei TensorCores. Jeder TensorCore hat zwei Matrix-Multiply-Einheiten (MXUs), eine Vektoreinheit und eine Skalareinheit. Die folgende Tabelle enthält die Schlüsselspezifikationen und ihre Werte für einen v3 TPU-Pod.

Wichtige Spezifikationen v3-Pod-Werte
Spitzenberechnungen pro Chip 123 TeraFLOPS (bf16)
HBM2-Kapazität und Bandbreite 32 GiB, 900 Gbit/s
Gemessene minimale/mittlere/maximale Leistung 123/220/262 W
TPU-Pod-Größe 1.024 Chips
Interconnect-Topologie 2D-Torus
Spitzenberechnungen pro Pod 126 PetaFLOPS (bf16)
Alle Reduzierung der Bandbreite pro Pod 340 TB/s
Bandbreite pro Pod aufteilen 6,4 TB/s

Das folgende Diagramm zeigt einen TPU v3-Chip.

Diagramm eines TPU v3-Chips

Architekturdetails und Leistungsmerkmale von TPU v3 finden Sie unter A Domain Specific Supercomputer for Training Deep Neural Networks.

Leistungsvorteile von TPU v3 im Vergleich zu v2

Die höhere FLOPS pro TensorCore und die größere Arbeitsspeicherkapazität in TPU v3-Konfigurationen können die Leistung Ihrer Modelle auf folgende Weise verbessern:

  • TPU v3-Konfigurationen bieten für rechengebundene Modelle erhebliche Leistungsvorteile pro TensorCore. Speichergebundene Modelle in TPU v2-Konfigurationen erzielen möglicherweise nicht dieselbe Leistungsverbesserung, wenn sie auch in TPU v3-Konfigurationen speichergebunden sind.

  • In Fällen, in denen die Daten bei TPU v2-Konfigurationen nicht in den Speicher passen, bietet TPU v3 eine bessere Leistung und eine geringere Neuberechnung von Zwischenwerten (Rematerialisierung).

  • Mit TPU v3-Konfigurationen können neue Modelle mit Stapelgrößen ausgeführt werden, für die TPU v2-Konfigurationen nicht ausgereicht haben. TPU v3 kann beispielsweise tiefere ResNet-Modelle und größere Bilder mit RetinaNet zulassen.

Modelle, die auf TPU v2-Hardware nahezu eingabegebunden arbeiten ("Infeed"), da Trainingsschritte auf Eingaben warten müssen, arbeiten unter Umständen auch auf Cloud TPU v3-Hardware eingabegebunden. Mit dem Leitfaden zur Leistung von Pipelines können Sie Einspeisungsprobleme beheben.

Konfigurationen

Ein TPU v3 Pod besteht aus 1.024 Chips, die über Hochgeschwindigkeitsverbindungen miteinander verbunden sind. Verwenden Sie zum Erstellen eines TPU v3-Geräts oder Pod-Slice das Flag --accelerator-type im Befehl zur TPU-Erstellung (gcloud compute tpus tpu-vm). Sie geben den Beschleunigertyp an, indem Sie die TPU-Version und die Anzahl der TPU-Kerne angeben. Verwenden Sie beispielsweise --accelerator-type=v3-8 für eine einzelne v3-TPU. Verwenden Sie --accelerator-type=v3-128 für ein v3 Pod-Slice mit 128 TensorCores.

Der folgende Befehl zeigt, wie Sie ein v3 TPU-Pod-Slice mit 128 TensorCores erstellen:

  $ gcloud compute tpus tpu-vm create tpu-name \
    --zone=zone \
    --accelerator-type=v3-128 \
    --version=tpu-vm-tf-2.16.1-pjrt

In der folgenden Tabelle sind die unterstützten v3-TPU-Typen aufgeführt:

TPU-Version Support-Ende
v3-8 (Enddatum wurde noch nicht festgelegt)
v3-32 (Enddatum wurde noch nicht festgelegt)
v3-128 (Enddatum wurde noch nicht festgelegt)
v3-256 (Enddatum wurde noch nicht festgelegt)
v3-512 (Enddatum wurde noch nicht festgelegt)
v3-1024 (Enddatum wurde noch nicht festgelegt)
v3-2048 (Enddatum wurde noch nicht festgelegt)

Weitere Informationen zum Verwalten von TPUs finden Sie unter TPUs verwalten. Weitere Informationen zur Systemarchitektur von Cloud TPU finden Sie unter Systemarchitektur.