TPU v3

In diesem Dokument werden die Architektur und die unterstützten Konfigurationen von Cloud TPU v3 beschrieben.

Systemarchitektur

Jeder TPU-Chip der Version 3 enthält zwei TensorCores. Jeder TensorCore hat zwei Matrixmultiplikationseinheiten (MXUs), eine Vektoreinheit und einer Skalareinheit. In der folgenden Tabelle sind die wichtigsten Spezifikationen und ihre Werte für einen v3 TPU-Pod.

Wichtige Spezifikationen Werte für v3-Pods
Spitzenwert der Rechenleistung pro Chip 123 TeraFLOPS (bf16)
HBM2-Kapazität und ‑Bandbreite 32 GiB, 900 GB/s
Gemessene minimale/durchschnittliche/maximale Leistung 123/220/262 W
TPU-Pod-Größe 1.024 Chips
Interconnect-Topologie 2D-Torus
Spitzenberechnung pro Pod 126 PetaFLOPS (bf16)
Bandbreite pro Pod insgesamt reduzieren 340 TB/s
Geteilte Bandbreite pro Pod 6,4 TB/s

Das folgende Diagramm zeigt einen TPU v3-Chip.

Diagramm eines TPU v3-Chips

Details zur Architektur und zu den Leistungsmerkmalen von TPU v3 sind unter Domainspezifischer Supercomputer zum Trainieren neuronaler Deep-Learning-Netzwerke verfügbar.

Leistungsvorteile von TPU v3 im Vergleich zu v2

Die erhöhten FLOPS pro TensorCore-Prozessor und die höhere Arbeitsspeicherkapazität in TPU v3-Konfigurationen die Leistung Ihrer Modelle auf folgende Arten verbessern:

  • TPU v3-Konfigurationen bieten für rechenintensive Modelle erhebliche Leistungsvorteile pro Tensor Core. Für speichergebundene Modelle kann im Vergleich zu TPU v2-Konfigurationen möglicherweise nicht dieselbe Leistungsverbesserung erzielt werden, wenn sie auch bei TPU v3-Konfigurationen speichergebunden sind.

  • In Fällen, in denen Daten in TPU v2-Konfigurationen nicht in den Arbeitsspeicher passen, v3 bietet eine bessere Leistung und eine geringere Neuberechnung von Zwischenwerte (Rematerialisierung).

  • Mit TPU v3-Konfigurationen können neue Modelle mit Stapelgrößen ausgeführt werden, für die TPU v2-Konfigurationen nicht ausgereicht haben. Zum Beispiel lässt TPU v3 tiefere ResNet-Modelle und größere Bilder mit RetinaNet zu.

Modelle, die auf TPU v2-Hardware nahezu eingabegebunden arbeiten ("Infeed"), da Trainingsschritte auf Eingaben warten müssen, arbeiten unter Umständen auch auf Cloud TPU v3-Hardware eingabegebunden. Die Leitfaden zur Pipelineleistung kann Ihnen bei der Behebung von Einspeisungsproblemen helfen.

Konfigurationen

Ein TPU v3 Pod besteht aus 1.024 Chips, die über Hochgeschwindigkeitsverbindungen verbunden sind. Wenn Sie ein TPU v3-Gerät oder ein Pod-Slice erstellen möchten, verwenden Sie das Flag --accelerator-type im Befehl zum Erstellen von TPUs (gcloud compute tpus tpu-vm). Sie geben den Beschleunigertyp an, indem Sie die TPU-Version und die Anzahl der TPU-Kerne angeben. Verwenden Sie beispielsweise für eine einzelne v3 TPU --accelerator-type=v3-8 Verwenden Sie für ein v3-Pod-Slice mit 128 TensorCores --accelerator-type=v3-128.

Der folgende Befehl zeigt, wie ein TPU-Pod-Speicherplatz der Version 3 mit 128 TensorCores erstellt wird:

  $ gcloud compute tpus tpu-vm create tpu-name \
    --zone=zone \
    --accelerator-type=v3-128 \
    --version=tpu-vm-tf-2.17.0-pod-pjrt

In der folgenden Tabelle sind die unterstützten v3-TPU-Typen aufgeführt:

TPU-Version Support-Ende
v3-8 (Enddatum wurde noch nicht festgelegt)
v3-32 (Enddatum wurde noch nicht festgelegt)
v3-128 (Enddatum wurde noch nicht festgelegt)
v3-256 (Enddatum wurde noch nicht festgelegt)
v3-512 (Enddatum wurde noch nicht festgelegt)
v3-1024 (Enddatum wurde noch nicht festgelegt)
v3-2048 (Enddatum wurde noch nicht festgelegt)

Weitere Informationen zum Verwalten von TPUs finden Sie unter TPUs verwalten. Weitere Informationen zur Systemarchitektur von Cloud TPU finden Sie unter Systemarchitektur.