TPU v3
In diesem Dokument werden die Architektur und die unterstützten Konfigurationen von Cloud TPU v3.
Systemarchitektur
Jeder v3 TPU-Chip enthält zwei TensorCores. Jeder TensorCore hat zwei Matrixmultiplikationseinheiten (MXUs), eine Vektoreinheit und einer Skalareinheit. In der folgenden Tabelle sind die wichtigsten Spezifikationen und ihre Werte für einen v3 TPU-Pod.
Wichtige Spezifikationen | v3-Pod-Werte |
---|---|
Spitzenwert der Rechenleistung pro Chip | 123 TeraFLOPS (bf16) |
HBM2-Kapazität und -Bandbreite | 32 GiB, 900 GB/s |
Gemessene minimale/mittlere/maximale Leistung | 123/220/262 W |
TPU-Pod-Größe | 1024-Chips |
Interconnect-Topologie | 2D-Torus |
Spitzenwert für die Berechnung pro Pod | 126 PetaFLOPS (bf16) |
Bandbreite pro Pod insgesamt reduzieren | 340 TB/s |
Biabschnitte Bandbreite pro Pod | 6,4 TB/s |
Das folgende Diagramm zeigt einen TPU v3-Chip.
Architektonische Details und Leistungsmerkmale von TPU v3 sind verfügbar in Ein domainspezifischer Supercomputer zum Trainieren neuronaler Deep-Learning-Netzwerke
Leistungsvorteile von TPU v3 im Vergleich zu v2
Die erhöhten FLOPS pro TensorCore-Prozessor und die höhere Arbeitsspeicherkapazität in TPU v3-Konfigurationen die Leistung Ihrer Modelle auf folgende Arten verbessern:
TPU v3-Konfigurationen bieten erhebliche Leistungsvorteile pro TensorCore für rechengebundene Modelle Speichergebundene Modelle auf TPU v2 Konfigurationen erzielen möglicherweise nicht dieselbe Leistungsverbesserung, sind auch bei TPU v3-Konfigurationen speichergebunden.
In Fällen, in denen Daten in TPU v2-Konfigurationen nicht in den Arbeitsspeicher passen, v3 bietet eine verbesserte Leistung und eine geringere Neuberechnung von Zwischenwerte (Rematerialisierung).
Mit TPU v3-Konfigurationen können neue Modelle mit Stapelgrößen ausgeführt werden, für die TPU v2-Konfigurationen nicht ausgereicht haben. So lassen sich mit TPU v3 unter Umständen tiefere ResNet-Modelle größere Bilder mit RetinaNet erstellen.
Modelle, die auf TPU v2-Hardware nahezu eingabegebunden arbeiten ("Infeed"), da Trainingsschritte auf Eingaben warten müssen, arbeiten unter Umständen auch auf Cloud TPU v3-Hardware eingabegebunden. Die Leitfaden zur Pipelineleistung kann Ihnen bei der Behebung von Einspeisungsproblemen helfen.
Konfigurationen
Ein TPU v3 Pod besteht aus 1.024 Chips, die über Hochgeschwindigkeitsverbindungen verbunden sind. Bis
Erstellen Sie ein TPU v3-Gerät oder ein Pod-Slice, verwenden Sie die --accelerator-type
im TPU-Erstellungsbefehl (gcloud compute tpus tpu-vm
) verwenden. Den Beschleunigertyp geben Sie an, indem Sie den Parameter
TPU-Version und die Anzahl der TPU-Kerne Verwenden Sie beispielsweise für eine einzelne v3 TPU
--accelerator-type=v3-8
Verwenden Sie für ein v3 Pod-Slice mit 128 TensorCores
--accelerator-type=v3-128
Der folgende Befehl zeigt, wie Sie ein v3 TPU-Pod-Slice mit 128 TensorCores erstellen:
$ gcloud compute tpus tpu-vm create tpu-name \
--zone=zone \
--accelerator-type=v3-128 \
--version=tpu-vm-tf-2.17.0-pjrt
In der folgenden Tabelle sind die unterstützten v3-TPU-Typen aufgeführt:
TPU-Version | Support-Ende |
---|---|
v3-8 | (Enddatum wurde noch nicht festgelegt) |
v3-32 | (Enddatum wurde noch nicht festgelegt) |
v3-128 | (Enddatum wurde noch nicht festgelegt) |
v3-256 | (Enddatum wurde noch nicht festgelegt) |
v3-512 | (Enddatum wurde noch nicht festgelegt) |
v3-1024 | (Enddatum wurde noch nicht festgelegt) |
v3-2048 | (Enddatum wurde noch nicht festgelegt) |
Weitere Informationen zum Verwalten von TPUs finden Sie unter TPUs verwalten. Weitere Informationen zur Systemarchitektur von Cloud TPU finden Sie unter Systemarchitektur.