TPU-Typen und Zonen

Überblick

Wenn Sie TPU-Knoten zum Verarbeiten Ihrer ML-Arbeitslasten erstellen, müssen Sie einen TPU-Typ auswählen. Der TPU-Typ definiert die TPU-Version, die Anzahl der TPU-Kerne und die Menge des TPU-Arbeitsspeichers, der für Ihre ML-Arbeitslast verfügbar ist.

Der TPU-Typ v2-8 definiert beispielsweise einen TPU-Knoten mit 8 TPU v2-Kernen und einem TPU-Gesamtspeicher von 64 GiB. Der TPU-Typ v3-2048 definiert einen TPU-Knoten mit 2.048 TPU v3-Kernen und insgesamt 32 TiB TPU-Arbeitsspeicher.

Informationen zu den Hardwareunterschieden zwischen TPU-Versionen und -Konfigurationen finden Sie in der Dokumentation zur Systemarchitektur.

Informationen zu den Preisen für die einzelnen TPU-Typen in den einzelnen Regionen finden Sie auf der Seite Preise.

Sie können den TPU-Typ in einen anderen TPU-Typ mit der gleichen Anzahl von Kernen ändern (z. B. v2-8 und v3-8) und Ihr Trainingsskript ohne Codeänderungen ausführen. Wenn Sie jedoch zu einem TPU-Typ mit einer größeren oder kleineren Anzahl von Kernen wechseln, müssen Sie eine erhebliche Feinabstimmung und Optimierung durchführen. Weitere Informationen finden Sie unter Training auf TPU-Pods.

TPU-Typen und Zonen

Die Hauptunterschiede zwischen den einzelnen TPU-Typen sind Preis, Leistung, Arbeitsspeicherkapazität und zonale Verfügbarkeit.

Google Cloud Platform verwendet in Zonen unterteilte Regionen, um den geografischen Standort von Computerressourcen zu definieren. Beispiel: Die Anfrage us-central1 region bezeichnet eine Region in der Nähe des geografischen Zentrums der USA mit den folgenden Zonen:us-central1-a .us-central1-b ,us-central1-c undus-central1-f auf Ihrem Mobilgerät. Wenn Sie einen TPU-Knoten erstellen, geben Sie die Zone an, in der er erstellt werden soll. Weitere Informationen zu regionalen und zonalen Ressourcen finden Sie im Compute Engine-Dokument Globale, regionale und zonale Ressourcen.

Sie können Ihre Konfiguration mit den folgenden TPU-Typen erstellen:

USA

TPU-Typ (v2) TPU v2-Kerne Gesamter TPU-Arbeitsspeicher Region/Zone
v2–8 8 64 GiB us-central1-b
us-central1-c
us-central1-f
v2–32 32 256 GiB us-central1-a
v2-128 128 1 TiB us-central1-a
v2-256 256 2 TiB us-central1-a
v2-512 512 4 TiB us-central1-a
TPU-Typ (v3) TPU v3-Kerne Gesamter TPU-Arbeitsspeicher Verfügbare Zonen
v3–8 8 128 GiB us-central1-a
us-central1-b
us-central1-f

Europa

TPU-Typ (v2) TPU v2-Kerne Gesamter TPU-Arbeitsspeicher Region/Zone
v2–8 8 64 GiB europe-west4-a
v2–32 32 256 GiB europe-west4-a
v2-128 128 1 TiB europe-west4-a
v2-256 256 2 TiB europe-west4-a
v2-512 512 4 TiB europe-west4-a
TPU-Typ (v3) TPU v3-Kerne Gesamter TPU-Arbeitsspeicher Verfügbare Zonen
v3–8 8 128 GiB europe-west4-a
v3-32 32 512 GiB europe-west4-a
v3–64 64 1 TiB europe-west4-a
v3–128 128 2 TiB europe-west4-a
v3–256 256 4 TiB europe-west4-a
v3–512 512 8 TiB europe-west4-a
v3–1024 1.024 16 TiB europe-west4-a
v3–2048 2.048 32 TiB europe-west4-a

Asiatisch-pazifischer Raum

TPU-Typ (v2) TPU v2-Kerne Gesamter TPU-Arbeitsspeicher Region/Zone
v2–8 8 64 GiB asia-east1-c

TPU-Typen mit einer höheren Anzahl von Kernen sind nur in begrenzten Mengen verfügbar. Bei TPU-Typen mit einer niedrigeren Anzahl von Kernen ist die Wahrscheinlichkeit höher, dass sie verfügbar sind.

Kompromiss zwischen Preis und Leistung finden

Als Entscheidungshilfe bei der Wahl des zu verwendenden TPU-Typs können Sie mit einer Cloud TPU-Anleitung experimentieren und ein Modell trainieren, das Ihrer Anwendung ähnlich ist.

Führen Sie die Anleitung für 5–10 % der Anzahl der Schritte aus, die Sie zum Ausführen des gesamten Trainings auf dem TPU-Typ v2-8 und v3-8 verwenden. Das Ergebnis zeigt Ihnen, wie lange es dauert, um diese Anzahl von Schritten für dieses Modell auf jedem TPU-Typ auszuführen.

Da die Leistung auf TPU-Typen linear skaliert wird, können Sie abschätzen, um wie viel Zeit Sie benötigen, um eine Aufgabe für den TPU-Typ v2-8 oder v3-8 auszuführen: Modell auf einem größeren TPU-Typ mit mehr Kernen ausführen

Wenn ein v2-8-TPU-Typ beispielsweise 60 Minuten bis 10.000 Schritte benötigt, sollte ein v2-32-Knoten etwa 15 Minuten dauern, um dieselbe Aufgabe auszuführen.

Wenn Sie die ungefähre Trainingszeit für Ihr Modell auf einigen verschiedenen TPU-Typen kennen, können Sie die VM/TPU-Kosten gegen die Trainingszeit abwägen, um das beste Preis-Leistungs-Verhältnis zu ermitteln.

Informationen zu den Kostenunterschieden zwischen den verschiedenen TPU-Typen für Cloud TPU und die zugehörige Compute Engine-VM finden Sie auf der Seite "TPU-Preise".

TPU-Typ angeben

Unabhängig davon, welches Framework, TensorFlow, PyTorch oder JAX verwendet wird, geben Sie beim Starten einer TPU einen TPU-Typ mit dem Parameter accelerator-type an. Der verwendete Befehl hängt davon ab, ob Sie TPU-VMs oder TPU-Knoten verwenden. Die folgenden Beispielbefehle werden unten gezeigt.

TPU-VM

$ gcloud alpha compute tpus tpu-vm create tpu-name \
--zone=zone \
--accelerator-type=v3-8 \
--version=v2-alpha

Beschreibung der Befehls-Flags

zone
Die Zone, in der Sie die Cloud TPU erstellen möchten.
accelerator-type
Der Typ der zu erstellenden Cloud TPU.
version
Die Cloud TPU-Laufzeitversion.

TPU-Knoten

$ gcloud compute tpus execution-groups create \
--name=tpu-name \
--zone=zone \
--tf-version=2.5.0 \
--machine-type=n1-standard-1 \
--accelerator-type=v3-8

Beschreibung der Befehls-Flags

name
Der Name der zu erstellenden Cloud TPU.
zone
Die Zone, in der Sie die Cloud TPU erstellen möchten.
tf-version
Nur TensorFlow, die Version von Tensorflow, die mit dem Befehl gcloud auf der VM installiert wird.
machine-type
Der Maschinentyp der zu erstellenden Compute Engine-VM.
accelerator-type
Der Typ der zu erstellenden Cloud TPU.
image-family
Nur PyTorch, festgelegt auftorch-xla
image-project
Nur PyTorch, festgelegt aufml-images
boot-disk-size
Die Größe des Bootlaufwerks der VM.
scopes
Nur Pytorch, auf https://www.googleapis.com/auth/cloud-platform festgelegt.

Weitere Informationen zum Befehl gcloud finden Sie in der gcloud-Referenz.

Nächste Schritte

  • Weitere Informationen zur TPU-Architektur finden Sie auf der Seite Systemarchitektur.
  • Weitere Informationen zu den für Cloud TPU geeigneten Modellen finden Sie unter Verwendung von TPUs.