TPU-Typen und Zonen

Überblick

Wenn Sie TPU-Knoten zum Verarbeiten Ihrer ML-Arbeitslasten erstellen, müssen Sie einen TPU-Typ auswählen. Der TPU-Typ definiert die TPU-Version, die Anzahl der TPU-Kerne und die Menge des TPU-Arbeitsspeichers, der für Ihre ML-Arbeitslast verfügbar ist.

Der v2-8-TPU-Typ definiert beispielsweise einen TPU-Knoten mit acht TPU v2-Kernen und insgesamt 64 GiB TPU-Arbeitsspeicher. Der v3-2048-TPU-Typ definiert einen TPU-Knoten mit 2.048 TPU v3-Kernen und insgesamt 32 TiB TPU-Arbeitsspeicher.

Informationen zu den Hardwareunterschieden zwischen TPU-Versionen und -Konfigurationen finden Sie in der Dokumentation zur Systemarchitektur.

Die Preise für jeden TPU-Typ in jeder Region können Sie der Seite Cloud TPU-Preise entnehmen.

Ein Modell, das auf einem TPU-Typ ausgeführt wird, kann ohne TensorFlow-Codeänderungen für einen anderen TPU-Typ ausgeführt werden. Beispielsweise kann v2-8 - Code auf einem v3-8 unverändert ausgeführt werden. Für eine Skalierung von v2-8 oder v3-8 zu einem größeren TPU-Typ wie v2-32 oder v3-128 ist jedoch eine erhebliche Feinabstimmung und Optimierung erforderlich.

TPU-Typen und Zonen

Die einzelnen TPU-Typen unterscheiden sich hauptsächlich in Preis, Leistung, Arbeitsspeicherkapazität und zonaler Verfügbarkeit.

Google Cloud Platform verwendet in Zonen unterteilte Regionen, um den geografischen Standort von Computerressourcen zu definieren. Beispiel: Die Region us-central1 bezeichnet eine Region in der Nähe des geografischen Zentrums der USA mit folgenden Zonen: us-central1-a, us-central1-b, us-central1-c und us-central1-f. Wenn Sie einen TPU-Knoten erstellen, geben Sie die Zone an, in der Sie ihn erstellen möchten. Weitere Informationen zu regionalen und zonalen Ressourcen finden Sie im Compute Engine-Dokument Globale, regionale und zonale Ressourcen.

Sie können Ihre TPU-Knoten mit den folgenden TPU-Typen konfigurieren:

USA

TPU-Typ (v2) TPU v2-Kerne Gesamter TPU-Arbeitsspeicher Region/Zone
v2–8 8 64 GiB us-central1-b
us-central1-c
us-central1-f
v2–32 32 256 GiB us-central1-a
v2-128 128 1 TiB us-central1-a
v2-256 256 2 TiB us-central1-a
v2-512 512 4 TiB us-central1-a
TPU-Typ (v3) TPU v3-Kerne Gesamter TPU-Arbeitsspeicher Verfügbare Zonen
v3–8 8 128 GiB us-central1-a
us-central1-b
us-central1-f

Europa

TPU-Typ (v2) TPU v2-Kerne Gesamter TPU-Arbeitsspeicher Region/Zone
v2–8 8 64 GiB europe-west4-a
v2–32 32 256 GiB europe-west4-a
v2-128 128 1 TiB europe-west4-a
v2-256 256 2 TiB europe-west4-a
v2-512 512 4 TiB europe-west4-a
TPU-Typ (v3) TPU v3-Kerne Gesamter TPU-Arbeitsspeicher Verfügbare Zonen
v3–8 8 128 GiB europe-west4-a
v3-32 32 512 GiB europe-west4-a
v3–64 64 1 TiB europe-west4-a
v3–128 128 2 TiB europe-west4-a
v3–256 256 4 TiB europe-west4-a
v3–512 512 8 TiB europe-west4-a
v3–1024 1.024 16 TiB europe-west4-a
v3–2048 2.048 32 TiB europe-west4-a

Asiatisch-pazifischer Raum

TPU-Typ (v2) TPU v2-Kerne Gesamter TPU-Arbeitsspeicher Region/Zone
v2–8 8 64 GiB asia-east1-c

TPU-Typen mit einer höheren Anzahl von Kernen sind nur in begrenzten Mengen verfügbar. Bei TPU-Typen mit einer niedrigeren Anzahl von Kernen ist die Wahrscheinlichkeit höher, dass sie verfügbar sind.

Kompromiss zwischen Preis und Leistung finden

Als Entscheidungshilfe bei der Wahl des zu verwendenden TPU-Typs können Sie mit einer Cloud TPU-Anleitung experimentieren und ein Modell trainieren, das Ihrer Anwendung ähnlich ist.

Führen Sie die Anleitung für 5–10 % der Anzahl der Schritte aus, die Sie zum Ausführen des gesamten Trainings auf dem TPU-Typ v2-8 und v3-8 verwenden. Das Ergebnis zeigt Ihnen, wie lange es dauert, um diese Anzahl von Schritten für dieses Modell auf jedem TPU-Typ auszuführen.

Die Leistung auf TPU-Typen skaliert linear. Wenn Sie also wissen, wie lang die Ausführung einer Aufgabe auf einem v2-8- oder v3-8-TPU-Typ dauert, können Sie abschätzen, wie viel kürzer die Ausführungszeit ist, wenn Sie Ihr Modell auf einem größeren TPU-Typ mit mehr Kernen ausführen.

Wenn ein v2-8-TPU-Typ beispielsweise 60 Minuten für 10.000 Schritte benötigt, müsste ein v2-32-Knoten ungefähr 15 Minuten für dieselbe Aufgabe benötigen.

Informationen zum Ermitteln der Kostenunterschiede innerhalb Ihrer Region zwischen den verschiedenen TPU-Typen für Cloud TPU und der zugehörigen Compute Engine-VM finden Sie auf der Seite mit den TPU-Preisen. Wenn Sie die ungefähre Trainingszeit für Ihr Modell auf einigen verschiedenen TPU-Typen kennen, können Sie die VM/TPU-Kosten gegen die Trainingszeit abwägen, um das beste Preis-Leistungs-Verhältnis zu ermitteln.

TPU-Typ angeben

Sie geben einen TPU-Typ an, wenn Sie einen TPU-Knoten erstellen. Zur Auswahl eines TPU-Typs stehen Ihnen beispielsweise folgende Methoden zur Verfügung:

gcloud-Befehl

  • Verwenden Sie den gcloud-Befehl compute tpus execution-groups:
$ gcloud compute tpus execution-groups create \
 --name=tpu_name \
 --zone=zone \
 --tf-version=tensorflow_version \
 --machine-type=n1-standard-8 \
 --accelerator-type=v3-8

Beschreibung der Befehls-Flags

name
Der Name der zu erstellenden Cloud TPU.
zone
Die Zone, in der Sie die Cloud TPU erstellen möchten.
tf-version
Die Version von Tensorflow, die von gcloud auf der VM installiert wird.
machine-type
Der Maschinentyp der zu erstellenden Compute Engine-VM.
accelerator-type
Der Typ der zu erstellenden Cloud TPU.

Cloud Console

  1. Wählen Sie im linken Navigationsmenü Compute Engine > TPUs aus.
  2. Klicken Sie im Bildschirm "TPUs" auf TPU-Knoten erstellen. Eine Konfigurationsseite für die TPU wird geöffnet.
  3. Wählen Sie unter TPU-Typ eine der unterstützten TPU-Versionen aus.
  4. Klicken Sie auf Erstellen.

Weitere Informationen

  • Mehr über die TPU-Architektur auf der Seite zur Systemarchitektur erfahren
  • Weitere Informationen zu den für Cloud TPU geeigneten Modellen finden Sie unter Verwendung von TPUs.
  • Wenn Sie eine Ausführung mit Kubernetes oder ML Engine planen, finden Sie mehr unter TPU-Dienst auswählen.