Überblick
Wenn Sie TPU-Knoten zum Verarbeiten Ihrer ML-Arbeitslasten erstellen, müssen Sie einen TPU-Typ auswählen. Der TPU-Typ definiert die TPU-Version, die Anzahl der TPU-Kerne und die Menge des TPU-Arbeitsspeichers, der für Ihre ML-Arbeitslast verfügbar ist.
Der v2-8
-TPU-Typ definiert beispielsweise einen TPU-Knoten mit acht TPU v2-Kernen und insgesamt 64 GiB TPU-Arbeitsspeicher. Der v3-2048
-TPU-Typ definiert einen TPU-Knoten mit 2.048 TPU v3-Kernen und insgesamt 32 TiB TPU-Arbeitsspeicher.
Informationen zu den Hardwareunterschieden zwischen TPU-Versionen und -Konfigurationen finden Sie in der Dokumentation zur Systemarchitektur.
Die Preise für jeden TPU-Typ in jeder Region können Sie der Seite Cloud TPU-Preise entnehmen.
Ein Modell, das auf einem TPU-Typ ausgeführt wird, kann ohne TensorFlow-Codeänderungen für einen anderen TPU-Typ ausgeführt werden. Beispielsweise kann v2-8
- Code auf einem v3-8
unverändert ausgeführt werden.
Für eine Skalierung von v2-8
oder v3-8
zu einem größeren TPU-Typ wie v2-32
oder v3-128
ist jedoch eine erhebliche Feinabstimmung und Optimierung erforderlich.
TPU-Typen und Zonen
Die einzelnen TPU-Typen unterscheiden sich hauptsächlich in Preis, Leistung, Arbeitsspeicherkapazität und zonaler Verfügbarkeit.
Google Cloud Platform verwendet in Zonen unterteilte Regionen, um den geografischen Standort von Computerressourcen zu definieren. Beispiel: Die Region us-central1
bezeichnet eine Region in der Nähe des geografischen Zentrums der USA mit folgenden Zonen: us-central1-a
, us-central1-b
, us-central1-c
und us-central1-f
. Wenn Sie einen TPU-Knoten erstellen, geben Sie die Zone an, in der Sie ihn erstellen möchten. Weitere Informationen zu regionalen und zonalen Ressourcen finden Sie im Compute Engine-Dokument Globale, regionale und zonale Ressourcen.
Sie können Ihre TPU-Knoten mit den folgenden TPU-Typen konfigurieren:
USA
TPU-Typ (v2) | TPU v2-Kerne | Gesamter TPU-Arbeitsspeicher | Region/Zone |
---|---|---|---|
v2–8 | 8 | 64 GiB |
us-central1-b us-central1-c us-central1-f
|
v2–32 | 32 | 256 GiB |
us-central1-a
|
v2-128 | 128 | 1 TiB |
us-central1-a
|
v2-256 | 256 | 2 TiB |
us-central1-a
|
v2-512 | 512 | 4 TiB |
us-central1-a
|
TPU-Typ (v3) | TPU v3-Kerne | Gesamter TPU-Arbeitsspeicher | Verfügbare Zonen |
v3–8 | 8 | 128 GiB |
us-central1-a us-central1-b us-central1-f
|
Europa
TPU-Typ (v2) | TPU v2-Kerne | Gesamter TPU-Arbeitsspeicher | Region/Zone |
---|---|---|---|
v2–8 | 8 | 64 GiB |
europe-west4-a
|
v2–32 | 32 | 256 GiB |
europe-west4-a
|
v2-128 | 128 | 1 TiB |
europe-west4-a
|
v2-256 | 256 | 2 TiB |
europe-west4-a
|
v2-512 | 512 | 4 TiB |
europe-west4-a
|
TPU-Typ (v3) | TPU v3-Kerne | Gesamter TPU-Arbeitsspeicher | Verfügbare Zonen |
v3–8 | 8 | 128 GiB |
europe-west4-a
|
v3-32 | 32 | 512 GiB |
europe-west4-a
|
v3–64 | 64 | 1 TiB |
europe-west4-a
|
v3–128 | 128 | 2 TiB |
europe-west4-a
|
v3–256 | 256 | 4 TiB |
europe-west4-a
|
v3–512 | 512 | 8 TiB |
europe-west4-a
|
v3–1024 | 1.024 | 16 TiB |
europe-west4-a
|
v3–2048 | 2.048 | 32 TiB |
europe-west4-a
|
Asiatisch-pazifischer Raum
TPU-Typ (v2) | TPU v2-Kerne | Gesamter TPU-Arbeitsspeicher | Region/Zone |
---|---|---|---|
v2–8 | 8 | 64 GiB |
asia-east1-c
|
TPU-Typen mit einer höheren Anzahl von Kernen sind nur in begrenzten Mengen verfügbar. Bei TPU-Typen mit einer niedrigeren Anzahl von Kernen ist die Wahrscheinlichkeit höher, dass sie verfügbar sind.
Kompromiss zwischen Preis und Leistung finden
Als Entscheidungshilfe bei der Wahl des zu verwendenden TPU-Typs können Sie mit einer Cloud TPU-Anleitung experimentieren und ein Modell trainieren, das Ihrer Anwendung ähnlich ist.
Führen Sie die Anleitung für 5–10 % der Anzahl der Schritte aus, die Sie zum Ausführen des gesamten Trainings auf dem TPU-Typ v2-8
und v3-8
verwenden. Das Ergebnis zeigt Ihnen, wie lange es dauert, um diese Anzahl von Schritten für dieses Modell auf jedem TPU-Typ auszuführen.
Die Leistung auf TPU-Typen skaliert linear. Wenn Sie also wissen, wie lang die Ausführung einer Aufgabe auf einem v2-8
- oder v3-8
-TPU-Typ dauert, können Sie abschätzen, wie viel kürzer die Ausführungszeit ist, wenn Sie Ihr Modell auf einem größeren TPU-Typ mit mehr Kernen ausführen.
Wenn ein v2-8
-TPU-Typ beispielsweise 60 Minuten für 10.000 Schritte benötigt, müsste ein v2-32
-Knoten ungefähr 15 Minuten für dieselbe Aufgabe benötigen.
Informationen zum Ermitteln der Kostenunterschiede innerhalb Ihrer Region zwischen den verschiedenen TPU-Typen für Cloud TPU und der zugehörigen Compute Engine-VM finden Sie auf der Seite mit den TPU-Preisen. Wenn Sie die ungefähre Trainingszeit für Ihr Modell auf einigen verschiedenen TPU-Typen kennen, können Sie die VM/TPU-Kosten gegen die Trainingszeit abwägen, um das beste Preis-Leistungs-Verhältnis zu ermitteln.
TPU-Typ angeben
Sie geben einen TPU-Typ an, wenn Sie einen TPU-Knoten erstellen. Zur Auswahl eines TPU-Typs stehen Ihnen beispielsweise folgende Methoden zur Verfügung:
gcloud-Befehl
- Verwenden Sie dazu den Befehl gcloud compute tpus execution-groups:
$ gcloud compute tpus execution-groups create \
--name=tpu_name \
--zone=zone \
--tf-version=tensorflow_version \
--machine-type=n1-standard-8 \
--accelerator-type=v3-8
Beschreibung der Befehls-Flags
name
- Der Name der zu erstellenden Cloud TPU.
zone
- Die Zone, in der Sie die Cloud TPU erstellen möchten.
tf-version
- Die Version von Tensorflow, die von
gcloud
auf der VM installiert wird. machine-type
- Der Maschinentyp der zu erstellenden Compute Engine-VM.
accelerator-type
- Der Typ der zu erstellenden Cloud TPU.
Cloud Console
- Wählen Sie im linken Navigationsmenü Compute Engine > TPUs aus.
- Klicken Sie im Bildschirm "TPUs" auf TPU-Knoten erstellen. Eine Konfigurationsseite für die TPU wird geöffnet.
- Wählen Sie unter TPU-Typ eine der unterstützten TPU-Versionen aus.
- Klicken Sie auf Erstellen.
Weitere Informationen
- Mehr über die TPU-Architektur auf der Seite zur Systemarchitektur erfahren
- Weitere Informationen zu den für Cloud TPU geeigneten Modellen finden Sie unter Verwendung von TPUs.
- Wenn Sie eine Ausführung mit Kubernetes oder ML Engine planen, finden Sie mehr unter TPU-Dienst auswählen.