Dienste mit Zugriff auf TPUs

Ihre Anwendungen können über Container, Instanzen oder Dienste in Google Cloud auf TPU-Knoten zugreifen. Die Anwendung benötigt eine Verbindung zu Ihrem TPU-Knoten über Ihr VPC-Netzwerk.

Die folgenden Google Cloud-Dienste können auf TPU-Knoten zugreifen. Wählen Sie den Dienst aus, dessen Eigenschaften Ihre Anforderungen am besten erfüllen.

Compute Engine

  • Cloud TPU in Compute Engine empfiehlt sich als Einstieg sowohl für nicht mit Cloud TPU vertraute Nutzer als auch für erfahrene ML-Nutzer, die ihre eigenen Cloud TPU-Dienste verwalten möchten. Es enthält Folgendes:
    • Das Dienstprogramm ctpu, das Ihre VM-, TPU- und Cloud Storage-Ressourcen einrichtet
    • Eine Kurzanleitung, die Sie durch das Training Ihres ersten ML-Modells führt
    • Anleitungen für Imageklassifizierungs-, Objekterkennungs- und Sprachübersetzungsmodelle
    • Tools zur Leistungsüberwachung und zur Behebung von Engpässen bei der Verarbeitung von TPU-Modellen

Kubernetes Engine

  • Cloud TPU in Google Kubernetes Engine bietet Folgendes:
    • Einfachere Einrichtung und Verwaltung: Wenn Sie Cloud TPU verwenden, benötigen Sie eine Compute Engine-VM zum Ausführen Ihrer Arbeitslast und einen CIDR-Block (Classless Inter-Domain Routing) für Cloud TPU. Google Kubernetes Engine erstellt und verwaltet die VM und den CIDR-Block für Sie.
    • Optimierte Kosten: Google Kubernetes Engine skaliert Ihre VMs automatisch anhand der Arbeitslasten und des Traffics. Sie bezahlen nur dann für Cloud TPU und die VM, wenn Sie Arbeitslasten darauf ausführen.
    • Flexible Nutzung: Zum Wechseln der Hardwarebeschleunigung (CPU, GPU oder TPU) müssen Sie in den Pod-Spezifikationen nur eine einzige Zeile ändern.
    • Skalierbarkeit: Google Kubernetes Engine bietet APIs ("Job" und "Deployment"), die Ressourcen problemlos auf Hunderte von Pods und Cloud TPU-Knoten skalieren können.
    • Fehlertoleranz: Die Jobs API von Google Kubernetes Engine stellt in Verbindung mit dem TensorFlow-Prüfpunktmechanismus die Semantik für die vollständige Ausführung bereit. Treten auf einer VM-Instanz oder einem Cloud TPU-Knoten Fehler auf, werden die Trainingsjobs automatisch vom aktuellen Zustand des Prüfpunkte aus noch einmal ausgeführt.

AI Platform

  • Cloud TPU auf AI Platform ist ein guter Ausgangspunkt, wenn Sie bereits Erfahrung in ML haben und die von AI Platform verwalteten Dienste und APIs nutzen möchten. AI Platform verwaltet die folgenden ML-Workflow-Phasen:
    • ML-Modell mit Ihren Daten trainieren:
      • ML-Modell mit Ihren Daten trainieren
      • Modellgenauigkeit bewerten
      • Hyperparameter abstimmen
    • Trainiertes Modell bereitstellen
    • Vorhersageanfragen an das Modell senden:
      • Onlinevorhersage
      • Batchvorhersage
    • Fortlaufendes Überwachen der Vorhersagen
    • Modelle und Versionen verwalten