TPUs verwalten

Zum Trainieren eines Modells für maschinelles Lernen (ML-Modell) sind eine Compute Engine-VM und Cloud TPU-Ressourcen erforderlich. Auf dieser Seite wird beschrieben, wie Sie diese Ressourcen verwalten können:

  • Das gcloud command-line tool-Befehlszeilentool stellt die primäre Befehlszeile für die Google Cloud Platform (GCP) bereit.
  • Die Cloud Console ist eine integrierte Verwaltungskonsole für Ihre GCP-Ressourcen.

Vorbereitung

Sie müssen ein GCP-Projekt (Google Cloud Platform) eingerichtet haben, um dieser Anleitung zu folgen. Wenn Sie noch kein Projekt haben, erfahren Sie unter Projekte erstellen und verwalten, wie Sie ein Projekt einrichten können.

Wenn Sie den Befehl gcloud verwenden, können Sie Google Cloud Shell verwenden oder den Befehl gcloud lokal installieren. Mit Google Cloud Shell können Sie mit Cloud TPUs interagieren, ohne Software installieren zu müssen. Die Google Cloud Shell kann nach einer gewissen Zeit der Inaktivität getrennt werden. Wenn Sie lang andauernde Befehle ausführen, empfehlen wir daher, gcloud auf Ihrem lokalen Computer zu installieren. Der Befehl gcloud ist Teil des Google Cloud SDK.

  1. Wenn Sie eine lokale Eingabeaufforderung verwenden, installieren Sie das Google Cloud SDK.
  2. Konfigurieren Sie gcloud für die Verwendung Ihres Projekts.

    gcloud config set project project-name
    
  3. Konfigurieren Sie gcloud so, dass die Zone verwendet wird, in der Sie Ihre Cloud TPU-Ressourcen erstellen möchten. Beispiel: us-central1-b.

    $ gcloud config set compute/zone zone
    

Weitere Informationen zum Befehl gcloud finden Sie in der gcloud-Referenz.

Cloud TPU erstellen

Wenn Sie eine Cloud TPU erstellen, erstellen Sie auch Compute Engine-VM- und TPU-Ressourcen.

Cloud TPU mit gcloud erstellen

$ gcloud compute tpus execution-groups create --name=tpu-name \
  --zone=zone \
  --tf-version=2.4.1 \
  --machine-type=n1-standard-1 \
  --accelerator-type=v3-8

Beschreibung der Befehls-Flags

zone
Die Zone, in der Sie die Cloud TPU erstellen möchten.
tf-version
Die Version von Tensorflow, die mit dem Befehl gcloud auf der VM installiert wird.
machine-type
Der Maschinentyp der zu erstellenden Compute Engine-VM.
accelerator-type
Der Typ der zu erstellenden Cloud TPU.

Cloud TPU in der Google Cloud Console erstellen

  1. Öffnen Sie die Google Cloud Console.
  2. Wählen Sie im Navigationsmenü Compute Engine > TPUs aus.
  3. Klicken Sie auf TPU-KNOTEN ERSTELLEN.
  4. Geben Sie im Feld Name einen TPU-Instanznamen ein.
  5. Wählen Sie im Feld Zone die Zone aus, in der die TPU erstellt werden soll.
  6. Wählen Sie für TPU-Typ den TPU-Typ aus, den Sie erstellen möchten.
  7. Wählen Sie für TPU-Softwareversion die Softwareversion aus. Beim Erstellen einer Cloud TPU-VM gibt die TPU-Softwareversion die Version der zu installierenden TPU-Laufzeit an. Beim Erstellen eines Cloud TPU-Knotens können Sie mit der TPU-Softwareversion das ML-Framework auswählen, das auf der VM des Knotens installiert ist. Es sind keine weiteren Einstellungen erforderlich. Weitere Informationen finden Sie unter Unterstützte Modelle.
  8. Klicken Sie auf ERSTELLEN, um Ihre Ressourcen zu erstellen.

Verbindung zu einer Cloud TPU-VM herstellen

$ gcloud compute ssh tpu-name\
  --zone=zone

Cloud TPU-Ressourcen auflisten

Sie können alle Ihre Cloud TPUs in einer bestimmten Zone auflisten.

Cloud TPU-Ressourcen mit gcloud auflisten

$ gcloud compute tpus execution-groups list --zone=zone

Mit diesem Befehl werden die Cloud TPU-Ressourcen in der angegebenen Zone aufgelistet. Wenn derzeit keine Ressourcen eingerichtet sind, werden in der Ausgabe nur Bindestriche für die VM und die TPU angezeigt. Wenn eine Ressource aktiv ist und die andere nicht, wird eine Meldung angezeigt, die besagt, dass der Status fehlerhaft ist. Sie müssen die Ressource, die nicht ausgeführt wird, starten oder neu starten.

Cloud TPU-Ressourcen mit der GCP Console auflisten

  1. Öffnen Sie die Google Cloud Console.

  2. Wählen Sie im Navigationsmenü Compute Engine > TPUs aus. In der Console wird die TPU-Seite angezeigt.

Informationen zu Ihrer Cloud TPU abrufen

Sie können Informationen zu einer bestimmten Cloud TPU abrufen.

Informationen zu einer Cloud TPU mit gcloud abrufen

$ gcloud compute tpus execution-groups describe tpu-name \
  --zone=zone

Informationen zu einer Cloud TPU mithilfe der Google Cloud Console abrufen

  1. Öffnen Sie die Google Cloud Console.
  2. Wählen Sie im Navigationsmenü Compute Engine > TPUs aus. In der Console wird die TPU-Seite angezeigt.
  3. Klicken Sie auf den Namen Ihrer Cloud TPU. Die Cloud TPU-Detailseite wird angezeigt.

Cloud TPU-Ressourcen anhalten

Sie können eine Cloud TPU beenden, um weitere Gebühren zu vermeiden, ohne die Konfiguration und Software Ihrer VM zu verlieren.

Cloud TPU mit gcloud beenden

$ gcloud alpha compute tpus stop tpu-name \
  --zone=zone

Cloud TPU in der GCP Console anhalten

  1. Öffnen Sie die Google Cloud Console.

  2. Wählen Sie im Navigationsmenü Compute Engine > TPUs aus. In der Console wird die TPU-Seite angezeigt.

  3. Klicken Sie auf das Kästchen neben Ihrer Cloud TPU und dann auf Beenden.

Cloud TPU-Ressourcen starten

Sie können eine Cloud TPU starten, sobald sie angehalten wurde.

Cloud TPU mit gcloud starten

$ gcloud alpha compute tpus start tpu-name --zone=zone

Cloud TPU in der GCP Console starten

  1. Öffnen Sie die Google Cloud Console.

  2. Wählen Sie im Navigationsmenü Compute Engine > TPUs aus. In der Console wird die TPU-Seite angezeigt.

  3. Klicken Sie auf das Kästchen neben Ihrer Cloud TPU und dann auf Start.

Compute Engine-VM und Cloud TPU-Ressourcen löschen

Sie können Cloud TPU löschen, wenn Sie mit der Nutzung fertig sind.

Cloud TPU mit gcloud löschen

$ gcloud compute tpus execution-groups delete tpu-name \
  --zone=zone

Beschreibung der Befehls-Flags

zone
Die Zone, in der Sie die Cloud TPU erstellen möchten.

Cloud TPU mithilfe der GCP Console löschen

  1. Öffnen Sie die Google Cloud Console.

  2. Wählen Sie im Navigationsmenü Compute Engine > TPUs aus. In der Console wird die TPU-Seite angezeigt.

  3. Klicken Sie auf das Kästchen neben Ihrer Cloud TPU und dann auf Löschen.