Cloud TPU-Umgebung einrichten

Bevor Sie Cloud TPU-Ressourcen zum Trainieren oder Ausführen von Inferenzen für Modelle verwenden können, müssen Sie die folgenden Einrichtungsschritte ausführen:

Google Cloud-Projekt einrichten

Sie benötigen ein Google Cloud-Konto und ein Projekt, um Cloud TPU verwenden zu können.

  1. Melde dich in der Google Cloud Console in deinem Google-Konto an oder registriere dich für ein neues Konto.

  2. Installieren Sie die Google Cloud CLI. Die Google Cloud CLI ist eine Schnittstelle für den Zugriff auf und die Verwaltung von Google Cloud-Ressourcen und -Diensten.

  3. Wählen Sie ein Google Cloud-Projekt aus oder erstellen Sie eines:

    Wählen Sie in der Google Cloud Console ein Cloud-Projekt über die Projektauswahl aus oder erstellen Sie eines.

    Legen Sie in Cloud Shell über die gcloud CLI Ihre Projekt-ID fest. Die Projekt-ID ist der Name Ihres Projekts, der in der Google Cloud Console angezeigt wird.

    $ gcloud config set project PROJECT-ID
    
  4. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

    Die Abrechnungseinrichtung ist für die gesamte Google Cloud-Nutzung erforderlich. Ihnen werden erst dann Kosten in Rechnung gestellt, wenn Sie Google Cloud-Ressourcen nutzen. Weitere Informationen finden Sie in der Dokumentation zu Cloud Billing.

    Die Abrechnung für alle Cloud TPU-Versionen erfolgt gemäß den regionalen Standardpreisen, die auf der Seite mit den Cloud TPU-Preisen aufgeführt sind.

Umgebung für die Verwendung von Cloud TPU einrichten

Bevor Sie eine Cloud TPU anfordern, müssen Sie die Cloud TPU API aktivieren und dafür sorgen, dass Sie die Berechtigungen zum Verwalten des Zugriffs in Ihrem Projekt und zum Erstellen einer Cloud TPU haben. Es wird auch empfohlen, ein vom Nutzer verwaltetes Dienstkonto zu erstellen, das an Ihre TPU angehängt werden kann.

  1. Aktivieren Sie die Cloud TPU API über die Google Cloud Console oder die gcloud CLI in Cloud Shell:

    gcloud

    $ gcloud services enable tpu.googleapis.com
    

    Console

    1. Rufen Sie in der Google Cloud Console die Seite „Cloud TPU API“ auf.

    Zur Seite „Cloud TPU API“

    1. Klicken Sie auf Aktivieren.
  2. Sie benötigen die folgenden Rollen für Ihr Projekt:

    Folgen Sie der Anleitung unter Aktuellen Zugriff ansehen, um zu sehen, wer Zugriff auf Ihr Projekt, Ihren Ordner oder Ihre Organisation hat. Wenn Sie Ihren eigenen Zugriff ansehen möchten, suchen Sie in der Spalte Hauptkonto die Zeile mit Ihrer E-Mail-Adresse. Wenn Ihre E-Mail-Adresse nicht in dieser Spalte enthalten ist, haben Sie keine Rollen. Prüfen Sie in der Spalte Rolle für die Zeile mit Ihrer E-Mail-Adresse, ob die Liste der Rollen die erforderlichen Rollen enthält.

    Wenn Sie die erforderliche Rolle nicht haben, gewähren Sie die Rolle oder bitten Sie einen Administrator, dies zu tun.

  3. Erstellen Sie einen Cloud TPU-Dienst-Agent:

    Dienst-Agents sind von Google verwaltete Dienstidentitäten, die vom Cloud TPU-Dienst verwendet werden, um Vorgänge in Ihrem Google Cloud-Projekt auszuführen. Der Dienst-Agent wird beispielsweise zum Erstellen und Verwalten von Cloud TPU-Ressourcen verwendet.

      $ gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
    
  4. Erstellen Sie ein TPU-Dienstkonto:

    Dienstkonten dienen als Anmeldedaten für Ihre TPU-VMs. Mit einem Dienstkonto verknüpfte Rollen gewähren Zugriff auf Google Cloud-Ressourcen. Wir empfehlen, ein vom Nutzer verwaltetes Dienstkonto zu verwenden, das nur die für Ihre TPU-VM erforderlichen Berechtigungen gewährt. Wenn Sie ein vom Nutzer verwaltetes Dienstkonto verwenden, müssen Sie es beim Erstellen einer TPU-VM mit dem Flag --service-account angeben.

    1. Folgen Sie der Anleitung unter Dienstkonten erstellen, um ein nutzerverwaltetes Dienstkonto zu erstellen.

    2. Folgen Sie der Anleitung unter Zugriff auf Projekte, Ordner und Organisationen verwalten, um Ihrem Dienstkonto Zugriff auf Google Cloud-Dienste zu gewähren, auf die Ihre TPU zugreifen wird. Die folgenden Rollen werden empfohlen, damit Ihre TPU auf häufig verwendete Google Cloud-Dienste zugreifen kann.

Erstellen einer Cloud TPU vorbereiten

Bevor Sie eine Cloud TPU erstellen, müssen Sie ein Kontingent anfordern. Sie sollten auch die Verwendung von Ressourcen in der Warteschlange sowie die Parameter für die Konfiguration Ihrer TPU in Betracht ziehen.

  1. Anfragekontingent:

    Zum Erstellen einer Cloud TPU benötigt Ihr Google Cloud-Projekt ein Kontingent für die Version und Größe der zu erstellenden TPU sowie für die Zone, in der Sie die TPU erstellen möchten. Wenn Sie beispielsweise eine TPU v4-8 in us-central2-b erstellen möchten, fordern Sie ein Kontingent von 8 TPU v4-Kernen in us-central2-b an. Weitere Informationen zu Zonen, in denen Cloud TPU verfügbar ist, finden Sie unter TPU-Regionen und -Zonen.

    Das Kontingent wird je nach TPU-Version unterschiedlich zugewiesen. Unterschiedliche Kontingenttypen haben unterschiedliche Erwartungen an die Verfügbarkeit. Weitere Informationen zur Kontingentzuweisung, den Kontingenttypen und dem Anfordern von Kontingenten finden Sie unter Kontingente.

  2. Legen Sie fest, ob Sie Ressourcen in der Warteschlange verwenden möchten.

    Es empfiehlt sich, eine Cloud TPU als Ressource in der Warteschlange zu erstellen. Mit Ressourcen in der Warteschlange können Sie Kapazität erhalten, sobald sie verfügbar ist. Sie können optional eine Start- und Endzeit für die Ausführung der Anfrage angeben.

    Für die Arbeit mit Ressourcen in der Warteschlange gibt es verschiedene gcloud CLI-Befehle. Weitere Informationen finden Sie im Nutzerhandbuch für Ressourcen in der Warteschlange.

  3. Legen Sie Parameter für die Cloud TPU-Erstellung fest:

    • Zone: Legen Sie für das Flag --zone die Zone fest, in der Sie eine TPU erstellen möchten. In dieser Zone muss ein Kontingent zugewiesen sein. Weitere Informationen finden Sie unter TPU-Regionen und -Zonen.

    • TPU-Konfiguration: Wenn Sie keine benutzerdefinierte Topologie angeben müssen oder TPU v2 oder v3 verwenden, setzen Sie das Flag --accelerator-type auf vVERSION-TENSORCORES. Ersetzen Sie VERSION durch die TPU-Versionsnummer, die Sie verwenden möchten. Ersetzen Sie TENSORCORES durch die Anzahl der TensorCores, die Sie verwenden möchten.

      Wenn Sie die physische Topologie Ihrer TPU anpassen möchten, verwenden Sie die Flags --version und --topology. Legen Sie das Flag --version auf die TPU-Version fest, die Sie verwenden möchten. Legen Sie für das Flag --topology die Topologie fest, die Sie verwenden möchten.

      Weitere Informationen zu TPU-Konfigurationen, einschließlich unterstützter Konfigurationen und Topologievarianten, finden Sie unter TPU-Versionen.

    • Softwareversion: Wenn Sie eine Ressource in der Warteschlange anfragen, geben Sie für das Flag --runtime-version den Namen der Softwareversion an, die Sie verwenden möchten. Verwenden Sie andernfalls das Flag --version. TPU-Softwareversionen sind für TensorFlow-, PyTorch- und JAX-Frameworks verfügbar. Weitere Informationen zu unterstützten Softwareversionen finden Sie unter TPU-VM-Softwareversionen.

    • Dienstkonto: Legen Sie --service-account auf die E-Mail-Adresse eines Dienstkontos fest, falls Sie eines erstellt haben, um das Dienstkonto an Ihre TPU anzuhängen. Wenn das Feld leer ist, wird das Compute Engine-Standarddienstkonto verwendet.

    • Kontingenttyp: Fügen Sie das Flag hinzu, das dem Kontingenttyp entspricht, den Sie verwenden möchten:

      Kontingenttyp Flag
      Reserviert --reserved
      Spot-VMs --spot
      Auf Abruf mithilfe von Ressourcen in der Warteschlange --best-effort
      Auf Abruf, die Ressourcen in der Warteschlange nicht verwenden --preemptible
      On demand Keine zusätzliche Markierung erforderlich
    • Erweiterte Konfiguration: Sie können der Anfrage zusätzliche Flags hinzufügen, um Ihre TPU zu konfigurieren. Weitere Informationen finden Sie in der gcloud compute tpus tpu-vm create-Dokumentation und in den folgenden Abschnitten unter TPUs verwalten:

Beispiele zum Erstellen einer Cloud TPU finden Sie unter Erste Schritte.

Nächste Schritte

  1. VM- und TPU-Ressourcen erstellen und verwalten
  2. Cloud TPU-Kurzanleitung ausführen