Cloud TPU-Umgebung einrichten

Bevor Sie Cloud TPU-Ressourcen zum Trainieren oder Ausführen von Inferenzen für Modelle verwenden können, müssen Sie die folgenden Einrichtungsschritte ausführen:

Google Cloud-Projekt einrichten

Sie benötigen ein Google Cloud-Konto und -Projekt, um Cloud TPU verwenden zu können.

  1. Führen Sie in der Google Cloud Console folgende Schritte aus: melden Sie sich in Ihrem Google-Konto an oder Registrieren Sie sich für ein neues Konto.

  2. Installieren Sie die Google Cloud CLI. Die Google Cloud CLI ist ein Schnittstelle für den Zugriff auf und die Verwaltung von Google Cloud-Ressourcen und -Diensten.

  3. Wählen Sie ein Google Cloud-Projekt aus oder erstellen Sie eines:

    Wählen Sie in der Google Cloud Console ein Cloud-Projekt aus oder erstellen Sie eines. in der Projektauswahl.

    Legen Sie in Cloud Shell Ihre Projekt-ID mithilfe der gcloud CLI fest. Die Projekt-ID ist der Name Ihres Projekts, der in der Google Cloud Console angezeigt wird.

    $ gcloud config set project PROJECT-ID
    
  4. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

    Für die gesamte Google Cloud-Nutzung muss die Abrechnung eingerichtet werden. Dir werden nur nachdem Sie mit der Nutzung von Google Cloud-Ressourcen begonnen haben. Weitere Informationen finden Sie unter in der Cloud Billing-Dokumentation.

    Die Abrechnung für die gesamte Nutzung von Cloud TPU-Versionen erfolgt gemäß den regionalen Standardpreisen finden Sie auf der Preisseite für Cloud TPU.

Umgebung für die Verwendung von Cloud TPU einrichten

Bevor Sie eine Cloud TPU anfordern, müssen Sie die Cloud TPU API aktivieren und sicherstellen, dass Sie berechtigt sind, den Zugriff in Ihrem Projekt zu verwalten und eine Cloud TPU. Es wird außerdem empfohlen, einen vom Nutzer verwalteten Dienst zu erstellen Konto zum Anhängen an Ihre TPU.

  1. Aktivieren Sie die Cloud TPU API über die Google Cloud Console oder die gcloud CLI in Cloud Shell:

    gcloud

    $ gcloud services enable tpu.googleapis.com
    

    Console

    1. Rufen Sie in der Google Cloud Console die Seite der Cloud TPU API auf.

    Zur Seite der Cloud TPU API

    1. Klicken Sie auf Aktivieren.
  2. Sie benötigen die folgenden Rollen für Ihr Projekt:

    Folgen Sie dazu der Anleitung unter Zum Ansehen Aktueller Zugriff ansehen der Zugriff auf Ihr Projekt, Ihren Ordner oder Ihre Organisation hat. So rufen Sie Ihre eigenen auf suchen Sie in der Spalte Hauptkonto nach der Zeile mit Ihrer E-Mail-Adresse. Wenn Ihre E-Mail-Adresse nicht in dieser Spalte aufgeführt ist, haben Sie keine Rollen. Überprüfen Sie in der Spalte Rolle der Zeile mit Ihrer E-Mail-Adresse, ob die Die Liste der Rollen enthält die erforderlichen Rollen.

    Wenn Sie keine erforderliche Rolle haben, Rolle gewähren oder bitten Sie einen Administrator.

  3. Erstellen Sie einen Cloud TPU-Dienst-Agent:

    Dienst-Agents, eine Art von Dienstidentität, sind Von Google verwaltete Dienstidentitäten, die vom Cloud TPU-Dienst verwendet werden um Vorgänge in Ihrem Google Cloud-Projekt auszuführen. Zum Beispiel hat der Dienst Agent wird zum Erstellen und Verwalten von Cloud TPU-Ressourcen verwendet.

      $ gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
    
  4. Erstellen Sie ein TPU-Dienstkonto:

    Dienstkonten dienen als Anmeldedaten für Ihre TPU-VMs. Rollen, die einem Dienstkonto Zugriff auf Google Cloud-Ressourcen gewähren. Wir empfehlen die Verwendung eines des vom Nutzer verwalteten Dienstkontos, und gewähren Sie nur die Berechtigungen, die für Ihre TPU-VM Wenn Sie ein vom Nutzer verwaltetes Dienstkonto verwenden, müssen Sie es angeben, Sie erstellen eine TPU-VM mit dem Flag --service-account.

    1. Folgen Sie der Anleitung unter Dienstkonten erstellen. um ein vom Nutzer verwaltetes Dienstkonto zu erstellen.

    2. Folgen Sie der Anleitung unter Zugriff auf Projekte, Ordner und Organisationen verwalten, um den Dienst zu gewähren. Kontozugriff auf Google Cloud-Dienste, auf die Ihre TPU zugreift. Die Folgende Rollen werden empfohlen, damit Ihre TPU auf häufig verwendete Google Cloud-Dienste.

Erstellen einer Cloud TPU vorbereiten

Bevor Sie eine Cloud TPU erstellen, müssen Sie ein Kontingent anfordern. Außerdem sollten Sie Ressourcen in der Warteschlange verwenden und welche Parameter Sie zur Konfiguration Ihre TPU.

  1. Anfragekontingent:

    Zum Erstellen einer Cloud TPU muss Ihr Google Cloud-Projekt ein Kontingent haben für die Version und Größe der TPU, die Sie erstellen möchten, sowie für die Zone, in der Sie erstellen möchten. Wenn Sie beispielsweise eine TPU v4-8 in us-central2-b erstellen möchten, würden Sie ein Kontingent von 8 TPU v4-Kernen in us-central2-b anfordern. Weitere Informationen Informationen zu Zonen, in denen Cloud TPU verfügbar ist, finden Sie unter TPU-Regionen und -Zonen:

    Das Kontingent wird je nach TPU-Version unterschiedlich zugewiesen. Verschiedene Arten der Kontingente haben unterschiedliche Verfügbarkeitserwartungen. Weitere Informationen zu Informationen zur Kontingentzuweisung und Kontingenttypen sowie dazu, wie Sie Kontingente anfordern, finden Sie unter Kontingente.

  2. Legen Sie fest, ob Sie Ressourcen in der Warteschlange verwenden möchten.

    Es hat sich bewährt, eine Cloud TPU als Ressource in der Warteschlange zu erstellen. In der Warteschlange Ressourcen ermöglichen es Ihnen, Kapazität zu erhalten, sobald diese verfügbar ist. Sie können Sie können eine Start- und Endzeit angeben, zu der die Anfrage ausgeführt werden soll.

    Es gibt verschiedene gcloud CLI-Befehle für die Arbeit mit Ressourcen. Weitere Informationen finden Sie im Nutzerhandbuch für Ressourcen in der Warteschlange.

  3. Legen Sie die Cloud TPU-Erstellungsparameter fest:

    • Zone: Legen Sie das Flag --zone auf die Zone fest, in der Sie eine TPU erstellen möchten. In dieser Zone muss ein Kontingent zugewiesen sein. Weitere Informationen finden Sie unter TPU-Regionen und -Zonen:

    • TPU-Konfiguration: Wenn Sie keine benutzerdefinierte Topologie angeben müssen oder Wenn Sie TPU v2 oder v3 verwenden, setzen Sie das Flag --accelerator-type auf vVERSION-TENSORCORES. Ersetzen VERSION durch die TPU-Versionsnummer, die Sie verwenden möchten. Ersetzen TENSORCORES durch die Anzahl der TensorCores, die Sie verwenden möchten.

      Wenn Sie die physische Topologie Ihrer TPU anpassen möchten, verwenden Sie die Methode Die Flags --version und --topology. Legen Sie das Flag --version auf die TPU fest die Sie verwenden möchten. Legen Sie das Flag --topology auf die Topologie fest, die Sie verwenden möchten.

      Weitere Informationen zu TPU-Konfigurationen, einschließlich unterstützter Konfigurationen Konfigurationen und Topologievarianten finden Sie unter TPU-Versionen.

    • Softwareversion: Wenn Sie eine Ressource in der Warteschlange anfordern, legen Sie den Wert für --runtime-version zum Namen der Softwareversion, die Sie verwenden, die Sie verwenden möchten. Andernfalls verwenden Sie das Flag --version. TPU-Softwareversionen sind für TensorFlow-, PyTorch- und JAX-Frameworks verfügbar. Für Weitere Informationen zu unterstützten Softwareversionen finden Sie unter TPU-VM-Softwareversionen.

    • Dienstkonto: Legen Sie für --service-account die E-Mail-Adresse eines Dienstes fest. -Konto, falls Sie eines erstellt haben, um das Dienstkonto an Ihre TPU anzuhängen. Wenn das Feld leer ist, wird das Compute Engine-Standarddienstkonto verwendet werden.

    • Kontingenttyp: Fügen Sie das Flag hinzu, das dem gewünschten Kontingenttyp entspricht. zu verwenden:

      Kontingenttyp Flag
      Reserviert --reserved
      Spot-VMs --spot
      Präemptiv mit Ressourcen in der Warteschlange --best-effort
      Auf Abruf verwendet keine Ressourcen in der Warteschlange --preemptible
      On demand Keine zusätzliche Markierung erforderlich
    • Erweiterte Konfiguration: Sie können Ihrer Anfrage zusätzliche Flags hinzufügen. konfigurieren Sie die TPU. Weitere Informationen finden Sie in der gcloud compute tpus tpu-vm create-Dokumentation. und in den folgenden Abschnitten unter TPUs verwalten , um weitere Informationen zu erhalten:

Beispiele zum Erstellen einer Cloud TPU finden Sie unter Erste Schritte.

Nächste Schritte

  1. VM- und TPU-Ressourcen erstellen und verwalten
  2. Cloud TPU-Schnellstart ausführen