TensorFlow Deep Learning-VM-Instanz erstellen

In diesem Thema finden Sie eine Anleitung zum Erstellen einer neuen Deep Learning-VM-Instanz mit TensorFlow und anderen vorinstallierten Tools. Sie können bei der Einrichtung eine oder mehrere GPUs in Ihre Instanz einschließen.

Vorbereitung

Wenn Sie GPUs mit Ihrer Deep Learning-VM verwenden, prüfen Sie auf der Seite "Kontingente", ob im Projekt ausreichende GPUs verfügbar sind.

Wenn auf der Kontingentseite keine GPUs aufgeführt sind oder Sie zusätzliche GPU-Kontingente benötigen, können Sie eine Erhöhung des Kontingents beantragen. Weitere Informationen finden Sie auf der Compute Engine-Seite Ressourcenkontingente unter Höheres Kontingent anfordern.

Deep Learning-VM-Instanz mit TensorFlow in Google Cloud Marketplace erstellen

In Google Cloud Marketplace können Sie schnell funktionale Softwarepakete bereitstellen, die in Compute Engine ausgeführt werden. Auch Deep Learning-VMs mit TensorFlow können schnell und mühelos direkt in der Cloud Console über Google Cloud Marketplace erstellt werden. Sie müssen nicht über die Befehlszeile gehen.

Eine TensorFlow-Instanz können Sie mit oder ohne GPUs erstellen.

Ohne GPUs

So stellen Sie eine Deep Learning-VM-Instanz ohne GPU bereit:

  1. Besuchen Sie die Seite "Deep Learning-VM" in Google Cloud Marketplace der AI Platform.
  2. Klicken Sie auf In Compute Engine starten.
  3. Geben Sie einen Bereitstellungsnamen ein, der zum Stamm für Ihren VM-Namen wird. Compute Engine fügt bei der Benennung der Instanz das Suffix -vm an.
  4. Wählen Sie eine Zone aus oder übernehmen Sie die Standardeinstellung.
  5. Wählen Sie den Maschinentyp aus. Klicken Sie dann auf Anpassen, um an der Anzahl der Kerne oder Speicher bestimmte Anpassungen vorzunehmen. Weitere Informationen zu Maschinentypen finden Sie unter Maschinentypen.
  6. Legen Sie im Bereich GPUs die Anzahl der GPUs auf Keine fest.
  7. Wählen Sie dann im Bereich Framework die gewünschte Version von TensorFlow aus.
  8. Wählen Sie den Bootlaufwerktyp und die Größe des Bootlaufwerks in GB aus.
  9. Klicken Sie auf Bereitstellen.

Nach dem Bereitstellen der VM wird die Seite mit einer Anleitung für den Zugriff auf die Instanz aktualisiert.

Mit einer oder mehreren GPUs

Compute Engine bietet Ihnen die Möglichkeit, Ihren VM-Instanzen GPUs hinzuzufügen. GPUs ermöglichen bei vielen komplexen Aufgaben in den Bereichen Daten und maschinelles Lernen eine schnellere Verarbeitung. Weitere Informationen zu GPUs finden Sie unter GPUs in Compute Engine.

So stellen Sie eine Deep Learning-VM-Instanz mit einer oder mehreren GPUs bereit:

  1. Besuchen Sie die Seite "Deep Learning-VM" in Google Cloud Marketplace der AI Platform.
  2. Klicken Sie auf In Compute Engine starten.
  3. Geben Sie einen Bereitstellungsnamen ein, der zum Stamm für Ihren VM-Namen wird. Compute Engine fügt bei der Benennung der Instanz das Suffix -vm an.
  4. Wählen Sie eine Zone aus oder übernehmen Sie die Standardeinstellung.
  5. Wählen Sie den Maschinentyp aus. Klicken Sie dann auf Anpassen, um an der Anzahl der Kerne oder Speicher bestimmte Anpassungen vorzunehmen. Weitere Informationen zu Maschinentypen finden Sie unter Maschinentypen.
  6. Wählen Sie im Bereich GPUs die Anzahl der GPUs und den GPU-Typ aus. Nicht alle GPU-Typen sind in allen Zonen verfügbar. Auf der Seite GPUs in Compute Engine können Sie überprüfen, ob Ihr GPU-Typ unterstützt wird.
  7. Wählen Sie dann im Bereich Framework die gewünschte Version von TensorFlow aus.
  8. Bei Verwendung von GPUs ist ein NVIDIA-Treiber erforderlich. Sie können den Treiber selbst installieren oder das Kästchen auswählen, sodass der aktuelle stabile Treiber automatisch installiert wird.
  9. Wählen Sie den Bootlaufwerktyp und die Größe des Bootlaufwerks in GB aus.
  10. Befolgen Sie die Anweisungen auf der Seite, um Ihr GPU-Kontingent zu überprüfen. Geben Sie zur Bestätigung den erforderlichen Wert ein.
  11. Klicken Sie auf Bereitstellen.
  12. Wenn Sie mit einer Meldung darüber informiert werden, dass Sie Ihr GPU-Kontingent überschritten haben, folgen Sie der Anleitung in der Nachricht, um es zu erhöhen.

Wenn Sie sich für das Installieren von NVIDIA-Treibern entschieden haben, dauert die Installation drei bis fünf Minuten.

Nach dem Bereitstellen der VM wird die Seite mit einer Anleitung für den Zugriff auf die Instanz aktualisiert.

TensorFlow Deep Learning-VM-Instanz über die Befehlszeile erstellen

Damit Sie eine neue Deep Learning-VM-Instanz mit dem gcloud-Befehlszeilentool erstellen können, muss zuerst das Cloud SDK installiert und initialisiert werden:

  1. Laden Sie das Cloud SDK herunter und installieren Sie es. Folgen Sie dabei der Anleitung unter Google Cloud SDK installieren.
  2. Initialisieren Sie das SDK gemäß der Anleitung unter Cloud SDK initialisieren.

Wenn Sie gcloud in Cloud Shell verwenden möchten, aktivieren Sie zuerst Cloud Shell. Folgen Sie dazu der Anleitung unter Cloud Shell starten.

Eine TensorFlow-Instanz können Sie mit oder ohne GPUs erstellen.

Ohne GPUs

So stellen Sie eine Deep Learning-VM-Instanz ohne GPU bereit:

export IMAGE_FAMILY="tf2-latest-cpu"
    export ZONE="us-west1-b"
    export INSTANCE_NAME="my-instance"

    gcloud compute instances create $INSTANCE_NAME \
      --zone=$ZONE \
      --image-family=$IMAGE_FAMILY \
      --image-project=deeplearning-platform-release
    

Optionen:

  • --image-family muss einer der folgenden Datentypen sein:
  • --image-project muss deeplearning-platform-release lauten.

Mit einer oder mehreren GPUs

In Compute Engine können Sie Ihren VM-Instanzen eine oder mehrere GPUs hinzufügen. GPUs ermöglichen bei vielen komplexen Aufgaben in den Bereichen Daten und maschinelles Lernen eine schnellere Verarbeitung. Weitere Informationen zu GPUs finden Sie unter GPUs in Compute Engine.

So stellen Sie eine Deep Learning-VM-Instanz mit einer oder mehreren GPUs bereit:

export IMAGE_FAMILY="tf2-latest-gpu"
    export ZONE="us-west1-b"
    export INSTANCE_NAME="my-instance"

    gcloud compute instances create $INSTANCE_NAME \
      --zone=$ZONE \
      --image-family=$IMAGE_FAMILY \
      --image-project=deeplearning-platform-release \
      --maintenance-policy=TERMINATE \
      --accelerator="type=nvidia-tesla-v100,count=1" \
      --metadata="install-nvidia-driver=True"
    

Optionen:

  • --image-family muss einer der folgenden Datentypen sein:

  • --image-project muss deeplearning-platform-release lauten.

  • --maintenance-policy muss TERMINATE lauten. Weitere Informationen finden Sie unter GPU-Einschränkungen.

  • --accelerator gibt den zu verwendenden GPU-Typ an. Er muss im Format --accelerator="type=TYPE,count=COUNT" angegeben werden. Die folgenden Werte werden für TYPE unterstützt:

    • nvidia-tesla-v100 (count=1 oder 8)
    • nvidia-tesla-p100 (count=1, 2 oder 4)
    • nvidia-tesla-p4 (count=1, 2 oder 4)
    • nvidia-tesla-k80 (count=1, 2, 4 oder 8)

    Nicht alle GPU-Typen werden in allen Regionen unterstützt. Einzelheiten hierzu finden Sie unter GPUs in Compute Engine.

  • Mit --metadata wird angegeben, dass der NVIDIA-Treiber für Sie installiert werden soll. Der Wert ist install-nvidia-driver=True. Ist er angegeben, lädt Compute Engine beim ersten Start den aktuellen stabilen Treiber und führt die erforderlichen Schritte aus, einschließlich eines abschließenden Neustarts zum Aktivieren des Treibers.

Wenn Sie sich für das Installieren von NVIDIA-Treibern entschieden haben, dauert die Installation drei bis fünf Minuten.

Die vollständige Bereitstellung der VM kann bis zu fünf Minuten dauern. In diesem Zeitraum können Sie keine SSH-Verbindung mit dem Computer herstellen. Nach Abschluss der Installation können Sie sich überzeugen, dass die Treiber erfolgreich installiert wurden. Dazu stellen Sie eine SSH-Verbindung her und führen nvidia-smi aus.

Wenn Sie das Image konfiguriert haben, können Sie einen Snapshot des Image speichern. Sie können davon abgeleitete Instanzen erstellen, ohne dass Sie abwarten müssen, bis die Treiber installiert wurden.

Über TensorFlow Enterprise

TensorFlow Enterprise ist eine Verteilung von TensorFlow, die für die Ausführung in Google Cloud optimiert wurde und Unterstützung für langfristige Versionen enthält.

Instanz auf Abruf erstellen

Sie können eine Deep Learning-VM-Instanz auf Abruf erstellen. Eine Instanz auf Abruf kann zu einem wesentlich günstigeren Preis als normale Instanzen erstellt und ausgeführt werden. Compute Engine kann diese Instanzen jedoch auf Abruf beenden, wenn für andere Aufgaben Zugriff auf diese Ressourcen benötigt wird. Instanzen auf Abruf werden immer nach 24 Stunden beendet. Weitere Informationen zu Instanzen auf Abruf finden Sie unter VM-Instanzen auf Abruf.

So erstellen Sie eine Deep Learning-VM-Instanz auf Abruf:

  • Befolgen Sie die obige Anleitung und erstellen Sie eine neue Instanz über die Befehlszeile. An den Befehl gcloud compute instances create fügen Sie Folgendes an:

      --preemptible

Weitere Informationen

Eine Anleitung zum Herstellen einer Verbindung mit Ihrer neuen Deep Learning-VM-Instanz über die Cloud Console oder die Befehlszeile finden Sie unter Verbindung zu Instanzen herstellen. Als Name der Instanz wird der von Ihnen angegebene Bereitstellungsname mit dem Suffix -vm verwendet.