Deep Learning-VM-Instanz mit PyTorch erstellen

In diesem Abschnitt wird beschrieben, wie Sie eine neue Deep Learning-VM-Instanz mit PyTorch und anderen vorinstallierten Tools erstellen- Sie können bei der Einrichtung eine oder mehrere GPUs in Ihre Instanz einschließen.

Hinweise

Wenn Sie GPUs mit Ihrer Deep Learning-VM verwenden, prüfen Sie auf der Seite "Kontingente", ob im Projekt ausreichende GPUs verfügbar sind.

Wenn auf der Seite "Kontingente" keine GPUs aufgeführt sind oder Sie zusätzliche GPU-Kontingente benötigen, können Sie eine Erhöhung des Kontingents beantragen. Weitere Informationen finden Sie in Compute Engine auf der Seite "Ressourcenkontingente" unter Weitere Kontingente anfordern.

Deep Learning-VM-Instanz mit PyTorch in Google Cloud Marketplace erstellen

Im Google Cloud Marketplace können Sie schnell funktionale Softwarepakete bereitstellen, die in Compute Engine ausgeführt werden. Mit PyTorch können über die Cloud Console Deep Learning-VMs schnell und mühelos direkt im Google Cloud Marketplace erstellt werden. Sie müssen nicht über die Befehlszeile gehen.

Ohne GPUs

So stellen Sie eine Deep Learning-VM-Instanz ohne GPU bereit:

  1. Besuchen Sie in AI Platform die Seite "Deep Learning-VM" in Google Cloud Marketplace.
  2. Klicken Sie auf In Compute Engine starten.
  3. Geben Sie einen Bereitstellungsnamen ein, der zum Stamm für Ihren VM-Namen wird. Compute Engine fügt bei der Benennung der Instanz das Suffix -vm an.
  4. Legen Sie Framework auf PyTorch fest und wählen Sie Zone aus.
  5. Legen Sie im GPU-Abschnitt die Anzahl von GPUs auf null fest und geben Sie im Feld zum Bestätigen von Kontingenten n/a ein.
  6. Wählen Sie im CPU-Bereich Ihren Maschinentyp aus. Weitere Informationen zu Maschinentypen finden Sie unter Maschinentypen.
  7. Wählen Sie Typ und Größe des Bootlaufwerks aus.
  8. Klicken Sie auf Bereitstellen.

Nach dem Bereitstellen der VM wird die Seite mit einer Anleitung für den Zugriff auf die Instanz aktualisiert.

Mit einer oder mehreren GPUs

Compute Engine bietet Ihnen die Möglichkeit, Ihren VM-Instanzen GPUs hinzuzufügen. GPUs ermöglichen bei vielen komplexen Aufgaben in den Bereichen Daten und maschinelles Lernen eine schnellere Verarbeitung. Weitere Informationen zu GPUs finden Sie unter GPUs in Compute Engine.

So stellen Sie eine Deep Learning-VM-Instanz mit einer oder mehreren GPUs bereit:

  1. Besuchen Sie in AI Platform die Seite "Deep Learning-VM" in Google Cloud Marketplace.
  2. Klicken Sie auf In Compute Engine starten.
  3. Geben Sie einen Bereitstellungsnamen ein, der zum Stamm für Ihren VM-Namen wird. Compute Engine fügt bei der Benennung der Instanz das Suffix -vm an.
  4. Legen Sie Framework auf PyTorch fest und wählen Sie Zone aus.
  5. Wählen Sie den GPU-Typ aus. Nicht alle GPU-Typen werden in allen Zonen unterstützt. Prüfen Sie auf der Seite GPUs in Compute Engine, ob Ihre Kombination unterstützt wird.
  6. Wählen Sie die Anzahl von bereitzustellenden GPUs aus. Jede GPU unterstützt eine andere Anzahl. Überprüfen Sie auf der Seite GPUs in Compute Engine, ob Ihre Kombination unterstützt wird.
  7. Bei Verwendung von GPUs ist ein NVIDIA-Treiber erforderlich. Sie können den Treiber selbst installieren oder das Kästchen auswählen, sodass der aktuelle stabile Treiber automatisch installiert wird.
  8. Befolgen Sie die Anweisungen auf der Seite, um Ihr GPU-Kontingent zu überprüfen. Geben Sie zum Bestätigen die erforderliche Phrase ein.
  9. Passen Sie im CPU-Bereich ggf. Ihren Maschinentyp an. Möglicherweise möchten Sie für bestimmte Workflows die Anzahl der Kerne (z. B. für die CPU-intensive Vorverarbeitung) oder den Arbeitsspeicher erhöhen (z. B. mit CPU als Parameterspeicher für verteiltes Training).
  10. Klicken Sie auf Bereitstellen.

Wenn Sie sich für das Installieren von NVIDIA-Treibern entschieden haben, dauert die Installation drei bis fünf Minuten.

Nach dem Bereitstellen der VM wird die Seite mit einer Anleitung für den Zugriff auf die Instanz aktualisiert.

Deep Learning-VM-Instanz mit PyTorch über die Befehlszeile erstellen

Damit Sie eine neue Deep Learning-VM-Instanz mit dem gcloud-Befehlszeilentool erstellen können, muss zuerst das Cloud SDK installiert und initialisiert werden:

  1. Laden Sie das Cloud SDK herunter und installieren Sie es. Folgen Sie dabei der Anleitung in Google Cloud SDK installieren.
  2. Initialisieren Sie das SDK gemäß der Anleitung in Cloud SDK initialisieren.

Wenn Sie gcloud in Cloud Shell verwenden möchten, aktivieren Sie zuerst Cloud Shell. Folgen Sie dazu der Anleitung unter Cloud Shell starten.

Ohne GPUs

Geben Sie an der Befehlszeile den folgenden Befehl ein, um die Deep Learning-VM-Instanz mit der aktuellen PyTorch-Instanz zu erstellen:

export IMAGE_FAMILY="pytorch-latest-cpu"
export ZONE="us-west1-b"
export INSTANCE_NAME="my-instance"

gcloud compute instances create $INSTANCE_NAME \
  --zone=$ZONE \
  --image-family=$IMAGE_FAMILY \
  --image-project=deeplearning-platform-release

Optionen:

  • --image-family muss entweder pytorch-latest-cpu oder pytorch-VERSION-cpu sein, z. B. pytorch-1-4-cpu.

  • --image-project muss deeplearning-platform-release lauten.

Mit einer oder mehreren GPUs

In Compute Engine können Sie Ihren VM-Instanzen eine oder mehrere GPUs hinzufügen. GPUs ermöglichen bei vielen komplexen Aufgaben in den Bereichen Daten und maschinelles Lernen eine schnellere Verarbeitung. Weitere Informationen zu GPUs finden Sie unter GPUs in Compute Engine.

Geben Sie in der Befehlszeile den folgenden Befehl ein, um die Deep Learning-VM mit der aktuellen PyTorch-Instanz zu erstellen:

export IMAGE_FAMILY="pytorch-latest-gpu"
export ZONE="us-west1-b"
export INSTANCE_NAME="my-instance"

gcloud compute instances create $INSTANCE_NAME \
  --zone=$ZONE \
  --image-family=$IMAGE_FAMILY \
  --image-project=deeplearning-platform-release \
  --maintenance-policy=TERMINATE \
  --accelerator="type=nvidia-tesla-v100,count=1" \
  --metadata="install-nvidia-driver=True"

Optionen:

  • --image-family muss entweder pytorch-latest-gpu oder pytorch-VERSION-CUDA-VERSION sein, z. B. pytorch-1-4-cu100.

  • --image-project muss deeplearning-platform-release lauten.

  • --maintenance-policy muss TERMINATE lauten. Weitere Informationen finden Sie unter GPU-Einschränkungen.

  • --accelerator gibt den zu verwendenden GPU-Typ an. Dieser muss im Format --accelerator="type=TYPE,count=COUNT" angegeben werden. Die folgenden Werte werden für TYPE unterstützt:

    • nvidia-tesla-v100 (count=1 oder 8)
    • nvidia-tesla-p100 (count=1, 2 oder 4)
    • nvidia-tesla-p4 (count=1, 2 oder 4)
    • nvidia-tesla-k80 (count=1, 2, 4 oder 8)

    Nicht alle GPU-Typen werden in allen Regionen unterstützt. Einzelheiten hierzu finden Sie unter GPUs in Compute Engine.

  • Mit --metadata wird angegeben, dass der NVIDIA-Treiber für Sie installiert werden soll. Der Wert ist install-nvidia-driver=True. Ist er angegeben, lädt Compute Engine beim ersten Start den aktuellen stabilen Treiber und führt die erforderlichen Schritte aus (einschließlich eines abschließenden Neustarts zum Aktivieren des Treibers).

Wenn Sie sich für das Installieren von NVIDIA-Treibern entschieden haben, dauert die Installation drei bis fünf Minuten.

Die vollständige Bereitstellung der VM kann bis zu fünf Minuten dauern. In diesem Zeitraum können Sie keine SSH-Verbindung mit dem Computer herstellen. Nach Abschluss der Installation können Sie sich überzeugen, dass die Treiber erfolgreich installiert wurden. Dazu stellen Sie eine SSH-Verbindung her und führen nvidia-smi aus.

Wenn Sie das Image konfiguriert haben, können Sie einen Snapshot des Image speichern. Sie können davon abgeleitete Instanzen erstellen, ohne dass Sie abwarten müssen, bis die Treiber installiert wurden.

Instanz auf Abruf erstellen

Sie können eine Deep Learning-VM-Instanz auf Abruf erstellen. Eine Instanz auf Abruf kann zu einem wesentlich günstigeren Preis als normale Instanzen erstellt und ausgeführt werden. Compute Engine kann diese Instanzen jedoch beenden (Abruf), wenn für andere Aufgaben Zugriff auf diese Ressourcen benötigt wird. Instanzen auf Abruf werden immer nach 24 Stunden beendet. Weitere Informationen zu Instanzen auf Abruf finden Sie unter VM-Instanzen auf Abruf.

So erstellen Sie eine Deep Learning-VM-Instanz auf Abruf:

  • Befolgen Sie die obige Anleitung und erstellen Sie eine neue Instanz über die Befehlszeile. An den Befehl gcloud compute instances create fügen Sie Folgendes an:

      --preemptible

Weitere Informationen

Eine Anleitung zum Herstellen einer Verbindung mit Ihrer neuen Deep Learning-VM-Instanz über die Cloud Console oder die Befehlszeile finden Sie unter Verbindung zu Instanzen herstellen. Als Name der Instanz gilt der von Ihnen angegebene Bereitstellungsname mit dem Suffix -vm.