Compute Engine bietet GPUs, die Sie Ihren VM-Instanzen hinzufügen können. Sie können diese GPUs nutzen, um bestimmte Arbeitslasten wie maschinelles Lernen und Datenverarbeitung auf Ihren Instanzen zu beschleunigen.
Wenn Sie grafikintensive Arbeitslasten haben, z. B. 3D-Visualisierung, 3D-Rendering oder virtuelle Anwendungen, können Sie virtuelle Workstations erstellen, die die NVIDIA® GRID®-Technologie verwenden. Informationen zu GPUs für grafikintensive Anwendungen finden Sie unter GPUs für Grafikarbeitslasten.
Dieses Dokument bietet eine Übersicht über GPUs in Compute Engine. Weitere Informationen zur Arbeit mit GPUs finden Sie in den folgenden Ressourcen:
- Informationen zum Hinzufügen von GPUs zu einer VM-Instanz oder zum Entfernen daraus finden Sie unter GPUs zu Instanzen hinzufügen oder daraus entfernen.
- Informationen zum Überwachen von GPUs finden Sie unter GPU-Leistung überwachen.
- GPU-Leistung optimieren
Einführung
NVIDIA® Tesla®-GPUs werden für Ihre Instanzen von Compute Engine im Passthrough-Modus bereitgestellt, sodass Ihre VM-Instanzen die GPUs und ihren verknüpften Arbeitsspeicher direkt steuern können.
Für Compute-Arbeitslasten stehen GPU-Modelle in folgenden Phasen zur Verfügung:
NVIDIA® Tesla® T4:
nvidia-tesla-t4
: allgemein verfügbarNVIDIA® Tesla® V100:
nvidia-tesla-v100
: allgemein verfügbarNVIDIA® Tesla® P100:
nvidia-tesla-p100
: allgemein verfügbarNVIDIA® Tesla® P4:
nvidia-tesla-p4
: allgemein verfügbarNVIDIA® Tesla® K80:
nvidia-tesla-k80
: allgemein verfügbar
Für Grafikarbeitslasten sind GPU-Modelle in den folgenden Phasen verfügbar:
- Virtuelle Workstations NVIDIA® Tesla® T4:
nvidia-tesla-t4-vws
: allgemein verfügbar - Virtuelle Workstations NVIDIA® Tesla® P100:
nvidia-tesla-p100-vws
: allgemein verfügbar - Virtuelle Workstations NVIDIA® Tesla® P4:
nvidia-tesla-p4-vws
: allgemein verfügbar
Informationen zu GPUs für virtuelle Workstations finden Sie unter GPUs für Grafikarbeitslasten.
Sie können GPUs nur an Instanzen mit vordefinierten oder benutzerdefinierten Maschinentypen anhängen. GPUs werden auf Maschinentypen mit gemeinsam genutztem Kern oder speicheroptimierten Maschinentypen nicht unterstützt.
GPUs für Computing-Arbeitslasten
Für Instanzen mit einer geringeren Anzahl von GPUs ist eine Höchstanzahl von vCPUs vorgegeben. Im Allgemeinen ermöglicht es Ihnen eine höhere Anzahl von GPUs, Instanzen mit einer größeren Anzahl von vCPUs und mehr Arbeitsspeicher zu erstellen.
GPU-Modell | GPUs | GPU-Speicher | Verfügbare vCPUs | Verfügbarer Speicher | Verfügbare Zonen |
---|---|---|---|---|---|
NVIDIA® Tesla® T4 | 1 GPU | 16 GB GDDR5 | 1–24 vCPUs | 1–156 GB |
|
2 GPUs | 32 GB GDDR6 | 1–48 vCPUs | 1–312 GB | ||
4 GPUs | 64 GB GDDR6 | 1–96 vCPUs | 1–624 GB | ||
NVIDIA® Tesla® P4 | 1 GPU | 8 GB GDDR5 | 1–24 vCPUs | 1–156 GB |
|
2 GPUs | 16 GB GDDR5 | 1–48 vCPUs | 1–312 GB | ||
4 GPUs | 32 GB GDDR5 | 1–96 vCPUs | 1–624 GB | ||
NVIDIA® Tesla® V100 | 1 GPU | 16 GB HBM2 | 1–12 vCPUs | 1–78 GB |
|
2 GPUs | 32 GB HBM2 | 1–24 vCPUs | 1–156 GB | ||
4 GPUs | 64 GB HBM2 | 1–48 vCPUs | 1–312 GB | ||
8 GPUs | 128 GB HBM2 | 1–96 vCPUs | 1–624 GB | ||
NVIDIA® Tesla® P100 | 1 GPU | 16 GB HBM2 | 1–16 vCPUs | 1–104 GB |
|
2 GPUs | 32 GB HBM2 | 1–32 vCPUs | 1–208 GB | ||
4 GPUs | 64 GB HBM2 | 1–64 vCPUs 1–96 vCPUs |
1–208 GB 1–624 GB |
||
NVIDIA® Tesla® K80 | 1 GPU | 12 GB GDDR5 | 1–8 vCPUs | 1–52 GB |
|
2 GPUs | 24 GB GDDR5 | 1–16 vCPUs | 1–104 GB | ||
4 GPUs | 48 GB GDDR5 | 1–32 vCPUs | 1–208 GB | ||
8 GPUs | 96 GB GDDR5 | 1–64 vCPUs | 1–416 GB 1–208 GB |
- Eine ausführlichere Beschreibung der Zonen finden Sie unter Regionen und Zonen.
- NVIDIA® K80®-Karten beinhalten jeweils zwei GPUs. Die Preise für K80-GPUs richten sich nach der einzelnen GPU, nicht nach der Karte.
Für GPU-Geräte gelten ebenso wie für vCPUs Rabatte für kontinuierliche Nutzung. In der GPU-Preisübersicht finden Sie die Stunden- und Monatstarife für GPU-Geräte.
Bei Arbeitslasten mit mehreren GPUs werden bei den V100-GPUs für die Kommunikation zwischen GPUs Hochgeschwindigkeits-NVLink™-Verbindungen angeboten.
Wenn Sie auf Ihrer Instanz den folgenden Befehl ausführen, erhalten Sie Informationen darüber, wie die GPUs untereinander und mit den CPUs verbunden sind:
nvidia-smi topo -m
Weitere Informationen über NVLink und dessen Vorteile finden Sie im NVIDIA-Entwickler-Blog.
NVIDIA® GRID®-GPUs für Grafikarbeitslasten
Wenn Sie grafikintensive Arbeitslasten haben, z. B. 3D-Visualisierung, können Sie virtuelle Workstations erstellen, die die NVIDIA GRID®-Plattform verwenden.
Weitere Informationen zu GRID finden Sie in der GRID-Übersicht.
Wenn Sie eine GPU für eine virtuelle Workstation auswählen, wird Ihrer Instanz eine NVIDIA GRID-Lizenz hinzugefügt. Zur Unterstützung der GPUs auf Ihren virtuellen Workstations muss ein GRID-Treiber installiert sein.
Nachdem Sie Ihre virtuelle Workstation erstellt haben, können Sie über ein Remote-Desktop-Protokoll wie Teradici® PCoIP oder VMware® Horizon View eine Verbindung zu ihr herstellen.
GPU-Modell | GPUs | GPU-Speicher | Verfügbare vCPUs | Verfügbarer Speicher | Verfügbare Zonen |
---|---|---|---|---|---|
NVIDIA® Tesla® T4 Virtual Workstation | 1 GPU | 16 GB GDDR5 | 1–24 vCPUs | 1–156 GB |
|
2 GPUs | 32 GB GDDR6 | 1–48 vCPUs | 1–312 GB | ||
4 GPUs | 64 GB GDDR6 | 1–96 vCPUs | 1–624 GB | ||
NVIDIA® Tesla® P4 Virtual Workstation | 1 GPU | 8 GB GDDR5 | 1–16 vCPUs | 1–156 GB |
|
2 GPUs | 16 GB GDDR5 | 1–48 vCPUs | 1–312 GB | ||
4 GPUs | 32 GB GDDR5 | 1–96 vCPUs | 1–624 GB | ||
NVIDIA® Tesla® P100 Virtual Workstation | 1 GPU | 16 GB HBM2 | 1–16 vCPUs | 1–104 GB |
|
2 GPUs | 32 GB HBM2 | 1–32 vCPUs | 1–208 GB | ||
4 GPUs | 64 GB HBM2 | 1–64 vCPUs 1–96 vCPUs |
1–208 GB 1–624 GB |
Netzwerkbandbreiten und GPUs
Höhere Netzwerkbandbreiten können die Leistung verteilter Arbeitslasten verbessern. In Compute Engine hängt die Netzwerkbandbreite vom Maschinentyp und der Anzahl der CPUs ab. Bei VM-Instanzen mit angeschlossenen GPUs wirkt sich auch die Konfiguration der GPU-Anzahl, der CPU und des Arbeitsspeichers auf die Netzwerkbandbreite aus. Um die Raten von 50- bis 100-Gbit/s zu erreichen, die jetzt in der Betaversion verfügbar sind, müssen Ihre VM-Instanzen die virtuelle Netzwerkschnittstelle von Compute Engine (gVNIC) verwenden.
In Compute Engine stehen folgende maximale Bandbreiten zur Verfügung:
- Bei VM-Instanzen, an die die P100-, P4- und K80-GPUs angeschlossen sind, steht eine maximale Bandbreite von 32 Gbit/s zur Verfügung. Dies entspricht etwa der maximalen Rate, die VM-Instanzen ohne angeschlossene GPUs zur Verfügung steht. Weitere Informationen zu Netzwerkbandbreiten finden Sie unter maximale Rate ausgehender Daten.
- Bei VM-Instanzen, an die die V100- und T4-GPUs angeschlossen sind, können Sie jetzt je nach GPU-Anzahl eine maximale Bandbreite von bis zu 50 oder 100 Gbit/s erhalten. Informationen zum Erstellen von VM-Instanzen mit V100- und T4-GPUs, die bis zu 100 Gbit/s verwenden, finden Sie unter Netzwerkbandbreiten von bis zu 100 Gbit/s verwenden.
Bandbreitenkonfigurationen
In den folgenden Tabellen wird die verfügbare Netzwerkbandbreite für verschiedene VM-Konfigurationen von T4- und V100-GPU-Typen zusammengefasst.
Die Netzwerkbandbreite wird automatisch gemäß der VM-Instanzkonfiguration angewendet. Wenn Sie beispielsweise eine VM-Instanz mit einem einzelnen V100-GPU-Kern, 12 vCPUs und 78 GB Arbeitsspeicher haben, beträgt die maximale Netzwerkbandbreite 24 Gbit/s.
V100-VM-Instanzkonfiguration | Netzwerkbandbreite | ||
---|---|---|---|
GPU-Anzahl | vCPUs | Speicher | |
1 | 12 | 78 GB | 24 Gbit/s |
2 | 24 | 156 GB | 32 Gbit/s |
4 | 48 | 312 GB | 50 Gbit/sBeta |
8 | 96 | 624 GB | 100 Gbit/sBeta |
T4-VM-Instanzkonfiguration | Netzwerkbandbreite | ||
---|---|---|---|
GPU-Anzahl | vCPUs | Speicher | |
1 | 24 | 156 GB | 32 Gbit/s |
2 | 48 | 312 GB | 50 Gbit/sBeta |
4 | 96 | 624 GB | 100 Gbit/sBeta |
GPUs auf präemptiven Instanzen
Sie können für VM-Instanzen auf Abruf GPUs hinzufügen oder entfernen und dabei von niedrigeren Preisen für GPUs auf Abruf profitieren. Zu präemptiven Instanzen hinzugefügte GPUs funktionieren wie normale GPUs, bleiben jedoch nur für die Lebensdauer der Instanz bestehen. Für Instanzen auf Abruf mit GPUs gilt derselbe Prozess für vorzeitiges Beenden wie für alle Instanzen auf Abruf.
Beim Hinzufügen einer GPU zu einer präemptiven Instanz nutzen Sie Ihr reguläres GPU-Kontingent. Wenn Sie ein separates Kontingent für präemptive GPUs benötigen, fordern Sie ein separates Kontingent für präemptive GPUs an.
Bei Wartungsereignissen werden präemptive Instanzen mit GPUs standardmäßig beendet und können nicht automatisch neu gestartet werden. Wenn Sie die Instanzen neu erstellen möchten, nachdem sie beendet wurden, verwenden Sie eine verwaltete Instanzgruppe. Verwaltete Instanzgruppen erstellen Ihre Instanzen neu, sofern die vCPU-, Speicher- und GPU-Ressourcen verfügbar sind.
Wenn Sie eine Warnung erhalten möchten, bevor die Instanzen beendet werden, oder wenn Sie die Instanz so konfigurieren möchten, dass sie nach einer Wartung automatisch neu gestartet wird, verwenden Sie eine nicht auf Abruf verfügbare Instanz mit einer GPU. Bei nicht auf Abruf verfügbaren Instanzen mit GPUs wird von Google eine Stunde im Voraus eine Warnung ausgegeben.
Compute Engine berechnet Ihnen keine GPUs, wenn ihre Instanzen in der ersten Minute nach dem Start der Ausführung wieder beendet werden.
Eine Anleitung zum automatischen Neustart einer nicht auf Abruf verfügbaren Instanz finden Sie unter Aktualisierungsoptionen für eine Instanz.
Informationen zum Erstellen von Instanzen auf Abruf finden Sie unter Instanz mit einer GPU erstellen.
GPUs mit Rabatten für zugesicherte Nutzung reservieren
Informationen zum Reservieren von GPU-Ressourcen in einer bestimmten Zone finden Sie unter Zonenressourcen reservieren. Reservierungen sind erforderlich, um Preise mit Rabatten für zugesicherte Nutzung zu erhalten.
GPU-Vergleichsdiagramm
In diesem Abschnitt erfahren Sie mehr über Faktoren wie Leistungsspezifikationen, Verfügbarkeit von Features und ideale Auslastungstypen, die für die verschiedenen in Compute Engine verfügbaren GPU-Typen am besten geeignet sind.
Die maximale CPU- und Speicherkapazität, die für einen GPU-Typ verfügbar ist, hängt von der Zone ab, in der die GPU-Ressource ausgeführt wird. Weitere Informationen zu Arbeitsspeicher, CPU-Ressourcen sowie verfügbaren Regionen und Zonen finden Sie in der GPU-Liste.
Lokale SSDs werden für GPUs unterstützt, die in allen verfügbaren Regionen und Zonen ausgeführt werden, mit Ausnahme von P4-GPUs.
P4-GPUs unterstützen lokale SSDs nur in den Zonen us-central1-c
und us-central1-f
.
Messwert | T4 | P4 | V100 | P100 | K80 | |
---|---|---|---|---|---|---|
Tensor-Kerne | 320 | – | 640 | – | – | |
CUDA-Kerne | 2.560 | 2.560 | 5.120 | 3.840 | 2.496 | |
Spitzenleistung in TeraFLOPS (TFLOPS) | Doppelte Genauigkeit (FP64) | 0,25 TFLOPS1 | 0,2 TFLOPS1 | 7,8 TFLOPS | 4,7 TFLOPS | 1,46 TFLOPS |
Einfache Genauigkeit (FP32) | 8,1 TFLOPS | 5,5 TFLOPS | 15,7 TFLOPS | 9,3 TFLOPS | 4,37 TFLOPS | |
Halbe Genauigkeit (FP16) | 65 TFLOPS2 | – | 125 TFLOPS2 | 18,7 TFLOPS | – | |
INT8 | 130 TOPS3 | 22 TOPS3 | 63 TOPS3 | – | – | |
Interconnect NVLink/PCIe | PCIe-Gen 3x16 | PCIe-Gen 3x16 | NVLink; 300 GB/s, PCIe Gen 3x16 | PCIe-Gen 3x16 | PCIe-Gen 3x16 | |
Speicher mit Bandbreite | 16 GB GDDR6 bei 320 GB/s | 8 GB GDDR5 bei 192 GB/s | 16 GB HBM2 bei 900 GB/s | 16 GB HBM2 bei 732 GB/s | 12 GB GDDR5 bei 240 GB/s | |
GRid-Unterstützung für Remote-Workstation | Ja | Ja | Nein | Ja | Nein | |
Geeignete Anwendungsfälle | ML-Inferenz, Training, Remote-Workstations zur Visualisierung, Videotranscodierung | Remote-Workstations zur Visualisierung, ML-Inferenz und Videotranscodierung | ML-Training, Inferenz, HPC | ML-Training, Inferenz, HPC, Remote-Workstations zur Visualisierung | ML-Inferenz, Training, HPC | |
Preise | Informationen zum Vergleichen der GPU-Preise für die verschiedenen GPU-Typen und -Regionen, die in Compute Engine verfügbar sind, finden Sie unter GPU-Preise. |
1Damit der FP64-Code ordnungsgemäß funktioniert, ist in der T4- und P4-GPU-Architektur eine geringe Anzahl von FP64-Hardwareeinheiten enthalten.
2Diese Leistung wird durch die Verwendung von Tensor-Kernen erzielt.
3TeraOperations pro Sekunde.
Beschränkungen
Instanzen mit GPUs unterliegen bestimmten Beschränkungen. Daher verhalten sie sich anders als andere Instanztypen.
Wenn Sie Tesla K80-GPUs mit Ihren Instanzen verwenden möchten, können mit den Instanzen keine Intel Skylake- oder neueren CPU-Plattformen verwendet werden.
GPUs werden derzeit nur mit N1-Maschinentypen für allgemeine Zwecke unterstützt.
GPU-Instanzen müssen zur Hostwartung beendet werden, können aber automatisch neu gestartet werden. Hostwartungen werden in Compute Engine einmal alle zwei Wochen, möglicherweise aber auch öfter ausgeführt. Sie müssen Ihre Arbeitslasten für den Umgang mit diesen Wartungsereignissen konfigurieren. Insbesondere gilt dies für Arbeitslasten mit langer Ausführungszeit, wie zum Beispiel maschinelles Lernen und Hochleistungs-Computing. Diese müssen mit Unterbrechungen aufgrund einer Hostwartung umgehen können. Hier erfahren Sie, wie Hostwartungen für Instanzen mit GPUs gehandhabt werden.
Zum Schutz der Systeme und Nutzer von Compute Engine haben neue Projekte ein globales GPU-Kontingent, das die Gesamtzahl der GPUs begrenzt, die Sie in einer unterstützten Zone erstellen können. Wenn Sie ein GPU-Kontingent anfordern, müssen Sie ein Kontingent für die GPU-Modelle, die Sie in den einzelnen Regionen erstellen möchten, sowie ein zusätzliches globales Kontingent für die Gesamtzahl der GPUs aller Typen in allen Zonen anfordern.
Für Instanzen mit einer oder mehreren GPUs gilt eine maximale Anzahl von vCPUs für jede einzelne GPU, die Sie in die Instanz einfügen. So kann beispielsweise jeder Maschinentyp einer Instanz pro NVIDIA® Tesla® K80-GPU bis zu acht vCPUs und maximal 52 GB Arbeitsspeicher haben. Die verfügbaren vCPU- und Speicherbereiche für verschiedene GPU-Konfigurationen können Sie der GPU-Liste entnehmen.
Sie können Instanzen mit Maschinentypen mit gemeinsam genutztem Kern keine GPUs hinzufügen.
GPUs benötigen Gerätetreiber, um ordnungsgemäß zu funktionieren. NVIDIA-GPUs, die auf Compute Engine ausgeführt werden, müssen die folgenden Treiberversionen verwenden:
Linux-Instanzen:
- NVIDIA-Treiber 410.79 oder höher
Windows Server-Instanzen:
- NVIDIA-Treiber 411.98 oder höher
Instanzen, denen ein bestimmtes GPU-Modell hinzugefügt wurde, sind nur dann durch das Google Compute Engine-SLA abgedeckt, wenn das hinzugefügte GPU-Modell in der Region, in der sich die Instanz befindet, in mehr als einer Zone verfügbar ist. Spezifische GPU-Modelle in den folgenden Zonen sind nicht durch das Compute Engine-SLA abgedeckt:
- NVIDIA® Tesla® T4:
asia-northeast1-a
asia-south1-b
asia-southeast1-b
southamerica-east1-c
- NVIDIA® Tesla® V100:
asia-east1-c
- NVIDIA® Tesla® P100:
us-west1-b
europe-west4-a
- NVIDIA® Tesla® K80:
us-west1-b
us-central1-c
- NVIDIA® Tesla® T4:
Bei Instanzen mit GPUs vom Typ NVIDIA® Tesla® P100 in
europe-west1-d
können keine lokalen SSD-Geräte verwendet werden.Compute Engine unterstützt die Ausführung von 1 gleichzeitigen Nutzer pro GPU.
Weitere Informationen
- Instanzen mit GPUs erstellen
- GPU-Preisübersicht
- Google Cloud-Preisrechner
- Beachten Sie die Anleitung TensorFlow-Inferenzarbeitslasten mit TensorRT5 und NVIDIA T4-GPU ausführen