Diese Seite wurde von der Cloud Translation API übersetzt.

GPU-Instanzen

In diesem Dokument werden die Funktionen und Einschränkungen von GPU-VM-Instanzen beschrieben, die in Compute Engine ausgeführt werden.

Um bestimmte Arbeitslasten in Compute Engine zu beschleunigen, können Sie entweder eine beschleunigungsoptimierte Instanz mit angehängten GPUs bereitstellen oder GPUs an eine N1-Instanz für allgemeine Zwecke anhängen. Compute Engine stellt GPUs für Ihre Instanzen im Passthrough-Modus bereit. Im Passthrough-Modus haben Ihre Instanzen die direkte Kontrolle über GPUs und deren Arbeitsspeicher.

Sie können auch einige GPU-Maschinentypen auf AI Hypercomputer verwenden. AI Hypercomputer ist ein Supercomputing-System, das für die Unterstützung Ihrer Arbeitslasten für künstliche Intelligenz (KI) und maschinelles Lernen (ML) optimiert ist. Diese Option wird empfohlen, um eine dicht zugewiesene, leistungsoptimierte Infrastruktur mit Integrationen für Google Kubernetes Engine (GKE) und Slurm-Scheduler zu erstellen.

Unterstützte Maschinentypen

Beschleunigungsoptimierte und N1-Maschinenfamilien für allgemeine Zwecke unterstützen GPUs. Bei Instanzen, die beschleunigungsoptimierte Maschinentypen verwenden, werden die GPUs beim Erstellen der Instanz automatisch angehängt. Bei Instanzen, die N1-Maschinentypen verwenden, hängen Sie GPUs während oder nach der Instanzerstellung an eine Instanz an. GPUs sind nicht mit anderen Maschinentypen kompatibel.

Beschleunigungsoptimierte Maschinentypen

Jedem beschleunigungsoptimierten Maschinentyp ist ein bestimmtes NVIDIA-GPU-Modell angehängt. Wenn Sie grafikintensive Arbeitslasten haben, z. B. 3D-Visualisierung, können Sie auch virtuelle Workstations erstellen, die NVIDIA RTX Virtual Workstations (vWS) verwenden. NVIDIA RTX Virtual Workstation ist für einige GPU-Modelle verfügbar.

Maschinentyp	GPU-Modell	NVIDIA RTX Virtual Workstation (vWS)
A4X	NVIDIA GB200 Grace Blackwell-Superchips (`nvidia-gb200`). Jeder Superchip enthält vier NVIDIA B200 Blackwell-GPUs.
A4	NVIDIA B200 Blackwell-GPUs (`nvidia-b200`)
A3 Ultra	NVIDIA H200 SXM-GPUs (`nvidia-h200-141gb`)
A3 Mega	NVIDIA H100 SXM-GPUs (`nvidia-h100-mega-80gb`)
A3 High, A3 Edge	NVIDIA H100 SXM-GPUs (`nvidia-h100-80gb`)
A2 Ultra	NVIDIA A100 80 GB-GPUs (`nvidia-a100-80gb`)
A2 Standard	NVIDIA A100 40 GB-GPUs (`nvidia-a100-40gb`)
G4 (Vorschau)	NVIDIA RTX PRO 6000 Blackwell Server Edition (`nvidia-rtx-pro-6000`)
G2	NVIDIA L4-GPUs (`nvidia-l4`)	NVIDIA L4 Virtual Workstation-GPUs (`nvidia-l4-vws`)

Weitere Informationen finden Sie unter Beschleunigungsoptimierte Maschinenfamilie.

N1-Maschinentypen für allgemeine Zwecke

An die meisten N1-Maschinentypen, mit Ausnahme des gemeinsam genutzten N1-Kerns (f1-micro und g1-small), können Sie die folgenden GPU-Modelle anhängen:

NVIDIA-GPUs:

NVIDIA® T4: nvidia-tesla-t4
NVIDIA P4: nvidia-tesla-p4
NVIDIA P100: nvidia-tesla-p100
NVIDIA V100: nvidia-tesla-v100

NVIDIA RTX Virtuelle Workstation (vWS) (ehemals NVIDIA GRID):

NVIDIA T4 Virtual Workstation: nvidia-tesla-t4-vws
NVIDIA P4 Virtual Workstation: nvidia-tesla-p4-vws
NVIDIA P100 Virtual Workstation: nvidia-tesla-p100-vws

Für diese virtuellen Workstations wird Ihrer Instanz automatisch eine Lizenz für NVIDIA RTX Virtual Workstation (vWS) hinzugefügt.

Für die N1-Maschinenfamilie für allgemeine Zwecke können Sie entweder vordefinierte oder benutzerdefinierte Maschinentypen verwenden.

GPUs auf Spot-VMs

Sie können Ihren Spot-VMs GPUs zu niedrigeren Spot-Preisen für die GPUs hinzufügen. An Spot-VMs angehängte GPUs funktionieren wie normale GPUs, bleiben jedoch nur für die Lebensdauer der VM bestehen. Für Spot-VMs mit GPUs gilt derselbe Prozess für vorzeitiges Beenden wie für alle Spot-VMs.

Fordern Sie ein dediziertes Preemptible GPU-Kontingent für GPUs auf Spot-VMs an. Weitere Informationen finden Sie unter Kontingente für Spot-VMs.

Bei Wartungsereignissen werden Spot-VMs mit GPUs standardmäßig vorzeitig beendet und können nicht automatisch neu gestartet werden. Wenn Sie die Instanzen neu erstellen möchten, nachdem sie beendet wurden, verwenden Sie eine verwaltete Instanzgruppe. Verwaltete Instanzgruppen erstellen Ihre VM-Instanzen neu, sofern die vCPU-, Speicher- und GPU-Ressourcen verfügbar sind.

Wenn Sie eine Warnung erhalten möchten, dass die VMs vorzeitig beendet werden, oder wenn Sie die VMs so konfigurieren möchten, dass sie nach einer Wartung automatisch neu gestartet werden, verwenden Sie Standard-VMs mit einer GPU. Für Standard-VMs mit GPUs bietet Compute Engine vor dem vorzeitigen Beenden eine Stunde im Voraus eine Warnung.

Compute Engine berechnet Ihnen keine GPUs, wenn ihre Instanzen in der ersten Minute nach dem Start der Ausführung wieder beendet werden.

Informationen zum Erstellen von Spot-VMs mit angehängten GPUs finden Sie unter VM mit angehängten GPUs erstellen und Spot-VMs erstellen. Ein Beispiel finden Sie unter A3-Ultra- oder A4-Instanz mit Spot-VMs erstellen.

GPUs auf Instanzen mit vordefinierten Laufzeiten

Für Instanzen, die das Standardbereitstellungsmodell verwenden, können in der Regel keine Kontingente für die Zuweisung auf Abruf verwendet werden. Kontingente auf Abruf sind für temporäre Arbeitslasten vorgesehen und in der Regel verfügbarer. Wenn Ihr Projekt kein Kontingent auf Abruf hat und Sie es noch nie angefordert haben, verbrauchen alle Instanzen in Ihrem Projekt Standardkontingente.

Wenn Sie ein Kontingent für die Zuweisung auf Abruf anfordern, müssen Instanzen, die das Standardbereitstellungsmodell verwenden, alle folgenden Kriterien erfüllen, um das Kontingent für die Zuweisung auf Abruf zu nutzen:

Den Instanzen sind GPUs zugeordnet.
Die Instanzen sind so konfiguriert, dass sie nach einer vordefinierten Laufzeit über das Feld maxRunDuration oder terminationTime automatisch gelöscht werden. Weitere Informationen finden Sie hier:
- Laufzeit einer Instanz beschränken
- Laufzeit von Instanzen in einer MIG begrenzen
Die Instanz darf keine Reservierungen nutzen. Weitere Informationen finden Sie unter Verhindern, dass Compute-Instanzen Reservierungen nutzen.

Wenn Sie ein Zuteilungskontingent auf Abruf für zeitgebundene GPU-Arbeitslasten verwenden, profitieren Sie sowohl von der unterbrechungsfreien Laufzeit als auch von der hohen Verfügbarkeit des Zuteilungskontingents auf Abruf. Weitere Informationen finden Sie unter Kontingente auf Abruf.

GPUs und Confidential VMs

Sie können eine GPU mit einer Confidential VM-Instanz verwenden, die Intel TDX in der A3-Maschinenserie nutzt. Weitere Informationen finden Sie unter Unterstützte Konfigurationen für Confidential VMs. Informationen zum Erstellen einer Confidential VM-Instanz mit GPUs finden Sie unter Confidential VM-Instanz mit GPU erstellen.

GPUs und Blockspeicher

Wenn Sie eine Instanz mit einem GPU-Maschinentyp erstellen, können Sie der Instanz persistenten oder temporären Blockspeicher hinzufügen. Verwenden Sie zum Speichern nicht temporärer Daten einen nichtflüchtigen Blockspeicher wie Hyperdisk oder nichtflüchtiger Speicher, da diese Speicher unabhängig vom Lebenszyklus der Instanz sind. Daten im persistenten Speicher können auch nach dem Löschen der Instanz beibehalten werden.

Für temporären Scratch-Speicher oder Caches können Sie temporären Blockspeicher verwenden, indem Sie beim Erstellen der Instanz lokale SSD-Laufwerke hinzufügen.

Nichtflüchtiger Blockspeicher mit Persistent Disk- und Hyperdisk-Volumes

Sie können GPU-fähigen Instanzen Persistent Disk- und Hyperdisk-Volumes zuordnen.

Verwenden Sie für ML- und Bereitstellungsarbeitslasten Hyperdisk ML-Volumes, die einen hohen Durchsatz und kürzere Datenladezeiten bieten. Hyperdisk ML ist eine kostengünstigere Option für ML-Arbeitslasten, da die GPU-Inaktivitätszeiten kürzer sind.

Hyperdisk-ML-Volumes unterstützen das Anhängen an mehrere Instanzen im Lesemodus. Sie können also dasselbe Laufwerk an mehrere Instanzen anhängen und jeder Instanz Zugriff auf dieselben Daten gewähren.

Weitere Informationen zu den unterstützten Laufwerkstypen für Maschinenserien, die GPUs unterstützen, finden Sie auf den Seiten für die Maschinenserien N1 und beschleunigungsoptimiert.

Lokale SSDs

Lokale SSD-Laufwerke bieten schnellen, temporären Speicher für das Caching, die Datenverarbeitung oder andere temporäre Daten. Lokale SSDs bieten schnellen Speicher, da sie physisch mit dem Server verbunden sind, auf dem Ihre Instanz gehostet wird. Lokale SSD-Laufwerke bieten temporären Speicher, da die Daten der Instanz verloren gehen, wenn sie neu gestartet wird.

Vermeiden Sie es, Daten mit hohen Anforderungen an die Persistenz auf lokalen SSD-Festplatten zu speichern. Verwenden Sie stattdessen persistenten Speicher, um nicht vorübergehende Daten zu speichern.

Wenn Sie eine Instanz mit einer GPU manuell beenden, können Sie die Daten der lokalen SSD unter bestimmten Einschränkungen beibehalten. Weitere Informationen finden Sie in der Dokumentation zu lokalen SSDs.

Informationen zur regionalen Unterstützung lokaler SSDs mit GPU-Typen finden Sie unter Lokale SSD-Verfügbarkeit nach GPU-Regionen und -Zonen.

GPUs und Hostwartung

Compute Engine beendet Instanzen mit angehängten GPUs immer, wenn Wartungsereignisse auf dem Hostserver ausgeführt werden. Wenn der Instanz lokale SSD-Laufwerke angehängt sind, gehen die lokalen SSD-Daten nach dem Beenden der Instanz verloren.

Weitere Informationen zum Umgang mit Wartungsereignissen finden Sie unter GPU-Hostwartungen

GPU-Preise

Für Instanzen mit angehängten GPUs fallen Kosten wie folgt an:

Wenn Sie Compute Engine anfordern, GPUs mit dem Bereitstellungsmodell für Spot-, Flex-Start- oder reservierungsgebundene Instanzen bereitzustellen, erhalten Sie je nach GPU-Typ einen Rabatt.
Für die meisten Instanzen mit angehängten GPUs gelten ebenso wie für vCPUs Rabatte für kontinuierliche Nutzung. Wenn Sie eine GPU für eine virtuelle Workstation auswählen, fügt Compute Engine Ihrer Instanz automatisch eine NVIDIA RTX-Lizenz für die virtuelle Workstation hinzu.

Informationen zu stündlichen und monatlichen Preisen für GPUs finden Sie auf der Seite „GPU-Preise”.

GPUs mit Rabatten für zugesicherte Nutzung reservieren

Informationen zum Reservieren von GPU-Ressourcen in einer bestimmten Zone finden Sie unter Reservierungstyp auswählen.

Wenn Sie Rabatte für zugesicherte Nutzung für GPUs in einer bestimmten Zone erhalten möchten, müssen Sie ressourcenbasierte Zusicherungen für die GPUs erwerben und auch Reservierungen an Ihre Zusicherungen anhängen, die übereinstimmende GPUs angeben. Weitere Informationen finden Sie unter Reservierungen an ressourcenbasierte Zusicherungen anhängen.

GPU-Einschränkungen und Beschränkungen

Für Instanzen mit angehängten GPUs gelten die folgenden Beschränkungen und Einschränkungen:

Nur beschleunigungsoptimierte (A4X, A4, A3, A2 und G2) und N1-Maschinentypen für allgemeine Zwecke unterstützen GPUs.
Zum Schutz der Systeme und Nutzer von Compute Engine haben neue Projekte ein globales GPU-Kontingent, das die Gesamtzahl der GPUs begrenzt, die Sie in einer unterstützten Zone erstellen können. Wenn Sie ein GPU-Kontingent anfordern, müssen Sie ein Kontingent für die GPU-Modelle, die Sie in den einzelnen Regionen erstellen möchten, sowie ein zusätzliches globales Kontingent für die Gesamtzahl der GPUs aller Typen in allen Zonen anfordern.
Für Instanzen mit einer oder mehreren GPUs gilt eine maximale Anzahl von vCPUs für jede einzelne GPU, die Sie in die Instanz einfügen. Die verfügbaren vCPU- und Speicherbereiche für verschiedene GPU-Konfigurationen können Sie der GPU-Liste entnehmen.
GPUs benötigen Gerätetreiber, um ordnungsgemäß zu funktionieren. NVIDIA-GPUs, die auf Compute Engine ausgeführt werden, müssen eine Mindesttreiberversion verwenden. Weitere Informationen zu Treiberversionen finden Sie unter Erforderliche NVIDIA-Treiberversionen.
Das Compute Engine-SLA gilt für Instanzen mit einem angehängten GPU-Modell nur, wenn dieses angehängte GPU-Modell allgemein verfügbar ist.

In Regionen mit mehreren Zonen gilt das Compute Engine-SLA für die Instanz nur, wenn das GPU-Modell in mehr als einer Zone in dieser Region verfügbar ist. Informationen zu GPU-Modellen nach Region finden Sie unter GPU-Regionen und -Zonen.
Compute Engine unterstützt einen gleichzeitigen Nutzer pro GPU.
Einschränkungen für jeden Maschinentyp mit angehängten GPUs