Compute Engine stellt Grafikprozessoren (Graphics Processing Units, GPUs) bereit, die Sie Ihren virtuellen Maschinen (VMs) hinzufügen können. Sie können diese GPUs nutzen, um bestimmte Arbeitslasten wie maschinelles Lernen und Datenverarbeitung auf Ihren VMs zu beschleunigen.
Sie können auch einige GPU-Maschinentypen auf AI Hypercomputer verwenden. AI Hypercomputer ist ein Supercomputing-System, das für die Unterstützung Ihrer Arbeitslasten für künstliche Intelligenz (KI) und maschinelles Lernen (ML) optimiert ist. Diese Option wird empfohlen, um eine dicht zugewiesene, leistungsoptimierte Infrastruktur mit Integrationen für Google Kubernetes Engine (GKE) und Slurm-Scheduler zu erstellen.
Dieses Dokument bietet einen Überblick über die Schritte, die zum Erstellen einer VM mit angehängten GPUs erforderlich sind.
Weitere Informationen zu GPUs in Compute Engine finden Sie unter GPUs.
GPU-Modell auswählen
Eine Liste der verfügbaren GPU-Modelle finden Sie unter GPU-Plattformen. Notieren Sie sich den Maschinentyp, der für das ausgewählte GPU-Modell unterstützt wird.
Für jedes Modell kann es auch hilfreich sein, Folgendes zu prüfen:
- Unterstützte Regionen und Zonen.
- GPU-Preise, um zu erfahren, was Sie die Nutzung der einzelnen GPU-Modelle in Ihren VMs kostet. Weitere Informationen zu VMs, die beschleunigungsoptimierte Maschinen verwenden, finden Sie unter Preise für VM-Instanzen.
Beschränkungen
Zusätzlich zu den Einschränkungen für alle VMs mit GPUs gelten für jede Maschinenserie mit angehängten GPUs die folgenden Einschränkungen:
A4-VMs
- Sie können Kapazität nur mit den unterstützten Verbrauchsoptionen für einen A4-Maschinentyp anfordern.
- Sie erhalten weder Rabatte für kontinuierliche Nutzung noch flexible Rabatte für zugesicherte Nutzung für Instanzen, die einen A4-Maschinentyp verwenden.
- Sie können den A4-Maschinentyp nur in bestimmten Regionen und Zonen verwenden.
- Sie können keinen nichtflüchtigen Speicher (regional oder zonenbasiert) auf einer Instanz verwenden, die einen A4-Maschinentyp verwendet.
- Der A4-Maschinentyp ist nur auf der Emerald Rapids-CPU-Plattform verfügbar.
- Sie können den Maschinentyp einer vorhandenen Instanz nicht in einen A4-Maschinentyp ändern. Sie können nur neue A4-Instanzen erstellen. Nachdem Sie eine Instanz mit einem A4-Maschinentyp erstellt haben, können Sie den Maschinentyp nicht mehr ändern.
- A4-Maschinentypen unterstützen keine einzelnen Mandanten.
- Sie können Windows-Betriebssysteme nicht auf einem A4-Maschinentyp ausführen.
A3-Ultra-VMs
- Sie können Kapazität nur mit den unterstützten Verbrauchsoptionen für einen A3-Ultra-Maschinentyp anfordern.
- Sie erhalten weder Rabatte für kontinuierliche Nutzung noch flexible Rabatte für zugesicherte Nutzung für Instanzen, die einen A3-Ultra-Maschinentyp verwenden.
- Sie können den A3-Ultra-Maschinentyp nur in bestimmten Regionen und Zonen verwenden.
- Sie können keinen nichtflüchtigen Speicher (regional oder zonenbasiert) auf einer Instanz verwenden, die einen A3-Ultra-Maschinentyp verwendet.
- Der A3-Ultra-Maschinentyp ist nur auf der Emerald Rapids-CPU-Plattform verfügbar.
- Sie können den Maschinentyp einer vorhandenen Instanz nicht in einen A3-Ultra-Maschinentyp ändern. Sie können nur neue A3-ultra-Instanzen erstellen. Nachdem Sie eine Instanz mit einem A3-Ultra-Maschinentyp erstellt haben, können Sie den Maschinentyp nicht mehr ändern.
- A3-Ultra-Maschinentypen unterstützen keine einzelnen Mandanten.
- Sie können Windows-Betriebssysteme nicht auf einem A3-Ultra-Maschinentyp ausführen.
A3-Mega-VMs
- Sie können Kapazität nur mit den unterstützten Verbrauchsoptionen für einen A3 Mega-Maschinentyp anfordern.
- Sie erhalten weder Rabatte für kontinuierliche Nutzung noch flexible Rabatte für zugesicherte Nutzung für Instanzen, die einen A3-Mega-Maschinentyp verwenden.
- Sie können den A3-Mega-Maschinentyp nur in bestimmten Regionen und Zonen verwenden.
- Sie können regionale nichtflüchtige Speicher nicht auf einer Instanz verwenden, die einen A3-Mega-Maschinentyp verwendet.
- Der Maschinentyp „A3 Mega“ ist nur auf der Sapphire Rapids-CPU-Plattform verfügbar.
- Sie können den Maschinentyp einer vorhandenen Instanz nicht in einen A3-Mega-Maschinentyp ändern. Sie können nur neue A3-Mega-Instanzen erstellen. Nachdem Sie eine Instanz mit einem A3-Mega-Maschinentyp erstellt haben, können Sie den Maschinentyp nicht mehr ändern.
- A3 Mega-Maschinentypen unterstützen keine einzelnen Mandanten.
- Sie können Windows-Betriebssysteme nicht auf einem A3 Mega-Maschinentyp ausführen.
A3-High-VMs
- Sie können Kapazität nur mit den unterstützten Verbrauchsoptionen für einen A3-High-Maschinentyp anfordern.
- Sie erhalten weder Rabatte für kontinuierliche Nutzung noch flexible Rabatte für zugesicherte Nutzung für Instanzen, die einen A3-High-Maschinentyp verwenden.
- Sie können den A3 High-Maschinentyp nur in bestimmten Regionen und Zonen verwenden.
- Sie können regionale nichtflüchtige Speicher nicht auf einer Instanz verwenden, die einen A3-High-Maschinentyp verwendet.
- Der Maschinentyp „A3 High“ ist nur auf der Sapphire Rapids-CPU-Plattform verfügbar.
- Sie können den Maschinentyp einer vorhandenen Instanz nicht in einen A3-High-Maschinentyp ändern. Sie können nur neue A3-High-Instanzen erstellen. Nachdem Sie eine Instanz mit einem A3-High-Maschinentyp erstellt haben, können Sie den Maschinentyp nicht mehr ändern.
- A3 High-Maschinentypen unterstützen keine einzelnen Mandanten.
- Sie können Windows-Betriebssysteme nicht auf einem A3 High-Maschinentyp ausführen.
- Für die Maschinentypen
a3-highgpu-1g
,a3-highgpu-2g
unda3-highgpu-4g
müssen Sie Instanzen mit Spot-VMs oder einer Funktion erstellen, die den Dynamic Workload Scheduler (DWS) verwendet, z. B. Größenänderungsanfragen in einer MIG. Eine detaillierte Anleitung für beide Optionen finden Sie hier:- Wenn Sie Spot-VMs erstellen möchten, legen Sie das Bereitstellungsmodell auf
SPOT
fest, wenn Sie eine beschleunigungsoptimierte VM erstellen. - Informationen zum Erstellen einer Anfrage zur Größenänderung in einer MIG, die DWS verwendet, finden Sie unter MIG mit GPU-VMs erstellen.
- Wenn Sie Spot-VMs erstellen möchten, legen Sie das Bereitstellungsmodell auf
A3-Edge-VMs
- Sie können Kapazität nur mit den unterstützten Verbrauchsoptionen für einen A3-Edge-Maschinentyp anfordern.
- Sie erhalten weder Rabatte für kontinuierliche Nutzung noch flexible Rabatte für zugesicherte Nutzung für Instanzen, die einen A3-Edge-Maschinentyp verwenden.
- Sie können den A3-Edge-Maschinentyp nur in bestimmten Regionen und Zonen verwenden.
- Sie können regionale nichtflüchtige Speicher nicht auf einer Instanz verwenden, die einen A3-Edge-Maschinentyp verwendet.
- Der A3-Edge-Maschinentyp ist nur auf der Sapphire Rapids-CPU-Plattform verfügbar.
- Sie können den Maschinentyp einer vorhandenen Instanz nicht in einen A3-Edge-Maschinentyp ändern. Sie können nur neue A3-Edge-Instanzen erstellen. Nachdem Sie eine Instanz mit einem A3-Edge-Maschinentyp erstellt haben, können Sie den Maschinentyp nicht mehr ändern.
- A3 Edge-Maschinentypen unterstützen keine einzelnen Mandanten.
- Sie können Windows-Betriebssysteme nicht auf einem A3-Edge-Maschinentyp ausführen.
A2-Standard-VMs
- Sie können Kapazität nur mit den unterstützten Verbrauchsoptionen für einen A2-Standardmaschinentyp anfordern.
- Sie erhalten weder Rabatte für kontinuierliche Nutzung noch flexible Rabatte für zugesicherte Nutzung für Instanzen, die einen A2-Standardmaschinentyp verwenden.
- Sie können einen A2-Standard-Maschinentyp nur in bestimmten Regionen und Zonen verwenden.
- Die A2-Standardmaschinentypen sind nur auf der Cascade Lake-Plattform verfügbar.
- Wenn Ihre Instanz einen A2-Standardmaschinentyp verwendet, können Sie nur von einem A2-Standardmaschinentyp zu einem anderen A2-Standardmaschinentyp wechseln. Sie können keinen anderen Maschinentyp ändern. Weitere Informationen finden Sie unter Beschleunigeroptimierte Instanzen ändern.
- Sie können das Windows-Betriebssystem nicht mit den A2-Standard-Maschinentypen
a2-megagpu-16g
verwenden. Wählen Sie einen anderen A2-Standard-Maschinentyp aus, wenn Sie Windows-Betriebssysteme verwenden. - Sie können die schnelle Formatierung der angehängten lokalen SSDs nicht auf Windows-Instanzen verwenden, die A2-Standard-Maschinentypen verwenden.
Um diese lokalen SSDs zu formatieren, müssen Sie eine vollständige Formatierung mit dem diskpart-Dienstprogramm durchführen und
format fs=ntfs label=tmpfs
angeben. - A2-Standardmaschinentypen unterstützen keine einzelnen Mandanten.
A2-Ultra-VMs
- Sie können Kapazität nur mit den unterstützten Verbrauchsoptionen für einen A2-Ultra-Maschinentyp anfordern.
- Sie erhalten weder Rabatte für kontinuierliche Nutzung noch flexible Rabatte für zugesicherte Nutzung für Instanzen, die einen A2-Ultra-Maschinentyp verwenden.
- Sie können den A2-Ultra-Maschinentyp nur in bestimmten Regionen und Zonen verwenden.
- Die A2-Ultra-Maschinentypen sind nur auf der Cascade Lake-Plattform verfügbar.
- Wenn Ihre Instanz einen A2-Ultra-Maschinentyp verwendet, können Sie den Maschinentyp nicht ändern. Wenn Sie einen anderen A2-Ultra-Maschinentyp oder einen anderen Maschinentyp verwenden müssen, müssen Sie eine neue Instanz erstellen.
- Sie können keinen anderen Maschinentyp in einen A2-Ultra-Maschinentyp ändern. Wenn Sie eine Instanz benötigen, die einen A2-Ultra-Maschinentyp verwendet, müssen Sie eine neue Instanz erstellen.
- Sie können die schnelle Formatierung der angehängten lokalen SSDs nicht auf Windows-Instanzen verwenden, die A2-Ultra-Maschinentypen verwenden. Um diese lokalen SSDs zu formatieren, müssen Sie eine vollständige Formatierung mit dem diskpart-Dienstprogramm durchführen und
format fs=ntfs label=tmpfs
angeben.
G2-VMs
- Sie können Kapazität nur mit den unterstützten Verbrauchsoptionen für einen G2-Maschinentyp anfordern.
- Sie erhalten weder Rabatte für kontinuierliche Nutzung noch flexible Rabatte für zugesicherte Nutzung für Instanzen, die einen G2-Maschinentyp verwenden.
- Sie können einen G2-Maschinentyp nur in bestimmten Regionen und Zonen verwenden.
- Die G2-Maschinentypen sind nur auf der Cascade Lake-Plattform verfügbar.
- Nichtflüchtige Standardspeicher (
pd-standard
) werden auf Instanzen, die den G2-Maschinentyp verwenden, nicht unterstützt. Informationen zu unterstützten Laufwerkstypen finden Sie unter Unterstützte Laufwerkstypen für G2. - Sie können keine GPUs mit mehreren Instanzen auf einer Instanz erstellen, die einen G2-Maschinentyp verwendet.
- Wenn Sie den Maschinentyp einer G2-Instanz ändern müssen, lesen Sie die Informationen unter Beschleunigeroptimierte Instanzen ändern.
- Sie können keine Deep Learning VM Images als Bootlaufwerke für Instanzen verwenden, die den G2-Maschinentyp verwenden.
- Der aktuelle Standardtreiber für Container-Optimized OS unterstützt keine L4-GPUs, die auf G2-Maschinentypen ausgeführt werden. Außerdem unterstützt Container-Optimized OS nur bestimmte Treiber.
Wenn Sie Container-Optimized OS auf G2-Maschinentypen verwenden möchten, lesen Sie die folgenden Hinweise:
- Verwenden Sie eine Container-Optimized OS-Version, die die mindestens empfohlene NVIDIA-Treiberversion
525.60.13
oder höher unterstützt. Weitere Informationen finden Sie in den Versionshinweisen zu Container-Optimized OS. - Geben Sie bei der Installation des Treibers die neueste verfügbare Version an, die für die L4-GPUs funktioniert.
Beispiel:
sudo cos-extensions install gpu -- -version=525.60.13
.
- Verwenden Sie eine Container-Optimized OS-Version, die die mindestens empfohlene NVIDIA-Treiberversion
- In den folgenden Szenarien müssen Sie über die Google Cloud CLI oder REST G2-Instanzen erstellen:
- Sie möchten benutzerdefinierte Speicherwerte angeben.
- Sie möchten die Anzahl der sichtbaren CPU-Kerne anpassen.
N1+GPU-VMs
Informationen zu den Einschränkungen für N1-Instanzen mit GPUs finden Sie unter Funktionen für die N1-Maschinenserie und GPUs für die N1-Maschinenserie.
Betriebssystem auswählen
Wenn Sie GPUs für maschinelles Lernen verwenden, nutzen Sie eines der folgenden Betriebssysteme:
- Für KI-Arbeitslasten optimierte Images: Sie können Ubuntu- und Rocky-Images verwenden, die in accelerator-optimierten Versionen mit vorinstallierten Treibern und CUDA-Toolkit verfügbar sind. Weitere Informationen finden Sie in der Dokumentation zu AI Hypercomputer unter Betriebssystem-Images.
- Deep-Learning-VM-Images Jede Deep Learning VM hat ein GPU-Treiberinstallationstool und enthält Pakete wie TensorFlow und PyTorch. Sie können eine Deep Learning VM auch für allgemeine GPU-Arbeitslasten verwenden. Weitere Informationen zu den verfügbaren Images und den in diesen Images installierten Paketen finden Sie unter Image auswählen.
Alternativ können Sie ein beliebiges öffentliches Image oder benutzerdefiniertes Image verwenden. Beachten Sie, dass für einige Images möglicherweise ein spezieller Treiber oder ein Installationsvorgang erforderlich ist, der nicht in der Compute Engine-Dokumentation beschrieben wird. Informationen dazu, welche Treiber für Ihr Betriebssystem-Image geeignet sind, finden Sie unter GPU-Treiber installieren.
GPU-Kontingent prüfen
Zum Schutz der Systeme und Nutzer von Compute Engine haben neue Projekte ein globales GPU-Kontingent, das die Gesamtzahl der GPUs begrenzt, die Sie in einer unterstützten Zone erstellen können. Informationen zum GPU-Kontingent finden Sie unter GPU-Kontingent.
Fordern Sie eine Kontingentaufstockung an, falls Sie Ihr GPU-Kontingent erhöhen müssen. Wenn Sie ein GPU-Kontingent anfordern, müssen Sie ein Kontingent für die GPU-Typen, die Sie in den einzelnen Regionen erstellen möchten, sowie ein zusätzliches globales Kontingent für die Gesamtzahl der GPUs aller Typen in allen Zonen anfordern.
Wenn Ihr Projekt einen bestehenden Abrechnungsverlauf hat, wird es nach Ihrer Anfrage automatisch Kontingente erhalten.
GPU-VMs und Zuteilungskontingente auf Abruf
Für Instanzen, die das Standardbereitstellungsmodell verwenden, können in der Regel keine Kontingente für die Zuweisung auf Abruf verwendet werden. Kontingente auf Abruf sind für temporäre Arbeitslasten vorgesehen und in der Regel verfügbarer. Wenn Ihr Projekt kein Kontingent auf Abruf hat und Sie es noch nie angefordert haben, verbrauchen alle Instanzen in Ihrem Projekt Standardkontingente.
Wenn Sie ein Kontingent für die Zuweisung auf Abruf anfordern, müssen Instanzen, die das Standardbereitstellungsmodell verwenden, alle folgenden Kriterien erfüllen, um das Kontingent für die Zuweisung auf Abruf zu nutzen:
- Den Instanzen sind GPUs zugeordnet.
- Die Instanzen sind so konfiguriert, dass sie nach einer vordefinierten Laufzeit über das Feld
maxRunDuration
oderterminationTime
automatisch gelöscht werden. Weitere Informationen finden Sie hier: - Die Instanz darf keine Reservierungen nutzen. Weitere Informationen finden Sie unter Verhindern, dass Compute-Instanzen Reservierungen nutzen.
Wenn Sie ein Zuteilungskontingent auf Abruf für zeitgebundene GPU-Arbeitslasten verwenden, profitieren Sie sowohl von der unterbrechungsfreien Laufzeit als auch von der hohen Verfügbarkeit des Zuteilungskontingents auf Abruf. Weitere Informationen finden Sie unter Kontingente auf Abruf.
VM mit angehängten GPUs erstellen
Führen Sie die folgenden Schritte aus, um eine VM mit angehängten GPUs zu erstellen:
Erstellen Sie die VM. Die zum Erstellen einer VM verwendete Methode hängt vom ausgewählten GPU-Modell ab.
- Informationen zum Erstellen einer VM mit angehängten NVIDIA B200- oder H200-GPUs finden Sie unter A3 Ultra- oder A4-VM erstellen.
- Informationen zum Erstellen einer VM mit angehängten NVIDIA H100-, A100- oder L4-GPUs finden Sie unter A3-, A2- oder G2-VM erstellen.
- Informationen zum Erstellen einer VM mit angehängten NVIDIA T4-, P4-, P100- und V100-GPUs finden Sie unter N1-VM mit angehängten GPUs erstellen.
Damit die VM die GPU verwenden kann, müssen Sie den GPU-Treiber auf Ihrer VM installieren. Wenn Sie eine virtuelle NVIDIA RTX-Workstation (früher NVIDIA GRID) aktiviert haben, installieren Sie einen Treiber für eine virtuelle Workstation.
Nächste Schritte
Weitere Informationen zu GPU-Plattformen
Weitere Informationen zu den Funktionen und Einschränkungen der Verwendung von GPUs
- So erfahren Sie, wie Sie die tatsächliche und prognostizierte Nutzung Ihrer GPUs aufrufen können.