Google Cloud bietet eine erstklassige KI-Infrastruktur, mit der Sie Ihre anspruchsvollsten GPU-beschleunigten Arbeitslasten in einer Vielzahl von Segmenten ausführen können. Sie können GPUs in Google Cloud für KI, maschinelles Lernen, wissenschaftliche, Analyse-, Engineering-, Verbraucher- und Unternehmensanwendungen verwenden.
Durch unsere Partnerschaft mit NVIDIA bietet Google Cloud die neuesten GPUs und optimiert den Softwarestack mit einer Vielzahl von Speicher- und Netzwerkoptionen. Eine vollständige Liste der verfügbaren GPUs finden Sie unter GPU-Plattformen.
In den folgenden Abschnitten werden die Vorteile von GPUs in Google Cloud beschrieben.
GPU-beschleunigte VMs
In Google Cloud können Sie auf GPUs zugreifen und sie so bereitstellen, wie es Ihren Anforderungen am besten entspricht. Es ist eine spezielle beschleunigeroptimierte Maschinenfamilie mit vorinstallierten GPUs und Netzwerkfunktionen verfügbar, die sich ideal zur Leistungsoptimierung eignen. Sie sind in den Maschinenserien A3, A2 und G2 verfügbar.
Mehrere Bereitstellungsoptionen
Sie können Cluster mit der beschleunigeroptimierten Maschinenfamilie mit einem der folgenden Open-Source- oder Google Cloud-Produkte bereitstellen.
Vertex AI
Vertex AI ist eine vollständig verwaltete ML-Plattform (maschinelles Lernen), mit der Sie ML-Modelle und KI-Anwendungen trainieren und bereitstellen können. In Vertex AI-Anwendungen können Sie mit GPU-beschleunigten VMs die Leistung auf folgende Weise verbessern:
- Verwenden Sie GPU-fähige VMs in benutzerdefinierten GKE-Worker-Pools für das Training.
- Open-Source-LLM-Modelle aus dem Vertex AI Model Garden verwenden
- Verringern Sie die Vorhersagelatenz.
- Leistung des Notebookcodes in Vertex AI Workbench verbessern
- Leistung einer Colab Enterprise-Laufzeit verbessern
GKE und Slurm
Skalierbare Orchestrationsplattformen wie GKE eignen sich ideal für die Bereitstellung großer Cluster, die für das Training und die Feinabstimmung großer ML-Modelle verwendet werden können. Bei groß angelegten ML-Modellen werden riesige Datenmengen verwendet.
Die folgenden Orchestration-Plattformen sind in Google Cloud verfügbar.
Google Kubernetes Engine (GKE): Mit diesem Dienst können Sie Containeranwendungen in großem Maßstab mithilfe der Google-Infrastruktur bereitstellen und betreiben.
Slurm: Ein Open-Source-Tool zur Clusterverwaltung und Jobplanung. In Google Cloud können Sie Slurm-Cluster mit dem Cluster-Toolkit bereitstellen.
Umfangreiches Modelltraining und ‑abstimmung durchführen
Für das Training oder die Feinabstimmung von großen Modellen empfehlen wir einen Cluster mit A3 Mega (a3-megagpu-8g
)-Maschinen und die Bereitstellung mit einem Planer wie GKE oder Slurm.
Bereitstellungsoption |
Bereitstellungshandbücher |
Slurm |
|
GKE |
Standardmäßiges Modelltraining und -abstimmung ausführen
Für das Training und die Feinabstimmung von Mainstream-Modellen empfehlen wir A3 High mit 8 GPUs (a3-highgpu-8g
) und die Bereitstellung mit einem Planer wie GKE oder Slurm. Sie können auch einen A2- oder G2-Maschinentyp verwenden.
Bereitstellungsoption |
Bereitstellungshandbücher |
Arbeitslasten |
GKE |
Autopilot- oder Standardknotenpools bereitstellen |
Inferenz: Modelle in GKE bereitstellen Training: Modell in GKE trainieren |
Slurm |
||
Einzelne VMs |
Compute Engine
Sie können auch einzelne VMs oder kleinere VM-Cluster mit angehängten GPUs in der Compute Engine erstellen und verwalten. Diese Methode wird hauptsächlich für die Ausführung grafikintensiver Arbeitslasten, Simulationslasten oder für das Training im kleinen Maßstab verwendet. Für diese Arbeitslasten empfehlen wir G2, kleine A3 High-Maschinentypen (mit 1, 2 oder 4 GPUs) und N1-Maschinentypen mit T4-, P4-, P100- und V100-GPUs.
Bereitstellungsoption |
Bereitstellungshandbücher |
VM für Dienste und Arbeitslasten mit einem einzelnen Knoten erstellen |
|
Verwaltete Instanzgruppen (MIGs) erstellen |
|
VMs im Bulk erstellen |
|
Einzelne VM erstellen |
Einzelne GPU-VM erstellen (Standard- oder Spot-VMs) |
Virtuelle Workstations erstellen |
Cloud Run
Sie können GPUs für Ihren Cloud Run-Dienst konfigurieren. GPUs eignen sich ideal für die Ausführung von KI-Inferenzarbeitslasten mit Large Language Models in Cloud Run.
In Cloud Run finden Sie hier Informationen zum Ausführen von KI-Arbeitslasten auf GPUs:
- GPUs für einen Cloud Run-Dienst konfigurieren
- Große ML-Modelle mit GPUs in Cloud Run laden
- Anleitung: LLM-Inferenzen auf Cloud Run-GPUs mit Ollama ausführen