Einführung in KI‑/ML-Arbeitslasten in GKE

Auf dieser Seite finden Sie einen konzeptionellen Überblick über Google Kubernetes Engine (GKE) für KI/ML-Arbeitslasten. GKE ist eine von Google verwaltete Implementierung der Open-Source-Plattform zur Containerorchestrierung Kubernetes.

Google Kubernetes Engine bietet eine skalierbare, flexible und kostengünstige Plattform für die Ausführung aller Ihrer containerisierten Arbeitslasten, einschließlich Anwendungen für künstliche Intelligenz und maschinelles Lernen (KI/ML). GKE bietet Ihnen die Kontrolle und Leistung, die Sie benötigen, egal ob Sie große Fundierungsmodelle trainieren, Inferenzanfragen im großen Maßstab bearbeiten oder eine umfassende KI-Plattform entwickeln.

Diese Seite richtet sich an Daten- und KI-Spezialisten, Cloud-Architekten, Operatoren und Entwickler, die nach einer skalierbaren, automatisierten und verwalteten Kubernetes-Lösung für die Ausführung von KI-/ML-Arbeitslasten suchen. Weitere Informationen zu gängigen Rollen finden Sie unter Häufig verwendete GKE-Nutzerrollen und -Aufgaben.

Erste Schritte mit KI-/ML-Arbeitslasten in GKE

Sie können in wenigen Minuten anfangen, GKE kennenzulernen. Nutzen Sie dazu die kostenlose Stufe von GKE, um mit Kubernetes zu beginnen, ohne dass Kosten für die Clusterverwaltung anfallen.

  1. Erste Schritte mit der Google Cloud Console

  2. Probieren Sie diese Kurzanleitungen aus:
    • Inferenz in GKE: Stellen Sie ein KI-LLM (Large Language Model) in GKE für die Inferenz mit einer vordefinierten Architektur bereit.
    • Training in GKE: Stellen Sie ein KI-Trainingsmodell in GKE bereit und speichern Sie die Vorhersagen in Cloud Storage.
  3. Lesen Sie Beschleuniger für KI‑/ML-Arbeitslasten. Dort finden Sie Anleitungen und Ressourcen zum Planen und Abrufen von Beschleunigern (GPUs und TPUs) für Ihre Plattform.

Gängige Anwendungsfälle

GKE bietet eine einheitliche Plattform, die alle Ihre KI-Arbeitslasten unterstützen kann.

  • KI-Plattform erstellen: GKE bietet Unternehmensteams die Flexibilität, eine standardisierte Multi-Tenant-Plattform zu erstellen, die unterschiedlichen Anforderungen gerecht wird.
  • Onlinebereitstellung mit geringer Latenz: Für Entwickler, die generative KI-Anwendungen erstellen, bietet GKE mit dem Inference Gateway das optimierte Routing und Autoscaling, das für eine reaktionsschnelle Nutzererfahrung bei gleichzeitiger Kostenkontrolle erforderlich ist.

Die richtige Plattform für Ihre KI-/ML-Arbeitslast auswählen

Google Cloud bietet eine Reihe von KI-Infrastrukturprodukten, die Sie auf Ihrem Weg zu ML unterstützen – von vollständig verwaltet bis vollständig konfigurierbar. Die Wahl der richtigen Plattform hängt von Ihren spezifischen Anforderungen an Kontrolle, Flexibilität und Verwaltungsaufwand ab.

Best Practice:

Wählen Sie GKE, wenn Sie umfassende Kontrolle, Portabilität und die Möglichkeit benötigen, eine benutzerdefinierte, leistungsstarke KI-Plattform zu entwickeln.

  • Infrastrukturkontrolle und ‑flexibilität: Sie benötigen ein hohes Maß an Kontrolle über Ihre Infrastruktur, müssen benutzerdefinierte Pipelines verwenden oder benötigen Anpassungen auf Kernelebene.
  • Training und Inferenz in großem Maßstab: Sie möchten sehr große Modelle trainieren oder Modelle mit minimaler Latenz bereitstellen und dabei die Skalierung und hohe Leistung von GKE nutzen.
  • Kosteneffizienz bei der Skalierung: Sie möchten die Kostenoptimierung priorisieren, indem Sie die Integration von GKE mit Spot-VMs und Flex-Start-VMs nutzen, um die Kosten effektiv zu verwalten.
  • Portabilität und offene Standards: Sie möchten Anbieterabhängigkeit vermeiden und Ihre Arbeitslasten mit Kubernetes überall ausführen. Außerdem haben Sie bereits Kubernetes-Kenntnisse oder eine Multi-Cloud-Strategie.

Sie können auch diese Alternativen in Betracht ziehen:

Google Cloud -Dienst Optimal für
Vertex AI Eine vollständig verwaltete End-to-End-Plattform, mit der Sie die Entwicklung beschleunigen und die Infrastrukturverwaltung auslagern können. Eignet sich gut für Teams, die sich auf MLOps und eine schnelle Wertschöpfung konzentrieren. Weitere Informationen finden Sie im Video Choosing between self-hosted GKE and managed Vertex AI to host AI models.
Cloud Run Eine serverlose Plattform für containerisierte Inferenz-Arbeitslasten, die auf null skaliert werden kann. Eignet sich gut für ereignisgesteuerte Anwendungen und die kostengünstige Bereitstellung kleinerer Modelle. Einen detaillierten Vergleich finden Sie unter GKE und Cloud Run.

Wie GKE KI-/ML-Arbeitslasten unterstützt

GKE bietet eine Reihe von spezialisierten Komponenten, die jede Phase des KI-/ML-Lebenszyklus vereinfachen und beschleunigen, vom umfangreichen Training bis hin zur Inferenz mit geringer Latenz.

Im folgenden Diagramm befindet sich GKE in Google Cloudund kann verschiedene Cloud-Speicheroptionen (z. B. Cloud Storage FUSE und Managed Lustre) und verschiedene Cloud-Infrastrukturoptionen (z. B. Cloud TPU und Cloud-GPUs) verwenden. GKE ist auch mit Open-Source-Software und ‑Frameworks für Deep Learning (z. B. JAX oder TensorFlow), ML-Orchestrierung (z. B. Jupyter oder Ray) und LLM-Inferenz (z. B. vLLM oder NVIDIA Dynamo) kompatibel.
Abbildung 1: GKE als skalierbare verwaltete Plattform für KI‑/ML-Arbeitslasten.

In der folgenden Tabelle sind die GKE-Funktionen zusammengefasst, die Ihre KI-/ML-Arbeitslasten oder betrieblichen Ziele unterstützen.

KI‑/ML-Arbeitslast oder ‑Vorgang GKE-Unterstützung Wichtige Features
Inferenz und Bereitstellung Optimiert für die elastische Bereitstellung von KI-Modellen mit niedriger Latenz, hohem Durchsatz und Kosteneffizienz.
  • Flexibilität bei Beschleunigern: GKE unterstützt sowohl GPUs als auch TPUs für die Inferenz.
  • GKE Inference Gateway: Ein modellbezogenes Gateway, das intelligentes Routing und Load Balancing speziell für KI-Inferenzarbeitslasten bietet.
  • GKE Inference Quickstart: Ein Tool, das die Leistungsanalyse und Bereitstellung vereinfacht, indem es eine Reihe von Benchmark-Profilen für beliebte KI-Modelle bereitstellt.
  • GKE Autopilot: Ein GKE-Betriebsmodus, der Clusteroperationen und die richtige Dimensionierung der Kapazität automatisiert und so den Aufwand reduziert.
Training und Feinabstimmung Bietet die Skalierungs- und Orchestrierungsfunktionen, die für das effiziente Trainieren sehr großer Modelle bei gleichzeitiger Minimierung der Kosten erforderlich sind.
  • Schnellere Startknoten: Eine speziell für GPU-Arbeitslasten entwickelte Optimierung, die die Startzeiten von Knoten um bis zu 80 % verkürzt.
  • Flex-Start-Bereitstellungsmodus mit Dynamic Workload Scheduler: Damit können Sie leichter knappe GPU- und TPU-Beschleuniger für Trainingsarbeitslasten mit kurzer Laufzeit sichern.
  • Kueue: Ein Kubernetes-natives Jobwarteschlangensystem, das die Ressourcenzuweisung, die Planung, die Kontingentverwaltung und die Priorisierung für Batch-Arbeitslasten verwaltet.
  • TPU-Multislice: Eine Hardware- und Netzwerkarchitektur, die es mehreren TPU-Slices ermöglicht, über das Data Center Network (DCN) miteinander zu kommunizieren, um Training im großen Maßstab zu ermöglichen.
Einheitliche KI-/ML-Entwicklung Verwalteter Support für Ray, ein Open-Source-Framework zum Skalieren verteilter Python-Anwendungen.
  • Ray on GKE-Add-on: Abstrahiert die Kubernetes-Infrastruktur, sodass Sie Arbeitslasten wie die Vorverarbeitung von Daten im großen Maßstab, verteiltes Training und Onlinebereitstellung mit minimalen Codeänderungen skalieren können.

Nächste Schritte