Auf dieser Seite finden Sie einen konzeptionellen Überblick über Google Kubernetes Engine (GKE) für KI/ML-Arbeitslasten. GKE ist eine von Google verwaltete Implementierung der Open-Source-Plattform zur Containerorchestrierung Kubernetes.
Google Kubernetes Engine bietet eine skalierbare, flexible und kostengünstige Plattform für die Ausführung aller Ihrer containerisierten Arbeitslasten, einschließlich Anwendungen für künstliche Intelligenz und maschinelles Lernen (KI/ML). GKE bietet Ihnen die Kontrolle und Leistung, die Sie benötigen, egal ob Sie große Fundierungsmodelle trainieren, Inferenzanfragen im großen Maßstab bearbeiten oder eine umfassende KI-Plattform entwickeln.
Diese Seite richtet sich an Daten- und KI-Spezialisten, Cloud-Architekten, Operatoren und Entwickler, die nach einer skalierbaren, automatisierten und verwalteten Kubernetes-Lösung für die Ausführung von KI-/ML-Arbeitslasten suchen. Weitere Informationen zu gängigen Rollen finden Sie unter Häufig verwendete GKE-Nutzerrollen und -Aufgaben.
Erste Schritte mit KI-/ML-Arbeitslasten in GKE
Sie können in wenigen Minuten anfangen, GKE kennenzulernen. Nutzen Sie dazu die kostenlose Stufe von GKE, um mit Kubernetes zu beginnen, ohne dass Kosten für die Clusterverwaltung anfallen.
- Probieren Sie diese Kurzanleitungen aus:
- Inferenz in GKE: Stellen Sie ein KI-LLM (Large Language Model) in GKE für die Inferenz mit einer vordefinierten Architektur bereit.
- Training in GKE: Stellen Sie ein KI-Trainingsmodell in GKE bereit und speichern Sie die Vorhersagen in Cloud Storage.
- Lesen Sie Beschleuniger für KI‑/ML-Arbeitslasten. Dort finden Sie Anleitungen und Ressourcen zum Planen und Abrufen von Beschleunigern (GPUs und TPUs) für Ihre Plattform.
Gängige Anwendungsfälle
GKE bietet eine einheitliche Plattform, die alle Ihre KI-Arbeitslasten unterstützen kann.
- KI-Plattform erstellen: GKE bietet Unternehmensteams die Flexibilität, eine standardisierte Multi-Tenant-Plattform zu erstellen, die unterschiedlichen Anforderungen gerecht wird.
- Onlinebereitstellung mit geringer Latenz: Für Entwickler, die generative KI-Anwendungen erstellen, bietet GKE mit dem Inference Gateway das optimierte Routing und Autoscaling, das für eine reaktionsschnelle Nutzererfahrung bei gleichzeitiger Kostenkontrolle erforderlich ist.
Die richtige Plattform für Ihre KI-/ML-Arbeitslast auswählen
Google Cloud bietet eine Reihe von KI-Infrastrukturprodukten, die Sie auf Ihrem Weg zu ML unterstützen – von vollständig verwaltet bis vollständig konfigurierbar. Die Wahl der richtigen Plattform hängt von Ihren spezifischen Anforderungen an Kontrolle, Flexibilität und Verwaltungsaufwand ab.
Wählen Sie GKE, wenn Sie umfassende Kontrolle, Portabilität und die Möglichkeit benötigen, eine benutzerdefinierte, leistungsstarke KI-Plattform zu entwickeln.
- Infrastrukturkontrolle und ‑flexibilität: Sie benötigen ein hohes Maß an Kontrolle über Ihre Infrastruktur, müssen benutzerdefinierte Pipelines verwenden oder benötigen Anpassungen auf Kernelebene.
- Training und Inferenz in großem Maßstab: Sie möchten sehr große Modelle trainieren oder Modelle mit minimaler Latenz bereitstellen und dabei die Skalierung und hohe Leistung von GKE nutzen.
- Kosteneffizienz bei der Skalierung: Sie möchten die Kostenoptimierung priorisieren, indem Sie die Integration von GKE mit Spot-VMs und Flex-Start-VMs nutzen, um die Kosten effektiv zu verwalten.
- Portabilität und offene Standards: Sie möchten Anbieterabhängigkeit vermeiden und Ihre Arbeitslasten mit Kubernetes überall ausführen. Außerdem haben Sie bereits Kubernetes-Kenntnisse oder eine Multi-Cloud-Strategie.
Sie können auch diese Alternativen in Betracht ziehen:
Google Cloud -Dienst | Optimal für |
---|---|
Vertex AI | Eine vollständig verwaltete End-to-End-Plattform, mit der Sie die Entwicklung beschleunigen und die Infrastrukturverwaltung auslagern können. Eignet sich gut für Teams, die sich auf MLOps und eine schnelle Wertschöpfung konzentrieren. Weitere Informationen finden Sie im Video Choosing between self-hosted GKE and managed Vertex AI to host AI models. |
Cloud Run | Eine serverlose Plattform für containerisierte Inferenz-Arbeitslasten, die auf null skaliert werden kann. Eignet sich gut für ereignisgesteuerte Anwendungen und die kostengünstige Bereitstellung kleinerer Modelle. Einen detaillierten Vergleich finden Sie unter GKE und Cloud Run. |
Wie GKE KI-/ML-Arbeitslasten unterstützt
GKE bietet eine Reihe von spezialisierten Komponenten, die jede Phase des KI-/ML-Lebenszyklus vereinfachen und beschleunigen, vom umfangreichen Training bis hin zur Inferenz mit geringer Latenz.
In der folgenden Tabelle sind die GKE-Funktionen zusammengefasst, die Ihre KI-/ML-Arbeitslasten oder betrieblichen Ziele unterstützen.
KI‑/ML-Arbeitslast oder ‑Vorgang | GKE-Unterstützung | Wichtige Features |
---|---|---|
Inferenz und Bereitstellung | Optimiert für die elastische Bereitstellung von KI-Modellen mit niedriger Latenz, hohem Durchsatz und Kosteneffizienz. |
|
Training und Feinabstimmung | Bietet die Skalierungs- und Orchestrierungsfunktionen, die für das effiziente Trainieren sehr großer Modelle bei gleichzeitiger Minimierung der Kosten erforderlich sind. |
|
Einheitliche KI-/ML-Entwicklung | Verwalteter Support für Ray, ein Open-Source-Framework zum Skalieren verteilter Python-Anwendungen. |
|
Nächste Schritte
- Umfangreiche Sammlungen offizieller Anleitungen, Tutorials und anderer Ressourcen zum Ausführen von KI‑/ML-Arbeitslasten in GKE finden Sie im Portal zur KI‑/ML-Orchestrierung in GKE.
- Informationen zu Techniken zum Abrufen von Rechenbeschleunigern wie GPUs oder TPUs für Ihre KI-/ML-Arbeitslasten in GKE
- Weitere Informationen zur KI-/ML-Modellinferenz in GKE
- Weitere Informationen zu Ray on GKE
- In GKE AI Labs finden Sie experimentelle Beispiele dafür, wie Sie GKE nutzen können, um Ihre KI-/ML-Initiativen zu beschleunigen.