Diese Seite wurde von der Cloud Translation API übersetzt.

KI‑/ML-Modellinferenz in GKE

Autopilot Standard

Auf dieser Seite werden die wichtigsten Konzepte, Vorteile und Schritte für die Ausführung von Arbeitslasten für die Inferenz generativer KI-/ML-Modelle in Google Kubernetes Engine (GKE) mit GKE Gen AI-Funktionen beschrieben.

Die Bereitstellung von Inferenzanfragen ist entscheidend für die Bereitstellung Ihrer generativen KI-Modelle für reale Anwendungen. GKE bietet eine robuste und skalierbare Plattform für die Verwaltung Ihrer containerisierten Arbeitslasten und ist daher eine attraktive Option für die Bereitstellung Ihrer Modelle in der Entwicklung oder Produktion. Mit GKE können Sie die Funktionen von Kubernetes für Orchestrierung, Skalierung und Hochverfügbarkeit nutzen, um Ihre Inferenzdienste effizient bereitzustellen und zu verwalten.

Google Cloud hat die besonderen Anforderungen von KI-/ML-Inferenz erkannt und GKE Gen AI-Funktionen eingeführt – eine Reihe von Funktionen,die speziell für die Verbesserung und Optimierung der Inferenzbereitstellung in GKE entwickelt wurden. Weitere Informationen zu den einzelnen Funktionen finden Sie unter GKE – Funktionen für generative KI.

Wenn Sie GKE noch nicht kennen, erweitern Sie den folgenden Abschnitt, um einen Überblick über die Grundlagen von GKE und Kubernetes zu erhalten:

GKE-Cluster und -Knoten : Alle Kubernetes-Arbeitslasten werden auf Knoten ausgeführt. In GKE ist ein Knoten eine Compute Engine-VM. Auf anderen Kubernetes-Plattformen kann ein Knoten entweder eine physische oder eine virtuelle Maschine sein. Jeder Knoten wird von der Kubernetes-Steuerungsebene verwaltet und enthält alle erforderlichen Komponenten zum Ausführen von Pods. Ein Cluster ist eine Gruppe von Knoten, die als eine Einheit behandelt werden können und auf denen Sie eine Containeranwendung bereitstellen.
Pods und Bereitstellungen:
- In Kubernetes werden containerisierte Anwendungen in einem Pod ausgeführt. Ein Pod ist die kleinste bereitstellbare Recheneinheit, die Sie in Kubernetes erstellen und verwalten können. Ein Pod hat einen oder mehrere Container.
- Ein Deployment ist ein Kubernetes-API-Objekt, mit dem Sie mehrere Replikate von Pods ausführen können, die auf die Knoten in einem Cluster verteilt sind.
GKE-Betriebsmodi:
- Autopilot:In diesem Modus verwaltet GKE die Knoten des Clusters vollständig, einschließlich Konfiguration, Skalierung und Sicherheit. Sie müssen die Knoteninfrastruktur weder bereitstellen noch verwalten, sondern können sich auf die Bereitstellung Ihrer Anwendungen (Pods) konzentrieren.
- Standard:In diesem Modus haben Sie die vollständige Kontrolle über die Knotenkonfiguration. Sie erstellen und verwalten Gruppen von Knoten, die als Knotenpools bezeichnet werden. Autopilot vereinfacht den Betrieb und eignet sich für viele Inferenzarbeitslasten, da es Beschleuniger unterstützt. Der Standardmodus ist möglicherweise die bessere Wahl, wenn Sie eine detaillierte Kontrolle über Knotentypen oder bestimmte Konfigurationen benötigen, um Leistung oder Kosten über die von Autopilot gebotenen Möglichkeiten hinaus zu optimieren.

Erste Schritte mit der KI-/ML-Modellinferenz in GKE

Sie können in wenigen Minuten anfangen, die Inferenz von KI-/ML-Modellen in GKE kennenzulernen. Sie können die kostenlose Stufe von GKE verwenden, um mit Kubernetes zu beginnen, ohne dass Kosten für die Clusterverwaltung anfallen.

Zur Seite „GKE AI/ML“ in der Google Cloud Console
Folgen Sie der Anleitung unter Modelle bereitstellen, um ein containerisiertes Modell und einen Modellserver bereitzustellen.
Lesen Sie Inference planen. Dort finden Sie Anleitungen und Ressourcen zum Planen und Ausführen Ihrer Inference-Arbeitslasten in GKE.

Terminologie

Auf dieser Seite wird die folgende Terminologie in Bezug auf die Inferenz in GKE verwendet:

Inferenz: Der Prozess, bei dem ein generatives KI-Modell wie ein großes Sprachmodell oder ein Diffusionsmodell in einem GKE-Cluster ausgeführt wird, um aus Eingabedaten Text, Einbettungen oder andere Ausgaben zu generieren. Bei der Modellinferenz in GKE werden Beschleuniger verwendet, um komplexe Berechnungen für die Echtzeit- oder Batchverarbeitung effizient zu verarbeiten.
Modell: Ein generatives KI-Modell, das Muster aus Daten gelernt hat und für die Inferenz verwendet wird. Die Modelle variieren in Größe und Architektur, von kleineren domänenspezifischen Modellen bis hin zu riesigen neuronalen Netzwerken mit mehreren Milliarden Parametern, die für verschiedene Sprachaufgaben optimiert sind.
Modellserver: Ein containerisierter Dienst, der für den Empfang von Inferenzanfragen und die Rückgabe von Inferenzen zuständig ist. Dieser Dienst kann eine Python-App oder eine robustere Lösung wie vLLM, JetStream, TensorFlow Serving oder Triton Inference Server sein. Der Modellserver lädt Modelle in den Arbeitsspeicher und führt Berechnungen auf Beschleunigern aus, um Inferenzanfragen effizient zu beantworten.
Beschleuniger: Spezialisierte Hardware wie Grafikprozessoren (GPUs) von NVIDIA und Tensor Processing Units (TPUs) von Google, die an GKE-Knoten angehängt werden können, um Berechnungen zu beschleunigen, insbesondere für Trainings- und Inferenzaufgaben.
Quantisierung: Eine Technik, mit der die Größe von KI-/ML-Modellen reduziert und die Inferenzgeschwindigkeit verbessert wird, indem Modellgewichte und Aktivierungen von Datentypen mit höherer Genauigkeit in Datentypen mit niedrigerer Genauigkeit konvertiert werden.

Vorteile von GKE für die Inferenz

Die Bereitstellung von Inferenzmodellen in GKE bietet mehrere Vorteile:

Effizientes Preis-Leistungs-Verhältnis:Sie erhalten ein gutes Preis-Leistungs-Verhältnis und hohe Geschwindigkeit für Ihre Anforderungen an die Inferenzbereitstellung. Mit GKE können Sie aus einer Reihe leistungsstarker Beschleuniger (GPUs und TPUs) auswählen und zahlen so nur für die Leistung, die Sie benötigen.
Schnellere Bereitstellung: Beschleunigen Sie die Markteinführung mit maßgeschneiderten Best Practices, Qualifikationen und Best Practices, die von GKE-Funktionen für generative KI bereitgestellt werden.
Skalierbare Leistung: Skalieren Sie die Leistung mit der integrierten Überwachung mithilfe von GKE Inference Gateway, horizontalem Pod-Autoscaling (HPA) und benutzerdefinierten Messwerten. Sie können eine Reihe von vortrainierten oder benutzerdefinierten Modellen mit 8 Milliarden bis 671 Milliarden Parametern ausführen.
Volle Portabilität: Profitieren Sie von voller Portabilität mit offenen Standards. Google trägt zu wichtigen Kubernetes-APIs bei, darunter Gateway und LeaderWorkerSet. Alle APIs sind mit Kubernetes-Distributionen portierbar.
Ökosystemunterstützung: Nutzen Sie das robuste Ökosystem von GKE, das Tools wie Kueue für die erweiterte Ressourcenwarteschlange und -verwaltung sowie Ray für verteiltes Computing unterstützt, um skalierbares und effizientes Modelltraining und ‑inferencing zu ermöglichen.

Funktionsweise der Inferenz in GKE

In diesem Abschnitt werden die Schritte zur Verwendung von GKE für die Bereitstellung von Inferenzanfragen beschrieben:

Modell containerisieren: Beim Containerisieren einer Anwendung wird ein Container-Image erstellt. Das ist ein ausführbares Paket, das alles enthält, was zum Ausführen der Anwendung erforderlich ist: Code, Laufzeit, Systemtools, Systembibliotheken und Einstellungen. Eine einfache Anwendung kann als einzelne Einheit containerisiert werden, während eine komplexere Anwendung in mehrere containerisierte Komponenten aufgeteilt werden kann. Stellen Sie ein Modell bereit, indem Sie den Modellserver (z. B. vLLM) in einen Container packen und Modellgewichte aus Cloud Storage oder einem Repository wie Hugging Face laden. Wenn Sie die GKE Inference-Kurzanleitung verwenden, wird das containerisierte Image automatisch im Manifest für Sie verwaltet.
GKE-Cluster erstellen: Erstellen Sie einen GKE-Cluster, um Ihr Deployment zu hosten. Wählen Sie Autopilot für eine verwaltete Umgebung oder Standard für die Anpassung aus. Konfigurieren Sie die Clustergröße, Knotentypen und Beschleuniger. Eine optimierte Konfiguration finden Sie in der Kurzanleitung für die Inferenz.
Modell als Kubernetes-Deployment bereitstellen: Erstellen Sie ein Kubernetes-Deployment, um den Inferenzdienst zu verwalten. Ein Deployment ist ein Kubernetes-API-Objekt, mit dem Sie mehrere Replikate von Pods ausführen können, die auf die Knoten in einem Cluster verteilt sind. Geben Sie das Docker-Image, die Replikate und die Einstellungen an. Kubernetes ruft das Image ab und führt Ihre Container auf den GKE-Clustern aus. Konfigurieren Sie die Pods mit Ihrem Modellserver und Modell, einschließlich LoRA-Adaptern, falls erforderlich.
Inferenzdienst zur Verfügung stellen: Machen Sie Ihren Inferenzdienst zugänglich, indem Sie einen Kubernetes-Dienst erstellen, um einen Netzwerkendpunkt für Ihr Deployment bereitzustellen. Verwenden Sie Inference Gateway für intelligentes Load-Balancing und Routing, das speziell auf generative KI-Inferenz-Arbeitslasten zugeschnitten ist. Verwenden Sie Inference Gateway für intelligentes Load-Balancing, das auf generative KI-Arbeitslasten zugeschnitten ist. Alternativ können Sie auch die Vergleichstabelle für Load-Balancing-Strategien aufrufen, um die beste Option für Ihre Anforderungen auszuwählen.
Inferenzanfragen verarbeiten: Senden Sie Daten von den Anwendungsclients an den Endpunkt Ihres Dienstes im erwarteten Format (JSON, gRPC). Wenn Sie einen Load Balancer verwenden, werden Anfragen auf Modellreplikate verteilt. Der Modellserver verarbeitet die Anfrage, führt das Modell aus und gibt die Inferenz zurück.
Inferenz-Deployment skalieren und überwachen: Skalieren Sie die Inferenz mit HPA, um Replikate automatisch basierend auf CPU oder Latenz anzupassen. Das horizontale Pod-Autoscaling (HPA) ist ein Kubernetes-Controller, der die Anzahl der Pods in einer Arbeitslast (z. B. einem Deployment) automatisch basierend auf beobachteten Messwerten wie der CPU-Auslastung oder benutzerdefinierten Messwerten erhöht oder verringert. Verwenden Sie die Kurzanleitung für die Inferenz, um automatisch generierte Empfehlungen für die Skalierung zu erhalten. Verwenden Sie Cloud Monitoring und Cloud Logging mit integrierter Observability, um die Leistung zu verfolgen. Dazu gehören Dashboards für beliebte Modellserver wie vLLM.

Ausführliche Beispiele mit bestimmten Modellen, Modellservern und Beschleunigern finden Sie unter Inference-Beispiele.

GKE-Funktionen für generative KI

Sie können diese Funktionen zusammen oder einzeln verwenden, um wichtige Herausforderungen beim Bereitstellen generativer KI-Modelle zu bewältigen und die Ressourcennutzung in Ihrer GKE-Umgebung zu verbessern – ohne zusätzliche Kosten.

Name	Beschreibung	Vorteile
Kurzanleitung für GKE Inference	Leistung und Kosteneffizienz Ihrer Inferenzarbeitslasten analysieren Geben Sie Ihre geschäftlichen Anforderungen an und erhalten Sie maßgeschneiderte Best Practices für die Kombination aus Beschleunigern, Skalierungs- und Speicherkonfigurationen sowie Modellservern, die Ihren Anforderungen am besten entsprechen. Sie können mit der gcloud CLI und der Google Cloud Console auf diesen Dienst zugreifen. Weitere Informationen finden Sie unter Leistung und Kosten von Modellbereitstellung mit GKE Inference analysieren.	Sie sparen Zeit, da die ersten Schritte zum Auswählen und Konfigurieren Ihrer Infrastruktur automatisiert werden. Sie behalten die volle Kontrolle über Ihre Kubernetes-Einrichtung und können sie weiter optimieren.
GKE Inference Gateway	Routing basierend auf Messwerten wie der KV-Cache-Auslastung für eine bessere Latenz. Weitere Informationen finden Sie unter GKE Inference Gateway.	Geben Sie feinabgestimmte Modelle frei, die LoRA-Dateien verwenden, mit affinitätsbasierter Endpunktauswahl für Kosteneffizienz. Hohe Verfügbarkeit durch dynamischen Zugriff auf GPU- und TPU-Kapazität in verschiedenen Regionen Mit Model Armor-Add-on-Richtlinien die Sicherheit Ihrer Modelle verbessern
Beschleuniger für das Laden von Modellgewichten	Mit Cloud Storage FUSE und Caching und parallelen Downloads können Sie schnell auf Daten in Cloud Storage zugreifen. Für Inferenz-Arbeitslasten, die eine konsistente Scale-out-Leistung erfordern, ist Google Cloud Hyperdisk ML ein netzwerkgebundenes Laufwerk, das an bis zu 2.500 Pods angehängt werden kann.	Optimieren Sie die Inferenz-Startzeit, indem Sie die Latenz beim Laden des Gewichtsmodells in GKE minimieren. Bei Bereitstellungen mit eingeschränkter Knotenskalierung sollten Sie Cloud Storage FUSE zum Bereitstellen von Modellgewichten verwenden. Für Szenarien mit massivem Umfang, die einen konsistenten Zugriff mit geringer Latenz auf große Modellgewichte erfordern, bietet Google Cloud Hyperdisk ML eine dedizierte Blockspeicherlösung.

Name

Beschreibung

Vorteile

Kurzanleitung für GKE Inference

Leistung und Kosteneffizienz Ihrer Inferenzarbeitslasten analysieren Geben Sie Ihre geschäftlichen Anforderungen an und erhalten Sie maßgeschneiderte Best Practices für die Kombination aus Beschleunigern, Skalierungs- und Speicherkonfigurationen sowie Modellservern, die Ihren Anforderungen am besten entsprechen. Sie können mit der gcloud CLI und der Google Cloud Console auf diesen Dienst zugreifen.

Weitere Informationen finden Sie unter Leistung und Kosten von Modellbereitstellung mit GKE Inference analysieren.

Sie sparen Zeit, da die ersten Schritte zum Auswählen und Konfigurieren Ihrer Infrastruktur automatisiert werden.
Sie behalten die volle Kontrolle über Ihre Kubernetes-Einrichtung und können sie weiter optimieren.

GKE Inference Gateway

Routing basierend auf Messwerten wie der KV-Cache-Auslastung für eine bessere Latenz.

Weitere Informationen finden Sie unter GKE Inference Gateway.

Geben Sie feinabgestimmte Modelle frei, die LoRA-Dateien verwenden, mit affinitätsbasierter Endpunktauswahl für Kosteneffizienz.
Hohe Verfügbarkeit durch dynamischen Zugriff auf GPU- und TPU-Kapazität in verschiedenen Regionen
Mit Model Armor-Add-on-Richtlinien die Sicherheit Ihrer Modelle verbessern

Beschleuniger für das Laden von Modellgewichten

Mit Cloud Storage FUSE und Caching und parallelen Downloads können Sie schnell auf Daten in Cloud Storage zugreifen.

Für Inferenz-Arbeitslasten, die eine konsistente Scale-out-Leistung erfordern, ist Google Cloud Hyperdisk ML ein netzwerkgebundenes Laufwerk, das an bis zu 2.500 Pods angehängt werden kann.

Optimieren Sie die Inferenz-Startzeit, indem Sie die Latenz beim Laden des Gewichtsmodells in GKE minimieren.
Bei Bereitstellungen mit eingeschränkter Knotenskalierung sollten Sie Cloud Storage FUSE zum Bereitstellen von Modellgewichten verwenden.
Für Szenarien mit massivem Umfang, die einen konsistenten Zugriff mit geringer Latenz auf große Modellgewichte erfordern, bietet Google Cloud Hyperdisk ML eine dedizierte Blockspeicherlösung.

Inferenz planen

In diesem Abschnitt werden einige der wichtigsten Aspekte behandelt, die Sie bei Ihren Inferenzarbeitslasten in GKE berücksichtigen sollten.

Kosteneffizienz

Die Bereitstellung großer generativer KI-Modelle kann aufgrund der Verwendung von Beschleunigern teuer sein. Sie sollten daher auf eine effiziente Ressourcennutzung achten. Die Auswahl des richtigen Maschinentyps und Beschleunigers ist entscheidend, damit der Beschleunigerspeicher der Modellgröße und dem Quantisierungsgrad entspricht. G2-Instanzen mit NVIDIA L4-GPUs können beispielsweise für kleinere Modelle kostengünstig sein, während A3-Instanzen besser für größere Modelle geeignet sind.

Mit diesen Tipps und Empfehlungen können Sie die Kosteneffizienz maximieren:

Mit dem Inference Quickstart erhalten Sie Empfehlungen für Beschleuniger, die auf Ihre Leistungsanforderungen zugeschnitten sind.
Mit Techniken wie Quantisierung und Batching von Anfragen lässt sich die Effizienz der Bereitstellung verbessern. Weitere Informationen finden Sie unter Best Practices für die Optimierung von Inferenzen für LLMs mit GPUs.
Verwenden Sie Autoscaling, um Ressourcen dynamisch an die Nachfrage anzupassen. Das kann zu Kosteneinsparungen führen, insbesondere bei schwankenden Arbeitslasten. Weitere Informationen finden Sie in den folgenden Anleitungen:
- Best Practices für das Autoscaling von Inferenzen für LLM-Arbeitslasten (Large Language Model) mit GPUs
- Best Practices für das Autoscaling von Inferenzen für LLM-Arbeitslasten (Large Language Model) mit TPUs

Leistung

Um die Inferenzleistung in GKE zu optimieren, sollten Sie sich auf die folgenden Benchmark-Messwerte konzentrieren:

Benchmark-Indikatoren	Messwert (Einheit)	Beschreibung
Latenz	Zeit bis zum ersten Token (TTFT) (ms)	Die Zeit, die benötigt wird, um das erste Token für eine Anfrage zu generieren.
	Normalisierte Zeit pro Ausgabetoken (NTPOT) (ms)	Anfragelatenz, normalisiert nach der Anzahl der Ausgabetokens, gemessen als `request_latency / total_output_tokens`.
	Zeit pro Ausgabetoken (TPOT) (ms)	Die Zeit, die zum Generieren eines Ausgabetokens benötigt wird, gemessen als `(request_latency - time_to_first_token) / (total_output_tokens - 1)`.
	Latenz zwischen Tokens (ITL) (ms)	Misst die Latenz zwischen zwei Ausgabetoken-Generationen. Im Gegensatz zu TPOT, bei dem die Latenz für die gesamte Anfrage gemessen wird, wird bei ITL die Zeit gemessen, die zum Generieren jedes einzelnen Ausgabetokens benötigt wird. Diese einzelnen Messungen werden dann zusammengefasst, um Mittelwert, Median und Perzentilwerte wie p90 zu ermitteln.
	Anfragelatenz (ms)	End-to-End-Zeit zum Abschließen einer Anfrage.
Durchsatz	Anfragen pro Sekunde	Die Gesamtzahl der Anfragen, die Sie pro Sekunde verarbeiten. Dieser Messwert ist möglicherweise keine zuverlässige Methode zur Messung des LLM-Durchsatzes, da er für verschiedene Kontextlängen stark variieren kann.
	Ausgabetokens pro Sekunde	Ein häufig verwendeter Messwert, der als `total_output_tokens_generated_by_server / elapsed_time_in_seconds` gemessen wird.
	Eingabetokens pro Sekunde	Gemessen als `total_input_tokens_generated_by_server / elapsed_time_in_seconds`.
	Tokens pro Sekunde	Gemessen als `total_tokens_generated_by_server / elapsed_time_in_seconds`. Bei diesem Messwert werden sowohl Eingabe- als auch Ausgabetokens gezählt. So können Sie Arbeitslasten mit langen Zeiten für das Prefill und das Decodieren vergleichen.

Hier sind einige zusätzliche Tipps und Empfehlungen zur Leistung:

Wenn Sie die empfohlenen Beschleuniger basierend auf Ihren Leistungsanforderungen abrufen möchten, verwenden Sie den Inference-Schnellstart.
Um die Leistung zu steigern, können Sie Optimierungstechniken für Modellserver wie Batching und PagedAttention verwenden, die in unserem Leitfaden mit Best Practices beschrieben werden. Priorisieren Sie außerdem ein effizientes Speichermanagement und die Berechnung der Aufmerksamkeit, um eine gleichbleibend niedrige Latenz zwischen den Tokens zu erreichen.
Verwenden Sie standardisierte Messwerte für alle Modellserver (z. B. Hugging Face TGI, vLLM oder NVIDIA Triton), um Autoscaling und Lastenausgleich zu verbessern. So können Sie einen höheren Durchsatz bei der von Ihnen gewählten Latenz erzielen. GKE bietet automatische Anwendungsüberwachung für mehrere Modellserver.
Verwenden Sie GKE-Netzwerkinfrastrukturfunktionen wie Inference Gateway, um die Latenz zu minimieren.
Verwenden Sie Cloud Storage FUSE mit parallelen Downloads und Caching oder Hyperdisk ML, um das Laden von Modellgewichtungen aus dem persistenten Speicher zu beschleunigen.
Verwenden Sie für umfangreiches Training oder Inferenz Pathways. Pathways vereinfacht umfangreiche ML-Berechnungen, da ein einzelner JAX-Client Arbeitslasten auf mehreren großen TPU-Slices orchestrieren kann. Weitere Informationen finden Sie unter Pathways.

Verfügbarkeit

Die Verfügbarkeit von Ressourcen (CPUs, GPUs und TPUs) ist entscheidend für die Leistung, Verfügbarkeit und Kosteneffizienz Ihrer Inferenzarbeitslasten. Inferenz-Arbeitslasten weisen oft sprunghafte und unvorhersehbare Traffic-Muster auf, die die Hardwarekapazität belasten können. GKE bietet Lösungen für diese Herausforderungen mit Features wie den folgenden:

Optionen für den Ressourcenverbrauch: Wählen Sie aus Optionen wie Reservierungen für garantierte Kapazität, kostengünstige Skalierung, Dynamic Workload Scheduler und Spot-VMs für Kostenoptimierung und On-Demand-Zugriff für sofortige Verfügbarkeit.
Ressourcenoptimierung: Google Cloud bietet beispielsweise kleinere A3-High-VMs mit NVIDIA H100-GPUs (1g, 2g oder 4g) für kostengünstige generative KI-Inferenzskalierung, die Spot-VMs unterstützen.
Compute-Klassen für Beschleuniger: Mit benutzerdefinierten Compute-Klassen können Sie die Bereitstellung genauer steuern, um eine Überbereitstellung zu vermeiden und die Verfügbarkeit von Ressourcen mit automatischen Fallback-Optionen zu maximieren.

Knotenupgrades

GKE automatisiert einen Großteil des Upgrade-Prozesses. Sie müssen jedoch Upgradestrategien in Betracht ziehen, insbesondere für Kompatibilität und Tests. Bei manuellen Upgrades können Sie je nach Toleranz Ihrer Inferenzarbeitslast für Unterbrechungen zwischen Surge- oder Blau/Grün-Upgrades wählen. Surge-Upgrades sind schnell, können aber die Dienste kurzzeitig beeinträchtigen. Blau/Grün-Upgrades bieten Ausfallzeiten, die praktisch ohne Ausfallzeiten sind, was für die Echtzeitinferenz entscheidend ist. Weitere Informationen finden Sie unter Strategien für das Knotenupgrade.

GPUs und TPUs unterstützen keine Live-Migration. Daher müssen Pods für die Wartung neu gestartet werden. GKE-Benachrichtigungen verwenden, um sich auf Unterbrechungen vorzubereiten Wir empfehlen, Budgets für Pod-Störungen (Pod Disruption Budgets, PDBs) zu verwenden, um sicherzustellen, dass eine Mindestanzahl an Pods verfügbar bleibt. Achten Sie darauf, dass Ihre Pods die Beendigung ordnungsgemäß verarbeiten können. TPU-Slices können durch Ereignisse mit einem einzelnen Host unterbrochen werden. Planen Sie daher Redundanz ein. Weitere Best Practices finden Sie unter GKE-Knotenunterbrechungen für GPUs und TPUs verwalten.

Beispiele für Inferenzen ausprobieren

Hier finden Sie GKE-Bereitstellungsbeispiele für generative KI-Modelle, Beschleuniger und Modellserver. Wenn Sie gerade erst anfangen, empfehlen wir Ihnen, sich die Anleitung Offene Gemma-Modelle mit GPUs in GKE mit vLLM bereitstellen anzusehen.

Alternativ können Sie nach einem Tutorial suchen, indem Sie ein Stichwort eingeben:

Beschleuniger	Modellserver	Anleitung
GPUs	vLLM	LLMs wie DeepSeek-R1 671B oder Llama 3.1 405B in GKE bereitstellen
GPUs	vLLM	Llama-Modelle mit GPUs in GKE mit vLLM bereitstellen
GPUs	vLLM	Offene Gemma-Modelle mit GPUs in GKE mit vLLM bereitstellen
GPUs	vLLM	LLM mit GKE Inference Gateway bereitstellen
GPUs	vLLM	Offene LLMs in GKE mit einer vorkonfigurierten Architektur bereitstellen
GPUs	NVIDIA Triton	Modell mit einer einzelnen GPU in GKE bereitstellen
GPUs	Ray Serve	LLM auf L4-GPUs mit Ray bereitstellen
GPUs	TGI	LLM mit mehreren GPUs in GKE bereitstellen
GPUs	NVIDIA Triton	Offene Gemma-Modelle mit GPUs in GKE mit Triton und TensorRT-LLM bereitstellen
GPUs	Hugging Face TGI	Offene Gemma-Modelle mit GPUs in GKE mit Hugging Face TGI bereitstellen
GPUs	TensorFlow bereitstellen	Modell mit einer einzelnen GPU in GKE bereitstellen
TPUs	vLLM	LLM mithilfe von TPU Trillium in GKE mit vLLM bereitstellen
TPUs	vLLM	LLM mithilfe von TPUs in GKE mit KubeRay bereitstellen
TPUs	JetStream	LLM mithilfe von TPUs in GKE mit JetStream und PyTorch bereitstellen
TPUs	JetStream	Gemma mithilfe von TPUs in GKE mit JetStream bereitstellen
TPUs	MaxDiffusion	Stable Diffusion XL (SDXL) mit TPUs in GKE mit MaxDiffusion bereitstellen
TPUs	Optimale TPU	Open-Source-Modelle mit TPUs in GKE mit Optimum TPU bereitstellen

Nächste Schritte

Im Portal zur KI‑/ML-Orchestrierung in GKE finden Sie unsere offiziellen Anleitungen, Tutorials und Anwendungsfälle für die Ausführung von KI‑/ML-Arbeitslasten in GKE.
Weitere Informationen zur Optimierung der Bereitstellung von Modellen finden Sie unter Best Practices für die Optimierung der Inferenz von Large Language Models mit GPUs. Darin werden Best Practices für die Bereitstellung von LLMs mit GPUs in GKE behandelt, z. B. Quantisierung, Tensorparallelität und Arbeitsspeicherverwaltung.
In GKE AI Labs finden Sie experimentelle Beispiele dafür, wie Sie GKE nutzen können, um Ihre KI-/ML-Initiativen zu beschleunigen.