Auf dieser Seite werden die wichtigsten Konzepte und Funktionen von GKE Inference Gateway erläutert, einer Erweiterung des GKE Gateway für die optimierte Bereitstellung von Anwendungen mit generativer KI.
Auf dieser Seite wird davon ausgegangen, dass Sie mit Folgendem vertraut sind:
- KI‑/ML-Orchestrierung in GKE
- Terminologie für generative KI
- GKE-Netzwerkkonzepte, einschließlich Dienste und der GKE Gateway API.
- Load-Balancing in Google Cloud, insbesondere die Interaktion von Load-Balancern mit GKE.
Diese Seite richtet sich an folgende Nutzer:
- Entwickler für maschinelles Lernen (ML), Plattformadministratoren und ‑operatoren sowie Daten- und KI-Spezialisten, die daran interessiert sind, Kubernetes-Container-Orchestrierungsfunktionen für die Bereitstellung von KI‑/ML-Arbeitslasten zu nutzen.
- Cloud-Architekten und Netzwerkspezialisten, die mit Kubernetes-Netzwerken interagieren.
Übersicht
Das GKE Inference Gateway ist eine Erweiterung des GKE Gateway, das optimiertes Routing und Load-Balancing für die Bereitstellung von Arbeitslasten mit generativer künstlicher Intelligenz (KI) bietet. Sie vereinfacht die Bereitstellung, Verwaltung und Beobachtbarkeit von KI-Inferenz-Arbeitslasten.
Informationen zum Auswählen der optimalen Load-Balancing-Strategie für Ihre KI-/ML-Arbeitslasten finden Sie unter Load-Balancing-Strategie für KI-Inferenz in GKE auswählen.
Features und Vorteile
GKE Inference Gateway bietet die folgenden wichtigen Funktionen, um generative KI-Modelle für generative KI-Anwendungen in GKE effizient bereitzustellen:
- Unterstützte Messwerte:
KV cache hits
: die Anzahl der erfolgreichen Suchvorgänge im Key-Value-Cache (KV-Cache).- GPU- oder TPU-Auslastung: Der Prozentsatz der Zeit, in der die GPU oder TPU aktiv Daten verarbeitet.
- Länge der Anfragewarteschlange: Die Anzahl der Anfragen, die auf die Verarbeitung warten.
- Optimiertes Load-Balancing für die Inferenz: Anfragen werden verteilt, um die Leistung von KI-Modellen zu optimieren. Dabei werden Messwerte von Modellservern wie
KV cache hits
undqueue length of pending requests
verwendet, um Beschleuniger (z. B. GPUs und TPUs) für generative KI-Arbeitslasten effizienter zu nutzen. - Bereitstellung dynamischer, mit LoRA optimierter Modelle: Unterstützt die Bereitstellung dynamischer, mit LoRA optimierter Modelle auf einem gemeinsamen Beschleuniger. Dadurch wird die Anzahl der GPUs und TPUs reduziert, die für die Bereitstellung von Modellen erforderlich sind, da mehrere LoRA-abgestimmte Modelle auf einem gemeinsamen Basismodell und Beschleuniger gemultiplext werden.
- Optimiertes Autoscaling für die Inferenz: Der GKE Horizontal Pod Autoscaler (HPA) verwendet Messwerte des Modellservers für das Autoscaling. So wird eine effiziente Nutzung der Rechenressourcen und eine optimierte Inferenzleistung ermöglicht.
- Modellbasiertes Routing: Leitet Inferenzanfragen basierend auf den Modellnamen weiter, die in den
OpenAI API
-Spezifikationen in Ihrem GKE-Cluster definiert sind. Sie können Gateway-Routingrichtlinien wie Traffic-Splitting und Anfragen-Mirroring definieren, um verschiedene Modellversionen zu verwalten und die Einführung von Modellen zu vereinfachen. So können Sie beispielsweise Anfragen für einen bestimmten Modellnamen an verschiedeneInferencePool
-Objekte weiterleiten, die jeweils eine andere Version des Modells bereitstellen. - Integrierte KI-Sicherheits- und Inhaltsfilterung: GKE Inference Gateway ist in Google Cloud Model Armor integriert, um KI-Sicherheitsprüfungen und Inhaltsfilterung auf Prompts und Antworten am Gateway anzuwenden. Model Armor stellt Logs von Anfragen, Antworten und der Verarbeitung für die nachträgliche Analyse und Optimierung bereit. Die offenen Schnittstellen von GKE Inference Gateway ermöglichen es Drittanbietern und Entwicklern, benutzerdefinierte Dienste in den Prozess für Inferenzanfragen einzubinden.
- Modellspezifische Bereitstellung
Criticality
: Hier können Sie die BereitstellungCriticality
von KI-Modellen angeben. Priorisieren Sie latenzempfindliche Anfragen gegenüber latenzunempfindlichen Batchinferenzjobs. So können Sie beispielsweise Anfragen von latenzsensiblen Anwendungen priorisieren und weniger zeitkritische Aufgaben verwerfen, wenn die Ressourcen begrenzt sind. - Inference-Beobachtbarkeit: Bietet Beobachtbarkeitsmesswerte für Inferenzanfragen, z. B. Anfragerate, Latenz, Fehler und Sättigung. Sie können die Leistung und das Verhalten Ihrer Inferenzdienste mit Cloud Monitoring und Cloud Logging überwachen. Dabei können Sie spezielle vorgefertigte Dashboards für detaillierte Informationen nutzen. Weitere Informationen finden Sie unter GKE Inference Gateway-Dashboard ansehen.
- Erweiterbarkeit: Die Lösung basiert auf einer erweiterbaren Open-Source-Kubernetes Gateway API Inference Extension, die einen vom Nutzer verwalteten Endpoint Picker-Algorithmus unterstützt.
Schlüsselkonzepte
GKE Inference Gateway erweitert das vorhandene GKE Gateway, das GatewayClass
-Objekte verwendet. Mit GKE Inference Gateway werden die folgenden neuen benutzerdefinierten Gateway API-Ressourcendefinitionen (CRDs) eingeführt, die an der OSS Kubernetes Gateway API-Erweiterung für Inference ausgerichtet sind:
InferencePool
-Objekt: Stellt eine Gruppe von Pods (Containern) dar, die dieselbe Compute-Konfiguration, denselben Beschleunigertyp, dasselbe Basissprachmodell und denselben Modellserver verwenden. So werden Ihre Ressourcen für das Bereitstellen von KI-Modellen logisch gruppiert und verwaltet. Ein einzelnesInferencePool
-Objekt kann sich über mehrere Pods auf verschiedenen GKE-Knoten erstrecken und bietet Skalierbarkeit und Hochverfügbarkeit.InferenceModel
-Objekt: Gibt den Namen des Bereitstellungsmodells ausInferencePool
gemäß derOpenAI API
-Spezifikation an. DasInferenceModel
-Objekt gibt auch die Bereitstellungseigenschaften des Modells an, z. B. dieCriticality
des KI-Modells. Das GKE Inference Gateway priorisiert Arbeitslasten, die alsCritical
klassifiziert sind. So können Sie latenzkritische und latenzunempfindliche KI-Arbeitslasten in einem GKE-Cluster multiplexen. Sie können dasInferenceModel
-Objekt auch so konfigurieren, dass LoRA-Modelle mit Feinabstimmung bereitgestellt werden.TargetModel
-Objekt: Gibt den Namen des Zielmodells und dasInferencePool
-Objekt an, das das Modell bereitstellt. So können Sie Gateway-Routingrichtlinien wie Traffic-Aufteilung und Anfragen-Mirroring definieren und die Einführung von Modellversionen vereinfachen.
Das folgende Diagramm zeigt das GKE Inference Gateway und die Integration mit KI-Sicherheit, Observability und Modellbereitstellung in einem GKE-Cluster.

Das folgende Diagramm veranschaulicht das Ressourcenmodell, das sich auf zwei neue rollenbasierte Identitäten für die Inferenz und die von ihnen verwalteten Ressourcen konzentriert.

Funktionsweise des GKE Inference Gateway
GKE Inference Gateway verwendet Gateway API-Erweiterungen und modellspezifische Routinglogik, um Clientanfragen an ein KI-Modell zu verarbeiten. Im Folgenden wird der Anfrageablauf beschrieben.
So funktioniert der Anfrageablauf
GKE Inference Gateway leitet Clientanfragen von der ursprünglichen Anfrage an eine Modellinstanz weiter. In diesem Abschnitt wird beschrieben, wie GKE Inference Gateway Anfragen verarbeitet. Dieser Anfrageablauf ist für alle Clients üblich.
- Der Client sendet eine Anfrage, die wie in der OpenAI API-Spezifikation beschrieben formatiert ist, an das in GKE ausgeführte Modell.
- GKE Inference Gateway verarbeitet die Anfrage mit den folgenden Inference-Erweiterungen:
- Body-basiertes Routing: Extrahiert die Modellkennung aus dem Anfragetext des Clients und sendet sie an GKE Inference Gateway.
GKE Inference Gateway verwendet diese Kennung dann, um die Anfrage anhand der im
HTTPRoute
-Objekt der Gateway API definierten Regeln weiterzuleiten. Das Routing des Anfragetexts ähnelt dem Routing basierend auf dem URL-Pfad. Der Unterschied besteht darin, dass beim Routing des Anfragetexts Daten aus dem Anfragetext verwendet werden. - Sicherheitserweiterung: Verwendet Model Armor oder unterstützte Drittanbieterlösungen, um modellspezifische Sicherheitsrichtlinien zu erzwingen, die Inhaltsfilterung, Bedrohungserkennung, Bereinigung und Protokollierung umfassen. Die Sicherheitserweiterung wendet diese Richtlinien sowohl auf Anfragen als auch auf Antwortverarbeitungspfade an. Dadurch kann die Sicherheitserweiterung sowohl Anfragen als auch Antworten bereinigen und protokollieren.
- Erweiterung zur Endpunktauswahl: überwacht wichtige Messwerte von Modellservern innerhalb von
InferencePool
. Sie verfolgt die Nutzung des Key-Value-Cache (KV-Cache), die Warteschlangenlänge ausstehender Anfragen und die aktiven LoRA-Adapter auf jedem Modellserver. Anschließend wird die Anfrage basierend auf diesen Messwerten an das optimale Modellreplikat weitergeleitet, um die Latenz zu minimieren und den Durchsatz für KI-Inferenz zu maximieren.
- Body-basiertes Routing: Extrahiert die Modellkennung aus dem Anfragetext des Clients und sendet sie an GKE Inference Gateway.
GKE Inference Gateway verwendet diese Kennung dann, um die Anfrage anhand der im
- GKE Inference Gateway leitet die Anfrage an die Modellreplik weiter, die von der Erweiterung für die Endpunktauswahl zurückgegeben wird.
Das folgende Diagramm veranschaulicht den Anfragefluss von einem Client zu einer Modellinstanz über GKE Inference Gateway.

So funktioniert die Trafficverteilung
GKE Inference Gateway verteilt Inferenzanfragen dynamisch an Modellserver innerhalb des InferencePool
-Objekts. So lässt sich die Ressourcennutzung optimieren und die Leistung bei unterschiedlichen Lastbedingungen aufrechterhalten.
GKE Inference Gateway verwendet die folgenden beiden Mechanismen, um die Traffic-Verteilung zu verwalten:
Endpunktauswahl: wählt dynamisch den am besten geeigneten Modellserver für die Verarbeitung einer Inferenzanfrage aus. Es überwacht die Serverlast und ‑verfügbarkeit und trifft dann Routingentscheidungen.
Warteschlangen und Ablegen: Verwaltet den Anfragenfluss und verhindert eine Überlastung des Traffics. GKE Inference Gateway speichert eingehende Anfragen in einer Warteschlange, priorisiert Anfragen anhand definierter Kriterien und löscht Anfragen, wenn das System überlastet ist.
GKE Inference Gateway unterstützt die folgenden Criticality
-Ebenen:
Critical
: Diese Arbeitslasten werden priorisiert. Das System sorgt dafür, dass diese Anfragen auch bei Ressourcenbeschränkungen verarbeitet werden.Standard
: Diese Arbeitslasten werden ausgeführt, wenn Ressourcen verfügbar sind. Wenn die Ressourcen begrenzt sind, werden diese Anfragen verworfen.Sheddable
: Diese Arbeitslasten werden opportunistisch bereitgestellt. Wenn Ressourcen knapp sind, werden diese Anfragen verworfen, umCritical
-Arbeitslasten zu schützen.
Wenn das System unter Ressourcenmangel leidet, werden Standard
- und Sheddable
-Anfragen sofort mit dem Fehlercode 429
verworfen, um Critical
-Arbeitslasten zu schützen.
Streaming-Inferenz
GKE Inference Gateway unterstützt Streaming-Inferenz für Anwendungen wie Chatbots und Live-Übersetzung, die kontinuierliche oder nahezu in Echtzeit stattfindende Aktualisierungen erfordern. Beim Streaming von Inferenzen werden Antworten in inkrementellen Chunks oder Segmenten ausgegeben und nicht als einzelne, vollständige Ausgabe. Wenn während einer Streamingantwort ein Fehler auftritt, wird der Stream beendet und der Client erhält eine Fehlermeldung. GKE Inference Gateway versucht nicht, Streaming-Antworten noch einmal zu senden.
Anwendungsbeispiele ansehen
In diesem Abschnitt finden Sie Beispiele für verschiedene Anwendungsfälle für generative KI, die mit dem GKE Inference Gateway abgedeckt werden können.
Beispiel 1: Mehrere generative KI-Modelle in einem GKE-Cluster bereitstellen
Ein Unternehmen möchte mehrere Large Language Models (LLMs) für verschiedene Arbeitslasten bereitstellen. Beispielsweise möchten sie möglicherweise ein Gemma3
-Modell für eine Chatbot-Schnittstelle und ein Deepseek
-Modell für eine Empfehlungsanwendung bereitstellen. Das Unternehmen muss für diese LLMs eine optimale Bereitstellungsleistung sicherstellen.
Mit GKE Inference Gateway können Sie diese LLMs mit der von Ihnen ausgewählten Beschleunigerkonfiguration in einem InferencePool
in Ihrem GKE-Cluster bereitstellen. Anschließend können Sie Anfragen basierend auf dem Modellnamen (z. B. chatbot
und recommender
) und der Eigenschaft Criticality
weiterleiten.
Das folgende Diagramm zeigt, wie GKE Inference Gateway Anfragen basierend auf dem Modellnamen und Criticality
an verschiedene Modelle weiterleitet.

Beispiel 2: LoRA-Adapter auf einem gemeinsam genutzten Beschleuniger bereitstellen
Ein Unternehmen möchte LLMs für die Dokumentanalyse bereitstellen und konzentriert sich auf Zielgruppen in mehreren Sprachen, z. B. Englisch und Spanisch. Sie haben für jede Sprache feinabgestimmte Modelle, müssen aber ihre GPU- und TPU-Kapazität effizient nutzen. Mit GKE Inference Gateway können Sie dynamische LoRA-Adapter für jede Sprache (z. B. english-bot
und spanish-bot
) für ein gemeinsames Basismodell (z. B. llm-base
) und einen gemeinsamen Beschleuniger bereitstellen. So können Sie die Anzahl der erforderlichen Beschleuniger reduzieren, indem Sie mehrere Modelle auf einem gemeinsamen Beschleuniger unterbringen.
Das folgende Diagramm veranschaulicht, wie das GKE Inference Gateway mehrere LoRA-Adapter auf einem gemeinsam genutzten Beschleuniger bereitstellt.

Nächste Schritte
- GKE Inference Gateway bereitstellen
- GKE Inference Gateway-Konfiguration anpassen
- LLM mit GKE Inference Gateway bereitstellen