Auf dieser Seite wird beschrieben, wie Sie mit dem GKE Inference Quickstart die Bereitstellung von KI-/ML-Inferenzarbeitslasten in Google Kubernetes Engine (GKE) vereinfachen können. Inference Quickstart ist ein Dienstprogramm, mit dem Sie Ihre geschäftlichen Anforderungen für die Inferenz angeben und optimierte Kubernetes-Konfigurationen basierend auf Best Practices und den Benchmarks von Google für Modelle, Modellserver, Beschleuniger (GPUs, TPUs) und Skalierung erhalten können. So können Sie den zeitaufwendigen Prozess des manuellen Anpassens und Testens von Konfigurationen vermeiden.
Diese Seite richtet sich an Entwickler von maschinellem Lernen (ML), Plattformadministratoren und ‑operatoren sowie an Daten- und KI-Spezialisten, die erfahren möchten, wie sie GKE für KI/ML-Inferenz effizient verwalten und optimieren können. Weitere Informationen zu gängigen Rollen und Beispielaufgaben, auf die wir in Google Cloud -Inhalten verweisen, finden Sie unter Häufig verwendete GKE Enterprise-Nutzerrollen und -Aufgaben.
Weitere Informationen zu Konzepten und Begriffen für die Bereitstellung von Modellen sowie dazu, wie GKE Gen AI-Funktionen die Leistung der Bereitstellung von Modellen verbessern und unterstützen können, finden Sie unter Modellinferenz in GKE.
Machen Sie sich vor dem Lesen dieser Seite mit Kubernetes, GKE und Model Serving vertraut.
Kurzanleitung für die Inferenz verwenden
Dies sind die allgemeinen Schritte zur Verwendung des Inference Quickstart: Klicken Sie auf die Links, um eine detaillierte Anleitung aufzurufen.
- Maßgeschneiderte Best Practices ansehen: Geben Sie auf der Seite „GKE AI/ML“ in der Google Cloud -Konsole oder in der Google Cloud CLI im Terminal zuerst Eingaben wie Ihr bevorzugtes offenes Modell (z. B. Llama, Gemma oder Mistral) an.
- Sie können das Latenzziel Ihrer Anwendung angeben und so festlegen, ob sie latenzsensibel (z. B. ein Chatbot) oder durchsatzsensibel (z. B. Batchanalysen) ist.
- Basierend auf Ihren Anforderungen bietet Inference Quickstart Optionen für Beschleuniger, Leistungsmesswerte und Kubernetes-Manifeste, mit denen Sie die Bereitstellung oder weitere Änderungen vollständig steuern können. In den generierten Manifesten wird auf öffentliche Modellserver-Images verwiesen, sodass Sie diese Images nicht selbst erstellen müssen.
- Manifeste bereitstellen: Stellen Sie die empfohlenen Manifeste mit der Google Cloud Konsole oder mit dem Befehl
kubectl apply
bereit. Bevor Sie die Bereitstellung vornehmen, müssen Sie prüfen, ob Sie in Ihrem Google Cloud Projekt ein ausreichendes Kontingent für die ausgewählten GPUs oder TPUs haben. - Leistung überwachen: Verwenden Sie Cloud Monitoring, um die von GKE bereitgestellten Arbeitslastleistungsmesswerte zu überwachen. Sie können Modellserver-Dashboards aufrufen und Ihre Bereitstellung nach Bedarf optimieren.
Vorteile
Mit der Inference Quickstart können Sie Zeit und Ressourcen sparen, da optimierte Konfigurationen bereitgestellt werden. Diese Optimierungen verbessern die Leistung und senken die Infrastrukturkosten auf folgende Weise:
- Sie erhalten detaillierte, maßgeschneiderte Best Practices für die Konfiguration von Beschleuniger (GPU und TPU), Modellserver und Skalierung. Das Tool wird regelmäßig mit den neuesten Korrekturen, Images und Leistungsbenchmarks aktualisiert.
- Sie können die Anforderungen an Latenz und Durchsatz für Ihre Arbeitslast über dieGoogle Cloud -Konsolen-UI oder eine Befehlszeilenschnittstelle angeben und erhalten detaillierte, maßgeschneiderte Best Practices als Kubernetes-Bereitstellungsmanifeste.
Anwendungsfälle
Die Kurzanleitung für die Inferenz eignet sich für Szenarien wie die folgenden:
- Optimale GKE-Inferenzarchitekturen ermitteln: Wenn Sie von einer anderen Umgebung wie einer On-Premise-Umgebung oder einem anderen Cloud-Anbieter wechseln und die aktuellsten empfohlenen Inferenzarchitekturen in GKE für Ihre spezifischen Leistungsanforderungen benötigen.
- KI‑/ML-Inferenz-Deployments beschleunigen: Wenn Sie ein erfahrener Kubernetes-Nutzer sind und schnell mit dem Bereitstellen von KI‑Inferenz-Arbeitslasten beginnen möchten, hilft Ihnen die Inferenz-Kurzanleitung dabei, Best-Practice-Deployments in GKE zu finden und zu implementieren. Sie enthält detaillierte YAML-Konfigurationen, die auf Best Practices basieren.
- TPUs für eine höhere Leistung nutzen: Wenn Sie bereits Kubernetes in GKE mit GPUs verwenden, können Sie mit dem Inference Quickstart die Vorteile der Verwendung von TPUs untersuchen, um möglicherweise eine bessere Leistung zu erzielen.
Funktionsweise
Die Kurzanleitung für die Inferenz enthält maßgeschneiderte Best Practices, die auf den umfassenden internen Benchmarks von Google zur Leistung einzelner Replikate für Kombinationen aus Modell, Modellserver und Beschleunigertopologie basieren. In diesen Benchmarks wird die Latenz im Vergleich zum Durchsatz dargestellt, einschließlich der Messwerte für die Warteschlangengröße und den KV-Cache, die Leistungskurven für jede Kombination abbilden.
So werden maßgeschneiderte Best Practices generiert
Wir messen die Latenz in normalisierter Zeit pro Ausgabetoken (Normalized Time per Output Token, NTPOT) in Millisekunden und den Durchsatz in Ausgabetokens pro Sekunde, indem wir Beschleuniger sättigen. Weitere Informationen zu diesen Leistungsmesswerten finden Sie unter Modellinferenz in GKE.
Das folgende Beispiel für ein Latenzprofil veranschaulicht den Wendepunkt, an dem der Durchsatz stagniert (grün), den Bereich nach dem Wendepunkt, in dem sich die Latenz verschlechtert (rot), und die ideale Zone (blau) für optimalen Durchsatz bei der angestrebten Latenz. Im Schnellstart für die Inferenz finden Sie Leistungsdaten und Konfigurationen für diese ideale Zone.
Anhand der Latenzanforderungen einer Inferenzanwendung ermittelt Inference Quickstart geeignete Kombinationen und den optimalen Betriebspunkt auf der Latenz-Durchsatz-Kurve. Dieser Punkt legt den HPA-Schwellenwert (Horizontal Pod Autoscaler) mit einem Puffer fest, um die Latenz beim Hochskalieren zu berücksichtigen. Der Gesamtschwellenwert gibt auch die anfängliche Anzahl der benötigten Replikate an. Der HPA passt diese Anzahl jedoch dynamisch an die Arbeitslast an.
Benchmarking
Die bereitgestellten Konfigurationen und Leistungsdaten basieren auf Benchmarks, bei denen mit dem ShareGPT-Dataset Traffic mit der folgenden Ein- und Ausgabeverteilung gesendet wird.
Eingabetokens | Ausgabetokens | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Min. | Medianwert | Durchschnitt | P90 | P99 | Max. | Min. | Medianwert | Durchschnitt | P90 | P99 | Max. |
4 | 108 | 226 | 635 | 887 | 1.024 | 1 | 132 | 195 | 488 | 778 | 1.024 |
Hinweise
Führen Sie die folgenden Aufgaben aus, bevor Sie beginnen:
- Aktivieren Sie die Google Kubernetes Engine API. Google Kubernetes Engine API aktivieren
- Wenn Sie die Google Cloud CLI für diese Aufgabe verwenden möchten, müssen Sie die gcloud CLI installieren und dann initialisieren. Wenn Sie die gcloud CLI bereits installiert haben, rufen Sie die neueste Version mit
gcloud components update
ab.
Wählen Sie in der Google Cloud -Console auf der Seite für die Projektauswahl ein Google Cloud -Projekt aus oder erstellen Sie eines.
Die Abrechnung für Ihr Google Cloud -Projekt muss aktiviert sein.
Prüfen Sie, ob Ihr Projekt über genügend Beschleunigerkapazität verfügt:
- Wenn Sie GPUs verwenden: Prüfen Sie die Seite „Kontingente“.
- Wenn Sie TPUs verwenden, lesen Sie den Abschnitt Kontingent für TPUs und andere GKE-Ressourcen sicherstellen.
Generieren Sie ein Hugging Face-Zugriffstoken und ein entsprechendes Kubernetes-Secret, falls Sie noch keines haben. Führen Sie den folgenden Befehl aus, um ein Kubernetes-Secret zu erstellen, das das Hugging Face-Token enthält:
kubectl create secret generic hf-secret \ --from-literal=hf_api_token=HUGGING_FACE_TOKEN \ --namespace=NAMESPACE
Ersetzen Sie die folgenden Werte:
- HUGGING_FACE_TOKEN: Das Hugging Face-Token, das Sie zuvor erstellt haben.
- NAMESPACE: Der Kubernetes-Namespace, in dem Sie Ihren Modellserver bereitstellen möchten.
Bei einigen Modellen müssen Sie möglicherweise auch die Lizenzvereinbarung für die Einwilligung akzeptieren und unterzeichnen.
Vorbereitung für die Verwendung der GKE AI/ML-Benutzeroberfläche
Wenn Sie die Google Cloud -Konsole verwenden, müssen Sie auch einen Autopilot-Cluster erstellen, falls noch keiner in Ihrem Projekt vorhanden ist. Folgen Sie der Anleitung unter Autopilot-Cluster erstellen.
Vorbereiten der Verwendung der Befehlszeile
Wenn Sie die gcloud CLI zum Ausführen der Kurzanleitung für die Inferenz verwenden, müssen Sie auch die folgenden zusätzlichen Befehle ausführen:
Aktivieren Sie die
gkerecommender.googleapis.com
API:gcloud services enable gkerecommender.googleapis.com
Legen Sie das Abrechnungskontingentprojekt fest, das Sie für API-Aufrufe verwenden:
gcloud config set billing/quota_project PROJECT_ID
Prüfen Sie, ob Ihre gcloud CLI-Version mindestens 526.0.0 ist. Falls nicht, führen Sie Folgendes aus:
gcloud components update
Beschränkungen
Beachten Sie die folgenden Einschränkungen, bevor Sie mit der Kurzanleitung für die Inferenz beginnen:
- Bei der Bereitstellung von Modellen über dieGoogle Cloud -Konsole wird nur die Bereitstellung in Autopilot-Clustern unterstützt.
- Die Inference Quickstart-Anleitung enthält keine Profile für alle Modelle, die von einem bestimmten Modellserver unterstützt werden.
Optimierte Konfigurationen für die Modellinferenz ansehen
In diesem Abschnitt wird beschrieben, wie Sie Konfigurationsempfehlungen über die Google Cloud -Konsole oder die Befehlszeile generieren und ansehen.
Console
-
Rufen Sie in der Google Cloud Console die GKE AI/ML-Seite auf.
- Klicken Sie auf Modelle bereitstellen.
Wählen Sie ein Modell aus, das Sie ansehen möchten. Modelle, die von der Inference Quickstart unterstützt werden, sind mit dem Tag Optimized gekennzeichnet.
- Wenn Sie ein Fundierungsmodell ausgewählt haben, wird eine Modellseite geöffnet. Klicken Sie auf Bereitstellen. Sie können die Konfiguration vor der eigentlichen Bereitstellung noch ändern.
- Sie werden aufgefordert, einen Autopilot-Cluster zu erstellen, wenn noch keiner in Ihrem Projekt vorhanden ist. Folgen Sie der Anleitung unter Autopilot-Cluster erstellen. Kehren Sie nach dem Erstellen des Clusters zur GKE AI/ML-Seite in der Google Cloud Konsole zurück, um ein Modell auszuwählen.
Auf der Seite für die Modellbereitstellung werden Ihr ausgewähltes Modell sowie der empfohlene Modellserver und Beschleuniger automatisch ausgefüllt. Sie können auch Einstellungen wie die maximale Latenz konfigurieren.
Klicken Sie auf YAML aufrufen, um das Manifest mit der empfohlenen Konfiguration aufzurufen.
gcloud
Mit dem Befehl gcloud alpha container ai profiles
können Sie optimierte Kombinationen aus Modell, Modellserver, Modellserverversion und Beschleunigern untersuchen und ansehen:
Modelle
Wenn Sie ein Modell auswählen möchten, verwenden Sie die Option models
.
gcloud alpha container ai profiles models list
Modellserver
Wenn Sie empfohlene Modellserver für das gewünschte Modell aufrufen möchten, verwenden Sie die Option model-servers
. Beispiel:
gcloud alpha container ai profiles model-servers list \
--model=meta-llama/Meta-Llama-3-8B
Die Ausgabe sieht dann ungefähr so aus:
Supported model servers:
- vllm
Serverversionen
Optional können Sie die Option model-server-versions
verwenden, um die unterstützten Versionen des Modellservers zu ermitteln, an dem Sie interessiert sind. Wenn Sie diesen Schritt überspringen, wird in der Inference Quickstart standardmäßig die neueste Version verwendet.
Beispiel:
gcloud alpha container ai profiles model-server-versions list \
--model=meta-llama/Meta-Llama-3-8B \
--model-server=vllm
Die Ausgabe sieht dann ungefähr so aus:
Supported model server versions:
- e92694b6fe264a85371317295bca6643508034ef
- v0.7.2
Beschleuniger
Wenn Sie empfohlene Beschleuniger für die gewünschte Kombination aus Modell und Modellserver sehen möchten, verwenden Sie die Option accelerators
.
Beispiel:
gcloud alpha container ai profiles accelerators list \
--model=deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
--model-server-version=v0.7.2
Die Ausgabe sieht dann ungefähr so aus:
Supported accelerators:
accelerator | model | model server | model server version | accelerator count | output tokens per second | ntpot ms
---------------------|-----------------------------------------|--------------|------------------------------------------|-------------------|--------------------------|---------
nvidia-tesla-a100 | deepseek-ai/DeepSeek-R1-Distill-Qwen-7B | vllm | v0.7.2 | 1 | 3357 | 72
nvidia-h100-80gb | deepseek-ai/DeepSeek-R1-Distill-Qwen-7B | vllm | v0.7.2 | 1 | 6934 | 30
For more details on each accelerator, use --format=yaml
Die Ausgabe enthält eine Liste von Beschleunigertypen und die folgenden Messwerte:
- Durchsatz in Ausgabetokens pro Sekunde
- Normalisierte Zeit pro Ausgabetoken (NTPOT) in Millisekunden
Die Werte stellen die Leistung dar, die an dem Punkt beobachtet wurde, an dem der Durchsatz nicht mehr zunimmt und die Latenz für ein bestimmtes Profil mit diesem Beschleunigertyp drastisch ansteigt (d. h. der Wendepunkt oder Sättigungspunkt). Weitere Informationen zu diesen Leistungsmesswerten finden Sie unter Modellinferenz in GKE.
Weitere Optionen finden Sie in der Google Cloud CLI-Dokumentation.
Nachdem Sie ein Modell, einen Modellserver, eine Modellserverversion und einen Beschleuniger ausgewählt haben, können Sie ein Bereitstellungsmanifest erstellen.
Empfohlene Konfigurationen bereitstellen
In diesem Abschnitt wird beschrieben, wie Sie Konfigurationsempfehlungen mit der Google Cloud Konsole oder der Befehlszeile generieren und bereitstellen.
Console
-
Rufen Sie in der Google Cloud Console die GKE AI/ML-Seite auf.
- Klicken Sie auf Modelle bereitstellen.
Wählen Sie ein Modell aus, das Sie bereitstellen möchten. Modelle, die von der Inference Quickstart unterstützt werden, sind mit dem Tag Optimized gekennzeichnet.
- Wenn Sie ein Fundierungsmodell ausgewählt haben, wird eine Modellseite geöffnet. Klicken Sie auf Bereitstellen. Sie können die Konfiguration vor der eigentlichen Bereitstellung noch ändern.
- Sie werden aufgefordert, einen Autopilot-Cluster zu erstellen, wenn noch keiner in Ihrem Projekt vorhanden ist. Folgen Sie der Anleitung unter Autopilot-Cluster erstellen. Kehren Sie nach dem Erstellen des Clusters zur GKE AI/ML-Seite in der Google Cloud Konsole zurück, um ein Modell auszuwählen.
Auf der Seite für die Modellbereitstellung werden Ihr ausgewähltes Modell sowie der empfohlene Modellserver und Beschleuniger automatisch ausgefüllt. Sie können auch Einstellungen wie die maximale Latenz konfigurieren.
Optional: Wenn Sie das Manifest mit der empfohlenen Konfiguration aufrufen möchten, klicken Sie auf YAML aufrufen.
Klicken Sie auf Bereitstellen, um das Manifest mit der empfohlenen Konfiguration bereitzustellen. Es kann einige Minuten dauern, bis der Bereitstellungsvorgang abgeschlossen ist.
Rufen Sie die Seite Kubernetes Engine > Arbeitslasten auf, um sich Ihr Deployment anzusehen.
gcloud
Manifeste generieren: Verwenden Sie im Terminal die Option
manifests
, um Manifeste für Bereitstellung, Dienst und PodMonitoring zu generieren:gcloud alpha container ai profiles manifests create
Verwenden Sie die erforderlichen Parameter
--model
,--model-server
und--accelerator-type
, um das Manifest anzupassen.Optional können Sie die folgenden Parameter festlegen:
--target-ntpot-milliseconds
: Legen Sie diesen Parameter fest, um den HPA-Schwellenwert anzugeben. Mit diesem Parameter können Sie einen Skalierungsschwellenwert definieren, um die P50-Latenz für die normalisierte Zeit pro Ausgabetoken (Normalized Time Per Output Token, NTPOT), die am 50. Quartil gemessen wird, unter dem angegebenen Wert zu halten. Wählen Sie einen Wert aus, der über der Mindestlatenz Ihres Accelerators liegt. Die HPA ist für maximalen Durchsatz konfiguriert, wenn Sie einen NTPOT-Wert über der maximalen Latenz Ihres Beschleunigers angeben. Beispiel:gcloud alpha container ai profiles manifests create \ --model=google/gemma-2-27b-it \ --model-server=vllm \ --model-server-version=v0.7.2 \ --accelerator-type=nvidia-l4 \ --target-ntpot-milliseconds=200
--model-server-version
: Die Modellserverversion. Wenn keine Angabe erfolgt, wird standardmäßig die aktuelle Version verwendet.--namespace
: Der Namespace, in dem die Manifeste bereitgestellt werden sollen. Der Standard-Namespace ist „default“.--output
: Gültige Werte sindmanifest
,comments
undall
. Standardmäßig ist dieser Parameter aufall
eingestellt. Sie können festlegen, dass nur das Manifest für die Bereitstellung von Arbeitslasten ausgegeben wird, oder nur die Kommentare, wenn Sie Anleitungen zum Aktivieren von Funktionen sehen möchten.--output-path
: Wenn angegeben, wird die Ausgabe im angegebenen Pfad gespeichert, anstatt im Terminal ausgegeben. So können Sie die Ausgabe vor der Bereitstellung bearbeiten. Sie können diese Option beispielsweise mit--output=manifest
verwenden, wenn Sie Ihr Manifest in einer YAML-Datei speichern möchten. Beispiel:gcloud alpha container ai profiles manifests create \ --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \ --model-server vllm \ --accelerator-type=nvidia-tesla-a100 \ --output=manifest \ --output-path /tmp/manifests.yaml
Weitere Optionen finden Sie in der Google Cloud CLI-Dokumentation.
Infrastruktur bereitstellen: Sorgen Sie dafür, dass Ihre Infrastruktur für die Modellbereitstellung, das Monitoring und die Skalierung korrekt eingerichtet ist. Folgen Sie dazu dieser Anleitung.
Manifeste bereitstellen: Führen Sie den Befehl
kubectl apply
aus und übergeben Sie die YAML-Datei für Ihre Manifeste. Beispiel:kubectl apply -f ./manifests.yaml
Infrastruktur bereitstellen
Führen Sie die folgenden Schritte aus, um sicherzustellen, dass Ihre Infrastruktur für die Bereitstellung, das Monitoring und die Skalierung von Modellen richtig eingerichtet ist:
Cluster erstellen: Sie können Ihr Modell in GKE Autopilot- oder Standardclustern bereitstellen. Für eine vollständig verwaltete Kubernetes-Umgebung empfehlen wir die Verwendung eines Autopilot-Clusters. Informationen zum Auswählen des GKE-Betriebsmodus, der für Ihre Arbeitslasten am besten geeignet ist, finden Sie unter GKE-Betriebsmodus auswählen.
Wenn Sie keinen vorhandenen Cluster haben, gehen Sie so vor:
Autopilot
Folgen Sie dieser Anleitung, um einen Autopilot-Cluster zu erstellen. GKE stellt die Knoten mit GPU- oder TPU-Kapazität basierend auf den Bereitstellungsmanifesten bereit, sofern Sie das erforderliche Kontingent in Ihrem Projekt haben.
Standard
- Erstellen Sie einen zonalen oder regionalen Cluster.
Erstellen Sie einen Knotenpool mit den entsprechenden Beschleunigern. Führen Sie je nach ausgewähltem Beschleunigertyp die folgenden Schritte aus:
- GPUs: Prüfen Sie zuerst auf der Seite „Kontingente“ in der Google Cloud -Konsole, ob Sie genügend GPU-Kapazität haben. Folgen Sie dann der Anleitung unter GPU-Knotenpool erstellen.
- TPUs: Prüfen Sie zuerst, ob Sie genügend TPUs haben. Folgen Sie dazu der Anleitung unter Kontingent für TPUs und andere GKE-Ressourcen bereitstellen. Erstellen Sie dann einen TPU-Knotenpool.
(Optional, aber empfohlen) Observability-Funktionen aktivieren: Im Kommentarbereich des generierten Manifests finden Sie zusätzliche Befehle zum Aktivieren der vorgeschlagenen Observability-Funktionen. Wenn Sie diese Funktionen aktivieren, erhalten Sie mehr Statistiken, mit denen Sie die Leistung und den Status von Arbeitslasten und der zugrunde liegenden Infrastruktur überwachen können.
Hier sehen Sie ein Beispiel für einen Befehl zum Aktivieren von Observability-Funktionen:
gcloud beta container clusters update $CLUSTER_NAME \ --project=$PROJECT_ID \ --location=$LOCATION \ --enable-managed-prometheus \ --logging=SYSTEM,WORKLOAD \ --monitoring=SYSTEM,DEPLOYMENT,HPA,POD,DCGM \ --auto-monitoring-scope=ALL
Weitere Informationen finden Sie unter Inferenzarbeitslasten überwachen.
(Nur HPA) Messwertadapter bereitstellen: Ein Messwertadapter wie der Stackdriver-Adapter für benutzerdefinierte Messwerte ist erforderlich, wenn HPA-Ressourcen in den Bereitstellungsmanifesten generiert wurden. Der Messwerteadapter ermöglicht dem HPA den Zugriff auf Modellservermesswerte, die die kube external metrics API verwenden. Informationen zum Bereitstellen des Adapters finden Sie in der Adapterdokumentation auf GitHub.
Bereitstellungsendpunkte testen
Wenn Sie das Manifest über die Befehlszeile bereitgestellt haben, wird der bereitgestellte Dienst über den folgenden Endpunkt verfügbar gemacht:
http://model-model_server-service:port/
Testen Sie Ihren Service. Richten Sie in einem separaten Terminal die Portweiterleitung mit dem folgenden Befehl ein:
kubectl port-forward service/model-model_server-service 8000:8000
Beispiele für das Erstellen und Senden einer Anfrage an Ihren Endpunkt finden Sie in der vLLM.
Inferenzarbeitslasten überwachen
Wenn Sie Ihre bereitgestellten Inferenzarbeitslasten überwachen möchten, rufen Sie den Metrics Explorer in der Google Cloud Console auf.
Automatisches Monitoring aktivieren
GKE bietet eine automatische Monitoring-Funktion, die Teil der umfassenderen Observability-Funktionen ist. Mit dieser Funktion wird der Cluster nach Arbeitslasten durchsucht, die auf unterstützten Modellservern ausgeführt werden, und die PodMonitoring-Ressourcen werden bereitgestellt, damit die Messwerte dieser Arbeitslasten in Cloud Monitoring sichtbar sind. Weitere Informationen zum Aktivieren und Konfigurieren der automatischen Überwachung finden Sie unter Automatische Anwendungsüberwachung für Arbeitslasten konfigurieren.
Nachdem Sie die Funktion aktiviert haben, installiert GKE vorgefertigte Dashboards zum Monitoring von Anwendungen für unterstützte Arbeitslasten.
Wenn Sie die Bereitstellung über die Seite „GKE AI/ML“ in der Google Cloud Console vornehmen, werden PodMonitoring- und HPA-Ressourcen automatisch anhand der targetNtpot
-Konfiguration für Sie erstellt.
Fehlerbehebung
- Wenn Sie die Latenz zu niedrig festlegen, wird im Inference Quickstart möglicherweise keine Empfehlung generiert. Um dieses Problem zu beheben, wählen Sie ein Latenzziel zwischen der minimalen und der maximalen Latenz aus, die für die ausgewählten Beschleuniger beobachtet wurde.
- Die Kurzanleitung für die Inferenz ist unabhängig von GKE-Komponenten. Ihre Clusterversion ist daher für die Verwendung des Dienstes nicht direkt relevant. Wir empfehlen jedoch, einen neuen oder aktuellen Cluster zu verwenden, um Leistungsabweichungen zu vermeiden.
- Wenn Sie für
gkerecommender.googleapis.com
-Befehle den FehlerPERMISSION_DENIED
erhalten, der besagt, dass ein Kontingentprojekt fehlt, müssen Sie es manuell festlegen. Führen Siegcloud config set billing/quota_project PROJECT_ID
aus, um das Problem zu beheben.
Nächste Schritte
- Im Portal zur KI-/ML-Orchestrierung in GKE finden Sie unsere offiziellen Anleitungen, Tutorials und Anwendungsfälle für die Ausführung von KI-/ML-Arbeitslasten in GKE.
- Weitere Informationen zur Optimierung der Bereitstellung von Modellen finden Sie unter Best Practices für die Optimierung der Inferenz großer Sprachmodelle mit GPUs. Darin werden Best Practices für die Bereitstellung von LLMs mit GPUs in GKE behandelt, z. B. Quantisierung, Tensorparallelismus und Arbeitsspeicherverwaltung.
- Weitere Informationen zu Best Practices für das Autoscaling finden Sie in den folgenden Anleitungen:
- In GKE AI Labs finden Sie experimentelle Beispiele für die Nutzung von GKE zur Beschleunigung Ihrer KI-/ML-Initiativen.