Best Practices für die Inferenz mit GKE Inference Quickstart-Rezepten ausführen


Auf dieser Seite wird beschrieben, wie Sie mit dem GKE Inference Quickstart die Bereitstellung von KI-/ML-Inferenzarbeitslasten in Google Kubernetes Engine (GKE) vereinfachen können. Inference Quickstart ist ein Dienstprogramm, mit dem Sie Ihre geschäftlichen Anforderungen für die Inferenz angeben und optimierte Kubernetes-Konfigurationen basierend auf Best Practices und den Benchmarks von Google für Modelle, Modellserver, Beschleuniger (GPUs, TPUs) und Skalierung erhalten können. So können Sie den zeitaufwendigen Prozess des manuellen Anpassens und Testens von Konfigurationen vermeiden.

Diese Seite richtet sich an Entwickler von maschinellem Lernen (ML), Plattformadministratoren und ‑operatoren sowie an Daten- und KI-Spezialisten, die erfahren möchten, wie sie GKE für KI/ML-Inferenz effizient verwalten und optimieren können. Weitere Informationen zu gängigen Rollen und Beispielaufgaben, auf die wir in Google Cloud -Inhalten verweisen, finden Sie unter Häufig verwendete GKE Enterprise-Nutzerrollen und -Aufgaben.

Weitere Informationen zu Konzepten und Begriffen für die Bereitstellung von Modellen sowie dazu, wie GKE Gen AI-Funktionen die Leistung der Bereitstellung von Modellen verbessern und unterstützen können, finden Sie unter Modellinferenz in GKE.

Machen Sie sich vor dem Lesen dieser Seite mit Kubernetes, GKE und Model Serving vertraut.

Kurzanleitung für die Inferenz verwenden

Dies sind die allgemeinen Schritte zur Verwendung des Inference Quickstart: Klicken Sie auf die Links, um eine detaillierte Anleitung aufzurufen.

  1. Maßgeschneiderte Best Practices ansehen: Geben Sie auf der Seite „GKE AI/ML“ in der Google Cloud -Konsole oder in der Google Cloud CLI im Terminal zuerst Eingaben wie Ihr bevorzugtes offenes Modell (z. B. Llama, Gemma oder Mistral) an.
    • Sie können das Latenzziel Ihrer Anwendung angeben und so festlegen, ob sie latenzsensibel (z. B. ein Chatbot) oder durchsatzsensibel (z. B. Batchanalysen) ist.
    • Basierend auf Ihren Anforderungen bietet Inference Quickstart Optionen für Beschleuniger, Leistungsmesswerte und Kubernetes-Manifeste, mit denen Sie die Bereitstellung oder weitere Änderungen vollständig steuern können. In den generierten Manifesten wird auf öffentliche Modellserver-Images verwiesen, sodass Sie diese Images nicht selbst erstellen müssen.
  2. Manifeste bereitstellen: Stellen Sie die empfohlenen Manifeste mit der Google Cloud Konsole oder mit dem Befehl kubectl apply bereit. Bevor Sie die Bereitstellung vornehmen, müssen Sie prüfen, ob Sie in Ihrem Google Cloud Projekt ein ausreichendes Kontingent für die ausgewählten GPUs oder TPUs haben.
  3. Leistung überwachen: Verwenden Sie Cloud Monitoring, um die von GKE bereitgestellten Arbeitslastleistungsmesswerte zu überwachen. Sie können Modellserver-Dashboards aufrufen und Ihre Bereitstellung nach Bedarf optimieren.

Vorteile

Mit der Inference Quickstart können Sie Zeit und Ressourcen sparen, da optimierte Konfigurationen bereitgestellt werden. Diese Optimierungen verbessern die Leistung und senken die Infrastrukturkosten auf folgende Weise:

  • Sie erhalten detaillierte, maßgeschneiderte Best Practices für die Konfiguration von Beschleuniger (GPU und TPU), Modellserver und Skalierung. Das Tool wird regelmäßig mit den neuesten Korrekturen, Images und Leistungsbenchmarks aktualisiert.
  • Sie können die Anforderungen an Latenz und Durchsatz für Ihre Arbeitslast über dieGoogle Cloud -Konsolen-UI oder eine Befehlszeilenschnittstelle angeben und erhalten detaillierte, maßgeschneiderte Best Practices als Kubernetes-Bereitstellungsmanifeste.

Anwendungsfälle

Die Kurzanleitung für die Inferenz eignet sich für Szenarien wie die folgenden:

  • Optimale GKE-Inferenzarchitekturen ermitteln: Wenn Sie von einer anderen Umgebung wie einer On-Premise-Umgebung oder einem anderen Cloud-Anbieter wechseln und die aktuellsten empfohlenen Inferenzarchitekturen in GKE für Ihre spezifischen Leistungsanforderungen benötigen.
  • KI‑/ML-Inferenz-Deployments beschleunigen: Wenn Sie ein erfahrener Kubernetes-Nutzer sind und schnell mit dem Bereitstellen von KI‑Inferenz-Arbeitslasten beginnen möchten, hilft Ihnen die Inferenz-Kurzanleitung dabei, Best-Practice-Deployments in GKE zu finden und zu implementieren. Sie enthält detaillierte YAML-Konfigurationen, die auf Best Practices basieren.
  • TPUs für eine höhere Leistung nutzen: Wenn Sie bereits Kubernetes in GKE mit GPUs verwenden, können Sie mit dem Inference Quickstart die Vorteile der Verwendung von TPUs untersuchen, um möglicherweise eine bessere Leistung zu erzielen.

Funktionsweise

Die Kurzanleitung für die Inferenz enthält maßgeschneiderte Best Practices, die auf den umfassenden internen Benchmarks von Google zur Leistung einzelner Replikate für Kombinationen aus Modell, Modellserver und Beschleunigertopologie basieren. In diesen Benchmarks wird die Latenz im Vergleich zum Durchsatz dargestellt, einschließlich der Messwerte für die Warteschlangengröße und den KV-Cache, die Leistungskurven für jede Kombination abbilden.

So werden maßgeschneiderte Best Practices generiert

Wir messen die Latenz in normalisierter Zeit pro Ausgabetoken (Normalized Time per Output Token, NTPOT) in Millisekunden und den Durchsatz in Ausgabetokens pro Sekunde, indem wir Beschleuniger sättigen. Weitere Informationen zu diesen Leistungsmesswerten finden Sie unter Modellinferenz in GKE.

Das folgende Beispiel für ein Latenzprofil veranschaulicht den Wendepunkt, an dem der Durchsatz stagniert (grün), den Bereich nach dem Wendepunkt, in dem sich die Latenz verschlechtert (rot), und die ideale Zone (blau) für optimalen Durchsatz bei der angestrebten Latenz. Im Schnellstart für die Inferenz finden Sie Leistungsdaten und Konfigurationen für diese ideale Zone.

Latenzprofil mit grüner Markierung für weniger als 2.000 Ausgabetokens pro Sekunde und roter Markierung für mehr als 2.000 Ausgabetokens pro Sekunde

Anhand der Latenzanforderungen einer Inferenzanwendung ermittelt Inference Quickstart geeignete Kombinationen und den optimalen Betriebspunkt auf der Latenz-Durchsatz-Kurve. Dieser Punkt legt den HPA-Schwellenwert (Horizontal Pod Autoscaler) mit einem Puffer fest, um die Latenz beim Hochskalieren zu berücksichtigen. Der Gesamtschwellenwert gibt auch die anfängliche Anzahl der benötigten Replikate an. Der HPA passt diese Anzahl jedoch dynamisch an die Arbeitslast an.

Benchmarking

Die bereitgestellten Konfigurationen und Leistungsdaten basieren auf Benchmarks, bei denen mit dem ShareGPT-Dataset Traffic mit der folgenden Ein- und Ausgabeverteilung gesendet wird.

Eingabetokens Ausgabetokens
Min. Medianwert Durchschnitt P90 P99 Max. Min. Medianwert Durchschnitt P90 P99 Max.
4 108 226 635 887 1.024 1 132 195 488 778 1.024

Hinweise

Führen Sie die folgenden Aufgaben aus, bevor Sie beginnen:

  • Aktivieren Sie die Google Kubernetes Engine API.
  • Google Kubernetes Engine API aktivieren
  • Wenn Sie die Google Cloud CLI für diese Aufgabe verwenden möchten, müssen Sie die gcloud CLI installieren und dann initialisieren. Wenn Sie die gcloud CLI bereits installiert haben, rufen Sie die neueste Version mit gcloud components update ab.
  • Wählen Sie in der Google Cloud -Console auf der Seite für die Projektauswahl ein Google Cloud -Projekt aus oder erstellen Sie eines.

  • Die Abrechnung für Ihr Google Cloud -Projekt muss aktiviert sein.

  • Prüfen Sie, ob Ihr Projekt über genügend Beschleunigerkapazität verfügt:

  • Generieren Sie ein Hugging Face-Zugriffstoken und ein entsprechendes Kubernetes-Secret, falls Sie noch keines haben. Führen Sie den folgenden Befehl aus, um ein Kubernetes-Secret zu erstellen, das das Hugging Face-Token enthält:

    kubectl create secret generic hf-secret \
        --from-literal=hf_api_token=HUGGING_FACE_TOKEN \
        --namespace=NAMESPACE
    

    Ersetzen Sie die folgenden Werte:

    • HUGGING_FACE_TOKEN: Das Hugging Face-Token, das Sie zuvor erstellt haben.
    • NAMESPACE: Der Kubernetes-Namespace, in dem Sie Ihren Modellserver bereitstellen möchten.
  • Bei einigen Modellen müssen Sie möglicherweise auch die Lizenzvereinbarung für die Einwilligung akzeptieren und unterzeichnen.

Vorbereitung für die Verwendung der GKE AI/ML-Benutzeroberfläche

Wenn Sie die Google Cloud -Konsole verwenden, müssen Sie auch einen Autopilot-Cluster erstellen, falls noch keiner in Ihrem Projekt vorhanden ist. Folgen Sie der Anleitung unter Autopilot-Cluster erstellen.

Vorbereiten der Verwendung der Befehlszeile

Wenn Sie die gcloud CLI zum Ausführen der Kurzanleitung für die Inferenz verwenden, müssen Sie auch die folgenden zusätzlichen Befehle ausführen:

  1. Aktivieren Sie die gkerecommender.googleapis.com API:

    gcloud services enable gkerecommender.googleapis.com
    
  2. Legen Sie das Abrechnungskontingentprojekt fest, das Sie für API-Aufrufe verwenden:

    gcloud config set billing/quota_project PROJECT_ID
    
  3. Prüfen Sie, ob Ihre gcloud CLI-Version mindestens 526.0.0 ist. Falls nicht, führen Sie Folgendes aus:

    gcloud components update
    

Beschränkungen

Beachten Sie die folgenden Einschränkungen, bevor Sie mit der Kurzanleitung für die Inferenz beginnen:

  • Bei der Bereitstellung von Modellen über dieGoogle Cloud -Konsole wird nur die Bereitstellung in Autopilot-Clustern unterstützt.
  • Die Inference Quickstart-Anleitung enthält keine Profile für alle Modelle, die von einem bestimmten Modellserver unterstützt werden.

Optimierte Konfigurationen für die Modellinferenz ansehen

In diesem Abschnitt wird beschrieben, wie Sie Konfigurationsempfehlungen über die Google Cloud -Konsole oder die Befehlszeile generieren und ansehen.

Console

  1. Rufen Sie in der Google Cloud Console die GKE AI/ML-Seite auf.

  2. Klicken Sie auf Modelle bereitstellen.
  3. Wählen Sie ein Modell aus, das Sie ansehen möchten. Modelle, die von der Inference Quickstart unterstützt werden, sind mit dem Tag Optimized gekennzeichnet.

    • Wenn Sie ein Fundierungsmodell ausgewählt haben, wird eine Modellseite geöffnet. Klicken Sie auf Bereitstellen. Sie können die Konfiguration vor der eigentlichen Bereitstellung noch ändern.
    • Sie werden aufgefordert, einen Autopilot-Cluster zu erstellen, wenn noch keiner in Ihrem Projekt vorhanden ist. Folgen Sie der Anleitung unter Autopilot-Cluster erstellen. Kehren Sie nach dem Erstellen des Clusters zur GKE AI/ML-Seite in der Google Cloud Konsole zurück, um ein Modell auszuwählen.

    Auf der Seite für die Modellbereitstellung werden Ihr ausgewähltes Modell sowie der empfohlene Modellserver und Beschleuniger automatisch ausgefüllt. Sie können auch Einstellungen wie die maximale Latenz konfigurieren.

  4. Klicken Sie auf YAML aufrufen, um das Manifest mit der empfohlenen Konfiguration aufzurufen.

gcloud

Mit dem Befehl gcloud alpha container ai profiles können Sie optimierte Kombinationen aus Modell, Modellserver, Modellserverversion und Beschleunigern untersuchen und ansehen:

Modelle

Wenn Sie ein Modell auswählen möchten, verwenden Sie die Option models.

  gcloud alpha container ai profiles models list

Modellserver

Wenn Sie empfohlene Modellserver für das gewünschte Modell aufrufen möchten, verwenden Sie die Option model-servers. Beispiel:

  gcloud alpha container ai profiles model-servers list \
      --model=meta-llama/Meta-Llama-3-8B

Die Ausgabe sieht dann ungefähr so aus:

  Supported model servers:
  -  vllm

Serverversionen

Optional können Sie die Option model-server-versions verwenden, um die unterstützten Versionen des Modellservers zu ermitteln, an dem Sie interessiert sind. Wenn Sie diesen Schritt überspringen, wird in der Inference Quickstart standardmäßig die neueste Version verwendet. Beispiel:

  gcloud alpha container ai profiles model-server-versions list \
      --model=meta-llama/Meta-Llama-3-8B \
      --model-server=vllm

Die Ausgabe sieht dann ungefähr so aus:

  Supported model server versions:
  -  e92694b6fe264a85371317295bca6643508034ef
  -  v0.7.2

Beschleuniger

Wenn Sie empfohlene Beschleuniger für die gewünschte Kombination aus Modell und Modellserver sehen möchten, verwenden Sie die Option accelerators. Beispiel:

  gcloud alpha container ai profiles accelerators list \
      --model=deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
      --model-server-version=v0.7.2

Die Ausgabe sieht dann ungefähr so aus:

  Supported accelerators:
  accelerator          | model                                   | model server | model server version                     | accelerator count | output tokens per second | ntpot ms
  ---------------------|-----------------------------------------|--------------|------------------------------------------|-------------------|--------------------------|---------
  nvidia-tesla-a100    | deepseek-ai/DeepSeek-R1-Distill-Qwen-7B | vllm         | v0.7.2                                   | 1                 | 3357                     | 72
  nvidia-h100-80gb     | deepseek-ai/DeepSeek-R1-Distill-Qwen-7B | vllm         | v0.7.2                                   | 1                 | 6934                     | 30

  For more details on each accelerator, use --format=yaml

Die Ausgabe enthält eine Liste von Beschleunigertypen und die folgenden Messwerte:

  • Durchsatz in Ausgabetokens pro Sekunde
  • Normalisierte Zeit pro Ausgabetoken (NTPOT) in Millisekunden

Die Werte stellen die Leistung dar, die an dem Punkt beobachtet wurde, an dem der Durchsatz nicht mehr zunimmt und die Latenz für ein bestimmtes Profil mit diesem Beschleunigertyp drastisch ansteigt (d. h. der Wendepunkt oder Sättigungspunkt). Weitere Informationen zu diesen Leistungsmesswerten finden Sie unter Modellinferenz in GKE.

Weitere Optionen finden Sie in der Google Cloud CLI-Dokumentation.

Nachdem Sie ein Modell, einen Modellserver, eine Modellserverversion und einen Beschleuniger ausgewählt haben, können Sie ein Bereitstellungsmanifest erstellen.

Empfohlene Konfigurationen bereitstellen

In diesem Abschnitt wird beschrieben, wie Sie Konfigurationsempfehlungen mit der Google Cloud Konsole oder der Befehlszeile generieren und bereitstellen.

Console

  1. Rufen Sie in der Google Cloud Console die GKE AI/ML-Seite auf.

  2. Klicken Sie auf Modelle bereitstellen.
  3. Wählen Sie ein Modell aus, das Sie bereitstellen möchten. Modelle, die von der Inference Quickstart unterstützt werden, sind mit dem Tag Optimized gekennzeichnet.

    • Wenn Sie ein Fundierungsmodell ausgewählt haben, wird eine Modellseite geöffnet. Klicken Sie auf Bereitstellen. Sie können die Konfiguration vor der eigentlichen Bereitstellung noch ändern.
    • Sie werden aufgefordert, einen Autopilot-Cluster zu erstellen, wenn noch keiner in Ihrem Projekt vorhanden ist. Folgen Sie der Anleitung unter Autopilot-Cluster erstellen. Kehren Sie nach dem Erstellen des Clusters zur GKE AI/ML-Seite in der Google Cloud Konsole zurück, um ein Modell auszuwählen.

    Auf der Seite für die Modellbereitstellung werden Ihr ausgewähltes Modell sowie der empfohlene Modellserver und Beschleuniger automatisch ausgefüllt. Sie können auch Einstellungen wie die maximale Latenz konfigurieren.

  4. Optional: Wenn Sie das Manifest mit der empfohlenen Konfiguration aufrufen möchten, klicken Sie auf YAML aufrufen.

  5. Klicken Sie auf Bereitstellen, um das Manifest mit der empfohlenen Konfiguration bereitzustellen. Es kann einige Minuten dauern, bis der Bereitstellungsvorgang abgeschlossen ist.

Rufen Sie die Seite Kubernetes Engine > Arbeitslasten auf, um sich Ihr Deployment anzusehen.

gcloud

  1. Manifeste generieren: Verwenden Sie im Terminal die Option manifests, um Manifeste für Bereitstellung, Dienst und PodMonitoring zu generieren:

    gcloud alpha container ai profiles manifests create
    

    Verwenden Sie die erforderlichen Parameter --model, --model-server und --accelerator-type, um das Manifest anzupassen.

    Optional können Sie die folgenden Parameter festlegen:

    • --target-ntpot-milliseconds: Legen Sie diesen Parameter fest, um den HPA-Schwellenwert anzugeben. Mit diesem Parameter können Sie einen Skalierungsschwellenwert definieren, um die P50-Latenz für die normalisierte Zeit pro Ausgabetoken (Normalized Time Per Output Token, NTPOT), die am 50. Quartil gemessen wird, unter dem angegebenen Wert zu halten. Wählen Sie einen Wert aus, der über der Mindestlatenz Ihres Accelerators liegt. Die HPA ist für maximalen Durchsatz konfiguriert, wenn Sie einen NTPOT-Wert über der maximalen Latenz Ihres Beschleunigers angeben. Beispiel:

      gcloud alpha container ai profiles manifests create \
          --model=google/gemma-2-27b-it \
          --model-server=vllm \
          --model-server-version=v0.7.2 \
          --accelerator-type=nvidia-l4 \
          --target-ntpot-milliseconds=200
      
    • --model-server-version: Die Modellserverversion. Wenn keine Angabe erfolgt, wird standardmäßig die aktuelle Version verwendet.

    • --namespace: Der Namespace, in dem die Manifeste bereitgestellt werden sollen. Der Standard-Namespace ist „default“.

    • --output: Gültige Werte sind manifest, comments und all. Standardmäßig ist dieser Parameter auf all eingestellt. Sie können festlegen, dass nur das Manifest für die Bereitstellung von Arbeitslasten ausgegeben wird, oder nur die Kommentare, wenn Sie Anleitungen zum Aktivieren von Funktionen sehen möchten.

    • --output-path: Wenn angegeben, wird die Ausgabe im angegebenen Pfad gespeichert, anstatt im Terminal ausgegeben. So können Sie die Ausgabe vor der Bereitstellung bearbeiten. Sie können diese Option beispielsweise mit --output=manifest verwenden, wenn Sie Ihr Manifest in einer YAML-Datei speichern möchten. Beispiel:

      gcloud alpha container ai profiles manifests create \
          --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
          --model-server vllm \
          --accelerator-type=nvidia-tesla-a100 \
          --output=manifest \
          --output-path  /tmp/manifests.yaml
      

    Weitere Optionen finden Sie in der Google Cloud CLI-Dokumentation.

  2. Infrastruktur bereitstellen: Sorgen Sie dafür, dass Ihre Infrastruktur für die Modellbereitstellung, das Monitoring und die Skalierung korrekt eingerichtet ist. Folgen Sie dazu dieser Anleitung.

  3. Manifeste bereitstellen: Führen Sie den Befehl kubectl apply aus und übergeben Sie die YAML-Datei für Ihre Manifeste. Beispiel:

    kubectl apply -f ./manifests.yaml
    

Infrastruktur bereitstellen

Führen Sie die folgenden Schritte aus, um sicherzustellen, dass Ihre Infrastruktur für die Bereitstellung, das Monitoring und die Skalierung von Modellen richtig eingerichtet ist:

  1. Cluster erstellen: Sie können Ihr Modell in GKE Autopilot- oder Standardclustern bereitstellen. Für eine vollständig verwaltete Kubernetes-Umgebung empfehlen wir die Verwendung eines Autopilot-Clusters. Informationen zum Auswählen des GKE-Betriebsmodus, der für Ihre Arbeitslasten am besten geeignet ist, finden Sie unter GKE-Betriebsmodus auswählen.

    Wenn Sie keinen vorhandenen Cluster haben, gehen Sie so vor:

    Autopilot

    Folgen Sie dieser Anleitung, um einen Autopilot-Cluster zu erstellen. GKE stellt die Knoten mit GPU- oder TPU-Kapazität basierend auf den Bereitstellungsmanifesten bereit, sofern Sie das erforderliche Kontingent in Ihrem Projekt haben.

    Standard

    1. Erstellen Sie einen zonalen oder regionalen Cluster.
    2. Erstellen Sie einen Knotenpool mit den entsprechenden Beschleunigern. Führen Sie je nach ausgewähltem Beschleunigertyp die folgenden Schritte aus:

  2. (Optional, aber empfohlen) Observability-Funktionen aktivieren: Im Kommentarbereich des generierten Manifests finden Sie zusätzliche Befehle zum Aktivieren der vorgeschlagenen Observability-Funktionen. Wenn Sie diese Funktionen aktivieren, erhalten Sie mehr Statistiken, mit denen Sie die Leistung und den Status von Arbeitslasten und der zugrunde liegenden Infrastruktur überwachen können.

    Hier sehen Sie ein Beispiel für einen Befehl zum Aktivieren von Observability-Funktionen:

    gcloud beta container clusters update $CLUSTER_NAME \
        --project=$PROJECT_ID \
        --location=$LOCATION \
        --enable-managed-prometheus \
        --logging=SYSTEM,WORKLOAD \
        --monitoring=SYSTEM,DEPLOYMENT,HPA,POD,DCGM \
        --auto-monitoring-scope=ALL
    

    Weitere Informationen finden Sie unter Inferenzarbeitslasten überwachen.

  3. (Nur HPA) Messwertadapter bereitstellen: Ein Messwertadapter wie der Stackdriver-Adapter für benutzerdefinierte Messwerte ist erforderlich, wenn HPA-Ressourcen in den Bereitstellungsmanifesten generiert wurden. Der Messwerteadapter ermöglicht dem HPA den Zugriff auf Modellservermesswerte, die die kube external metrics API verwenden. Informationen zum Bereitstellen des Adapters finden Sie in der Adapterdokumentation auf GitHub.

Bereitstellungsendpunkte testen

Wenn Sie das Manifest über die Befehlszeile bereitgestellt haben, wird der bereitgestellte Dienst über den folgenden Endpunkt verfügbar gemacht:

http://model-model_server-service:port/

Testen Sie Ihren Service. Richten Sie in einem separaten Terminal die Portweiterleitung mit dem folgenden Befehl ein:

kubectl port-forward service/model-model_server-service 8000:8000

Beispiele für das Erstellen und Senden einer Anfrage an Ihren Endpunkt finden Sie in der vLLM.

Inferenzarbeitslasten überwachen

Wenn Sie Ihre bereitgestellten Inferenzarbeitslasten überwachen möchten, rufen Sie den Metrics Explorer in der Google Cloud Console auf.

Automatisches Monitoring aktivieren

GKE bietet eine automatische Monitoring-Funktion, die Teil der umfassenderen Observability-Funktionen ist. Mit dieser Funktion wird der Cluster nach Arbeitslasten durchsucht, die auf unterstützten Modellservern ausgeführt werden, und die PodMonitoring-Ressourcen werden bereitgestellt, damit die Messwerte dieser Arbeitslasten in Cloud Monitoring sichtbar sind. Weitere Informationen zum Aktivieren und Konfigurieren der automatischen Überwachung finden Sie unter Automatische Anwendungsüberwachung für Arbeitslasten konfigurieren.

Nachdem Sie die Funktion aktiviert haben, installiert GKE vorgefertigte Dashboards zum Monitoring von Anwendungen für unterstützte Arbeitslasten.

Wenn Sie die Bereitstellung über die Seite „GKE AI/ML“ in der Google Cloud Console vornehmen, werden PodMonitoring- und HPA-Ressourcen automatisch anhand der targetNtpot-Konfiguration für Sie erstellt.

Fehlerbehebung

  • Wenn Sie die Latenz zu niedrig festlegen, wird im Inference Quickstart möglicherweise keine Empfehlung generiert. Um dieses Problem zu beheben, wählen Sie ein Latenzziel zwischen der minimalen und der maximalen Latenz aus, die für die ausgewählten Beschleuniger beobachtet wurde.
  • Die Kurzanleitung für die Inferenz ist unabhängig von GKE-Komponenten. Ihre Clusterversion ist daher für die Verwendung des Dienstes nicht direkt relevant. Wir empfehlen jedoch, einen neuen oder aktuellen Cluster zu verwenden, um Leistungsabweichungen zu vermeiden.
  • Wenn Sie für gkerecommender.googleapis.com-Befehle den Fehler PERMISSION_DENIED erhalten, der besagt, dass ein Kontingentprojekt fehlt, müssen Sie es manuell festlegen. Führen Sie gcloud config set billing/quota_project PROJECT_ID aus, um das Problem zu beheben.

Nächste Schritte