In dieser Anleitung wird beschrieben, wie Sie das Gemma-LLM (Large Language Model), eine Familie offener Modelle, mit grafischen Verarbeitungseinheiten (GPUs) in Google Kubernetes Engine (GKE) mit dem Bereitstellungs-Framework Text Generation Inference (TGI) von Hugging Face bereitstellen. In dieser Anleitung laden Sie die vortrainierten 2B- und 7B-Parameter und die abgestimmten Gemma-Familienmodelle von Hugging Face herunter und stellen sie in einem GKE-Cluster Autopilot oder Standard bereit. Dazu verwenden Sie einen Container, in dem TGI ausgeführt wird.
Dieser Leitfaden ist ein guter Ausgangspunkt, wenn Sie bei der Bereitstellung und Zugänglichmachung Ihrer KI/ML-Arbeitslasten die detaillierte Kontrolle, Skalierbarkeit, Robustheit, Übertragbarkeit und Kosteneffizienz von verwaltetem Kubernetes benötigen. Wenn Sie eine einheitliche verwaltete KI-Plattform benötigen, um ML-Modelle schnell und kostengünstig zu erstellen und bereitzustellen, empfehlen wir Ihnen, unsere Bereitstellungslösung Vertex AI zu testen.
Hintergrund
Wenn Sie Gemma mithilfe von GPUs in GKE mit TGI bereitstellen, können Sie eine robuste, produktionsbereite Inferenzbereitstellungslösung mit allen Vorteilen von verwaltetem Kubernetes implementieren, darunter effiziente Skalierbarkeit und höhere Verfügbarkeit. In diesem Abschnitt werden die in diesem Leitfaden verwendeten Schlüsseltechnologien beschrieben.
Gemma
Gemma ist eine Reihe offen verfügbarer, einfacher und auf künstliche Intelligenz basierender Modelle, die unter einer offenen Lizenz veröffentlicht wurden. Diese KI-Modelle können in Ihren Anwendungen, Geräten, Mobilgeräten oder gehosteten Diensten ausgeführt werden.
In dieser Anleitung werden die folgenden Modelle vorgestellt:
- Mit Gemma können Sie diese Modelle auch optimieren, um sich auf bestimmte Aufgaben zu spezialisieren.
- CodeGemma ist eine Sammlung leistungsstarker, einfacher Modelle, die eine Vielzahl von Programmieraufgaben ausführen können, z. B. das Ausfüllen von Code in der Mitte, Codegenerierung, Natural Language Understanding, mathematische Begründungen und Anweisungen.
Weitere Informationen finden Sie in der Gemma-Dokumentation.
GPUs
Mit GPUs können Sie bestimmte Arbeitslasten wie maschinelles Lernen und Datenverarbeitung beschleunigen, die auf Ihren Knoten ausgeführt werden. GKE bietet eine Reihe von Maschinentypoptionen für die Knotenkonfiguration, einschließlich Maschinentypen mit NVIDIA H100-, L4- und A100-GPUs.
Bevor Sie GPUs in GKE verwenden, sollten Sie den folgenden Lernpfad durcharbeiten:
Inferenz der Textgenerierung (Text Generation Inference, TGI)
TGI ist das Toolkit von Hugging Face zum Bereitstellen und Bereitstellen von LLMs. TGI ermöglicht eine leistungsstarke Textgenerierung für beliebte Open-Source-LLMs, einschließlich Gemma. TGI bietet unter anderem:
- Optimierte Transformer-Implementierung mit Flash Attention und PagedAttention
- Kontinuierliche Batchverarbeitung zur Verbesserung des allgemeinen Bereitstellungsdurchsatzes
- Tensor-Parallelität für schnellere Inferenz auf mehreren GPUs
Weitere Informationen finden Sie in der TGI-Dokumentation.
Lernziele
Dieser Leitfaden richtet sich an Kunden von generativer KI, die PyTorch verwenden, neue oder bestehende Nutzer von GKE, ML-Entwickler, MLOps-Entwickler (DevOps) oder Plattformadministratoren, die daran interessiert sind, Funktionen zur Kubernetes-Containerorchestrierung für die Bereitstellung von LLMs auf H100-, A100- und L4-GPU-Hardware zu nutzen.
Sie sollten am Ende dieses Leitfadens in der Lage sein, die folgenden Schritte auszuführen:
- Ihre Umgebung mit einem GKE-Cluster im Autopilot-Modus vorbereiten.
- TGI in Ihrem Cluster bereitstellen.
- TGI verwenden, um das Gemma 2B- oder 7B-Modell über curl und eine Webchat-Oberfläche bereitzustellen.
Hinweise
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the required API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the required API.
-
Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin
Check for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role colunn to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
Zu IAM - Wählen Sie das Projekt aus.
- Klicken Sie auf Zugriff erlauben.
-
Geben Sie im Feld Neue Hauptkonten Ihre Nutzer-ID ein. Dies ist in der Regel die E-Mail-Adresse eines Google-Kontos.
- Wählen Sie in der Liste Rolle auswählen eine Rolle aus.
- Wenn Sie weitere Rollen hinzufügen möchten, klicken Sie auf Weitere Rolle hinzufügen und fügen Sie weitere Rollen hinzu.
- Klicken Sie auf Speichern.
-
- Erstellen Sie ein Hugging Face-Konto, falls Sie noch keines haben.
- Prüfen Sie, ob Ihr Projekt ein ausreichendes Kontingent für GPUs hat. Weitere Informationen finden Sie unter GPUs und Zuteilungskontingente.
Zugriff auf das Modell erhalten
Wenn Sie Zugriff auf die Gemma-Modelle für die Bereitstellung in GKE erhalten möchten, müssen Sie zuerst die Lizenzeinwilligungsvereinbarung unterzeichnen und dann ein Hugging-Face-Zugriffstoken generieren.
Lizenz-Einwilligungsvereinbarung unterzeichnen
Sie müssen die Einwilligungsvereinbarung unterzeichnen, um Gemma verwenden zu können. Gehen Sie dazu so vor:
- Rufen Sie die Seite zur Modelleinwilligung auf Kaggle.com auf.
- Bestätigen Sie die Einwilligung mit Ihrem Hugging Face-Konto.
- Akzeptieren Sie die Modellbedingungen.
Zugriffstoken erstellen
Für den Zugriff auf das Modell über Hugging Face benötigen Sie ein Hugging Face-Token.
Führen Sie die folgenden Schritte aus, um ein neues Token zu generieren, falls Sie noch keines haben:
- Klicken Sie auf Profil > Einstellungen > Zugriffstokens.
- Wählen Sie Neues Token aus.
- Geben Sie einen Namen Ihrer Wahl und eine Rolle von mindestens
Read
an. - Wählen Sie Token generieren aus.
- Kopieren Sie das Token in die Zwischenablage.
Umgebung vorbereiten
In dieser Anleitung verwenden Sie Cloud Shell zum Verwalten von Ressourcen, die in Google Cloud gehostet werden. Die Software, die Sie für diese Anleitung benötigen, ist in Cloud Shell vorinstalliert, einschließlich kubectl
und
gcloud CLI.
So richten Sie Ihre Umgebung mit Cloud Shell ein:
Starten Sie in der Google Cloud Console eine Cloud Shell-Sitzung. Klicken Sie dazu in der Google Cloud Console auf Cloud Shell aktivieren. Dadurch wird im unteren Bereich der Google Cloud Console eine Sitzung gestartet.
Legen Sie die Standardumgebungsvariablen fest:
gcloud config set project PROJECT_ID export PROJECT_ID=$(gcloud config get project) export REGION=REGION export CLUSTER_NAME=tgi export HF_TOKEN=HF_TOKEN
Ersetzen Sie die folgenden Werte:
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
- REGION ist eine Region, die den Beschleunigertyp unterstützt, den Sie verwenden möchten, z. B.
us-central1
für L4-GPU. - HF_TOKEN ist das Hugging Face-Token, das Sie zuvor generiert haben.
Google Cloud-Ressourcen erstellen und konfigurieren
Folgen Sie dieser Anleitung, um die erforderlichen Ressourcen zu erstellen.
GKE-Cluster und -Knotenpool erstellen
Sie können Gemma auf GPUs in einem GKE-Cluster im Autopilot- oder Standardmodus bereitstellen. Für eine vollständig verwaltete Kubernetes-Umgebung empfehlen wir die Verwendung eines Autopilot-Clusters. Informationen zum Auswählen des GKE-Betriebsmodus, der für Ihre Arbeitslasten am besten geeignet ist, finden Sie unter GKE-Betriebsmodus auswählen.
Autopilot
Führen Sie in Cloud Shell den folgenden Befehl aus:
gcloud container clusters create-auto ${CLUSTER_NAME} \
--project=${PROJECT_ID} \
--region=${REGION} \
--release-channel=rapid \
--cluster-version=1.28
GKE erstellt einen Autopilot-Cluster mit CPU- und GPU-Knoten, wie von den bereitgestellten Arbeitslasten angefordert.
Standard
Führen Sie in Cloud Shell den folgenden Befehl aus, um einen Standardcluster zu erstellen:
gcloud container clusters create ${CLUSTER_NAME} \ --project=${PROJECT_ID} \ --region=${REGION} \ --workload-pool=${PROJECT_ID}.svc.id.goog \ --release-channel=rapid \ --num-nodes=1
Die Erstellung eines Clusters kann einige Minuten dauern.
Führen Sie den folgenden Befehl aus, um einen Knotenpool für Ihren Cluster zu erstellen:
gcloud container node-pools create gpupool \ --accelerator type=nvidia-l4,count=2,gpu-driver-version=latest \ --project=${PROJECT_ID} \ --location=${REGION} \ --node-locations=${REGION}-a \ --cluster=${CLUSTER_NAME} \ --machine-type=g2-standard-24 \ --num-nodes=1
GKE erstellt einen einzelnen Knotenpool mit zwei L4-GPUs für jeden Knoten.
Kubernetes-Secret für Hugging Face-Anmeldedaten erstellen
Gehen Sie in Cloud Shell so vor:
Konfigurieren Sie
kubectl
für die Kommunikation mit Ihrem Cluster:gcloud container clusters get-credentials ${CLUSTER_NAME} --location=${REGION}
Erstellen Sie ein Kubernetes-Secret, das das Hugging Face-Token enthält:
kubectl create secret generic hf-secret \ --from-literal=hf_api_token=${HF_TOKEN} \ --dry-run=client -o yaml | kubectl apply -f -
TGI bereitstellen
In diesem Abschnitt stellen Sie den TGI-Container für das Gemma-Modell bereit, das Sie verwenden möchten. Weitere Informationen zu den abgestimmten und vortrainierten Modellen sowie dazu, welche Modelle für Ihren Anwendungsfall ausgewählt werden sollten, finden Sie unter Abgestimmte Modelle.
Ein für die Anweisung abgestimmtes Gemma-Modell bereitstellen
Folgen Sie dieser Anleitung, wenn Sie ein abgestimmtes Gemma-Modell oder eine Variante bereitstellen möchten.
Gemma 2B-it
Folgen Sie dieser Anleitung, um das für die Anleitung abgestimmte Modell Gemma 2B bereitzustellen.
Erstellen Sie das folgende
tgi-2b-it.yaml
-Manifest:Wenden Sie das Manifest an:
kubectl apply -f tgi-2b-it.yaml
Gemma 7B-it
Folgen Sie dieser Anleitung, um das für die Anleitung abgestimmte Modell Gemma 7B bereitzustellen.
Erstellen Sie das folgende
tgi-7b-it.yaml
-Manifest:Wenden Sie das Manifest an:
kubectl apply -f tgi-7b-it.yaml
CodeGemma 7B-it
Folgen Sie dieser Anleitung, um das für die Anleitung abgestimmte Modell Gemma 7B bereitzustellen.
Erstellen Sie das folgende
tgi-codegemma-1.1-7b-it.yaml
-Manifest:Wenden Sie das Manifest an:
kubectl apply -f tgi-codegemma-1.1-7b-it.yaml
Vortrainiertes Gemma-Modell bereitstellen
Folgen Sie dieser Anleitung, wenn Sie ein vortrainiertes Gemma-Modell oder eine vortrainierte Variante bereitstellen möchten.
Gemma 2B
Folgen Sie dieser Anleitung, um das vortrainierte Gemma 2B-Modell bereitzustellen.
Erstellen Sie das folgende
tgi-2b.yaml
-Manifest:Wenden Sie das Manifest an:
kubectl apply -f tgi-2b.yaml
Gemma 7B
Folgen Sie dieser Anleitung, um das vortrainierte Gemma 2B-Modell bereitzustellen.
Erstellen Sie das folgende
tgi-7b.yaml
-Manifest:Wenden Sie das Manifest an:
kubectl apply -f tgi-7b.yaml
CodeGemma 2B
Befolgen Sie diese Anleitung, um das vortrainierte CodeGemma 2B-Modell bereitzustellen.
Erstellen Sie das folgende
tgi-codegemma-1.1-2b.yaml
-Manifest:Wenden Sie das Manifest an:
kubectl apply -f tgi-codegemma-1.1-2b.yaml
Ein Pod im Cluster lädt die Modellgewichtungen von Hugging Face herunter und startet die Bereitstellungs-Engine.
Warten Sie, bis die Bereitstellung verfügbar ist:
kubectl wait --for=condition=Available --timeout=700s deployment/tgi-gemma-deployment
So rufen Sie die Logs des laufenden Deployments auf:
kubectl logs -f -l app=gemma-server
Die Deployment-Ressource lädt die Modelldaten herunter. Das kann einige Minuten dauern. Die Ausgabe sieht in etwa so aus:
2024-05-08T20:27:37.557836Z INFO text_generation_router: router/src/main.rs:317: Warming up model
2024-05-08T20:27:39.206371Z INFO text_generation_launcher: Cuda Graphs are enabled for sizes [1, 2, 4, 8, 16, 32]
2024-05-08T20:27:40.461998Z INFO text_generation_router: router/src/main.rs:354: Setting max batch total tokens to 632992
2024-05-08T20:27:40.462018Z INFO text_generation_router: router/src/main.rs:355: Connected
2024-05-08T20:27:40.462025Z WARN text_generation_router: router/src/main.rs:369: Invalid hostname, defaulting to 0.0.0.0
Das Modell muss vollständig heruntergeladen sein, bevor Sie mit dem nächsten Abschnitt fortfahren.
Modell bereitstellen
In diesem Abschnitt interagieren Sie mit dem Modell.
Portweiterleitung einrichten
Führen Sie den folgenden Befehl aus, um die Portweiterleitung zum Modell einzurichten:
kubectl port-forward service/llm-service 8000:8000
Die Ausgabe sieht in etwa so aus:
Forwarding from 127.0.0.1:8000 -> 8000
Mithilfe von curl mit dem Modell interagieren
In diesem Abschnitt wird gezeigt, wie Sie einen einfachen Smoke Test machen, um Ihre bereitgestellten vortrainierten oder instruierten Modelle zu prüfen. Der Einfachheit halber wird in diesem Abschnitt der Testansatz mit vortrainierten Gemma 2B-, abgestimmten Gemma 2B- und abgestimmten CodeGemma 7B-Modellen beschrieben.
Gemma 2B
Verwenden Sie in einer neuen Terminalsitzung curl
, um mit Ihrem Modell zu chatten:
USER_PROMPT="Java is a"
curl -X POST http://localhost:8000/generate \
-H "Content-Type: application/json" \
-d @- <<EOF
{
"inputs": "${USER_PROMPT}",
"parameters": {
"temperature": 0.90,
"top_p": 0.95,
"max_new_tokens": 128
}
}
EOF
Die folgende Ausgabe zeigt ein Beispiel für die Modellantwort:
{"generated_text":" general-purpose, high-level, class-based, object-oriented programming language. <strong>Is Java a statically typed language?</strong> Yes, Java is a statically typed language. Java also supports dynamic typing. Static typing means that the type of every variable is explicitly specified at the time of declaration. The type can be either implicit or explicit. Static typing means that if no types are assigned then it will be assumed as a primitive type.\n\n<h3>What is Java?</h3>\n\nJava is a general-purpose, class-based, object-oriented programming language. Java is one of the oldest programming languages that has gained a"}
Gemma 2B-it
Verwenden Sie in einer neuen Terminalsitzung curl
, um mit Ihrem Modell zu chatten:
USER_PROMPT="I'm new to coding. If you could only recommend one programming language to start with, what would it be and why?"
curl -X POST http://localhost:8000/generate \
-H "Content-Type: application/json" \
-d @- <<EOF
{
"inputs": "<start_of_turn>user\n${USER_PROMPT}<end_of_turn>\n",
"parameters": {
"temperature": 0.90,
"top_p": 0.95,
"max_new_tokens": 128
}
}
EOF
Die folgende Ausgabe zeigt ein Beispiel für die Modellantwort:
{"generated_text":"**Python**\n\n**Reasons why Python is a great choice for beginners:**\n\n* **Simple syntax:** Python uses clear and concise syntax, making it easy for beginners to pick up.\n* **Easy to learn:** Python's syntax is based on English, making it easier to learn than other languages.\n* **Large and supportive community:** Python has a massive and active community of developers who are constantly willing to help.\n* **Numerous libraries and tools:** Python comes with a vast collection of libraries and tools that make it easy to perform various tasks, such as data manipulation, web development, and machine learning.\n* **"}
CodeGemma
Verwenden Sie in einer neuen Terminalsitzung curl
, um mit Ihrem Modell zu chatten:
USER_PROMPT="Generate a python code example of a adding two numbers from a function called addNumbers"
curl -s -X POST http://localhost:8000/generate \
-H "Content-Type: application/json" \
-d @- <<EOF | jq -r .generated_text
{
"inputs": "<start_of_turn>user\n${USER_PROMPT}<end_of_turn>\n",
"parameters": {
"temperature": 0.90,
"top_p": 0.95,
"max_new_tokens": 2000
}
}
EOF
Die folgende Ausgabe zeigt ein Beispiel für die Modellantwort:
def addNumbers(num1, num2):
sum = num1 + num2
return sum
# Get the input from the user
num1 = float(input("Enter the first number: "))
num2 = float(input("Enter the second number: "))
# Call the addNumbers function
sum = addNumbers(num1, num2)
# Print the result
print("The sum of", num1, "and", num2, "is", sum)
Optional: Über eine Gradio-Chat-Oberfläche mit dem Modell interagieren
In diesem Abschnitt erstellen Sie eine Webchat-Anwendung, mit der Sie mit Ihrem abgestimmten Modell für Anweisungen interagieren können. Der Einfachheit halber wird in diesem Abschnitt nur der Testansatz mit dem 2B-it-Modell beschrieben.
Gradio ist eine Python-Bibliothek mit einem ChatInterface
-Wrapper, der Benutzeroberflächen für Chatbots erstellt.
Chatoberfläche bereitstellen
Speichern Sie in Cloud Shell das folgende Manifest als
gradio.yaml
:Wenden Sie das Manifest an:
kubectl apply -f gradio.yaml
Warten Sie, bis die Bereitstellung verfügbar ist:
kubectl wait --for=condition=Available --timeout=300s deployment/gradio
Chatoberfläche verwenden
Führen Sie in Cloud Shell den folgenden Befehl aus:
kubectl port-forward service/gradio 8080:8080
Dadurch wird eine Portweiterleitung von Cloud Shell zum Gradio-Dienst erstellt.
Klicken Sie oben rechts in der Cloud Shell-Taskleiste auf die Schaltfläche Webvorschau. Klicken Sie auf Vorschau auf Port 8080. Im Browser wird ein neuer Tab geöffnet.
Interagieren Sie über die Gradio-Chat-Oberfläche mit Gemma. Fügen Sie einen Prompt hinzu und klicken Sie auf Senden.
Probleme beheben
- Wenn Sie die
Empty reply from server
-Meldung erhalten, hat der Container möglicherweise die Modelldaten noch nicht ganz heruntergeladen. Prüfen Sie die Logs des Pods noch einmal auf dieConnected
-Meldung, die angibt, dass das Modell einsatzbereit ist. - Wenn
Connection refused
angezeigt wird, prüfen Sie, ob die Portweiterleitung aktiv ist.
Bereinigen
Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.
Bereitgestellte Ressourcen löschen
Mit dem folgenden Befehl vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung erstellten Ressourcen in Rechnung gestellt werden:
gcloud container clusters delete ${CLUSTER_NAME} \
--region=${REGION}
Nächste Schritte
- GPUs in GKE
- Gemma mit TGI auf anderen Beschleunigern verwenden, einschließlich A100- und H100-GPUs, indem Sie den Beispielcode in GitHub aufrufen.
- GPU-Arbeitslasten in Autopilot bereitstellen
- GPU-Arbeitslasten in Standard bereitstellen
- TGI-Dokumentation lesen.
- Erfahren Sie mehr über den Vertex AI Model Garden.
- Erfahren Sie, wie Sie optimierte KI-/ML-Arbeitslasten über Funktionen zur GKE-Plattformorchestrierung ausführen.