Diese Seite wurde von der Cloud Translation API übersetzt.

Offene Gemma-Modelle mit mehreren GPUs in GKE optimieren

Autopilot Standard

In dieser Anleitung wird beschrieben, wie Sie das Gemma-LLM (Large Language Model), eine Familie offener Modelle, mit Grafikprozessoren (GPUs) in Google Kubernetes Engine (GKE) mit der Transformer-Bibliothek von Hugging Face optimieren. Die Feinabstimmung ist ein überwachter Lernprozess, bei dem die Fähigkeit eines vortrainierten Modells, bestimmte Aufgaben auszuführen, verbessert wird, indem seine Parameter mit einem neuen Dataset aktualisiert werden. In dieser Anleitung laden Sie die vortrainierten Modelle der Gemma-Familie mit 2B-Parametern von Hugging Face herunter und optimieren sie in einem GKE-Cluster vom Typ Autopilot oder Standard.

Dieser Leitfaden ist ein guter Ausgangspunkt, wenn Sie für die Feinabstimmung eines LLM die detaillierte Kontrolle, Skalierbarkeit, Robustheit, Übertragbarkeit und Kosteneffizienz einer verwalteten Kubernetes-Umgebung benötigen.

Best Practice:

Wenn Sie eine einheitliche verwaltete KI-Plattform benötigen, um ML-Modelle schnell und kostengünstig zu erstellen und bereitzustellen, empfehlen wir Ihnen, unsere Vertex AI-Lösung zu testen.

Hintergrund

Wenn Sie Gemma mithilfe von GPUs in GKE mit der Transformer-Bibliothek bereitstellen, können Sie eine robuste, produktionsbereite Inferenzbereitstellungslösung mit allen Vorteilen von verwaltetem Kubernetes implementieren, darunter effiziente Skalierbarkeit und höhere Verfügbarkeit. In diesem Abschnitt werden die in diesem Leitfaden verwendeten Schlüsseltechnologien beschrieben.

Gemma

Gemma ist eine Reihe offen verfügbarer, einfacher und auf künstliche Intelligenz basierender Modelle, die unter einer offenen Lizenz veröffentlicht wurden. Diese KI-Modelle können in Ihren Anwendungen, Geräten, Mobilgeräten oder gehosteten Diensten ausgeführt werden.

In diesem Leitfaden stellen wir Gemma für die Textgenerierung vor. Sie können diese Modelle auch für bestimmte Aufgaben optimieren.

In diesem Dokument verwenden Sie das Dataset b-mc2/sql-create-context.

Weitere Informationen finden Sie in der Gemma-Dokumentation.

GPUs

Mit GPUs können Sie bestimmte Arbeitslasten wie maschinelles Lernen und Datenverarbeitung beschleunigen, die auf Ihren Knoten ausgeführt werden. GKE bietet eine Reihe von Maschinentypoptionen für die Knotenkonfiguration, einschließlich Maschinentypen mit NVIDIA H100-, L4- und A100-GPUs.

Bevor Sie GPUs in GKE verwenden, sollten Sie den folgenden Lernpfad durcharbeiten:

Hugging Face-Transformer

Mit der Transformer-Bibliothek von Hugging Face können Sie auf modernste vortrainierte Modelle zugreifen. Mit der Transformers-Bibliothek können Sie den Zeit-, Ressourcen- und Rechenaufwand für das gesamte Modelltraining reduzieren.

In dieser Anleitung verwenden Sie die APIs und Tools von Hugging Face, um diese vortrainierten Modelle herunterzuladen und zu optimieren.

Lernziele

Diese Anleitung richtet sich an neue oder bestehende Nutzer von GKE, ML-Entwickler, MLOps-Entwickler (DevOps) oder Plattformadministratoren, die daran interessiert sind, Funktionen zur Kubernetes-Containerorchestrierung für die Feinabstimmung von LLMs auf H100-, A100- und L4-GPU-Hardware zu nutzen.

Sie sollten am Ende dieses Leitfadens in der Lage sein, die folgenden Schritte auszuführen:

Ihre Umgebung mit einem GKE-Cluster im Autopilot-Modus vorbereiten.
Erstellen Sie einen Container für die Feinabstimmung.
Verwenden Sie GPUs, um das Gemma 2B-Modell zu optimieren, und laden Sie das Modell in Hugging Face hoch.

Hinweise

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the required API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the required API.

Enable the API

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  Zu IAM
2. Wählen Sie das Projekt aus.
3. Klicken Sie auf Zugriff erlauben.
4. Geben Sie im Feld Neue Hauptkonten Ihre Nutzer-ID ein. Dies ist in der Regel die E-Mail-Adresse eines Google-Kontos.
5. Wählen Sie in der Liste Rolle auswählen eine Rolle aus.
6. Wenn Sie weitere Rollen hinzufügen möchten, klicken Sie auf Weitere Rolle hinzufügen und fügen Sie weitere Rollen hinzu.
7. Klicken Sie auf Speichern.

Erstellen Sie ein Hugging Face-Konto, falls Sie noch keines haben.
Prüfen Sie, ob Ihr Projekt ein ausreichendes Kontingent für L4-GPUs hat. Weitere Informationen finden Sie unter GPUs und Zuteilungskontingente.

Zugriff auf das Modell erhalten

Wenn Sie Zugriff auf die Gemma-Modelle für die Bereitstellung in GKE erhalten möchten, müssen Sie zuerst die Lizenzeinwilligungsvereinbarung unterzeichnen und dann ein Hugging-Face-Zugriffstoken generieren.

Sie müssen die Einwilligungsvereinbarung unterzeichnen, um Gemma verwenden zu können. Gehen Sie dazu so vor:

Rufen Sie die Seite zur Modelleinwilligung auf Kaggle.com auf.
Bestätigen Sie die Einwilligung mit Ihrem Hugging Face-Konto.
Akzeptieren Sie die Modellbedingungen.

Zugriffstoken erstellen

Für den Zugriff auf das Modell über Hugging Face benötigen Sie ein Hugging Face-Token.

Führen Sie die folgenden Schritte aus, um ein neues Token zu generieren, falls Sie noch keines haben:

Klicken Sie auf Profil > Einstellungen > Zugriffstokens.
Wählen Sie Neues Token aus.
Geben Sie einen Namen Ihrer Wahl und eine Rolle von mindestens Write an.
Wählen Sie Token generieren aus.
Kopieren Sie das Token in die Zwischenablage.

Umgebung vorbereiten

In dieser Anleitung verwenden Sie Cloud Shell zum Verwalten von Ressourcen, die inGoogle Cloudgehostet werden. Die Software, die Sie für diese Anleitung benötigen, ist in Cloud Shell vorinstalliert, einschließlich kubectl und gcloud CLI.

So richten Sie Ihre Umgebung mit Cloud Shell ein:

Starten Sie in der Google Cloud Console eine Cloud Shell-Sitzung. Klicken Sie dazu in der Google Cloud Console auf Cloud Shell aktivieren. Dadurch wird im unteren Bereich der Google Cloud console eine Sitzung gestartet.
Legen Sie die Standardumgebungsvariablen fest:
```
gcloud config set project PROJECT_ID
export PROJECT_ID=$(gcloud config get project)
export REGION=REGION
export CLUSTER_NAME=CLUSTER_NAME
export HF_TOKEN=HF_TOKEN
export HF_PROFILE=HF_PROFILE
```
Ersetzen Sie die folgenden Werte:
- PROJECT_ID: Ihre Google Cloud Projekt-ID.
- REGION: eine Region, die den Beschleunigertyp unterstützt, den Sie verwenden möchten, z. B. us-central1 für L4-GPUs.
- CLUSTER_NAME: Der Name Ihres Clusters.
- HF_TOKEN ist das Hugging Face-Token, das Sie zuvor generiert haben.
- HF_PROFILE: die Hugging Face-Profil-ID, die Sie zuvor erstellt haben.

Klonen Sie das Beispielcode-Repository aus GitHub:

git clone https://github.com/GoogleCloudPlatform/kubernetes-engine-samples
cd kubernetes-engine-samples/ai-ml/llm-finetuning-gemma

Google Cloud -Ressourcen erstellen und konfigurieren

Folgen Sie dieser Anleitung, um die erforderlichen Ressourcen zu erstellen.

GKE-Cluster und -Knotenpool erstellen

Sie können Gemma auf GPUs in einem GKE-Cluster im Autopilot- oder Standardmodus bereitstellen. Informationen zum Auswählen des GKE-Betriebsmodus, der für Ihre Arbeitslasten am besten geeignet ist, finden Sie unter GKE-Betriebsmodus auswählen.

Best Practice:

Verwenden Sie Autopilot für eine vollständig verwaltete Kubernetes-Umgebung.

Autopilot

Führen Sie in Cloud Shell den folgenden Befehl aus:

gcloud container clusters create-auto CLUSTER_NAME \
    --project=PROJECT_ID \
    --region=REGION \
    --release-channel=rapid \
    --cluster-version=1.29

Ersetzen Sie die folgenden Werte:

PROJECT_ID: Ihre Google Cloud Projekt-ID.
REGION: eine Region, die den Beschleunigertyp unterstützt, den Sie verwenden möchten, z. B. us-central1 für L4-GPUs.
CLUSTER_NAME: Der Name Ihres Clusters.

GKE erstellt einen Autopilot-Cluster mit CPU- und GPU-Knoten, wie von den bereitgestellten Arbeitslasten angefordert.

Standard

Führen Sie in Cloud Shell den folgenden Befehl aus, um einen Standardcluster zu erstellen:
```
gcloud container clusters create CLUSTER_NAME \
    --project=PROJECT_ID \
    --region=REGION \
    --workload-pool=PROJECT_ID.svc.id.goog \
    --release-channel=rapid \
    --num-nodes=1
```
Ersetzen Sie die folgenden Werte:
- PROJECT_ID: Ihre Google Cloud Projekt-ID.
- REGION: eine Region, die den Beschleunigertyp unterstützt, den Sie verwenden möchten, z. B. us-central1 für L4-GPUs.
- CLUSTER_NAME: Der Name Ihres Clusters.
Die Erstellung eines Clusters kann einige Minuten dauern.

Führen Sie den folgenden Befehl aus, um einen Knotenpool für Ihren Cluster zu erstellen:

gcloud container node-pools create gpupool \
    --accelerator type=nvidia-l4,count=8,gpu-driver-version=latest \
    --project=PROJECT_ID \
    --location=REGION \
    --node-locations=REGION -a \
    --cluster=CLUSTER_NAME \
    --machine-type=g2-standard-96 \
    --num-nodes=1

GKE erstellt einen einzelnen Knotenpool mit zwei L4-GPUs für jeden Knoten.

Kubernetes-Secret für Hugging Face-Anmeldedaten erstellen

Gehen Sie in Cloud Shell so vor:

Konfigurieren Sie kubectl für die Kommunikation mit Ihrem Cluster:
```
gcloud container clusters get-credentials CLUSTER_NAME \
    --location=REGION
```
Ersetzen Sie die folgenden Werte:
- REGION: eine Region, die den Beschleunigertyp unterstützt, den Sie verwenden möchten, z. B. us-central1 für L4-GPUs.
- CLUSTER_NAME: Der Name Ihres Clusters.

Erstellen Sie ein Kubernetes-Secret, das das Hugging Face-Token enthält:

kubectl create secret generic hf-secret \
    --from-literal=hf_api_token=$HF_TOKEN \
    --dry-run=client -o yaml | kubectl apply -f -

Ersetzen Sie HF_TOKEN durch das Hugging Face-Token, das Sie zuvor generiert haben.

Container für die Feinabstimmung mit Docker und Cloud Build erstellen

In diesem Container wird der PyTorch- und Hugging Face-Transformer-Code verwendet, um das vorhandene vortrainierte Gemma-Modell zu optimieren.

Artifact Registry-Docker-Repository erstellen:

gcloud artifacts repositories create gemma \
    --project=PROJECT_ID \
    --repository-format=docker \
    --location=us \
    --description="Gemma Repo"

Ersetzen Sie PROJECT_ID durch Ihre Projekt-ID. Google Cloud

Erstellen Sie das Image und übertragen Sie es per Push:
```
gcloud builds submit .
```

Exportieren Sie IMAGE_URL für die spätere Verwendung in dieser Anleitung.

export IMAGE_URL=us-docker.pkg.dev/PROJECT_ID/gemma/finetune-gemma-gpu:1.0.0

Job zur Feinabstimmung in GKE ausführen

In diesem Abschnitt stellen Sie den Gemma-Job für die Feinabstimmung bereit. Ein Jobcontroller in Kubernetes erstellt einen oder mehrere Pods und sorgt dafür, dass sie eine bestimmte Aufgabe erfolgreich ausführen.

Öffnen Sie die Datei finetune.yaml.

apiVersion: batch/v1
kind: Job
metadata:
  name: finetune-job
  namespace: default
spec:
  backoffLimit: 2
  template:
    metadata:
      annotations:
        kubectl.kubernetes.io/default-container: finetuner
    spec:
      terminationGracePeriodSeconds: 600
      containers:
      - name: finetuner
        image: $IMAGE_URL
        resources:
          limits:
            nvidia.com/gpu: "8"
        env:
        - name: MODEL_NAME
          value: "google/gemma-2b"
        - name: NEW_MODEL
          value: "gemma-2b-sql-finetuned"
        - name: LORA_R
          value: "8"
        - name: LORA_ALPHA
          value: "16"
        - name: TRAIN_BATCH_SIZE
          value: "1"
        - name: EVAL_BATCH_SIZE
          value: "2"
        - name: GRADIENT_ACCUMULATION_STEPS
          value: "2"
        - name: DATASET_LIMIT
          value: "1000"
        - name: MAX_SEQ_LENGTH
          value: "512"
        - name: LOGGING_STEPS
          value: "5"
        - name: HF_TOKEN
          valueFrom:
            secretKeyRef:
              name: hf-secret
              key: hf_api_token
        volumeMounts:
        - mountPath: /dev/shm
          name: dshm
      volumes:
      - name: dshm
        emptyDir:
          medium: Memory
      nodeSelector:
        cloud.google.com/gke-accelerator: nvidia-l4
      restartPolicy: OnFailure

Wenden Sie das Manifest an, um den Job für die Feinabstimmung zu erstellen:
```
envsubst < finetune.yaml | kubectl apply -f -
```
Mit dieser Anweisung wird die IMAGE_URL durch die Variable im Manifest ersetzt.
Überwachen Sie den Job mit folgendem Befehl:
```
watch kubectl get pods
```
Prüfen Sie die Logs des Jobs mit dem folgenden Befehl:
```
kubectl logs job.batch/finetune-job -f
```
Die Jobressource lädt die Modelldaten herunter und optimiert das Modell dann auf allen acht GPUs. Dieser Vorgang kann bis zu 20 Minuten dauern.
Rufen Sie nach Abschluss des Jobs Ihr Hugging Face-Konto auf. In Ihrem Hugging Face-Profil wird ein neues Modell mit dem Namen HF_PROFILE/gemma-2b-sql-finetuned angezeigt.

Optimiertes Modell in GKE bereitstellen

In diesem Abschnitt stellen Sie den vLLM-Container für das Gemma-Modell bereit. In dieser Anleitung wird eine Kubernetes-Bereitstellung verwendet, um den vLLM-Container bereitzustellen. Ein Deployment ist ein Kubernetes-API-Objekt, mit dem Sie mehrere Replikate von Pods ausführen können, die auf die Knoten in einem Cluster verteilt sind.

Erstellen Sie das folgende serve-gemma.yaml-Manifest:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: vllm-gemma-deployment
spec:
  replicas: 1
  selector:
    matchLabels:
      app: gemma-server
  template:
    metadata:
      labels:
        app: gemma-server
        ai.gke.io/model: gemma-2b
        ai.gke.io/inference-server: vllm
        examples.ai.gke.io/source: user-guide
    spec:
      containers:
      - name: inference-server
        image: us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:20240220_0936_RC01
        resources:
          requests:
            cpu: "2"
            memory: "7Gi"
            ephemeral-storage: "10Gi"
            nvidia.com/gpu: 1
          limits:
            cpu: "2"
            memory: "7Gi"
            ephemeral-storage: "10Gi"
            nvidia.com/gpu: 1
        command: ["python3", "-m", "vllm.entrypoints.api_server"]
        args:
        - --model=$(MODEL_ID)
        - --tensor-parallel-size=1
        env:
        - name: MODEL_ID
          value: google/gemma-2b
        - name: HUGGING_FACE_HUB_TOKEN
          valueFrom:
            secretKeyRef:
              name: hf-secret
              key: hf_api_token
        volumeMounts:
        - mountPath: /dev/shm
          name: dshm
      volumes:
      - name: dshm
        emptyDir:
            medium: Memory
      nodeSelector:
        cloud.google.com/gke-accelerator: nvidia-l4
---
apiVersion: v1
kind: Service
metadata:
  name: llm-service
spec:
  selector:
    app: gemma-server
  type: ClusterIP
  ports:
    - protocol: TCP
      port: 8000
      targetPort: 8000

Umgebungsvariable für neue MODEL_ID erstellen:
```
export MODEL_ID=HF_PROFILE/gemma-2b-sql-finetuned
```
Ersetzen Sie HF_PROFILE durch die Hugging Face-Profil-ID, die Sie zuvor erstellt haben.

Ersetzen Sie MODEL_ID im Manifest:

sed -i "s|google/gemma-2b|$MODEL_ID|g" serve-gemma.yaml

Wenden Sie das Manifest an:
```
kubectl apply -f serve-gemma.yaml
```
Ein Pod im Cluster lädt die Modellgewichtungen von Hugging Face herunter und startet die Bereitstellungs-Engine.

Warten Sie, bis die Bereitstellung verfügbar ist:

kubectl wait --for=condition=Available --timeout=700s deployment/vllm-gemma-deployment

So rufen Sie die Logs des laufenden Deployments auf:
```
kubectl logs -f -l app=gemma-server
```

Die Deployment-Ressource lädt die Modelldaten herunter. Das kann einige Minuten dauern. Die Ausgabe sieht in etwa so aus:

INFO 01-26 19:02:54 model_runner.py:689] Graph capturing finished in 4 secs.
INFO:     Started server process [1]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)

Das Modell muss vollständig heruntergeladen sein, bevor Sie mit dem nächsten Abschnitt fortfahren.

Modell bereitstellen

In diesem Abschnitt interagieren Sie mit dem Modell.

Portweiterleitung einrichten

Führen Sie nach der Bereitstellung des Modells den folgenden Befehl aus, um die Portweiterleitung zum Modell einzurichten:

kubectl port-forward service/llm-service 8000:8000

Die Ausgabe sieht in etwa so aus:

Forwarding from 127.0.0.1:8000 -> 8000

Mithilfe von curl mit dem Modell interagieren

Verwenden Sie in einer neuen Terminalsitzung curl, um mit Ihrem Modell zu chatten:

Der folgende Beispielbefehl ist für TGI:

USER_PROMPT="Question: What is the total number of attendees with age over 30 at kubecon eu? Context: CREATE TABLE attendees (name VARCHAR, age INTEGER, kubecon VARCHAR)"

curl -X POST http://localhost:8000/generate \
  -H "Content-Type: application/json" \
  -d @- <<EOF
{
    "prompt": "${USER_PROMPT}",
    "temperature": 0.1,
    "top_p": 1.0,
    "max_tokens": 24
}
EOF

Die folgende Ausgabe zeigt ein Beispiel für die Modellantwort:

{"generated_text":" Answer: SELECT COUNT(age) FROM attendees WHERE age > 30 AND kubecon = 'eu'\n"}

Je nach Abfrage müssen Sie möglicherweise die max_token ändern, um ein besseres Ergebnis zu erhalten. Sie können auch das Modell mit Instruction Tuning verwenden, um die Chatqualität zu verbessern.

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Bereitgestellte Ressourcen löschen

Mit dem folgenden Befehl vermeiden Sie, dass Ihrem Google Cloud Konto die in dieser Anleitung erstellten Ressourcen in Rechnung gestellt werden:

gcloud container clusters delete CLUSTER_NAME \
    --region=REGION

Ersetzen Sie die folgenden Werte:

REGION: eine Region, die den Beschleunigertyp unterstützt, den Sie verwenden möchten, z. B. us-central1 für L4-GPUs.
CLUSTER_NAME: Der Name Ihres Clusters.

Nächste Schritte

GPUs in GKE
Gemma mit TGI auf anderen Beschleunigern verwenden, einschließlich A100- und H100-GPUs, indem Sie den Beispielcode in GitHub aufrufen.
GPU-Arbeitslasten in Autopilot bereitstellen
GPU-Arbeitslasten in Standard bereitstellen
Erfahren Sie mehr über den Vertex AI Model Garden.
Erfahren Sie, wie Sie optimierte KI-/ML-Arbeitslasten über Funktionen zur GKE-Plattformorchestrierung ausführen.
Informationen zum Anwenden von Assured Workloads auf einen Ordner in Google Cloud, um gesetzliche Anforderungen zu erfüllen

Offene Gemma-Modelle mit mehreren GPUs in GKE optimieren Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Hintergrund

Gemma

GPUs

Hugging Face-Transformer

Lernziele

Hinweise

Check for the roles

Grant the roles

Zugriff auf das Modell erhalten

Lizenz-Einwilligungsvereinbarung unterzeichnen

Zugriffstoken erstellen

Umgebung vorbereiten

Google Cloud -Ressourcen erstellen und konfigurieren

GKE-Cluster und -Knotenpool erstellen

Autopilot

Standard

Kubernetes-Secret für Hugging Face-Anmeldedaten erstellen

Container für die Feinabstimmung mit Docker und Cloud Build erstellen

Job zur Feinabstimmung in GKE ausführen

Optimiertes Modell in GKE bereitstellen

Modell bereitstellen

Portweiterleitung einrichten

Mithilfe von curl mit dem Modell interagieren

Bereinigen

Bereitgestellte Ressourcen löschen

Nächste Schritte

Offene Gemma-Modelle mit mehreren GPUs in GKE optimieren