Diese Seite wurde von der Cloud Translation API übersetzt.

Offene Gemma-Modelle mit mehreren GPUs in GKE optimieren

Autopilot Standard

In dieser Anleitung wird beschrieben, wie Sie das Gemma-LLM (Large Language Model), eine Familie offener Modelle, mit Grafikprozessoren (GPUs) in Google Kubernetes Engine (GKE) mit der Transformer-Bibliothek von Hugging Face optimieren. Die Feinabstimmung ist ein überwachter Lernprozess, bei dem die Fähigkeit eines vortrainierten Modells, bestimmte Aufgaben auszuführen, verbessert wird, indem seine Parameter mit einem neuen Dataset aktualisiert werden. In dieser Anleitung laden Sie die vortrainierten Modelle der Gemma-Familie mit 2B-Parametern von Hugging Face herunter und optimieren sie in einem GKE-Cluster vom Typ Autopilot oder Standard.

Dieser Leitfaden ist ein guter Ausgangspunkt, wenn Sie für die Feinabstimmung eines LLM die detaillierte Kontrolle, Skalierbarkeit, Robustheit, Übertragbarkeit und Kosteneffizienz einer verwalteten Kubernetes-Umgebung benötigen.

Best Practice:

Wenn Sie eine einheitliche verwaltete KI-Plattform benötigen, um ML-Modelle schnell und kostengünstig zu erstellen und bereitzustellen, empfehlen wir Ihnen, unsere Vertex AI-Lösung zu testen.

Hintergrund

Wenn Sie Gemma mithilfe von GPUs in GKE mit der Transformer-Bibliothek bereitstellen, können Sie eine robuste, produktionsbereite Inferenzbereitstellungslösung mit allen Vorteilen von verwaltetem Kubernetes implementieren, darunter effiziente Skalierbarkeit und höhere Verfügbarkeit. In diesem Abschnitt werden die in diesem Leitfaden verwendeten Schlüsseltechnologien beschrieben.

Gemma

Gemma ist eine Reihe offen verfügbarer, einfacher und auf künstliche Intelligenz basierender Modelle, die unter einer offenen Lizenz veröffentlicht wurden. Diese KI-Modelle können in Ihren Anwendungen, Geräten, Mobilgeräten oder gehosteten Diensten ausgeführt werden.

In diesem Leitfaden stellen wir Gemma für die Textgenerierung vor. Sie können diese Modelle auch für bestimmte Aufgaben optimieren.

In diesem Dokument verwenden Sie das Dataset b-mc2/sql-create-context.

Weitere Informationen finden Sie in der Gemma-Dokumentation.

GPUs

Mit GPUs können Sie bestimmte Arbeitslasten wie maschinelles Lernen und Datenverarbeitung beschleunigen, die auf Ihren Knoten ausgeführt werden. GKE bietet eine Reihe von Maschinentypoptionen für die Knotenkonfiguration, einschließlich Maschinentypen mit NVIDIA H100-, L4- und A100-GPUs.

Bevor Sie GPUs in GKE verwenden, sollten Sie den folgenden Lernpfad durcharbeiten:

Hugging Face-Transformer

Mit der Transformer-Bibliothek von Hugging Face können Sie auf modernste vortrainierte Modelle zugreifen. Mit der Transformers-Bibliothek können Sie den Zeit-, Ressourcen- und Rechenaufwand für das gesamte Modelltraining reduzieren.

In dieser Anleitung verwenden Sie die APIs und Tools von Hugging Face, um diese vortrainierten Modelle herunterzuladen und zu optimieren.

Ziele

Diese Anleitung richtet sich an neue oder bestehende Nutzer von GKE, ML-Entwickler, MLOps-Entwickler (DevOps) oder Plattformadministratoren, die daran interessiert sind, Funktionen zur Kubernetes-Containerorchestrierung für die Feinabstimmung von LLMs auf H100-, A100- und L4-GPU-Hardware zu nutzen.

Sie sollten am Ende dieses Leitfadens in der Lage sein, die folgenden Schritte auszuführen:

Ihre Umgebung mit einem GKE-Cluster im Autopilot-Modus vorbereiten.
Erstellen Sie einen Container für die Feinabstimmung.
Verwenden Sie GPUs, um das Gemma 2B-Modell zu optimieren, und laden Sie das Modell in Hugging Face hoch.

Hinweise

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Enable the API

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  IAM aufrufen
2. Wählen Sie das Projekt aus.
3. Klicken Sie auf Zugriffsrechte erteilen.
4. Geben Sie im Feld Neue Hauptkonten Ihre Nutzer-ID ein. Das ist in der Regel die E‑Mail-Adresse eines Google-Kontos.
5. Wählen Sie in der Liste Rolle auswählen eine Rolle aus.
6. Klicken Sie auf Weitere Rolle hinzufügen, wenn Sie weitere Rollen zuweisen möchten.
7. Klicken Sie auf Speichern.

Offene Gemma-Modelle mit mehreren GPUs in GKE optimieren

Hintergrund

Gemma

GPUs

Hugging Face-Transformer

Ziele

Hinweise

Check for the roles

Grant the roles

Zugriff auf das Modell erhalten

Zugriffstoken erstellen

Umgebung vorbereiten

Google Cloud -Ressourcen erstellen und konfigurieren

GKE-Cluster und -Knotenpool erstellen

Autopilot

Standard

Kubernetes-Secret für Hugging Face-Anmeldedaten erstellen

Container für die Feinabstimmung mit Docker und Cloud Build erstellen

Job zur Feinabstimmung in GKE ausführen

Optimiertes Modell in GKE bereitstellen

Modell bereitstellen

Portweiterleitung einrichten

Mithilfe von curl mit dem Modell interagieren

Bereinigen

Bereitgestellte Ressourcen löschen

Nächste Schritte

Offene Gemma-Modelle mit mehreren GPUs in GKE optimieren Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Hintergrund

Gemma

GPUs

Hugging Face-Transformer

Ziele

Hinweise

Check for the roles

Grant the roles

Zugriff auf das Modell erhalten

Lizenz-Einwilligungsvereinbarung unterzeichnen

Zugriffstoken erstellen

Umgebung vorbereiten

Google Cloud -Ressourcen erstellen und konfigurieren

GKE-Cluster und -Knotenpool erstellen

Autopilot

Standard

Kubernetes-Secret für Hugging Face-Anmeldedaten erstellen

Container für die Feinabstimmung mit Docker und Cloud Build erstellen

Job zur Feinabstimmung in GKE ausführen

Optimiertes Modell in GKE bereitstellen

Modell bereitstellen

Portweiterleitung einrichten

Mithilfe von curl mit dem Modell interagieren

Bereinigen

Bereitgestellte Ressourcen löschen

Nächste Schritte

Offene Gemma-Modelle mit mehreren GPUs in GKE optimieren