Cette page a été traduite par l'API Cloud Translation.

Diffuser un LLM à l'aide de TPU sur GKE avec JetStream et PyTorch

Ce guide vous explique comment diffuser un grand modèle de langage (LLM) à l'aide des TPU (Tensor Processing Units) sur Google Kubernetes Engine (GKE) avec JetStream via PyTorch. Dans ce guide, vous téléchargez des pondérations de modèle dans Cloud Storage et les déployez sur un cluster GKE Autopilot ou Standard à l'aide d'un conteneur exécutant JetStream

Si vous avez besoin de l'évolutivité, de la résilience et de la rentabilité offertes par les fonctionnalités de Kubernetes lors du déploiement de votre modèle sur JetStream, ce guide est un bon point de départ.

Ce guide est destiné aux clients d'IA générative qui utilisent PyTorch, aux utilisateurs nouveaux ou existants de GKE, aux ingénieurs en ML, aux ingénieurs MLOps (DevOps) ou aux administrateurs de plate-forme qui souhaitent utiliser les fonctionnalités d'orchestration de conteneurs Kubernetes pour diffuser des LLM.

Contexte

En diffusant un LLM à l'aide de TPU sur GKE avec JetStream, vous pouvez créer une solution de diffusion robuste et prête pour la production avec tous les avantages de la plate-forme Kubernetes gérée, y compris en termes de rentabilité, évolutivité et haute disponibilité. Cette section décrit les principales technologies utilisées dans ce tutoriel.

À propos des TPU

Les TPU sont des circuits intégrés propres aux applications (Application-Specific Integrated Circuit ou ASIC), développés spécifiquement par Google et permettant d'accélérer le machine learning et les modèles d'IA créés à l'aide de frameworks tels que TensorFlow, PyTorch et JAX.

Avant d'utiliser des TPU dans GKE, nous vous recommandons de suivre le parcours de formation suivant :

Découvrez la disponibilité actuelle des versions de TPU avec l'architecture système de Cloud TPU.
Apprenez-en plus sur les TPU dans GKE.

Ce tutoriel explique comment diffuser différents modèles LLM. GKE déploie le modèle sur des nœuds TPUv5e à hôte unique avec des topologies TPU configurées en fonction des exigences du modèle pour diffuser des requêtes avec une faible latence.

À propos de JetStream

JetStream est un framework de diffusion d'inférences Open Source développé par Google. JetStream permet des inférences hautes performances, à haut débit et à mémoire optimisée sur les TPU et les GPU. JetStream fournit des optimisations de performances avancées, y compris des techniques de traitement par lot continu, d'optimisation du cache KV et de quantification, pour faciliter le déploiement de LLM. JetStream permet aux services PyTorch/XLA et JAX TPU d'atteindre des performances optimales.

Traitement par lots continu

Le traitement par lot continu est une technique qui regroupe dynamiquement les requêtes d'inférence entrantes en lots, ce qui réduit la latence et augmente le débit.

Quantification du cache KV

La quantification du cache KV consiste à compresser le cache clé-valeur utilisé dans les mécanismes d'attention, ce qui réduit les besoins en mémoire.

Quantification des poids Int8

La quantification des poids Int8 réduit la précision des poids du modèle de 32 bits à virgule flottante à des entiers de 8 bits, ce qui accélère le calcul et réduit l'utilisation de mémoire.

Pour en savoir plus sur ces optimisations, consultez les dépôts de projets JetStream PyTorch et JetStream MaxText.

À propos de PyTorch

PyTorch est un framework de machine learning Open Source développé par Meta et qui fait désormais partie de la Linux Foundation. PyTorch fournit des fonctionnalités de haut niveau, telles que le calcul Tensor et les réseaux de neurones profonds.

Objectifs

Préparer un cluster GKE Autopilot ou standard avec la topologie TPU recommandée en fonction des caractéristiques du modèle.
Déployer des composants JetStream sur GKE.
Obtenir et publier votre modèle.
Diffuser le modèle publié et interagir avec lui.

Architecture

Cette section décrit l'architecture GKE utilisée dans ce tutoriel. L'architecture comprend un cluster GKE Autopilot ou Standard qui provisionne des TPU et héberge des composants JetStream pour déployer et diffuser les modèles.

Le schéma suivant montre les composants de cette architecture :

Architecture du cluster GKE avec des pools de nœuds TPU à hôte unique contenant les composants JetStream-PyTorch et HTTP JetStream.

Cette architecture comprend les composants suivants :

Un cluster régional GKE Autopilot ou Standard.
Deux pools de nœuds de tranche de TPU à hôte unique qui hébergent le déploiement JetStream.
Le composant de service répartit le trafic entrant sur toutes les instances répliquées JetStream HTTP.
JetStream HTTP est un serveur HTTP qui accepte les requêtes en tant qu'encapsuleur au format requis par JetStream et les envoie au client GRPC de JetStream.
JetStream-PyTorch est un serveur JetStream qui effectue des inférences avec traitement par lot continu.

Avant de commencer

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Enable the API

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin, roles/resourcemanager.projectIamAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  Accéder à IAM
2. Sélectionnez le projet.
3. Cliquez sur Accorder l'accès.
4. Dans le champ Nouveaux comptes principaux, saisissez votre identifiant utilisateur. Il s'agit généralement de l'adresse e-mail d'un compte Google.
5. Dans la liste Sélectionner un rôle, sélectionnez un rôle.
6. Pour attribuer des rôles supplémentaires, cliquez sur Ajouter un autre rôle et ajoutez tous les rôles supplémentaires.
7. Cliquez sur Enregistrer.

Diffuser un LLM à l'aide de TPU sur GKE avec JetStream et PyTorch

Contexte

À propos des TPU

À propos de JetStream

À propos de PyTorch

Objectifs

Architecture

Avant de commencer

Check for the roles

Grant the roles

Accéder au modèle

Gemma 7B-it

Llama 3 8B

Préparer l'environnement

Créer et configurer des ressources Google Cloud

Créer un cluster GKE

Autopilot

Standard

Générer votre jeton de CLI Hugging Face dans Cloud Shell

Créer un secret Kubernetes pour les identifiants Hugging Face

Configurer l'accès à vos charges de travail à l'aide de la fédération d'identité de charge de travail pour GKE

Déployer JetStream

Gemma 7B-it

Llama 3 8B

Diffuser le modèle

Configurer le transfert de port

Interagir avec le modèle à l'aide de curl

Observer les performances du modèle

Résoudre les problèmes

Effectuer un nettoyage

Supprimer les ressources déployées

Étapes suivantes

Diffuser un LLM à l'aide de TPU sur GKE avec JetStream et PyTorch Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Contexte

À propos des TPU

À propos de JetStream

À propos de PyTorch

Objectifs

Architecture

Avant de commencer

Check for the roles

Grant the roles

Accéder au modèle

Gemma 7B-it

Llama 3 8B

Préparer l'environnement

Créer et configurer des ressources Google Cloud

Créer un cluster GKE

Autopilot

Standard

Générer votre jeton de CLI Hugging Face dans Cloud Shell

Créer un secret Kubernetes pour les identifiants Hugging Face

Configurer l'accès à vos charges de travail à l'aide de la fédération d'identité de charge de travail pour GKE

Déployer JetStream

Gemma 7B-it

Llama 3 8B

Diffuser le modèle

Configurer le transfert de port

Interagir avec le modèle à l'aide de curl

Observer les performances du modèle

Résoudre les problèmes

Effectuer un nettoyage

Supprimer les ressources déployées

Étapes suivantes

Diffuser un LLM à l'aide de TPU sur GKE avec JetStream et PyTorch