Cette page décrit les principaux concepts, avantages et étapes pour exécuter des charges de travail d'inférence de modèles d'IA/ML générative sur Google Kubernetes Engine (GKE), à l'aide des fonctionnalités d'IA générative de GKE.
Le service d'inférence est essentiel pour déployer vos modèles d'IA générative dans des applications concrètes. GKE fournit une plate-forme robuste et évolutive pour gérer vos charges de travail conteneurisées, ce qui en fait un choix intéressant pour diffuser vos modèles en développement ou en production. Avec GKE, vous pouvez utiliser les fonctionnalités d'orchestration, de scaling et de haute disponibilité de Kubernetes pour déployer et gérer efficacement vos services d'inférence.
Conscient des exigences spécifiques de l'inférence d'IA/ML, Google Cloud a introduit les fonctionnalités d'IA générative de GKE, une suite de fonctionnalités spécialement conçues pour améliorer et optimiser le service d'inférence sur GKE. Pour en savoir plus sur les fonctionnalités spécifiques, consultez Fonctionnalités d'IA générative de GKE.
Premiers pas avec l'inférence de modèles d'IA/de ML sur GKE
Vous pouvez commencer à explorer l'inférence de modèles d'IA/ML sur GKE en quelques minutes. Vous pouvez utiliser la version gratuite de GKE, qui vous permet de commencer à utiliser Kubernetes sans encourir les frais de gestion des clusters.
- Suivez les étapes de la section Déployer des modèles pour déployer un modèle et un serveur de modèles conteneurisés.
- Lisez Planifier l'inférence, qui fournit des instructions et des ressources pour planifier et exécuter vos charges de travail d'inférence sur GKE.
Terminologie
Cette page utilise la terminologie suivante liée à l'inférence sur GKE :
- Inférence : processus d'exécution d'un modèle d'IA générative, tel qu'un grand modèle linguistique ou un modèle de diffusion, dans un cluster GKE pour générer du texte, des embeddings ou d'autres sorties à partir de données d'entrée. L'inférence de modèle sur GKE utilise des accélérateurs pour gérer efficacement les calculs complexes pour le traitement en temps réel ou par lot.
- Modèle : modèle d'IA générative qui a appris des schémas à partir de données et qui est utilisé pour l'inférence. Les modèles varient en taille et en architecture, des plus petits modèles spécifiques à un domaine aux énormes réseaux de neurones de plusieurs milliards de paramètres optimisés pour diverses tâches linguistiques.
- Serveur de modèle : service conteneurisé chargé de recevoir les requêtes d'inférence et de renvoyer les inférences. Ce service peut être une application Python ou une solution plus robuste comme vLLM, JetStream, TensorFlow Serving ou Triton Inference Server. Le serveur de modèle gère le chargement des modèles en mémoire et exécute les calculs sur les accélérateurs pour renvoyer efficacement les inférences.
- Accélérateur : matériel spécialisé, tel que les processeurs graphiques (GPU) de NVIDIA et les Tensor Processing Units (TPU) de Google, qui peuvent être associés à des nœuds GKE pour accélérer les calculs, en particulier pour les tâches d'entraînement et d'inférence.
Avantages de GKE pour l'inférence
L'inférence sur GKE présente plusieurs avantages :
- Rapport prix/performances efficace : profitez de la valeur et de la vitesse dont vous avez besoin pour vos besoins de diffusion d'inférences. GKE vous permet de choisir parmi une gamme d'accélérateurs puissants (GPU et TPU), de sorte que vous ne payez que les performances dont vous avez besoin.
- Déploiement plus rapide : accélérez votre délai de mise sur le marché grâce aux bonnes pratiques, aux qualifications et aux bonnes pratiques personnalisées fournies par les fonctionnalités d'IA générative de GKE.
- Performances évolutives : effectuer un scaling horizontal les performances avec la surveillance prédéfinie en utilisant GKE Inference Gateway, l'autoscaling horizontal des pods (AHP) et des métriques personnalisées. Vous pouvez exécuter une gamme de modèles pré-entraînés ou personnalisés, de 8 milliards à 671 milliards de paramètres.
- Portabilité complète : profitez d'une portabilité complète grâce à des normes ouvertes. Google contribue aux principales API Kubernetes, y compris Gateway et LeaderWorkerSet. Toutes les API sont portables avec les distributions Kubernetes.
- Compatibilité avec l'écosystème : développez sur l'écosystème robuste de GKE, qui est compatible avec des outils tels que Kueue pour la gestion et la mise en file d'attente avancées des ressources, et Ray pour le calcul distribué, afin de faciliter l'entraînement et l'inférence de modèles de manière évolutive et efficace.
Fonctionnement de l'inférence sur GKE
Cette section décrit, de manière générale, les étapes à suivre pour utiliser GKE pour le service d'inférence :
Conteneurisez votre modèle : déployez un modèle en conteneurisant le serveur de modèles (tel que vLLM) et en chargeant les pondérations du modèle à partir de Cloud Storage ou d'un dépôt tel que Hugging Face. Lorsque vous utilisez le guide de démarrage rapide de GKE Inference, l'image conteneurisée est automatiquement gérée dans le fichier manifeste.
Créer un cluster GKE : créez un cluster GKE pour héberger votre déploiement. Choisissez Autopilot pour une expérience gérée ou Standard pour la personnalisation. Configurez la taille du cluster, les types de nœuds et les accélérateurs. Pour une configuration optimisée, utilisez le guide de démarrage rapide sur l'inférence.
Déployez votre modèle en tant que déploiement Kubernetes : créez un déploiement Kubernetes pour gérer votre service d'inférence. Un déploiement est un objet de l'API Kubernetes qui vous permet d'exécuter plusieurs instances dupliquées de pods répartis entre les nœuds d'un cluster. Spécifiez l'image Docker, les répliques et les paramètres. Kubernetes extrait l'image et exécute vos conteneurs sur les nœuds du cluster GKE. Configurez les pods avec votre serveur de modèle et votre modèle, y compris les adaptateurs LoRA si nécessaire.
Exposez votre service d'inférence : rendez votre service d'inférence accessible en créant un service Kubernetes pour fournir un point de terminaison réseau à votre déploiement. Utilisez Inference Gateway pour un équilibrage de charge et un routage intelligents, spécialement conçus pour les charges de travail d'inférence d'IA générative.
Gérer les requêtes d'inférence : envoyer des données depuis les clients de votre application vers le point de terminaison de votre service, dans le format attendu (JSON, gRPC). Si vous utilisez un équilibreur de charge, il distribue les requêtes aux répliques de modèle. Le serveur de modèle traite la requête, exécute le modèle et renvoie l'inférence.
Faites évoluer et surveillez votre déploiement d'inférence : faites évoluer l'inférence avec AHP pour ajuster automatiquement les répliques en fonction du processeur ou de la latence. Utilisez le guide de démarrage rapide de l'inférence pour obtenir des recommandations de scaling générées automatiquement. Pour suivre les performances, utilisez Cloud Monitoring et Cloud Logging avec l'observabilité prédéfinie, y compris les tableaux de bord pour les serveurs de modèles populaires tels que vLLM.
Pour obtenir des exemples détaillés utilisant des modèles, des serveurs de modèles et des accélérateurs spécifiques, consultez Exemples d'inférence.
Fonctionnalités d'IA générative de GKE
Vous pouvez utiliser ces fonctionnalités ensemble ou individuellement pour relever les principaux défis liés à la diffusion de modèles d'IA générative et à l'amélioration de l'utilisation des ressources dans votre environnement GKE, sans frais supplémentaires.
Nom | Description | Avantages |
---|---|---|
Guide de démarrage rapide de GKE Inference (aperçu) |
Spécifiez vos besoins commerciaux et obtenez des bonnes pratiques personnalisées pour la combinaison d'accélérateurs, de configurations de scaling et de serveurs de modèles qui répond le mieux à vos besoins. Vous pouvez accéder à ce service avec la gcloud CLI. Pour en savoir plus, consultez Exécuter l'inférence selon les bonnes pratiques avec les recettes de démarrage rapide de GKE Inference. |
|
GKE Inference Gateway (aperçu) | Obtenez un routage basé sur des métriques, comme l'utilisation du cache KV, pour une meilleure latence. Pour en savoir plus, consultez À propos de GKE Inference Gateway. |
|
Accélérateurs de chargement des pondérations de modèle | Accédez rapidement aux données dans Cloud Storage à l'aide de Cloud Storage FUSE avec la mise en cache et les téléchargements parallèles. Pour les charges de travail d'inférence qui exigent des performances de effectuer un scaling horizontal cohérentes, Google Cloud Hyperdisk ML est un disque en réseau qui peut être associé à un maximum de 2 500 pods. |
|
Planifier l'inférence
Cette section aborde certains des principaux éléments à prendre en compte pour vos charges de travail d'inférence sur GKE.
Rentabilité
Diffuser de grands modèles d'IA générative peut être coûteux en raison de l'utilisation d'accélérateurs. Vous devez donc vous concentrer sur une utilisation efficace des ressources. Il est essentiel de sélectionner le type de machine et l'accélérateur appropriés pour que la mémoire de l'accélérateur corresponde à la taille et au niveau de quantification de votre modèle. Par exemple, les instances G2 avec GPU NVIDIA L4 peuvent être économiques pour les petits modèles, tandis que les instances A3 sont plus adaptées aux modèles plus volumineux.
Suivez ces conseils et recommandations pour maximiser votre rentabilité :
- Utilisez le démarrage rapide de l'inférence pour obtenir les accélérateurs recommandés en fonction de vos besoins en termes de performances.
- Utilisez des techniques telles que la quantification et le traitement par lot des requêtes pour améliorer l'efficacité du service. Pour en savoir plus, consultez Bonnes pratiques pour optimiser l'inférence de grands modèles de langage avec des GPU.
Utilisez l'autoscaling, qui ajuste les ressources de façon dynamique en fonction de la demande. Cela peut entraîner des économies, en particulier pour les charges de travail fluctuantes. Pour en savoir plus, consultez les guides suivants :
Performances
Pour optimiser les performances d'inférence sur GKE, concentrez-vous sur les métriques de référence suivantes :
Indicateurs de benchmark | Métrique (unité) | Description |
---|---|---|
Latence | Délai avant le premier jeton (TTFT) (ms) | Temps nécessaire pour générer le premier jeton d'une requête. |
Délai normalisé par jeton de sortie (NTPOT) (ms) | Latence de la requête normalisée par le nombre de jetons de sortie, mesurée en request_latency / total_output_tokens . |
|
Délai par jeton de sortie (TPOT) (ms) | Temps nécessaire pour générer un jeton de sortie, mesuré en (request_latency - time_to_first_token) / (total_output_tokens - 1) . |
|
Latence entre les jetons (ITL, Inter-Token Latency) (ms) | Mesure la latence entre deux générations de jetons de sortie. Contrairement à TPOT, qui mesure la latence pour l'ensemble de la requête, ITL mesure le temps nécessaire pour générer chaque jeton de sortie individuel. Ces mesures individuelles sont ensuite agrégées pour produire des valeurs moyennes, médianes et de centiles telles que p90. | |
Latence de la requête (ms) | Temps de bout en bout pour traiter une demande. | |
Débit | Requêtes par seconde | Nombre total de requêtes que vous diffusez par seconde. Notez que cette métrique n'est peut-être pas un moyen fiable de mesurer le débit des LLM, car elle peut varier considérablement en fonction de la longueur du contexte. |
Jetons de sortie par seconde | Métrique courante mesurée sous la forme total_output_tokens_generated_by_server / elapsed_time_in_seconds . |
|
Jetons d'entrée par seconde | Mesuré en tant que total_input_tokens_generated_by_server / elapsed_time_in_seconds . |
|
Jetons par seconde | Mesuré en tant que total_tokens_generated_by_server / elapsed_time_in_seconds . Cette métrique comptabilise les jetons d'entrée et de sortie, ce qui vous aide à comparer les charges de travail avec des temps de préremplissage élevés par rapport à celles avec des temps de décodage élevés. |
Voici d'autres conseils et recommandations pour améliorer vos performances :
- Pour obtenir les accélérateurs recommandés en fonction de vos besoins en termes de performances, utilisez le démarrage rapide de l'inférence.
- Pour améliorer les performances, utilisez des techniques d'optimisation du serveur de modèle telles que le traitement par lot et PagedAttention, qui sont décrites dans notre guide des bonnes pratiques. De plus, privilégiez une gestion efficace de la mémoire et le calcul de l'attention pour obtenir des latences inter-jetons toujours faibles.
- Utilisez des métriques standardisées sur les serveurs de modèles (tels que Hugging Face TGI, vLLM ou NVIDIA Triton) pour améliorer l'autoscaling et l'équilibrage de charge. Cela peut vous aider à obtenir un débit plus élevé à la latence de votre choix. GKE fournit une surveillance automatique des applications pour plusieurs serveurs de modèles.
- Utilisez les fonctionnalités de l'infrastructure réseau GKE, comme Inference Gateway, pour minimiser la latence.
Utilisez Cloud Storage FUSE avec des téléchargements parallèles et la mise en cache, ou Hyperdisk ML pour accélérer le chargement des pondérations de modèle à partir du stockage persistant.
Pour l'entraînement ou l'inférence à grande échelle, utilisez Pathways. Pathways simplifie les calculs de machine learning à grande échelle en permettant à un seul client JAX d'orchestrer des charges de travail sur plusieurs grandes tranches de TPU. Pour en savoir plus, consultez Parcours.
Disponibilité
Il est essentiel de s'assurer de la disponibilité des ressources (CPU, GPU et TPU) pour maintenir les performances, la disponibilité et la rentabilité de vos charges de travail d'inférence. Les charges de travail d'inférence présentent souvent des schémas de trafic irréguliers et imprévisibles, ce qui peut mettre à rude épreuve la capacité matérielle. GKE relève ces défis grâce à des fonctionnalités telles que les suivantes :
- Options de consommation de ressources : choisissez parmi des options telles que les réservations pour une capacité assurée, le scaling économique, le planificateur de charges de travail dynamique et les VM Spot pour l'optimisation des coûts et l'accès à la demande pour une disponibilité immédiate.
- Dimensionnement des ressources : par exemple, Google Cloud propose des VM A3 High plus petites avec des GPU NVIDIA H100 (1g, 2g ou 4g) pour un scaling d'inférence d'IA générative économique compatible avec les VM Spot.
- Classes de calcul pour les accélérateurs : vous pouvez utiliser des classes de calcul personnalisées pour un contrôle plus précis, afin d'éviter le surprovisionnement et de maximiser la disponibilité des ressources avec des options de secours automatiques.
Mises à niveau de nœuds
GKE automatise une grande partie du processus de mise à niveau, mais vous devez tenir compte des stratégies de mise à niveau, en particulier pour la compatibilité et les tests. Pour les mises à niveau manuelles, vous pouvez choisir entre les mises à niveau de surutilisation ou bleu-vert en fonction de la tolérance aux interruptions de votre charge de travail d'inférence. Les mises à niveau de pointe sont rapides, mais elles peuvent avoir un impact bref sur les services. Les mises à niveau bleu-vert offrent un temps d'arrêt quasiment nul, ce qui est essentiel pour l'inférence en temps réel. Pour en savoir plus, consultez Stratégies de mise à niveau des nœuds.
Les GPU et les TPU ne sont pas compatibles avec la migration à chaud. La maintenance nécessite donc le redémarrage des pods. Utilisez les notifications GKE pour vous préparer aux perturbations. Nous vous recommandons d'utiliser des budgets d'interruptions de pods (BIP) pour vous assurer qu'un nombre minimal de pods reste disponible. Assurez-vous que vos pods peuvent gérer l'arrêt de manière fluide. Les tranches de TPU peuvent être perturbées par des événements à hôte unique. Prévoyez donc une redondance. Pour découvrir d'autres bonnes pratiques, consultez Gérer les interruptions des nœuds GKE pour les GPU et les TPU.
Essayer des exemples d'inférence
Découvrez des exemples de déploiement GKE pour les modèles d'IA générative, les accélérateurs et les serveurs de modèles. Si vous débutez, nous vous recommandons de consulter le tutoriel Diffuser des modèles ouverts Gemma à l'aide de GPU sur GKE avec vLLM.
Vous pouvez également rechercher un tutoriel par mot clé :
Étapes suivantes
- Consultez le portail d'orchestration d'IA/ML sur GKE pour explorer nos guides officiels, nos tutoriels et nos cas d'utilisation pour exécuter des charges de travail d'IA/ML sur GKE.
- Pour en savoir plus sur l'optimisation de la diffusion de modèles, consultez Bonnes pratiques pour optimiser l'inférence de grands modèles de langage avec des GPU. Il couvre les bonnes pratiques pour la diffusion de LLM avec des GPU sur GKE, comme la quantification, le parallélisme de tenseur et la gestion de la mémoire.
- Explorez des exemples expérimentaux pour exploiter GKE et accélérer vos initiatives d'IA/ML dans GKE AI Labs.