Cette page a été traduite par l'API Cloud Translation.

À propos de l'inférence de modèles d'IA/ML sur GKE

Cette page décrit les principaux concepts, avantages et étapes pour exécuter des charges de travail d'inférence de modèles d'IA/ML générative sur Google Kubernetes Engine (GKE), à l'aide des fonctionnalités d'IA générative de GKE.

Le service d'inférence est essentiel pour déployer vos modèles d'IA générative dans des applications réelles. GKE fournit une plate-forme robuste et évolutive pour gérer vos charges de travail conteneurisées, ce qui en fait un choix intéressant pour diffuser vos modèles en développement ou en production. Avec GKE, vous pouvez utiliser les fonctionnalités d'orchestration, de scaling et de haute disponibilité de Kubernetes pour déployer et gérer efficacement vos services d'inférence.

Conscient des exigences spécifiques de l'inférence d'IA/ML, Google Cloud a introduit les fonctionnalités d'IA générative de GKE, une suite de fonctionnalités spécialement conçues pour améliorer et optimiser le service d'inférence sur GKE. Pour en savoir plus sur les fonctionnalités spécifiques, consultez Fonctionnalités d'IA générative de GKE.

Si vous ne connaissez pas GKE, développez la section suivante pour obtenir un aperçu des principes de base de GKE et de Kubernetes :

Clusters et nœuds GKE : toutes les charges de travail Kubernetes s'exécutent sur des nœuds. Dans GKE, un nœud est une machine virtuelle (VM) Compute Engine. Sur d'autres plates-formes Kubernetes, un nœud peut être une machine physique ou virtuelle. Chaque nœud est géré par le plan de contrôle Kubernetes et dispose de tous les composants nécessaires à l'exécution des pods. Un cluster est un ensemble de nœuds pouvant être traités ensemble, comme une seule entité, sur laquelle vous déployez une application conteneurisée.
Pods et déploiements :
- Dans Kubernetes, les applications conteneurisées s'exécutent dans un pod. Un pod est la plus petite unité de calcul déployable que vous pouvez créer et gérer dans Kubernetes. Un pod comporte un ou plusieurs conteneurs.
- Un déploiement est un objet de l'API Kubernetes qui vous permet d'exécuter plusieurs instances dupliquées de pods répartis entre les nœuds d'un cluster.
Modes de fonctionnement de GKE :
- Autopilot : dans ce mode, GKE gère entièrement les nœuds du cluster, y compris la configuration, le scaling et la sécurité. Vous n'avez pas besoin de provisionner ni de gérer l'infrastructure de nœuds. Vous pouvez vous concentrer sur le déploiement de vos applications (pods).
- Standard : ce mode offre un contrôle total sur la configuration des nœuds. Vous créez et gérez des groupes de nœuds appelés pools de nœuds. Autopilot simplifie les opérations et convient à de nombreuses charges de travail d'inférence, car il est compatible avec les accélérateurs. Le mode standard peut être préférable si vous avez besoin d'un contrôle précis sur les types de nœuds ou les configurations spécifiques pour optimiser les performances ou les coûts, au-delà de ce qu'offre Autopilot.

Premiers pas avec l'inférence de modèles d'IA/de ML sur GKE

Vous pouvez commencer à explorer l'inférence de modèles d'IA/ML sur GKE en quelques minutes. Vous pouvez utiliser la version gratuite de GKE, qui vous permet de commencer à utiliser Kubernetes sans encourir les frais de gestion des clusters.

Accéder à la page GKE AI/ML dans la Google Cloud console
Suivez les étapes de la section Déployer des modèles pour déployer un modèle et un serveur de modèles conteneurisés.
Lisez Planifier l'inférence, qui fournit des instructions et des ressources pour planifier et exécuter vos charges de travail d'inférence sur GKE.

Terminologie

Cette page utilise la terminologie suivante liée à l'inférence sur GKE :

Inférence : processus d'exécution d'un modèle d'IA générative, tel qu'un grand modèle linguistique ou un modèle de diffusion, dans un cluster GKE pour générer du texte, des embeddings ou d'autres sorties à partir de données d'entrée. L'inférence de modèle sur GKE utilise des accélérateurs pour gérer efficacement les calculs complexes pour le traitement en temps réel ou par lot.
Modèle : modèle d'IA générative qui a appris des schémas à partir de données et qui est utilisé pour l'inférence. Les modèles varient en taille et en architecture, des plus petits modèles spécifiques à un domaine aux réseaux de neurones massifs de plusieurs milliards de paramètres, optimisés pour diverses tâches linguistiques.
Serveur de modèle : service conteneurisé chargé de recevoir les requêtes d'inférence et de renvoyer les inférences. Ce service peut être une application Python ou une solution plus robuste comme vLLM, JetStream, TensorFlow Serving ou Triton Inference Server. Le serveur de modèle gère le chargement des modèles en mémoire et exécute les calculs sur les accélérateurs pour renvoyer efficacement les inférences.
Accélérateur : matériel spécialisé, tel que les processeurs graphiques (GPU) de NVIDIA et les Tensor Processing Units (TPU) de Google, qui peuvent être associés aux nœuds GKE pour accélérer les calculs, en particulier pour les tâches d'entraînement et d'inférence.
Quantification : technique utilisée pour réduire la taille des modèles d'IA/ML et améliorer la vitesse d'inférence en convertissant les pondérations et les activations des modèles de types de données de précision supérieure en types de données de précision inférieure.

Avantages de GKE pour l'inférence

L'inférence sur GKE présente plusieurs avantages :

Rapport prix/performances efficace : profitez de la valeur et de la vitesse dont vous avez besoin pour vos besoins de diffusion d'inférences. GKE vous permet de choisir parmi une gamme d'accélérateurs puissants (GPU et TPU). Vous ne payez donc que les performances dont vous avez besoin.
Déploiement plus rapide : accélérez votre délai de mise sur le marché grâce aux bonnes pratiques, aux qualifications et aux bonnes pratiques personnalisées fournies par les fonctionnalités d'IA générative de GKE.
Performances évolutives : effectuer un scaling horizontal les performances avec la surveillance prédéfinie en utilisant GKE Inference Gateway, l'autoscaling horizontal des pods (AHP) et des métriques personnalisées. Vous pouvez exécuter un éventail de modèles pré-entraînés ou personnalisés, allant de 8 milliards à 671 milliards de paramètres.
Portabilité complète : profitez d'une portabilité complète grâce à des normes ouvertes. Google contribue aux principales API Kubernetes, y compris Gateway et LeaderWorkerSet. Toutes les API sont portables avec les distributions Kubernetes.
Compatibilité avec l'écosystème : développez-vous sur l'écosystème robuste de GKE, qui est compatible avec des outils tels que Kueue pour la gestion et la mise en file d'attente avancées des ressources, et Ray pour le calcul distribué, afin de faciliter l'entraînement et l'inférence de modèles de manière évolutive et efficace.

Fonctionnement de l'inférence sur GKE

Cette section décrit, de manière générale, les étapes à suivre pour utiliser GKE pour le service d'inférence :

Conteneurisez votre modèle : conteneuriser une application consiste à créer une image de conteneur, qui est un package exécutable incluant tout ce qui est nécessaire à l'exécution de l'application : code, environnement d'exécution, outils système, bibliothèques système et paramètres. Une application simple peut être conteneurisée en une seule unité, tandis qu'une application plus complexe peut être divisée en plusieurs composants conteneurisés. Déployez un modèle en conteneurisant le serveur de modèle (tel que vLLM) et en chargeant les pondérations du modèle à partir de Cloud Storage ou d'un dépôt tel que Hugging Face. Lorsque vous utilisez le guide de démarrage rapide de GKE Inference, l'image conteneurisée est automatiquement gérée dans le fichier manifeste.
Créez un cluster GKE : créez un cluster GKE pour héberger votre déploiement. Choisissez Autopilot pour une expérience gérée ou Standard pour la personnalisation. Configurez la taille du cluster, les types de nœuds et les accélérateurs. Pour une configuration optimisée, utilisez le guide de démarrage rapide sur l'inférence.
Déployez votre modèle en tant que déploiement Kubernetes : créez un déploiement Kubernetes pour gérer votre service d'inférence. Un déploiement est un objet de l'API Kubernetes qui vous permet d'exécuter plusieurs instances dupliquées de pods répartis entre les nœuds d'un cluster. Spécifiez l'image Docker, les répliques et les paramètres. Kubernetes extrait l'image et exécute vos conteneurs sur les nœuds du cluster GKE. Configurez les pods avec votre serveur de modèle et votre modèle, y compris les adaptateurs LoRA si nécessaire.
Exposez votre service d'inférence : rendez votre service d'inférence accessible en créant un service Kubernetes pour fournir un point de terminaison réseau à votre déploiement. Utilisez Inference Gateway pour un équilibrage de charge et un routage intelligents, spécialement conçus pour les charges de travail d'inférence d'IA générative. Utilisez Inference Gateway pour un équilibrage de charge intelligent adapté aux charges de travail d'IA générative, ou consultez la comparaison des stratégies d'équilibrage de charge pour choisir l'option la mieux adaptée à vos besoins.
Gérer les requêtes d'inférence : envoyer les données des clients de votre application au point de terminaison de votre service, dans le format attendu (JSON, gRPC). Si vous utilisez un équilibreur de charge, il distribue les requêtes aux répliques de modèle. Le serveur de modèle traite la requête, exécute le modèle et renvoie l'inférence.
Faites évoluer et surveillez votre déploiement d'inférence : faites évoluer l'inférence avec AHP pour ajuster automatiquement les répliques en fonction du processeur ou de la latence. L'autoscaler horizontal de pods (AHP, Horizontal Pod Autoscaler) est un contrôleur Kubernetes qui augmente ou diminue automatiquement le nombre de pods dans une charge de travail (comme un déploiement) en fonction de métriques observées, telles que l'utilisation du processeur ou des métriques personnalisées. Utilisez le guide de démarrage rapide de l'inférence pour obtenir des recommandations de scaling générées automatiquement. Pour suivre les performances, utilisez Cloud Monitoring et Cloud Logging avec l'observabilité prédéfinie, y compris les tableaux de bord pour les serveurs de modèles populaires tels que vLLM.

Pour obtenir des exemples détaillés utilisant des modèles, des serveurs de modèles et des accélérateurs spécifiques, consultez Exemples d'inférence.

Fonctionnalités d'IA générative de GKE

Vous pouvez utiliser ces fonctionnalités ensemble ou individuellement pour relever les principaux défis liés à la diffusion de modèles d'IA générative et à l'amélioration de l'utilisation des ressources dans votre environnement GKE, sans frais supplémentaires.

Nom	Description	Avantages
Guide de démarrage rapide de GKE Inference	Analysez les performances et la rentabilité de vos charges de travail d'inférence. Spécifiez vos besoins commerciaux et obtenez des bonnes pratiques personnalisées pour la combinaison d'accélérateurs, de configurations de scaling et de stockage, et de serveurs de modèles qui répond le mieux à vos besoins. Vous pouvez accéder à ce service avec la gcloud CLI et la console Google Cloud . Pour en savoir plus, consultez Analyser les performances et les coûts de la diffusion de modèles avec le guide de démarrage rapide GKE Inference.	Vous gagnez du temps en automatisant les étapes initiales de sélection et de configuration de votre infrastructure. Vous permet de conserver un contrôle total sur votre configuration Kubernetes pour un réglage plus précis.
GKE Inference Gateway	Obtenez un routage basé sur des métriques, comme l'utilisation du cache KV, pour une meilleure latence. Pour en savoir plus, consultez À propos de GKE Inference Gateway.	Partagez des modèles affinés qui utilisent des fichiers LoRA, avec une sélection de points de terminaison basée sur l'affinité pour une rentabilité optimale. Obtenez une haute disponibilité en accédant de manière dynamique à la capacité des GPU et des TPU dans plusieurs régions. Renforcez la sécurité de vos modèles grâce aux règles du module complémentaire Model Armor.
Accélérateurs de chargement des pondérations de modèle	Accédez rapidement aux données dans Cloud Storage à l'aide de Cloud Storage FUSE avec la mise en cache et les téléchargements parallèles. Pour les charges de travail d'inférence qui exigent des performances de effectuer un scaling horizontal cohérentes, Google Cloud Hyperdisk ML est un disque en réseau qui peut être associé à un maximum de 2 500 pods.	Optimisez le temps de démarrage de l'inférence en minimisant la latence de chargement du modèle de pondération sur GKE. Pour les déploiements avec une mise à l'échelle des nœuds limitée, envisagez d'utiliser Cloud Storage FUSE pour installer les pondérations du modèle. Pour les scénarios à grande échelle nécessitant un accès cohérent et à faible latence aux pondérations de grands modèles, Google Cloud Hyperdisk ML offre une solution de stockage de blocs dédiée.

Nom

Description

Avantages

Guide de démarrage rapide de GKE Inference

Analysez les performances et la rentabilité de vos charges de travail d'inférence. Spécifiez vos besoins commerciaux et obtenez des bonnes pratiques personnalisées pour la combinaison d'accélérateurs, de configurations de scaling et de stockage, et de serveurs de modèles qui répond le mieux à vos besoins. Vous pouvez accéder à ce service avec la gcloud CLI et la console Google Cloud .

Pour en savoir plus, consultez Analyser les performances et les coûts de la diffusion de modèles avec le guide de démarrage rapide GKE Inference.

Vous gagnez du temps en automatisant les étapes initiales de sélection et de configuration de votre infrastructure.
Vous permet de conserver un contrôle total sur votre configuration Kubernetes pour un réglage plus précis.

GKE Inference Gateway

Obtenez un routage basé sur des métriques, comme l'utilisation du cache KV, pour une meilleure latence.

Pour en savoir plus, consultez À propos de GKE Inference Gateway.

Partagez des modèles affinés qui utilisent des fichiers LoRA, avec une sélection de points de terminaison basée sur l'affinité pour une rentabilité optimale.
Obtenez une haute disponibilité en accédant de manière dynamique à la capacité des GPU et des TPU dans plusieurs régions.
Renforcez la sécurité de vos modèles grâce aux règles du module complémentaire Model Armor.

Accélérateurs de chargement des pondérations de modèle

Accédez rapidement aux données dans Cloud Storage à l'aide de Cloud Storage FUSE avec la mise en cache et les téléchargements parallèles.

Pour les charges de travail d'inférence qui exigent des performances de effectuer un scaling horizontal cohérentes, Google Cloud Hyperdisk ML est un disque en réseau qui peut être associé à un maximum de 2 500 pods.

Optimisez le temps de démarrage de l'inférence en minimisant la latence de chargement du modèle de pondération sur GKE.
Pour les déploiements avec une mise à l'échelle des nœuds limitée, envisagez d'utiliser Cloud Storage FUSE pour installer les pondérations du modèle.
Pour les scénarios à grande échelle nécessitant un accès cohérent et à faible latence aux pondérations de grands modèles, Google Cloud Hyperdisk ML offre une solution de stockage de blocs dédiée.

Planifier l'inférence

Cette section aborde certains des principaux points à prendre en compte pour vos charges de travail d'inférence sur GKE.

Rentabilité

Diffuser de grands modèles d'IA générative peut être coûteux en raison de l'utilisation d'accélérateurs. Vous devez donc vous concentrer sur une utilisation efficace des ressources. Il est essentiel de sélectionner le type de machine et l'accélérateur appropriés pour que la mémoire de l'accélérateur corresponde à la taille et au niveau de quantification de votre modèle. Par exemple, les instances G2 avec GPU NVIDIA L4 peuvent être économiques pour les modèles plus petits, tandis que les instances A3 sont mieux adaptées aux modèles plus grands.

Suivez ces conseils et recommandations pour maximiser votre rentabilité :

Utilisez le démarrage rapide de l'inférence pour obtenir les accélérateurs recommandés en fonction de vos besoins en termes de performances.
Utilisez des techniques telles que la quantification et le traitement par lot des requêtes pour améliorer l'efficacité du service. Pour en savoir plus, consultez Bonnes pratiques pour optimiser l'inférence de grands modèles de langage avec des GPU.
Utilisez l'autoscaling, qui ajuste les ressources de façon dynamique en fonction de la demande. Cela peut entraîner des économies, en particulier pour les charges de travail fluctuantes. Pour en savoir plus, consultez les guides suivants :
- Bonnes pratiques pour l'autoscaling des charges de travail d'inférence de grands modèles de langage (LLM) avec des GPU
- Bonnes pratiques pour l'autoscaling des charges de travail d'inférence de grands modèles de langage (LLM) avec des TPU

Performances

Pour optimiser les performances d'inférence sur GKE, concentrez-vous sur les métriques de référence suivantes :

Indicateurs de benchmark	Métrique (unité)	Description
Latence	Délai avant le premier jeton (TTFT) (ms)	Temps nécessaire pour générer le premier jeton d'une requête.
	Délai normalisé par jeton de sortie (NTPOT) (ms)	Latence des requêtes normalisée par le nombre de jetons de sortie, mesurée en `request_latency / total_output_tokens`.
	Temps par jeton de sortie (TPOT) (ms)	Temps nécessaire pour générer un jeton de sortie, mesuré en `(request_latency - time_to_first_token) / (total_output_tokens - 1)`.
	Latence entre les jetons (ms)	Mesure la latence entre deux générations de jetons de sortie. Contrairement à TPOT, qui mesure la latence pour l'ensemble de la requête, ITL mesure le temps nécessaire pour générer chaque jeton de sortie individuel. Ces mesures individuelles sont ensuite agrégées pour produire des valeurs moyennes, médianes et de centiles telles que p90.
	Latence de la requête (ms)	Temps de bout en bout pour traiter une demande.
Débit	Requêtes par seconde	Nombre total de requêtes que vous diffusez par seconde. Notez que cette métrique n'est peut-être pas un moyen fiable de mesurer le débit des LLM, car elle peut varier considérablement en fonction de la longueur du contexte.
	Jetons de sortie par seconde	Métrique courante mesurée sous la forme `total_output_tokens_generated_by_server / elapsed_time_in_seconds`.
	Jetons d'entrée par seconde	Mesuré en tant que `total_input_tokens_generated_by_server / elapsed_time_in_seconds`.
	Jetons par seconde	Mesuré en tant que `total_tokens_generated_by_server / elapsed_time_in_seconds`. Cette métrique comptabilise les jetons d'entrée et de sortie, ce qui vous aide à comparer les charges de travail avec des temps de préremplissage élevés par rapport à celles avec des temps de décodage élevés.

Voici d'autres conseils et recommandations pour améliorer vos performances :

Pour obtenir les accélérateurs recommandés en fonction de vos besoins en termes de performances, utilisez le démarrage rapide de l'inférence.
Pour améliorer les performances, utilisez des techniques d'optimisation du serveur de modèle telles que le traitement par lot et PagedAttention, qui sont décrites dans notre guide des bonnes pratiques. De plus, privilégiez une gestion efficace de la mémoire et le calcul de l'attention pour obtenir des latences inter-jetons toujours faibles.
Utilisez des métriques standardisées sur les serveurs de modèles (tels que Hugging Face TGI, vLLM ou NVIDIA Triton) pour améliorer l'autoscaling et l'équilibrage de charge. Cela peut vous aider à obtenir un débit plus élevé à la latence de votre choix. GKE fournit une surveillance automatique des applications pour plusieurs serveurs de modèles.
Utilisez les fonctionnalités de l'infrastructure réseau GKE, comme la passerelle d'inférence, pour minimiser la latence.
Utilisez Cloud Storage FUSE avec des téléchargements parallèles et la mise en cache, ou Hyperdisk ML pour accélérer le chargement des pondérations de modèle à partir du stockage persistant.
Pour l'entraînement ou l'inférence à grande échelle, utilisez Pathways. Pathways simplifie les calculs de machine learning à grande échelle en permettant à un seul client JAX d'orchestrer les charges de travail sur plusieurs grandes tranches de TPU. Pour en savoir plus, consultez Pathways.

Disponibilité

Il est essentiel de s'assurer de la disponibilité des ressources (CPU, GPU et TPU) pour maintenir les performances, la disponibilité et la rentabilité de vos charges de travail d'inférence. Les charges de travail d'inférence présentent souvent des schémas de trafic irréguliers et imprévisibles, ce qui peut mettre à rude épreuve la capacité matérielle. GKE relève ces défis grâce à des fonctionnalités telles que les suivantes :

Options de consommation des ressources : choisissez parmi des options telles que les réservations pour une capacité garantie, le scaling économique, le programmeur de charge de travail dynamique et les VM Spot pour l'optimisation des coûts et l'accès à la demande pour une disponibilité immédiate.
Dimensionnement des ressources : par exemple, Google Cloud propose des VM A3 High plus petites avec des GPU NVIDIA H100 (1g, 2g ou 4g) pour un scaling rentable des inférences d'IA générative compatibles avec les VM Spot.
Classes de calcul pour les accélérateurs : vous pouvez utiliser des classes de calcul personnalisées pour un contrôle plus précis, afin d'éviter le surprovisionnement et de maximiser la disponibilité des ressources avec des options de secours automatiques.

Mises à niveau de nœuds

GKE automatise une grande partie du processus de mise à niveau, mais vous devez tenir compte des stratégies de mise à niveau, en particulier pour la compatibilité et les tests. Pour les mises à niveau manuelles, vous pouvez choisir entre les mises à niveau de surutilisation ou bleu-vert en fonction de la tolérance aux interruptions de votre charge de travail d'inférence. Les mises à niveau instantanées sont rapides, mais elles peuvent avoir un impact bref sur les services. Les mises à niveau bleu-vert offrent un temps d'arrêt quasiment nul, ce qui est essentiel pour l'inférence en temps réel. Pour en savoir plus, consultez Stratégies de mise à niveau des nœuds.

Les GPU et les TPU ne sont pas compatibles avec la migration à chaud. La maintenance nécessite donc le redémarrage des pods. Utilisez les notifications GKE pour vous préparer aux perturbations. Nous vous recommandons d'utiliser des budgets d'interruptions de pods (PDB) pour vous assurer qu'un nombre minimal de pods reste disponible. Assurez-vous que vos pods peuvent gérer l'arrêt de manière fluide. Les tranches de TPU peuvent être perturbées par des événements à hôte unique. Prévoyez donc une redondance. Pour découvrir d'autres bonnes pratiques, consultez Gérer les interruptions des nœuds GKE pour les GPU et les TPU.

Essayer des exemples d'inférence

Découvrez des exemples de déploiement GKE pour les modèles d'IA générative, les accélérateurs et les serveurs de modèles. Si vous débutez, nous vous recommandons de consulter le tutoriel Diffuser des modèles ouverts Gemma à l'aide de GPU sur GKE avec vLLM.

Vous pouvez également rechercher un tutoriel par mot clé :

Accélérateur	Serveur de modèles	Tutoriel
GPU	vLLM	Diffuser des LLM tels que DeepSeek-R1 671B ou Llama 3.1 405B sur GKE
GPU	vLLM	Diffuser des modèles Llama à l'aide de GPU sur GKE avec vLLM
GPU	vLLM	Diffuser des modèles ouverts Gemma à l'aide de GPU sur GKE avec vLLM
GPU	vLLM	Diffuser un LLM avec GKE Inference Gateway
GPU	vLLM	Diffuser des LLM ouverts sur GKE avec une architecture préconfigurée
GPU	NVIDIA Triton	Diffuser un modèle avec un seul GPU dans GKE
GPU	Ray Serve	Diffuser un LLM sur des GPU L4 avec Ray
GPU	TGI	Diffuser un LLM avec plusieurs GPU dans GKE
GPU	NVIDIA Triton	Diffuser des modèles ouverts Gemma à l'aide de GPU sur GKE avec Triton et TensorRT-LLM
GPU	Hugging Face TGI	Diffuser des modèles ouverts Gemma à l'aide de GPU sur GKE avec Hugging Face TGI
GPU	TensorFlow Serving	Diffuser un modèle avec un seul GPU dans GKE
TPU	vLLM	Diffuser un LLM à l'aide de TPU Trillium sur GKE avec vLLM
TPU	vLLM	Diffuser un LLM à l'aide de TPU sur GKE avec KubeRay
TPU	JetStream	Diffuser un LLM à l'aide de TPU sur GKE avec JetStream et PyTorch
TPU	JetStream	Diffuser Gemma à l'aide de TPU sur GKE avec JetStream
TPU	MaxDiffusion	Diffuser Stable Diffusion XL (SDXL) à l'aide de TPU sur GKE avec MaxDiffusion
TPU	Optimum TPU	Diffuser des modèles Open Source à l'aide de TPU sur GKE avec Optimum TPU

Étapes suivantes

Consultez le portail d'orchestration d'IA/ML sur GKE pour explorer nos guides officiels, nos tutoriels et nos cas d'utilisation pour exécuter des charges de travail d'IA/ML sur GKE.
Pour en savoir plus sur l'optimisation de la diffusion de modèles, consultez Bonnes pratiques pour optimiser l'inférence de grands modèles de langage avec des GPU. Il couvre les bonnes pratiques pour la diffusion de LLM avec des GPU sur GKE, comme la quantification, le parallélisme de tenseur et la gestion de la mémoire.
Explorez des exemples expérimentaux pour exploiter GKE et accélérer vos initiatives d'IA/ML dans GKE AI Labs.