Cette page présente les concepts de Google Kubernetes Engine (GKE) pour les charges de travail d'IA/ML. GKE est une implémentation gérée par Google de la plate-forme d'orchestration de conteneurs Open Source Kubernetes.
Google Kubernetes Engine fournit une plate-forme évolutive, flexible et économique pour exécuter toutes vos charges de travail conteneurisées, y compris les applications d'intelligence artificielle et de machine learning (IA/ML). Que vous entraîniez de grands modèles de base, que vous diffusiez des requêtes d'inférence à grande échelle ou que vous créiez une plate-forme d'IA complète, GKE vous offre le contrôle et les performances dont vous avez besoin.
Cette page s'adresse aux spécialistes des données et de l'IA, aux architectes cloud, aux opérateurs et aux développeurs qui recherchent une solution Kubernetes gérée, évolutive et automatisée pour exécuter des charges de travail d'IA/de ML. Pour en savoir plus sur les rôles courants, consultez Rôles utilisateur et tâches courantes de GKE.
Premiers pas avec les charges de travail d'IA/de ML sur GKE
Vous pouvez commencer à explorer GKE en quelques minutes en utilisant la version gratuite de GKE, qui vous permet de commencer à utiliser Kubernetes sans encourir les frais de gestion des clusters.
- Essayez ces guides de démarrage rapide :
- Inférence sur GKE : déployez un grand modèle de langage (LLM) d'IA sur GKE pour l'inférence à l'aide d'une architecture prédéfinie.
- Entraînement sur GKE : déployez un modèle d'entraînement d'IA sur GKE et stockez les prédictions dans Cloud Storage.
- Consultez À propos des options de consommation d'accélérateurs pour les charges de travail d'IA/de ML, qui fournit des instructions et des ressources pour planifier et obtenir des accélérateurs (GPU et TPU) pour votre plate-forme.
Cas d'utilisation courants
GKE fournit une plate-forme unifiée qui peut prendre en charge toutes vos charges de travail d'IA.
- Créer une plate-forme d'IA : pour les équipes de plates-formes d'entreprise, GKE offre la flexibilité nécessaire pour créer une plate-forme standardisée et multilocataire qui répond à divers besoins.
- Diffusion en ligne à faible latence : pour les développeurs qui créent des applications d'IA générative, GKE avec Inference Gateway fournit le routage et l'autoscaling optimisés nécessaires pour offrir une expérience utilisateur réactive tout en contrôlant les coûts.
Choisir la plate-forme adaptée à votre charge de travail d'IA/ML
Google Cloud propose un large éventail de produits d'infrastructure d'IA pour vous accompagner dans votre parcours de ML, qu'ils soient entièrement gérés ou entièrement configurables. Le choix de la plate-forme appropriée dépend de vos besoins spécifiques en termes de contrôle, de flexibilité et de niveau de gestion.
Choisissez GKE lorsque vous avez besoin d'un contrôle approfondi, de portabilité et de la possibilité de créer une plate-forme d'IA personnalisée et hautes performances.
- Contrôle et flexibilité de l'infrastructure : vous avez besoin d'un haut niveau de contrôle sur votre infrastructure, vous devez utiliser des pipelines personnalisés ou vous avez besoin de personnalisations au niveau du noyau.
- Entraînement et inférence à grande échelle : vous souhaitez entraîner des modèles très volumineux ou diffuser des modèles avec une latence minimale, en utilisant l'évolutivité et les hautes performances de GKE.
- Rentabilité à grande échelle : vous souhaitez donner la priorité à l'optimisation des coûts en utilisant l'intégration de GKE aux VM Spot et aux VM à démarrage flexible pour gérer efficacement les coûts.
- Portabilité et normes ouvertes : vous souhaitez éviter de dépendre d'un fournisseur et exécuter vos charges de travail n'importe où avec Kubernetes. Vous disposez déjà d'une expertise Kubernetes ou d'une stratégie multicloud.
Vous pouvez également envisager les alternatives suivantes :
ServiceGoogle Cloud | Application idéale |
---|---|
Vertex AI | Une plate-forme de bout en bout entièrement gérée pour accélérer le développement et décharger la gestion de l'infrastructure. Convient aux équipes axées sur les MLOps et le délai de rentabilité rapide. Pour en savoir plus, regardez la vidéo Choisir entre GKE auto-hébergé et Vertex AI géré pour héberger des modèles d'IA. |
Cloud Run | Plate-forme sans serveur pour les charges de travail d'inférence conteneurisées, qui peut effectuer un scaling à zéro. Convient aux applications basées sur des événements et à la diffusion de modèles plus petits de manière économique. Pour une comparaison approfondie, consultez GKE et Cloud Run. |
Comment GKE alimente les charges de travail d'IA/de ML
GKE propose une suite de composants spécialisés qui simplifient et accélèrent chaque étape du cycle de vie de l'IA/du ML, de l'entraînement à grande échelle à l'inférence à faible latence.
Le tableau suivant récapitule les fonctionnalités GKE qui prennent en charge vos charges de travail d'IA/ML ou vos objectifs opérationnels.
Charge de travail ou opération d'IA/de ML | Comment GKE vous aide | Principales fonctionnalités |
---|---|---|
Inférence et diffusion | Optimisé pour diffuser des modèles d'IA de manière élastique, avec une faible latence, un débit élevé et une rentabilité. |
|
Entraînement et réglage fin | Fournit les capacités de mise à l'échelle et d'orchestration nécessaires pour entraîner efficacement de très grands modèles tout en minimisant les coûts. |
|
Développement unifié de l'IA/du ML | Assistance gérée pour Ray, un framework Open Source permettant de faire évoluer des applications Python distribuées. |
|
Étapes suivantes
- Pour explorer nos vastes collections de guides officiels, de tutoriels et d'autres ressources permettant d'exécuter des charges de travail d'IA/de ML sur GKE, consultez le portail d'orchestration d'IA/de ML sur GKE.
- Découvrez des techniques permettant d'obtenir des accélérateurs de calcul, tels que des GPU ou des TPU, pour vos charges de travail d'IA/de ML sur GKE.
- En savoir plus sur l'inférence de modèles d'IA et de ML sur GKE
- En savoir plus sur Ray sur GKE
- Explorez des exemples expérimentaux pour exploiter GKE et accélérer vos initiatives d'IA/ML dans GKE AI Labs.