Boostez vos projets IA avec l’architecture de référence GKE pour passer plus facilement de l’expérimentation à la production
Mofi Rahman
Google Cloud Advocate, Google Kubernetes Engine
Aaron Rueth
Cloud Solutions Architect
Nous sommes définitivement entrés dans l’ère de l’IA. Partout dans le monde, les organisations s’empressent de déployer des modèles toujours plus puissants pour stimuler l’innovation, enrichir leur offre et inventer de nouvelles expériences utilisateurs.
Néanmoins, transformer un modèle entraîné en laboratoire en un service d’inférence scalable, rentable et prêt pour la mise en production reste un défi d’ingénierie majeur. Cela demande une expertise pointue en infrastructure, réseau, sécurité, ainsi qu’une maîtrise de tous les domaines « Ops » : MLOps, LLMOps, DevOps, etc.
Aujourd’hui, nous simplifions radicalement cette étape ! Nous lançons « l’architecture de référence GKE pour l’inférence » (GKE inference reference architecture) : une solution complète, prête pour le passage en production et conçue pour le déploiement de vos workloads d’inférence sur Google Kubernetes Engine (GKE).
Bien plus qu’un simple guide, cette architecture de référence propose un framework prêt à l’emploi, opérationnel, automatisé et prescriptif, conçu pour offrir le meilleur de GKE pour l’inférence.
Démarrez avec des fondations solides : GKE base platform
Toute architecture solide commence par des fondations fiables : notre architecture de référence pour l’inférence de modèles IA s’appuie sur GKE base platform, une couche fondamentale fournissant une configuration sécurisée et optimisée pour exécuter tout type de workload nécessitant un accélérateur matériel (GPU, TPU).


Reposant sur les principes de l’infrastructure-as-code (IaC) et sur Terraform, cette plateforme de base pose les fondations solides d’un environnement optimal pour l’inférence, avec à la clé les atouts suivants:
- Des déploiements automatisés et reproductibles : garantissez la cohérence de vos environnements et facilitez le versioning grâce au provisioning automatisé de vos ressources avec des scripts IaC.
- Scalabilité et haute disponibilité intégrées : profitez d’une configuration qui prend nativement en charge l’autoscaling et la tolérance aux pannes.
- Bonnes pratiques de sécurité : protégez vos environnements critiques en appliquant dès le début du projet les meilleures pratiques : clusters privés, nœuds GKE protégés (Shielded GKE Nodes) et gestion sécurisée des artefacts.
- Observabilité intégrée : bénéficiez d’une visibilité complète sur vos applications et votre infrastructure, grâce à l’intégration native avec Google Cloud Observability.


En vous appuyant sur cette base GKE standardisée, vous bénéficiez dès le départ d’un socle sécurisé, évolutif et simple à administrer, ce qui permet d’accélérer la mise en production de vos projets.
Pourquoi une plateforme optimisée pour l’inférence ?
La GKE Base Platform fournit le socle. Notre nouvelle « architecture de référence GKE » l’enrichit d’une couche spécialisée, conçue pour la haute performance. Elle a été pensée pour relever les défis spécifiques de la mise en production des modèles de machine learning.
Voici trois bonnes raisons d’adopter notre plateforme pour accélérer le déploiement de vos workloads d’inférence IA :
1 - Trouver l’équilibre optimal entre performance et coûts
Déployer une inférence, c’est jongler entre latence, débit et coûts. Notre solution est conçue pour trouver l’équilibre idéal et maximiser l’utilisation de vos ressources.
- Utilisation intelligente des accélérateurs : l’usage des GPU et TPU est optimisé grâce à des classes de calcul personnalisées, pour que vos pods s’exécutent sur le matériel dont ils ont réellement besoin. Avec le Node Auto-Provisioning (NAP), le cluster provisionne automatiquement les ressources adéquates, au moment opportun.
- Un scaling plus intelligent : au-delà du simple dimensionnement basé sur le CPU et la mémoire, un adaptateur de métriques personnalisé permet au Horizontal Pod Autoscaler (HPA) d’ajuster vos modèles en fonction de vraies métriques d’inférence — comme les requêtes par seconde (QPS) ou la latence — afin que vous ne payiez que ce que vous utilisez réellement.


- Chargement plus rapide des modèles : les modèles volumineux impliquent des images de conteneur lourdes. Nous exploitons l’API Container File System et le streaming d’images dans GKE, associés à Cloud Storage FUSE, pour réduire de façon significative le délai de démarrage des pods. Vos conteneurs peuvent ainsi se lancer immédiatement, tandis que les données du modèle sont chargées en arrière-plan, ce qui minimise la latence liée aux démarrages à froid (cold start).
2 - S’adapter à tous les scénarios d’inférence
Que vous fassiez de la détection de fraude en temps réel, de l’analytique en mode batch ou que vous travailliez avec un modèle « frontière », notre architecture est conçue pour s’adapter à tous vos besoins. Son framework prend en charge les cas suivants :
- Inférence en temps réel (online) : privilégie des réponses à faible latence pour les applications interactives.
- Inférence par lots (batch/offline) : traite efficacement de grands volumes de données pour les tâches non sensibles au temps.
- Inférence en flux (streaming) : gère en continu les données entrantes, par exemple depuis Pub/Sub.
L’architecture s’appuie sur des fonctionnalités GKE comme le cluster autoscaler et l’API Gateway, pour un routage du trafic avancé, flexible et robuste, capable d’absorber des volumes massifs de requêtes sans perte de performance.
3 - Simplifier l’exploitation des modèles complexes
Nous avons intégré des fonctionnalités qui masquent la complexité de la mise en production des modèles IA modernes, et tout particulièrement des LLM. Notre architecture inclut également des bonnes pratiques ainsi que des exemples et des configurations prêtes à l’emploi pour mettre en œuvre des techniques avancées d’optimisation de modèles, telles que la quantification (INT8/INT4), le parallélisme de tenseurs et de pipelines, ou encore les optimisations de cache KV comme Paged et Flash Attention.
De plus, avec GKE en mode Autopilot, vous déléguez entièrement la gestion des nœuds à Google : vous pouvez ainsi vous concentrer sur vos modèles plutôt que sur la gestion de l’infrastructure.
Prêts à passer à l’action ?
Construisez dès maintenant votre plateforme d’inférence sur GKE. L’architecture de référence GKE pour l’inférence est disponible dans le dépôt GitHub Google Cloud Accelerated Platforms. Vous y trouverez tout le nécessaire pour vous lancer : code Terraform, documentation et exemples de cas d’usage.
Nous avons inclus des exemples pour déployer rapidement des workloads courants comme ComfyUI, ainsi qu’un scénario d’inférence en temps réel générique exploitant GPU et TPU.
En combinant les fondations robustes de GKE base platform avec les performances et les optimisations opérationnelles de l’architecture de référence pour l’inférence, vous pouvez déployer vos workloads IA avec confiance, rapidité et efficacité. Inutile de réinventer la roue : commencez à bâtir l’avenir sur GKE.
Construire l’avenir de l’IA avec GKE
L’architecture de référence GKE pour l’inférence est bien plus qu’un simple ensemble d’outils : elle reflète l’engagement de Google à faire de GKE la meilleure plateforme pour exécuter vos workloads d’inférence. En proposant une architecture claire, prescriptive et extensible, nous vous donnons les moyens d’accélérer votre adoption de l’IA et de concrétiser vos idées les plus innovantes.
Nous avons hâte de découvrir ce que vous allez construire avec l’architecture de référence GKE pour l’inférence. Vos retours sont les bienvenus : n’hésitez pas à partager vos remarques directement dans le dépôt GitHub.


