Comment déployer une IA serverless avec Gemma 3 sur Cloud Run
Vlad Kolesnikov
Developer Relations Engineer
James Ma
Sr Product Manager
Google vient de lancer Gemma 3, une nouvelle famille de modèles légers et open source, conçus avec les mêmes technologies de pointe que Gemini 2.0. Pensés pour être rapides et facilement portables, les modèles Gemma 3 permettent aux développeurs de créer des applications IA robustes et déployables à grande échelle. Couplés à Cloud Run, ils rendent le déploiement de workloads IA en mode serverless plus simple que jamais.
Dans cet article, nous vous proposons de découvrir les fonctionnalités de Gemma 3 et la manière de déployer cette nouvelle famille de modèles sur Cloud Run.
Gemma 3 : puissance et efficacité pour des déploiements cloud
Gemma 3 est optimisé pour offrir des performances exceptionnelles tout en minimisant son empreinte mémoire, permettant ainsi de déployer des workloads d'inférence à moindre coût. Cette nouvelle génération de modèles se démarque par :
- Le meilleur modèle mono-accélérateur actuel : Gemma 3 offre des performances optimales pour sa taille, surpassant Llama-405B, DeepSeek-V3 et o3-mini dans les évaluations humaines préliminaires publiées sur le leaderboard de LMArena. Autrement dit, il permet de créer des expériences utilisateurs de qualité, tout en s’exécutant sur un seul GPU ou TPU.
- Des capacités de raisonnement avancées en texte, image et vidéo : avec Gemma 3, vous pouvez concevoir facilement des applications capables d’analyser du texte, des images ou de vidéos courtes, enrichissant ainsi considérablement le potentiel de développement de solutions interactives.
- Une fenêtre contextuelle étendue pour pouvoir gérer des taches complexes : avec sa fenêtre de 128 000 tokens, Gemma 3 peut gérer des tâches complexes sans difficulté et permet à vos applications de traiter et comprendre de grandes quantités d’information (y compris des romans dans leur intégralité)
Déployer une inférence serverless avec Gemma 3 et Cloud Run
Gemma 3 est parfaitement adapté aux workloads d'inférence sur Cloud Run utilisant des GPU Nvidia L4. Cloud Run est la plateforme serverless entièrement managée de Google Cloud, permettant aux développeurs d’exécuter des conteneurs sans se soucier de l'infrastructure sous-jacente. Dans cet environnement, les modèles se mettent automatiquement en pause lorsqu’ils ne sont pas utilisés et redémarrent automatiquement pour s'adapter à la demande. Dès lors, cette configuration vous permet d’optimiser les performances et de réduire les coûts tout en garantissant une facturation basée sur l’usage réel.
Par exemple, rien ne vous empêche d’héberger un LLM sur une instance Cloud Run et un agent conversationnel sur une autre. Chaque composant peut alors évoluer indépendamment, selon la charge. Grâce à l’accélération GPU, un service Cloud Run peut livrer les premiers résultats d'une inférence IA en moins de 30 secondes, avec un démarrage d’instance en à peine 5 secondes. Ce déploiement ultra-rapide permet à vos applications de rester réactives et fluides. Cerise sur le gâteau : le prix des GPU sur Cloud Run est désormais encore plus accessible à environ 0,6 $/heure. Et, comme toujours sur Cloud Run, si aucune requête n’arrive, le service s’éteint automatiquement pour réduire vos dépenses.
Lancez-vous dès aujourd’hui
Ensemble, Cloud Run et Gemma 3 forment une solution puissante, économique et facilement scalable pour déployer des applications d’IA avancées. Gemma 3 est compatible avec de nombreux outils et frameworks populaires, comme Hugging Face Transformers, Ollama, ou encore vLLM.
Pour commencer à déployer vos propres solutions , vous pouvez suivre ce guide qui vous accompagne pas à pas dans la création d’un service avec Gemma 3 sur Cloud Run en utilisant Ollama.