L'atelier de programmation suivant montre comment exécuter un service de backend qui exécute vLLM, un moteur d'inférence pour les systèmes de production, ainsi que Gemma 2 de Google, un modèle à 2 milliards de paramètres affinés par instruction.
Pour accéder à l'intégralité de l'atelier de programmation, consultez la section Exécuter l'inférence LLM sur les GPU Cloud Run avec vLLM.