Exécuter l'inférence LLM sur les GPU Cloud Run avec vLLM (services)

L'atelier de programmation suivant montre comment exécuter un service de backend qui exécute vLLM, un moteur d'inférence pour les systèmes de production, ainsi que Gemma 2 de Google, un modèle à 2 milliards de paramètres affinés par instruction.

Pour accéder à l'intégralité de l'atelier de programmation, consultez la section Exécuter l'inférence LLM sur les GPU Cloud Run avec vLLM.