Exécuter l'inférence LLM sur les GPU Cloud Run avec vLLM

L'atelier de programmation suivant montre comment exécuter un service de backend qui exécute vLLM, un moteur d'inférence pour les systèmes de production, ainsi que Gemma 2 de Google, un modèle à 2 milliards de paramètres affinés par instruction.

Pour accéder à l'intégralité de l'atelier de programmation, consultez la section Exécuter l'inférence LLM sur les GPU Cloud Run avec vLLM.

Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.

Dernière mise à jour le 2025/10/19 (UTC).