Exécuter une inférence par lot à l'aide de GPU dans des jobs Cloud Run

Vous pouvez exécuter l'inférence par lot avec le LLM Llama 3.2-1b de Meta et vLLM sur un job Cloud Run, puis écrire les résultats directement dans Cloud Storage à l'aide des montages de volumes Cloud Run.

Consultez l'atelier de programmation pas à pas Exécuter l'inférence par lot sur les jobs Cloud Run.

Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.

Dernière mise à jour le 2025/10/19 (UTC).