使用 vLLM 在 Cloud Run GPU 上執行大型語言模型推論

下列程式碼研究室說明如何執行後端服務,以便執行 vLLM (這是用於實際運作系統的推論引擎),以及 Google 的 Gemma 2 (這是 20 億個參數指令調整模型)。

如要查看完整程式碼研究室,請參閱使用 vLLM 在 Cloud Run GPU 上執行 LLM 推論