下列程式碼研究室說明如何執行後端服務,以便執行 vLLM (這是用於實際運作系統的推論引擎),以及 Google 的 Gemma 2 (這是 20 億個參數指令調整模型)。
如要查看完整程式碼研究室,請參閱使用 vLLM 在 Cloud Run GPU 上執行 LLM 推論。
下列程式碼研究室說明如何執行後端服務,以便執行 vLLM (這是用於實際運作系統的推論引擎),以及 Google 的 Gemma 2 (這是 20 億個參數指令調整模型)。
如要查看完整程式碼研究室,請參閱使用 vLLM 在 Cloud Run GPU 上執行 LLM 推論。
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2025-07-14 (世界標準時間)。