使用 vLLM(服务)在 Cloud Run GPU 上运行 LLM 推理

以下 Codelab 展示了如何运行后端服务,该服务会运行 vLLM(一种用于生产系统的推理引擎)以及 Google 的 Gemma 2(一种包含 20 亿个参数的指令调优模型)。

如需查看完整的 Codelab,请访问使用 vLLM 在 Cloud Run GPU 上运行 LLM 推理