使用 Hugging Face TGI 在 Cloud Run GPU 上執行大型語言模型推論

以下範例說明如何執行後端服務,以便執行 Hugging Face Text Generation Inference (TGI) 工具組,這是用於部署及提供大型語言模型 (LLM) 的工具組,可使用 Llama 3。

如需完整範例,請參閱「在 Cloud Run 上部署 LLAMA 3.1 8B 與 TGI DLC」。