使用 Hugging Face TGI 在 Cloud Run GPU 上執行大型語言模型推論

以下範例說明如何執行後端服務，以便執行 Hugging Face Text Generation Inference (TGI) 工具組，這是用於部署及提供大型語言模型 (LLM) 的工具組，可使用 Llama 3。

除非另有註明，否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權，程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。

上次更新時間：2025-10-19 (世界標準時間)。